01/10/2018, 08:29

Hỏi về cách tạo một crawler để tìm kiếm thông tin

Thầy giáo có giao cho bọn em một project tìm hiểu về crawler và tạo ra một con crawler để thu thập thông tin từ ít nhất 2 trang web rồi lưu chúng vào MongoDB theo dạng có sẵn . Em mới chỉ đến dạng tìm hiểu crawler là gì , nên chả biết bắt đầu code một crawler thế nào ? . Mong mọi người tư vấn giúp ạ ! .

Reoteu Ray viết 10:41 ngày 01/10/2018

bạn thử tìm hiểu về khai phá dữ liệu web coi có thông tin cần thiết ko…con crawler nó như 1 con robot tự động đoc website và trích xuất thông tin mà ta muốn lấy , bạn đọc thử cái này https://toidicodedao.com/2015/07/28/tutorial-trich-xuat-thong-tin-tu-website-voi-html-aglitity-pack/ thử

Đào An viết 10:45 ngày 01/10/2018

https://www.amazon.com/Web-Scraping-Python-Collecting-Modern/dp/1491910291
Tìm quyển này về đoc nhé, đọc 2,3 chap đầu là làm đc thôi :D, biết tí cú pháp python là ok

Lương Quang Mạnh viết 10:42 ngày 01/10/2018

Theo mình, một trong những lựa chọn tốt nhất chính là Scrapy. Được viết bằng Python nên nó khá tiện lợi, dễ sử dụng, nhiều tính năng.

P/s: Trong trường hợp chỉ scrape dữ liệu từ một hay vài trang (chứ không phải cả website), bạn có thể chỉ cần sử dụng requests + beautifulsoup + lxml là quá ổn rồi.

Bình luận về bài viết này

Chia sẻ tin đăng đến bạn bè

Gửi Messenger

Bài liên quan

Assassinnguyen

0 chủ đề

0 bài viết

Tác giả nổi bật