30/09/2018, 18:40

Anh em có ai đang làm về Crawl Data hay Scrapy không chỉ giáo mình với!

Trong cùng 1 website muốn lấy dữ liệu từ 2 trang khác nhau thì có cách nào giải quyết ok vậy anh em ???

Phạm Đại Nghĩa viết 20:50 ngày 30/09/2018

Bạn muốn crawl tất cả dữ liệu 1 website hay chỉ crawl những URL đã nhập vào thôi.

TH Crawl những URL có sẵn thì ko có gì để bàn nhé, cứ đọc URL, lấy source của page rồi lưu thôi. Còn bạn muốn Crawl hết 1 website thì làm thế này:

B1. Khởi tạo 1 đối tượng kiểu SET(Kiểu đối tượng chỉ lưu những phần từ unique) với phần từ đầu tiên là trang chủ website.
B2. Đọc trang chủ, lấy tất cả link mà trang chủ có lưu vào SET(tất nhiên bạn phải lọc chỉ lấy link nột bộ thôi nhé link out thì break luôn). Khi này bạn sẽ có những unique links được lưu trong SET.
B3. Lưu thông tin và những giá trị bạn phân tích được ở trang vừa đọc được vào DB
B4. Quay lại bước 1

Cứ thế đến khi nào phần từ màn bạn đọc là bằng với length của SET. Điều này có nghĩa là đọc đến phần từ cuối cùng rồi mà không lưu được thêm link vào vào trong SET vì các links đó đã lưu hết trong SET rồi => bạn đã crawl xong website đó.

Tất nhiên có rất nhiều cách kahcs nhưng bạn cứ thực hành theo kiểu đơn giản này đi đã nhé.

Đào Đình Huân viết 20:40 ngày 30/09/2018

Tks anh Nghĩa đã chỉ cách nhưng có lẽ câu hỏi của em chưa rõ ràng cho lắm. Ví dụ e có 1 link:
http://chonviec.com/ung-vien/tim-viec-lam/ket-qua-tim-kiem/trang-1
và chọn vào 1 công ty. sang link sau e đã lấy được toàn bộ thông tin mình cần. Nhưng có 1 điều e muốn lấy ngày đăng tuyển thì không biết lấy ntn để cho dữ liệu khớp nhau.

  • Anh có thể chỉ giáo cho em được không? Tks a nhiều
Khai Nguyen Dinh viết 20:48 ngày 30/09/2018
Chia sẻ tài liệu "Crawl Data with Scrapy" Chào các bạn, Chúng tôi gồm các thành viên đến từ nhóm EGG Club và một số bạn đang làm việc ở công ty Onfta. Chúng tôi đã cùng làm việc và tổng hợp tài liệu chia sẻ kinh nghiệm "Crawl dữ liệu với Scrapy". Tài liệu gồm các phần chính sau: 1. Kiến trúc Scrapy. 2. Tutorial, tạo crawler đơn giản với Scrapy. 3. Các vấn đề cần giải quyết khi crawler. 4. Cách giải quyết các vấn đề. 5. Chia sẻ các use case thực tế và cách giải quyết Có nhiều đoạn viết dạng…
Bài liên quan
0