10/10/2018, 11:21
Giúp mình thuật toán lấy tin tự động từ website khác
Mình muốn lấy tin tức tự động từ một website khác và hiển thị nội dung ngay trên website của mình khi mình click vào link tiêu đề bài viết. Không phải RSS đâu nha. Bạn nào từng bóc tách dữ liệu như này rồi thì hướng dẫn mình cách thức giải quyết với được không. Mình cám ơn trước.
Bài liên quan
+ Có một phần chuyên thu thập link (link crawler). Cái này chịu trách nhiệm đi phân tích những trang list bài viết để thu thập link rồi cập nhật vào cơ sở dữ liệu.
Ví dụ trang list: http://vnexpress.net/GL/The-gioi/
Ta sẽ thu thập tất cả các link rồi về so sánh với database nếu có rồi thì thôi còn chưa thì thêm mới vào.
+ Phần 2 là chuyên thu thập dữ liệu (data crawler) phần này đọc những link đã thu thập được và bắt đầu lấy dữ liệu bài viết đó về trang mình. Nhớ là link nào đã lấy dữ liệu thì cắm cái cờ cho nó để đánh dấu lấy rồi.
More Thuật toán lấy tin tự động từ website khác - giải đáp
Ví dụ mình muốn phân tích giá dầu thế giới từng ngày; có cách nào lấy giá dầu và tỉ giá USD tại 1 trang (như oil-price.net) rồi đưa vào file excel của mình (tự động hàng ngày) được không?
Nên tôi nghĩ dùng RSS vừa "hợp pháp" mà lại nhanh, gọn nhẹ
À, ngoài DOM ra còn có SAX, cái này bạn nào học XML chắc vẫn nhớ:
http://stackoverflow.com/questions/1...nctions-in-php