10/10/2018, 10:46
Bóc tách nội dung
Hiện nay mình đang làm 1 cái project về bóc tách nội dung. MÌnh có vài câu hỏi như này
1. Có phải mọi site đều bóc tách được hết nội dung
2. Các site nó ko quy định các thẻ bằng Id mà toàn dùng class
có cách nào hiệu quả không.
Mọi người cùng chia sẻ thảo luận giúp mình
1. Có phải mọi site đều bóc tách được hết nội dung
2. Các site nó ko quy định các thẻ bằng Id mà toàn dùng class
có cách nào hiệu quả không.
Mọi người cùng chia sẻ thảo luận giúp mình
Bài liên quan
lọc bằng class cũng được, đâu có sao đâu
Dùng PHP thì đây, DOMDocument của PHP có hổ trợ luôn cho xPath: http://vn2.php.net/manual/en/class.domxpath.php
có cách nào hiệu quả không.
Mình có khoảng 6-7 năm kinh nghiệm trong việc phát triển phần mềm bóc tách dữ liệu VietSpider. Tuy nhiên để đảm bảo bóc được hết tất cả các site, thậm chí là quét hiện vẫn còn không tưởng ngay cả với các crawler của các search engine như Google. Rất nhiều vấn đề như:
- Site chặn crawler. (hvaonline, vatgia)
- Site sử dụng script hoặc hidden form để tương tác với server.
- Sử dụng session cho request content.
...
Hiện VietSpider cũng xử lý tương đối khác các trường hợp nhưng khẳng định tất cả các site đều xử lý được thì không dám.
Mình cũng đang dùng simple_html_dom cũng khá hiệu quả nhưng không hiệu quả bằng VietSpider ,
@VietSpider mình mới thử dùng bản free thì thấy nhiều hạn chế ,ko biết bản khác thế nào
Ví dụ khi mình bóc tách được nội dung thì không thể sử lý nó như ý muốn
Các thẻ xml không dễ dàng gì quản lý các thẻ con va thẻ cha.
@ví dụ trong mã nguồn của thẻ a thì mình lấy link của thẻ a ntn ?
Ai biết kỹ thuật là gì ko.