12/08/2018, 16:41

Sử dụng proxy trong Scrapy

Giới thiệu Scrapy là một framework chuyên được sử dụng để extracting data từ web. Nó cao hơn một tầng so với một số lib python cùng chức năng như Requests, BeautifulSoup, urrlib2... Scrapy phù hợp cho những project chuyên biệt về crawl. Nó cung cấp CLI tools đầy đủ để phát triển nhanh một ...

Giới thiệu

Scrapy là một framework chuyên được sử dụng để extracting data từ web. Nó cao hơn một tầng so với một số lib python cùng chức năng như Requests, BeautifulSoup, urrlib2...

Scrapy phù hợp cho những project chuyên biệt về crawl. Nó cung cấp CLI tools đầy đủ để phát triển nhanh một project.

Scrapy đơn giản và đầy đủ vì Scrapy cung cấp gần như đủ các function để phục vụ bạn crawl. Scrapy dễ dàng mở rộng ví dụ như kết hợp với Selenium để crawl những website sử dụng javascript. Với tài liệu đầy đủ, trực quan, người mới có thể tiếp xúc với Scrapy rất dễ dàng.

Một trong những vẫn đề khá là đau đầu khi crawl web đó là bị banned IP. Việc bạn request liên tục trong một khoảng thời gian ngắn chẳng khác nào việc DDOS cả. Đó là lý do, quản trị mạng con web mà bạn muốn crawl sẵn sàng banned IP tạm thời hoặc vĩnh viễn.

Kinh nghiệm của mình sau nhiều năm làm crawl có lẽ là tránh việc để họ bị banned IP. Còn nếu bị band rồi thì theo mình biết cách hữu hiệu nhất là sử dụng proxy. Hoặc, contact thẳng với bên website đó xin data cho nhanh             </div>
            
            <div class=

0