12/08/2018, 12:03

Web crawler nâng cao với Mechanize (P2)

Như đã đề cập ở trong bài viết ở phần 1 , bài viết này mình xin chia sẻ một chút vấn đề đã gặp phải trong quá trình làm crawler và cách mình đã giải quyết nó. Rất mong các bạn ủng hộ (bowbowbow) Phần 2 : Click link JavaScript. 1. Đặt vấn đề. Cũng là bước click vào button chuyển ...

big-logo_400x400.png

Như đã đề cập ở trong bài viết ở phần 1, bài viết này mình xin chia sẻ một chút vấn đề đã gặp phải trong quá trình làm crawler và cách mình đã giải quyết nó. Rất mong các bạn ủng hộ (bowbowbow)

Phần 2 : Click link JavaScript.

1. Đặt vấn đề.

Cũng là bước click vào button chuyển trang như bài trước, nhưng bây giờ mình xin đề cập đến click link JS - cái này thì gem Mechanize không hỗ trợ cho chúng ta

Bạn vẫn có thể thực hiện chuyển trang thông qua việc phân tích nội dung url của trang và mong chờ trong mớ ký tự đấy có một dấu hiệu nào đó để bạn nhận biết là mình đang ở đâu, đang get thông tin ở trang nào? Nhưng làm như thế thì mình quá bị động và chắc gì là đã có dấu hiệu cho bạn nhận biết kia. (ohno)

Rất may mắn là trong quá trình tìm hiểu, mình đã được anh GL Nuyễn Thành Linh gợi ý cho một thư viện rất cũ kỹ, tưởng chừng như chẳng liên quan gì đến crawler nhưng đã giải quyết được vấn đề này rất ngon lành. Đó là selenium-webdriver

Và trong bài viết này, mình xin giới thiệu qua một chút về Selenium Webdriver và cách sử dụng có trong trường hợp này

2. Giới thiệu selenium-webdriver.

Selenium Webdriver thực ra là một thư viện khá mạnh mẽ dùng để kiểm thử tự động (test automation) trên các trình duyệt khác nhau và hỗ trợ nhiều ngôn ngữ khác nhau

Có nhiều gem Selenium khác nhau nhưng chỉ có gem ở đây là bản chính thức

Trong bài viết này thì mình sẽ không đề cập chi tiết về selenium-webdriver (thú thật là mình cũng chưa tìm hiểu kỹ càng về phần này             </div>
            
            <div class=

0