30/09/2018, 22:05

Tìm hiểu Crawler

Tìm hiểu về crawler

  • Tham khảo :http://nutch.apache.org/
RomBK viết 00:16 ngày 01/10/2018

Em chào anh (chi ) ạ ,có ai đang nghiên cứu về crawler + search engine không ạ .Em đang muốn làm một cái j đó mà kết hợp được crawler vào,hay cùng nhau nghiên cứu một search engin cũng được ạ

Khai Nguyen Dinh viết 00:20 ngày 01/10/2018

mình đang dùng python và scrapy để crawl dữ liệu cho công ty còn kết hợp với search engine thì chưa.

RomBK viết 00:16 ngày 01/10/2018

Anh Khải Dù anh đã làm việc với Nutch chưa anh hay những bài toán crawler những web site động

Đinh Trần Lý Hùng viết 00:09 ngày 01/10/2018

Dạng như Google à, cái crawler thì cũng không khó nhưng quan trọng là lưu dữ liệu đc crawl như thế nào, cái này thì cần kiến thức về Big Data, Graph search, page ranking,…

RomBK viết 00:19 ngày 01/10/2018

Anh Hùng ạ em thấy cái khó ở crawler là làm sao để mình có thể build một graph crawler giông như Nutch đã làm để crawler,bây giờ minh muốn crawler một số số web site động mà không có api như :amazon(không qua api) thì giải pháp để giải bài những bài toán như này???

Khoa Nguyen viết 00:20 ngày 01/10/2018

một số số web site động mà không có api

Nếu vậy thì phải render cả trang web đó rồi đọc từ DOM chứ không crawl từ HTML được

RomBK viết 00:19 ngày 01/10/2018

Anh Khoa Nguyen như thế thì chỉ là phần parser dữ liệu còn chiến lược để crawler những web site động đó

Bài liên quan
0