Em chào anh (chi ) ạ ,có ai đang nghiên cứu về crawler + search engine không ạ .Em đang muốn làm một cái j đó mà kết hợp được crawler vào,hay cùng nhau nghiên cứu một search engin cũng được ạ
Dạng như Google à, cái crawler thì cũng không khó nhưng quan trọng là lưu dữ liệu đc crawl như thế nào, cái này thì cần kiến thức về Big Data, Graph search, page ranking,…
Anh Hùng ạ em thấy cái khó ở crawler là làm sao để mình có thể build một graph crawler giông như Nutch đã làm để crawler,bây giờ minh muốn crawler một số số web site động mà không có api như :amazon(không qua api) thì giải pháp để giải bài những bài toán như này???
Em chào anh (chi ) ạ ,có ai đang nghiên cứu về crawler + search engine không ạ .Em đang muốn làm một cái j đó mà kết hợp được crawler vào,hay cùng nhau nghiên cứu một search engin cũng được ạ
mình đang dùng python và scrapy để crawl dữ liệu cho công ty còn kết hợp với search engine thì chưa.
Anh Khải Dù anh đã làm việc với Nutch chưa anh hay những bài toán crawler những web site động
Dạng như Google à, cái crawler thì cũng không khó nhưng quan trọng là lưu dữ liệu đc crawl như thế nào, cái này thì cần kiến thức về Big Data, Graph search, page ranking,…
Anh Hùng ạ em thấy cái khó ở crawler là làm sao để mình có thể build một graph crawler giông như Nutch đã làm để crawler,bây giờ minh muốn crawler một số số web site động mà không có api như :amazon(không qua api) thì giải pháp để giải bài những bài toán như này???
Nếu vậy thì phải render cả trang web đó rồi đọc từ DOM chứ không crawl từ HTML được
Anh Khoa Nguyen như thế thì chỉ là phần parser dữ liệu còn chiến lược để crawler những web site động đó