10/10/2018, 09:29

Báo mới tổng hợp tin tức bằng cách nào?

Mình rất muốn tìm hiểu làm thế nào mà baomoi.com lại có thể tổng hợp tin tức 1 cách nhanh như vậy, có bác nào đề xuất ý kiến không?

Theo mình thì dùng RSS, rồi ghi lên CSDL, biên soạn lại rồi đưa ra thôi. Nhưng làm sao để lấy được image thì mình chịu
Crawl thì không biết các bác ấy có dùng không?
jiSh@n viết 11:33 ngày 10/10/2018
Được gửi bởi shinobiBT
Theo mình thì dùng RSS, rồi ghi lên CSDL, biên soạn lại rồi đưa ra thôi. Nhưng làm sao để lấy được image thì mình chịu
Ko có cái nào đúng hết
Theo mình biết thì dân chuyên môn đánh giá engine của Baomoi.com nếu xách đi bán thì được vài triệu $ là chuyện thường. Bạn khỏi tìm hiểu cho mắc công
bapnon viết 11:34 ngày 10/10/2018
Cái này hình như dùng open remote files và sau đó search và replace vài cái như domain của người ta replace bằng domain của mình và thêm interface của mình còn lại các thứ khác đều lấy từ các trang kia mình chôm của người thì phải. Không biết có đúng 100% không nhưng theo mình hiểu là vậy đó.

Tại vì trước kia mình làm kiểu đó lấy từ trang về tin tức top 5 của VN và vài trang khác 90% là chôm của người ta, 10% là của mình. Sau đó cái trang mình chôm nhiều nhất vì họ có nhiều bài báo hấp dẫn. Sau đó họ biết và không muốn cho dùng nữa nên thôi.
cái nick đó viết 11:37 ngày 10/10/2018
Được gửi bởi shinobiBT
Mình rất muốn tìm hiểu làm thế nào mà baomoi.com lại có thể tổng hợp tin tức 1 cách nhanh như vậy, có bác nào đề xuất ý kiến không?

Theo mình thì dùng RSS, rồi ghi lên CSDL, biên soạn lại rồi đưa ra thôi. Nhưng làm sao để lấy được image thì mình chịu
Crawl thì không biết các bác ấy có dùng không?
bộ phận phân tích của nó hay, còn lấy tin thì có nhiều cách, trong PHP có DOM và reg ex

Được gửi bởi bapnon
Cái này hình như dùng open remote files và sau đó search và replace vài cái như domain của người ta replace bằng domain của mình và thêm interface của mình còn lại các thứ khác đều lấy từ các trang kia mình chôm của người thì phải. Không biết có đúng 100% không nhưng theo mình hiểu là vậy đó.

Tại vì trước kia mình làm kiểu đó lấy từ trang về tin tức top 5 của VN và vài trang khác 90% là chôm của người ta, 10% là của mình. Sau đó cái trang mình chôm nhiều nhất vì họ có nhiều bài báo hấp dẫn. Sau đó họ biết và không muốn cho dùng nữa nên thôi.
chắc bạn đang nói về cái details, nó cache HTML và giữ nguyên HTML chỉ thêm cái thẻ
Code:
<BASE HREF="http://www.bongda24h.vn/default.aspx?CateID=168&ID=20105&tabid=300" />
(view source http://www.baomoi.com/Home/BongDa/ww...ui/2559988.epi)
shinobiBT viết 11:32 ngày 10/10/2018
Mình vừa tìm được 1 thread trên ddth.com nói về đề tài này. http://www.ddth.com/showthread.php?t=162641

Các bạn tham khảo thử
cái nick đó viết 11:40 ngày 10/10/2018
gocnhin.com là một trang tổng hợp sự kiện khá thông minh
Bài liên quan
0