10/10/2018, 11:40

Lập trình trang web lấy tin tức tự động hằng ngày

E rất muốn làm một trang tổng hợp thông tin tự động từ nhiều nguồn khác nhau như dantri hay vnexpress vậy, chỉ lấy những tin mới nhất trong từng chuyên mục thôi, có bro nào có kinh nghiệm hay chỉ cho em với, e dự định làm trang này bằng PHP
sonld89 viết 13:50 ngày 10/10/2018
Bạn sử dụng wordpress đi, sử dụng plugin robotvn của vnwebmaster. Demo: homnay.info và congdongcongnghe.com. Còn nếu bạn muốn tự code thì tìm hiểu simple html dom để lấy nội dung tin nhé
vuminhdu viết 13:43 ngày 10/10/2018
Cám ơn bác, e cũng không ngờ wp có cả plugin sẵn thế này, e sẽ thử dùng xem sao, nhưng mà ý em cũng muốn tự xây dựng ra một bộ thật đơn giản thôi, e có chút thắc mắc khi mới bắt đầu, làm thế nào để câu tin từ các trang khác nhau, vì theo như em biết cấu trúc html của các trang đều không giống nhau, có nghĩa là khi câu tin theo một cách thức nào đó ở một trang, đối với trang khác mình cũng phải viết lại tương tự như thế hay sao? Với lại thời gian về sau mà trang web đó thay đổi giao diện thì cũng lại phải viết lại ạ? Bác chỉ giúp em với, em muốn làm để hiểu từ gốc hơn là dùng bác ạ, còn khi xác định là không có hiệu quả thì em sẽ dùng plugin của wp
setsuna118 viết 13:45 ngày 10/10/2018
Dạo này vấn đề câu tin có vẻ hot quá nhỉ, gặp ai cũng thấy hỏi về vấn đề này. Theo mình thì bạn nên bắt đầu tìm hiểu về cơ chế crawler trước khi bắt tay vào code, vì muốn xây dựng một bộ source như vậy mà thật sự hiệu quả thì cũng khá mệt đấy, rất nhiều bước phải thực hiện khi hệ thống bắt đầu lấy tin.
B1. Hệ thống phân tích liên kết
B2. Hệ thống phân tích thuộc tính bài viết
B3. Hệ thống download ảnh về
B4. Hệ thống lưu tin
B5. Hệ thống làm min bài viết (đánh tag và render lại content)
Mình cũng xây dựng từ framework PHP thôi
Vô Thin viết 13:52 ngày 10/10/2018
Cái vụ "vặt tin của nhau" có lẽ diễn ra một cách rầm rộ và điên khùng nhất là ở Việt Nam chứ chẳng thấy ở đâu mà như vậy cả. Các trang nước ngoài họ cũng có lấy của nhau nhưng không chơi theo kiểu như chúng ta. Và việc đó không nên một tí nào, làm trang lấy tin sẽ không còn ổn trong tương lai đâu, nên xem thêm http://www.ddth.com/showthread.php/1...th%C3%B4ng-tin để biết.
sonld89 viết 13:44 ngày 10/10/2018
Cái robotvn là lấy tin dựa vào cấu trúc html của trang nguồn. Bạn muốn lấy tin của 1 trang thì phải viết hàm để lấy nội dung riêng dựa vào cấu trúc html của trang đó. Và khi trang mà bạn muốn lấy thay đổi giao diện thì bạn cũng phải thay đổi cái hàm lấy nội dung tin cho trang đó. Nói chung là cũng phiền nhưng mà làm quen rồi thì chỉ cần 10 phút là bạn làm xong cho 1 trang thôi ^_^

Trang của mình làm được khoảng 3 tháng rồi. Hiện tại có hơn 30.000 bài viết, mình cũng có tối ưu một số thứ cho SEO, nhưng kết quả thì mỗi ngày có chưa được 100 visit. Cái vụ lấy tin này nhiều trang làm quá rồi. Mấy trang nỗi tiếng như zing, dantri cũng đi copy lại bài của infonet hoặc vnexpress. Copy qua copy lại, tới lúc trang mình lấy được bài thì google nó đã index được mấy chục trang rồi. Nói chung là mấy trang sau không có khả năng cạnh tranh đâu. Nếu bạn làm cho biết thì ok, còn làm tính chuyện kiếm tiền cho mấy trang đó thì có lẽ không nên mất thời gian. Tìm cái khác mà làm. Mình chắc cũng sắp phải gở xuống rồi. Ngốn băng thông host quá.
Bình Phạm viết 13:56 ngày 10/10/2018
Chưa hiểu lắm, các bác tranh luận tiếp đi ^^
Bài liên quan
0