09/10/2018, 23:28

Lấy tin tức RSS (full nội dung) của các trang khác

Mình đang viết phần lấy tin tức theo link của các trang có cung cấp RSS, nhưng chỉ lấy được phần nội dung vắn tắt và tiều đề của bản tin, có ai biết cách lấy nội dung đầy đủ của 1 bản tin không, giúp mình với, cám ơn trước.
starrynighthn viết 01:42 ngày 10/10/2018
theo mình là ko,..... trừ khi bạn biết cách đọc nội dung của trang tin tức đó,..... nhưng mà làm thế chả để làm j,.....
Vinhie47 viết 01:30 ngày 10/10/2018
Thì từ cái RSS đó lấy được link rồi từ cái link này lấy được toàn bộ nội dung của trang này, rồi từ nội dung này lọc lấy phần nội dung của bản tin
thienthan36 viết 01:33 ngày 10/10/2018
Không hẳn thế đâu. Một số trang, tin RSS chỉ chứa nội dung nhắn của tin. khi bạn mởi link thì nó sẽ load trang đó và tải cả website nên rất là khó lấy đầy đủ nội dung của nó.
Nếu được thì hãy dùng DOMXML để xử lí các tab html của nó để lấy một phần nội dung của web mà chứa nội dung của tin tức.
Vì mỗi trang nó có cấu trúc html rõ ràng, nếu nó thay đổi cấu trúc có nghĩa là phải thay đổi lại cách lấy thông tin.
MichaelTuanAnh viết 01:44 ngày 10/10/2018
hê hê, cũng cam go à, nếu đúng chuẩn DOM thì ko nói đằng này...

Quote Được gửi bởi thienthan36 View Post
Không hẳn thế đâu. Một số trang, tin RSS chỉ chứa nội dung nhắn của tin. khi bạn mởi link thì nó sẽ load trang đó và tải cả website nên rất là khó lấy đầy đủ nội dung của nó.
Nếu được thì hãy dùng DOMXML để xử lí các tab html của nó để lấy một phần nội dung của web mà chứa nội dung của tin tức.
Vì mỗi trang nó có cấu trúc html rõ ràng, nếu nó thay đổi cấu trúc có nghĩa là phải thay đổi lại cách lấy thông tin.
jiSh@n viết 01:35 ngày 10/10/2018
RSS cung cấp cái gì thì chỉ có thể lấy được cái đó thôi. Muốn thêm thì chỉ còn có cách parse HTML, có thể dùng DOM HTML để làm nhưng cách này khá chuối, layout chỉ cần thay đổi 1 chút là kết quả sai liền.
hoangchau viết 01:36 ngày 10/10/2018
Thường thì mấy trang tin tức hiếm khi thay đổi lại cấu trúc lắm, nên cách tải cả trang về rồi bóc nội dung là ok nhất. Tôi đã làm thử vài trang thấy OK. Nhưng việc này rất tốn tài nguyên của máy (nếu shared host mà dùng cái này thì hỏng) và vi phạm bản quyền.
Hi, hi bửa trước vô tình thấy 1 trang có nội dung tin tức giống y chang vnexpress.net
sasha viết 01:32 ngày 10/10/2018
Nguồn của cái rss đó nó xuất ra cho bác cái j thì bác chỉ lấy đc vậy thôi. Chuẩn rss cũng đâu có cái thẻ nào là full content đâu ^^
sacroyant viết 01:33 ngày 10/10/2018
Theo tớ thì không có cách nào. Ngay cả với ATOM dù nhiều thông tin hơn cũng không hề có cái entry full content.

Chỉ còn cách đọc hết trang của nó rồi lọc ra đoạn cần thiết. Mà cách này thì đúng là chuối thật !
jiSh@n viết 01:29 ngày 10/10/2018
Quote Được gửi bởi lkn2 View Post
Ai đó thử rip nội dung trang này: http://wow-vn.net/lab/test.php

Nếu khi fetch (rip) mà nó ra nội dung:

PHP Code:
<center><h2>Ko vào được rồithử bằng cách khác đi bạn!<br />Một bài test nho nhỏ thôi mà.</h2></center
là chưa thành công

Nếu rip như thế này:

PHP Code:
$a file_get_contents("http://wow-vn.net/lab/test.php"); 
Thì nó sẽ ra nội dung như trên Nếu ra đúng như nội dung thấy trên trình duyệt là thành công.
Nhét thêm cái header Referer vô nữa
Bài liên quan
0