10/10/2018, 10:51

Hướng dẫn cách lấy tin tự động (paid service, freelance welcome)

Xin chào mọi người,

Mình đang cần implement một chức năng như sau, nếu ai biết cách làm xin chỉ dùm, paid service (freelance) cũng rất welcome.

1. Mình đang cần 1 phần mềm (hoặc component) chạy đọc và lấy nội dung ở các site khác (input mẫu DOM hoặc Website Parser Template -WPT ...), danh sách site lấy tin là hữu hạn (cỡ 20 site).

2. Sau đó sắp xếp, post lại tin này tự động vào 1 hệ thống CMS (viết bằng Drupal). (schedule 15 phút một lần)

Hoặc cách lấy tin tương tự các site vietbao.vn, tin247.com, news.gate.vn ... của Việt Nam. Có bạn nào đã từng dùng Vietspider hay Lucene ... để làm chức năng này chưa?

Công ty mình đang kẹt bước 1, bứớc 2 bên mình có thể tự lo được.

Xin post tại đây hoặc gửi email trực tiếp đến cho mình: joc.sontran@gmail.com

Cảm ơn rất nhiều,
khuongCOMPUTER viết 12:59 ngày 10/10/2018
1. Có thể dùng cURL để lấy tin hoặc fsockopen để lấy RSS, đưa vào file php để schedule 15 phút/lần.
Hoangson9999 viết 12:56 ngày 10/10/2018
Thanks khuongCOMPUTER,
Vấn đề là mình không lấy tin (news) hay content thông qua RSS hay dạng XML khác mà lấy trực tiếp từ HTML.

Bạn có thể nói rõ hơn cURL hay fsockopen được không? đó là phần mềm hay câu lệnh?
khuongCOMPUTER viết 12:53 ngày 10/10/2018
Cái này lượn một vòng qua php.net là thấy ý mà.
Thật ra đơn giản nhất là dùng file_get_contents("địa chỉ trang web") sẽ trả về nội dung trang web. Còn nếu muốn giả dạng hơn nữa thì dùng cái này:
function _curl($url)
{
$curl = curl_init();

// Giả dạng header của FF 2.0.0.6
$header[0] = "Accept: text/xml,application/xml,application/xhtml+xml,";
$header[0] .= "text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5";
$header[] = "Cache-Control: max-age=0";
$header[] = "Connection: keep-alive";
$header[] = "Keep-Alive: 300";
$header[] = "Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7";
$header[] = "Accept-Language: en-us,en;q=0.5";
$header[] = "Pragma: ";

curl_setopt($curl, CURLOPT_URL, $url);
curl_setopt($curl, CURLOPT_USERAGENT, 'Googlebot/2.1 (+http://www.google.com/bot.html)'); //Ta làm bot của Google
curl_setopt($curl, CURLOPT_HTTPHEADER, $header);
curl_setopt($curl, CURLOPT_REFERER, 'http://www.google.com');
curl_setopt($curl, CURLOPT_ENCODING, 'gzip,deflate');
curl_setopt($curl, CURLOPT_AUTOREFERER, true);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($curl, CURLOPT_TIMEOUT, 10);

$html = curl_exec($curl);
curl_close($curl);

return $html;
}
Như thế này, khi request sẽ giả dạng đang sử dụng FF 2.0.0.6, click xuất phát từ Google và là Googlebot.
Hoangson9999 viết 13:03 ngày 10/10/2018
Chào bạn, mình tìm kiếm solution chứ không phải câu lệnh bạn ơi. Vì nếu viết từ đầu chắc phải cả năm mới xong trong khi mình biết có nhiều site đã sử dụng những component này để up tin tự động. Không biết có bạn nào rành thì giúp mình hoặc liên hệ joc.sontran@gmail.com nhé.
nokokoro viết 12:56 ngày 10/10/2018
1000$
...................................
khuongCOMPUTER viết 12:58 ngày 10/10/2018
Được gửi bởi Hoangson9999
Chào bạn, mình tìm kiếm solution chứ không phải câu lệnh bạn ơi. Vì nếu viết từ đầu chắc phải cả năm mới xong trong khi mình biết có nhiều site đã sử dụng những component này để up tin tự động. Không biết có bạn nào rành thì giúp mình hoặc liên hệ joc.sontran@gmail.com nhé.
không tới cả năm đâu. Tùy theo site định lấy và cấu trúc của site đó thôi. Nếu lấy hết cả site thì chạy hơi lâu tí.
Còn ông kia nhảy vào spam nữa à?
Hoangson9999 viết 12:52 ngày 10/10/2018
Cty mình không muốn lấy cả site, chỉ muốn lấy tin cập nhật (cấu trúc cố định) và post tự động lại trên Drupal CMS của bên mình theo schedule. Mình có dùng thử VietSpider, requirments cũng tương tự concept của phần mềm này. Cty mình muốn collect tin, cho vào vài category định trước, (phần mềm này lọc HTML, filter) sau đó post các bài viết này lên CMS.

Kỹ thuật bên mình có thể parser DOM, truyền DOM path vào như input để lấy tin cũng như post nội dung đầu cuối lên CMS. Chỉ có phần giữa, đọc tin, xử lý (lọc, bỏ vào category), cho ra dạng để post... thì mình hoàn toàn không có kinh nghiệm. Nếu bạn nào giúp được thì đỡ quá. Cảm ơn trước.

@nokokoro: 1000USD không thành vấn đề, miễn là giá hợp lý, đúng chất lượng. Tuy nhiên, bạn ra giá như vậy (không có thêm bất kỳ thông tin gì) thì sẽ không bao giờ deal được đâu. Không ai dám làm ăn với những người cẩu thả như vậy.
khuongCOMPUTER viết 13:01 ngày 10/10/2018
Được gửi bởi Hoangson9999
Cty mình không muốn lấy cả site, chỉ muốn lấy tin cập nhật (cấu trúc cố định) và post tự động lại trên Drupal CMS của bên mình theo schedule. Mình có dùng thử VietSpider, requirments cũng tương tự concept của phần mềm này. Cty mình muốn collect tin, cho vào vài category định trước, (phần mềm này lọc HTML, filter) sau đó post các bài viết này lên CMS.

Kỹ thuật bên mình có thể parser DOM, truyền DOM path vào như input để lấy tin cũng như post nội dung đầu cuối lên CMS. Chỉ có phần giữa, đọc tin, xử lý (lọc, bỏ vào category), cho ra dạng để post... thì mình hoàn toàn không có kinh nghiệm. Nếu bạn nào giúp được thì đỡ quá. Cảm ơn trước.

@nokokoro: 1000USD không thành vấn đề, miễn là giá hợp lý, đúng chất lượng. Tuy nhiên, bạn ra giá như vậy (không có thêm bất kỳ thông tin gì) thì sẽ không bao giờ deal được đâu. Không ai dám làm ăn với những người cẩu thả như vậy.
Nếu được liên hệ YM khuongse để xem mình giúp gì được không. (nếu chỉ lấy nội dung cập nhật không thôi thì tầm 1-3 ngày mình có thể làm xong file core php)
JonnyQuest viết 13:03 ngày 10/10/2018
Bạn Khương computer dạo này làm ăn ác nhỉ, có còn nhớ admin của tbbvn không
Bài liên quan
0