10/10/2018, 10:51
Hướng dẫn cách lấy tin tự động (paid service, freelance welcome)
Xin chào mọi người,
Mình đang cần implement một chức năng như sau, nếu ai biết cách làm xin chỉ dùm, paid service (freelance) cũng rất welcome.
1. Mình đang cần 1 phần mềm (hoặc component) chạy đọc và lấy nội dung ở các site khác (input mẫu DOM hoặc Website Parser Template -WPT ...), danh sách site lấy tin là hữu hạn (cỡ 20 site).
2. Sau đó sắp xếp, post lại tin này tự động vào 1 hệ thống CMS (viết bằng Drupal). (schedule 15 phút một lần)
Hoặc cách lấy tin tương tự các site vietbao.vn, tin247.com, news.gate.vn ... của Việt Nam. Có bạn nào đã từng dùng Vietspider hay Lucene ... để làm chức năng này chưa?
Công ty mình đang kẹt bước 1, bứớc 2 bên mình có thể tự lo được.
Xin post tại đây hoặc gửi email trực tiếp đến cho mình: joc.sontran@gmail.com
Cảm ơn rất nhiều,
Mình đang cần implement một chức năng như sau, nếu ai biết cách làm xin chỉ dùm, paid service (freelance) cũng rất welcome.
1. Mình đang cần 1 phần mềm (hoặc component) chạy đọc và lấy nội dung ở các site khác (input mẫu DOM hoặc Website Parser Template -WPT ...), danh sách site lấy tin là hữu hạn (cỡ 20 site).
2. Sau đó sắp xếp, post lại tin này tự động vào 1 hệ thống CMS (viết bằng Drupal). (schedule 15 phút một lần)
Hoặc cách lấy tin tương tự các site vietbao.vn, tin247.com, news.gate.vn ... của Việt Nam. Có bạn nào đã từng dùng Vietspider hay Lucene ... để làm chức năng này chưa?
Công ty mình đang kẹt bước 1, bứớc 2 bên mình có thể tự lo được.
Xin post tại đây hoặc gửi email trực tiếp đến cho mình: joc.sontran@gmail.com
Cảm ơn rất nhiều,
Bài liên quan
Vấn đề là mình không lấy tin (news) hay content thông qua RSS hay dạng XML khác mà lấy trực tiếp từ HTML.
Bạn có thể nói rõ hơn cURL hay fsockopen được không? đó là phần mềm hay câu lệnh?
Thật ra đơn giản nhất là dùng file_get_contents("địa chỉ trang web") sẽ trả về nội dung trang web. Còn nếu muốn giả dạng hơn nữa thì dùng cái này:
{
$curl = curl_init();
// Giả dạng header của FF 2.0.0.6
$header[0] = "Accept: text/xml,application/xml,application/xhtml+xml,";
$header[0] .= "text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5";
$header[] = "Cache-Control: max-age=0";
$header[] = "Connection: keep-alive";
$header[] = "Keep-Alive: 300";
$header[] = "Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7";
$header[] = "Accept-Language: en-us,en;q=0.5";
$header[] = "Pragma: ";
curl_setopt($curl, CURLOPT_URL, $url);
curl_setopt($curl, CURLOPT_USERAGENT, 'Googlebot/2.1 (+http://www.google.com/bot.html)'); //Ta làm bot của Google
curl_setopt($curl, CURLOPT_HTTPHEADER, $header);
curl_setopt($curl, CURLOPT_REFERER, 'http://www.google.com');
curl_setopt($curl, CURLOPT_ENCODING, 'gzip,deflate');
curl_setopt($curl, CURLOPT_AUTOREFERER, true);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($curl, CURLOPT_TIMEOUT, 10);
$html = curl_exec($curl);
curl_close($curl);
return $html;
}
...................................
Còn ông kia nhảy vào spam nữa à?
Kỹ thuật bên mình có thể parser DOM, truyền DOM path vào như input để lấy tin cũng như post nội dung đầu cuối lên CMS. Chỉ có phần giữa, đọc tin, xử lý (lọc, bỏ vào category), cho ra dạng để post... thì mình hoàn toàn không có kinh nghiệm. Nếu bạn nào giúp được thì đỡ quá. Cảm ơn trước.
@nokokoro: 1000USD không thành vấn đề, miễn là giá hợp lý, đúng chất lượng. Tuy nhiên, bạn ra giá như vậy (không có thêm bất kỳ thông tin gì) thì sẽ không bao giờ deal được đâu. Không ai dám làm ăn với những người cẩu thả như vậy.