30/09/2018, 20:10
Lấy nội dung bài viết từ url trong Python
Giả sử mình có 1 url sau khi lấy được html rồi mình muốn lấy nội dung trong thẻ <div id="divNewsContent">
ra thì làm thế nào mình dùng Python
Bài liên quan
@thanhmssl10
Giúp bạn ấy đi kìa
Bạn có thể dùng beautifulsoup hoặc regex
Mình đã thử dùng re nhưng ko thành ban xem html của trang rồi bày giúp m được ko
Nên dùng Beautiful soup hoặc các html parser tương tự bạn ạ, regex thì trừ khi dùng cho biết cách dùng chứ nên tránh
@TheSky Thời này ai dùng lib nữa, phải chơi find xong cắt chuỗi mới gọi là pro
việc find và cắt thì mình hoàn toàn có thể làm đk :), còn cái bs4 bạn xem cái html của trang rồi cho m đoan code lấy content được không :((
Mình troll vui thôi bạn chứ ai dùng vậy
@JuniorK Beautiful soup bạn dùng thử cái này xem thế nào đi Đôi khi phân vân quá cũng không hay đâu.
Còn cách[quote=“JuniorK, post:6, topic:23135”]
find và cắt
[/quote]
Thì chỉ có @thanhmssl10 thần thánh mới làm được thôi
Kiểu như này này:
cảm ơn bạn mình đã lấy đk nội dung của thẻ divNewsContent giờ chỉ clear html là xong
Thêm
.text
là xongÀ chuẩn rồi u , bạn thêm cái .text là sẽ lấy được phần text bên trong
response = requests.get(url) parsed_body = html.fromstring(response.text) check = parsed_body.xpath('//div[@id="divNewsContent"]/h1/text()')
mình dùng cái cách này cơ mà thỉnh thoảng không lấy được thì phải
cho e hỏi thêm là nếu muốn lấy nội dung bài báo đó thì làm ntn ạ , e mới tìm hiểu , thanks
Cái này bạn phải xem cấu trúc file HTML của trang như thế nào nhé. Ví dụ như tag/class nào quy định title, cái nào quy định nội dung,…
Có thư viện
html.parser
để lấy parse nội dung từ 1 file html hoàn chỉnh.tại m của cũng chỉ biết sơ sơ html nên chưa rõ , bạn có thể vd thêm đc k vậy , vd như lấy nd bài báo này http://dantri.com.vn/the-gioi/lo-bay-no-myanmar-thu-hep-du-an-cang-7-ty-usd-voi-trung-quoc-20180802211534508.htm
Mở trên trình duyệt:
view-source:http://dantri.com.vn/the-gioi/lo-bay-no-myanmar-thu-hep-du-an-cang-7-ty-usd-voi-trung-quoc-20180802211534508.htm
Kết luận các format:
Title:
Phần ngay dưới:
Các phần sau tự làm tương tự.
tuyệt , cảm ơn HK boy