30/09/2018, 18:15

Trí tuệ nhân tạo/Học máy: phân loại trang web

Chào anh chị diễn đàn, em đang làm bài tập lớn môn Trí tuệ nhân tạo, đề tài tự chọn là Phân loại trang web (có một tập trang web và ta phải gán nhẫn cho nó thuộc lĩnh vực nào), phương pháp sử dụng là phân lớp Naive Bayes. Phần này thuộc học máy ở cuối môn mới học, nên em muốn hỏi a/c cho em xin hướng đi trước a/c nào có kinh nghiệm về lĩnh vực này hoặc đã học các môn này cho em hỏi chút là:

  • Đầu vào của bài toán chỉ là một tập các từ khóa được mình tìm hiểu và tổng hợp sẵn từ các trang web (ghi ra file text) hay là phải dẫn đương link của chính trang web đó vào ạ? Nếu dẫn đường link thì ta tách từ khóa ra để cho máy học kiểu gì ạ :3
    Em cảm ơn!
Dương Tiến Thịnh viết 20:32 ngày 30/09/2018

Mình tìm được một bài, hi vọng nó giup ích được cho bạn.

viet.jnlp.org

Phân loại văn bản bằng định lý Bayes - Xử lý ngôn ngữ tự nhiên (Trường đại học...

Vietnamese Natural Language Processing Trang web này được tạo ra để chia sẻ và tập hợp những thông tin về nghiên cứu "xử lý ngôn ngữ tự nhiên" nói chung, và "xử lý Tiếng Việt" nói riêng.

Itachi Citus viết 20:16 ngày 30/09/2018

Đầu vào của bài toán chỉ là một tập các từ khóa được mình tìm hiểu và tổng hợp sẵn từ các trang web (ghi ra file text) hay là phải dẫn đương link của chính trang web đó vào ạ?

Cái này tùy trường hợp dữ liệu bạn được giao hay dữ liệu bạn tự kiếm.

Nếu dữ liệu tự kiếm thì đương nhiên bạn phải lưu định danh của trang web (URL…), gán nhãn (lĩnh vực) bằng tay cho từng trang web, tách từ vựng, lưu lại dữ liệu sau khi xử lý vào file theo định dạng bạn tự quy định. Khi cho máy học bạn sẽ truy cập dữ liệu đã qua xử lý chứ không xử lý trên dữ liệu thô đâu.

Lê Văn Thắng viết 20:27 ngày 30/09/2018

Ok thanks bạn, bài viết khá chi tiết, mình sẽ nghiên cứu

Lê Văn Thắng viết 20:16 ngày 30/09/2018

Đề tài t chú tâm vào giải thuật, tập học và đánh giá thôi; cái việc tách từ vựng t ko hiểu lắm là làm sao để tách từ vựng từ việc dẫn một đường link trang web, t chưa học cái này? Môn trí tuệ nhân tạo bọn t ko đụng nhiều đến học máy (có môn Học máy mà). Giả sử giờ ta tự tạo các từ khóa vào file thì chắc phải nhiều lắm nhỉ :3

Itachi Citus viết 20:20 ngày 30/09/2018

Tách từ chắc mình học từ môn… kỹ thuật lập trình bạn ạ.

Lê Văn Thắng viết 20:31 ngày 30/09/2018

Ơ dẫn đường link vào => tách từ : cậu giải thích cho mình được không?

Itachi Citus viết 20:27 ngày 30/09/2018

Link -> lấy nội dung -> tách từ chứ mình có nói là tách từ từ link đâu . Có thể bạn không biết cách lấy nội dung từ một trang web sao nhưng khi có văn bản thì chắc chắn bạn biết tách và lọc từ ra

Lê Văn Thắng viết 20:16 ngày 30/09/2018

Ừ tách từ từ văn bản thì mình hiểu. à thế thì mình hỏi vấn đề là khi mình đưa một đường link thì lấy nội dung ra làm cách nào vậy, theo mình hiểu thì là lấy nội dung bằng tay hả (nhưng như thế thì mình tự tạo văn bản viết nội dung rồi cần gì đường link), xin được chỉ giáo

Itachi Citus viết 20:25 ngày 30/09/2018

Bạn phải biết sơ sơ HTML, với DOM. Mỗi ngôn ngữ thường có thư viện DOM ở ngoài, mỗi trang web có một cấu trúc, bạn đi theo cấu trúc đó là lấy dc dữ liệu chính.
Về việc lấy dữ liệu trên web á, bạn thường không copy & paste link đâu mà bạn sẽ dùng crawler.

Mà mình nghĩ trong phạm vi môn học thì sẽ cho dữ liệu chứ nhỉ, không thì bạn kiếm dữ liệu online cũng có như cái này chẳng hạn https://dms.sztaki.hu/en/letoltes/ecmlpkdd-2010-disco

Lê Văn Thắng viết 20:27 ngày 30/09/2018

Ok cảm ơn nhé, đề tài tự đề xuất dựa trên vấn đề được học nên phải tự kiếm dữ liệu, tự tìm hiểu để làm c ạ.

Nhật viết 20:19 ngày 30/09/2018

1 note nhỏ cho bạn: nếu bạn ở Hà Nội, bạn có thể qua phòng thí nghiệm KTLab xin học hỏi, ở đó là môi trường tốt cho bạn học và thực hành về những đề tài kiểu này!

Nguyễn Thanh Tùng viết 20:16 ngày 30/09/2018

Machine Learning mà bạn chuyển thể thành “học máy” làm mình hết hồn Chưa từng học qua môn này (vì tự học) nhưng từng học qua “Xây dựng một web search engine” nên mình thấy vấn đề của bạn không khó lắm. Nếu bạn không biết cách implement thì bạn nên xem qua khóa học CS101 miễn phí này của Udacity.

udacity.com

Intro to Computer Science | Udacity

Learn key computer science concepts in this introductory Python course. You'll learn by doing, and will build your own search engine and social network.

Itachi Citus viết 20:25 ngày 30/09/2018

mình thấy vấn đề của bạn không khó lắm


Ở VN dịch là học máy / máy học là đúng rồi mà.

Nguyễn Thanh Tùng viết 20:15 ngày 30/09/2018

Haha, mình đâu có nói bạn sai đâu. Mình chỉ “hết hồn” thôi Tập dùng Tiếng Anh luôn là vừa bạn ơi B-) Còn “trí thông minh nhân tạo” => AI => ngắn gọn dễ hiểu

Lê Văn Thắng viết 20:28 ngày 30/09/2018

KTLab ở đại học quốc gia hả bạn? Làm sao để vào được vậy? Mất phí gì không?

Lê Văn Thắng viết 20:20 ngày 30/09/2018

mình cảm ơn nhé

Bài liên quan
0