30/09/2018, 22:29

Hỏi về bài toán phân loại văn bản

Chào anh,chị và các bạn.
Hiện em đang làm một project về phân loại văn bản tiếng việt. Cụ thể là phân loại tin tức trên một tập dữ liệu thuộc cách chủ đề chính trị, kinh tế, văn hóa…Nhưng khi làm đến bước Tách câu, tách từ, gán nhãn từ loại: sử dụng vnSentDetector và vnTagger thì em lại mắc và không hiểu phải làm gì.
Ai có kinh nghiệm giúp em được không ạ.
em cảm ơn.

lx viết 00:34 ngày 01/10/2018

Hôm bữa mình có xài vnTokenizer để tách từtừ (chỉ tách từ thôi), thấy cũng dễ dùng. Hình như Vitk có cập nhật thêm gán nhãn từ, bạn xem thử xem.

Bạn có thể vào đây để hỏi, có nhiều anh chị, thầy cô làm việc trong NLP sẽ trả lời bạn tốt hơn. Nếu làm xong bạn có thể vào 4rum review lại: https://www.facebook.com/groups/1407276886168704/

Hoàng Minh Châu viết 00:30 ngày 01/10/2018

em cảm ơn ạ. em sẽ thử dùng vitk

Kgt viết 00:33 ngày 01/10/2018

Cách đơn giản nhất cho bài toán text classification là dùng Naïve Bayes. Việc chọn từ có thể làm thủ công hoặc lười thì ko cần!

Hoàng Minh Châu viết 00:44 ngày 01/10/2018

chào anh,
anh có thể nói rõ hơn đc không ạ.

lx viết 00:37 ngày 01/10/2018

Tức là sau khi tách từ (hoặc ko tách :v) thì áp Naive Bayes vào, hoặc xài SVM, NN các kiểu cũng ok cả.

Bài liên quan
0