30/09/2018, 22:29
Hỏi về bài toán phân loại văn bản
Chào anh,chị và các bạn.
Hiện em đang làm một project về phân loại văn bản tiếng việt. Cụ thể là phân loại tin tức trên một tập dữ liệu thuộc cách chủ đề chính trị, kinh tế, văn hóa…Nhưng khi làm đến bước Tách câu, tách từ, gán nhãn từ loại: sử dụng vnSentDetector và vnTagger thì em lại mắc và không hiểu phải làm gì.
Ai có kinh nghiệm giúp em được không ạ.
em cảm ơn.
Bài liên quan
Hôm bữa mình có xài vnTokenizer để tách từtừ (chỉ tách từ thôi), thấy cũng dễ dùng. Hình như Vitk có cập nhật thêm gán nhãn từ, bạn xem thử xem.
Bạn có thể vào đây để hỏi, có nhiều anh chị, thầy cô làm việc trong NLP sẽ trả lời bạn tốt hơn. Nếu làm xong bạn có thể vào 4rum review lại: https://www.facebook.com/groups/1407276886168704/
em cảm ơn ạ. em sẽ thử dùng vitk
Cách đơn giản nhất cho bài toán text classification là dùng Naïve Bayes. Việc chọn từ có thể làm thủ công hoặc lười thì ko cần!
chào anh,
anh có thể nói rõ hơn đc không ạ.
Tức là sau khi tách từ (hoặc ko tách :v) thì áp Naive Bayes vào, hoặc xài SVM, NN các kiểu cũng ok cả.