01/10/2018, 09:30

Thuật toán phân loại văn bản SVM sử dụng TF IDF

Chào mọi người. Em đang sử dụng thuật toán SVM để phân loại văn bản.

Em sử dụng TF IDF để tính trọng số của một từ trong một câu.

Khi chuyển tập traning sang dạng vector thì không có vấn đề gì. Nhưng khi chuyển tập test sang thì em đang thắc mắc chỗ này. IDF của một từ trong tập test sẽ được tính như thế nào:
- Sử dụng luôn giá trị IDF của từ đấy trong tập training (IDF này chỉ tính dựa trên tập training).
- Hay tính lại giá trị IDF của từ đấy (kết hợp cả tập training, testing để tính).
Và 1 ý nữa là có những từ chưa xuất hiện trong tập training thì phải làm sao ạ.

Em cảm ơn

Bài liên quan
0