01/10/2018, 15:35

Tìm tài liệu: tìm hiểu một số phương pháp trích gọn câu trong văn bản Tiếng Việt (khai phá dữ liệu)

Em đang cần tìm tài liệu gấp cho đề tài: Tìm hiểu một số pp trích gọn câu trong văn bản Tiếng Việt. Các ac giúp em với ạ

Hung viết 17:39 ngày 01/10/2018

Information Extraction là lĩnh vực lớn, em có thể đọc sơ qua tại đây

en.wikipedia.org

Information extraction

Information extraction (IE) is the task of automatically extracting structured information from unstructured and/or semi-structured machine-readable documents. In most of the cases this activity concerns processing human language texts by means of natural language processing (NLP). Recent activities in multimedia document processing like automatic annotation and content extraction out of images/audio/video could be seen as information extraction. Due to the difficulty of the problem, current app...

Vân Anh viết 17:42 ngày 01/10/2018

A ơi cho e hỏi trích gọn có nghĩa là gì ạ

Hung viết 17:44 ngày 01/10/2018

Vấn đề là em cần trích nội dung gì?

  • Semantic, đánh giá tích cực hay tiêu cực, từ 1 đến 5 sao.
  • Entity, trích tên người, nơi chốn, thời gian.
  • Relationship, quan hệ giữa các đối tượng (người, nơi chốn, thời gian), output là semantic graph hoặc logic vị từ.
  • … (có nhiều nữa, mà chỉ biết 3 cái)
Hung viết 17:37 ngày 01/10/2018

Ngoài ra, còn có lĩnh vực khó hơn là Text Summarization, tạo bản tóm tắt từ đoạn text bất kì.
Bản tóm tắt có thể là:

  • Raw text, có số lượng từ ngắn hơn text ban đầu
  • Keyword, rút trích từ khoá, thuật ngữ chính.

Em có thể thao khảo thêm, nhưng lĩnh vực này có vẻ nâng cao so với Data Mining
https://machinelearningmastery.com/gentle-introduction-text-summarization/

Vân Anh viết 17:36 ngày 01/10/2018

Vâng. E cảm ơn a nhiều ạ.

Bài liên quan
0