01/10/2018, 09:47
Thuật toán tìm kiếm từ trong từ điển TIÊNG VIỆT
Vấn đề là một từ ghép khoảng 2 từ CÓ NGHĨA trong tiếng việt (danh từ riêng). Yêu cầu là tìm xem nó có trong file từ điển tiếng việt không?
- Thực tế thì trong file từ điển của: Wikipedia, eDict Bkav, vDict đều không có sẵn các từ loại đó.
Ví dụ: “con chó” không hề có trong file, chỉ có “con” và “chó”. Nhưng khi search “con chó” thì phần mềm (edict) vẫn cho ra kết quả. - Một số từ khác: xe máy, ngôi nhà…
…
Mong được tư vấn,
Tks_All
Bài liên quan
Hình như vấn đề ở đây là ở… tiếng Việt. Từ “xe máy” không có thì đúng là hơi có vấn đề, nhưng từ “con chó”, “ngôi nhà” được cấu tạo bởi gốc danh từ ("chó, “nhà”,…) và các lượng từ/số từ đặc thù (“con”, “ngôi”,…) cho nên vấn đề tìm “chó” có, “con” có, mà “con chó” không có cũng không có gì là khó hiểu.
Có lẽ nên dựng cả các từ ghép ntn chăng?
hiểu ý rồi nên vấn đề là phải dựng thuật toán như thế nào cho hợp lí
Thuật toán gì mà nghe rắc rồi vậy kà? Nếu người dùng nhập một cụm từ vào thì rã nó ra thành mảng, xong rồi dùng vòng lặp các phần tử mảng đó tìm trong từ điển kia.
Rồi thì ví dụ người ta tìm “con chó” thì bạn sẽ đưa gợi ý: bạn muốn tìm con hay chó?. Và cho phép người ta click vào chữ con để ra định nghĩa về con, click chó để ra định nghĩa về chó.
Còn muốn ghép riêng từ cho máy hiểu kiểu con người thì dùng trí tuệ nhân tạo, và khá là khó đấy, các phần mềm dạng rà soát chính tả hoặc tự thêm dấu còn bó tay bởi vì tình huống đó có khi chấp nhận vài dấu khác nhau. Ví dụ: dùng keo cao su để dán mảnh giấy lên tường (keo cao su hay kẹo cao su?)
Ví dụ cho một câu: “Con chó đi tè” đề yêu cầu xuất ra các từ ghép (con chó), trong khi trong từ điển không có “con chó”, “con”, “chó” thì có, nếu dùng như bạn thì nó tìm ra “chó đi” luôn => Wrong???
Bạn chưa từng sử dụng một cuốn từ điển thực sự nào à? Nếu vậy, hãy mua một cuốn từ điển in bằng giấy ngoài nhà sách và học cách sử dụng nó/ tìm hiểu về nó.
Cái cách bạn nói đến khi tìm nó “chó đi” là khi bạn xét một cách thô thiển ý tưởng giải thuật sử dụng mảng mà mình đề cập - mình cũng chỉ gợi ý thôi, chứ có nhiều cách khác để biểu diễn giải thuật thay vì dùng mảng. Xin được giải thích thêm là một từ được định nghĩa trong từ điển nó có khái niệm “TỪ LOẠI” đi kèm (từ loại như: động từ, tính từ, danh từ,…). Một khi xét đến từ loại thì sẽ bỏ qua những “tổ hợp” lắp ghép không cần thiết/ vô nghĩa/ stupid cho việc tra từ theo kiểu “chó đi” như bạn đề cập.