01/10/2018, 09:43

Speech to text: CMU Sphinx có nhận diện được giọng nói tiếng Nhật, Việt không?

Dạ, cho e hỏi chút là có bác nào đã làm Qt mà nhận diện giọng nói chuyển sang text chưa ạ? Em đang cần giúp đỡ, ai làm rồi giúp đỡ em với nhé! Mày mò mãi có thằng CMU Sphinx mà mãi chưa dùng được, và không biết là nó có nhận diện giọng nói tiếng Nhật, Việt được hay không? ai cao nhân giúp em

chazo1994 viết 11:53 ngày 01/10/2018

Mày mò mãi có thằng CMU Sphinx mà mãi chưa dùng được, và không biết là nó có nhận diện giọng nói tiếng Nhật, Việt được hay không? ai cao nhân giúp em

Mình chưa dùng QT nên ko biết sao. Nhưng về CMU thì nhật hay việt đều được hết. Nhưng vấn đề là bạn phải chuẩn bị một đống dữ liệu ghi âm gồm có các file gi âm và văn bản ghi lại nội dung cho file ghi âm đó:

Ví nó là mô hình học máy nên bạn phải chuẩn bị dữ liệu và huấn luyện mô hình trước sau đó mới lập trình trên mô hình đã được huấn luyện:
bạn xem hướng dẫn ở đây:

CMUSphinx Open Source Speech Recognition

CMUSphinx Tutorial For Developers

CMUSphinx is an open source speech recognition system for mobile and server applications. Supported languages: C, C++, C#, Python, Ruby, Java, Javascript. Supported platforms: Unix, Windows, IOS, Android, hardware.

Mà cái cmu này mới chỉ hỗ trợ thư viện code cho java thôi.

Để đơn giản hơn bạn thử tìm hiểu mấy cái API, hay mấy cái api khác như trong link sau
https://www.quora.com/What-are-the-top-ten-speech-recognition-APIs

rồi tìm xem có cái nào có thể code được với QT ko, mình nghĩ như vậy sẽ dễ hơn. vì dùng cái CMU thì cần dữ liệu lớn lắm mà cho tiếng việt thì kiếm trên mạng chả có đâu, trước mình đi xin thầy mãi ms được một ít làm xong kết quả lại còn thấp nữa!

Codedao viết 11:54 ngày 01/10/2018

bạn làm mô hình này cho môn học hay là làm j ak?@chaizo1994

chazo1994 viết 11:49 ngày 01/10/2018

hình

Trước mình làm cho đồ án

Vĩ Huỳnh viết 11:59 ngày 01/10/2018

Mình đang làm nhé bạn , nhận dạng được tiếng Việt mà yêu câu dữ liệu cao quá, Mình tính ko dùng nó vì mình nghe nhiều người nói càng nhiều file ghi âm , thì nó càng tệ , mình chỉ làm cho nó nhận diện được cỡ 15 câu : khoảng 5 từ thì chuẩn còn trở lên hơi phế ( nói chung muốn không phế thì file ghi âm phải nhiều )

Bình luận về bài viết này

Chia sẻ tin đăng đến bạn bè

Gửi Messenger

Bài liên quan

kupi

0 chủ đề

0 bài viết

Tác giả nổi bật