Nhận dạng tiếng nói
Hiện tại mình đang tìm hiểu về nhận dạng tiếng nói Tiếng Việt. cơ bản bây giờ mới tìm hiểu về speechh to text và có ý tưởng cao sa là xây dựng trợ lý ảo cho người việt.
Đây là sản phẩm nơi mình đang học… một trong những nơi đầu tiên nghiên cứu về nhận dạng tiếng việt ( sảm phẩm này trước cả VAV của đại học quốc gia nha)
https://www.youtube.com/watch?v=dJW2Jnrel6I
Về chuẩn bị toán học thì sử dụng mô hình HMM và N gram
Về code sử dụng toolkit cmusphinx viết bằng C nhưng chuyên dùng cho android
ưu điểm về speech.
`Ai có hứng thú thì chúng ta lập box thảo luận với nhau và chia sẻ tài liệu nhỉ
Mọi người hãy chia sẻ hiểu biết của mình về nhận dạng tiếng nói để chúng ta cùng thảo luận và lên ý tưởng nào
hay quá,mình cũng đang làm về đề tài nhận diện giọng nói này nhưng lập trình trên linux,sử dụng mô hình MFCC.
MFCC là để phân tích các đặc tính của speech wave. mình mất khoảng 1 tuần tìm hiểu về nó vì mỗi tài liệu lại có công thức khac nhau! c sài toolkit gì?
t định sài trên ubuntu nhưng code android studio trên ubuntu ổn ko?
mình cũng đang sử dụng ubuntu để làm,viết bằng ngôn ngữ python. python cũng hỗ trợ mấy library của toán nhưng vẫn khó.tìm tài liệu trên mạng chỉ thấy làm bằng matlab vì matlab đã có sẵn mấy cái lib cho giải thuật fft.
bạn biết sài cmusphinx không? đang mắt chỗ generate dictionary bằng Phonetisaurus
Đạt đã từng làm cmusphinx để nhận diện ngôn ngữ, nhưng đó là tiếng Anh.
Tiếng Việt thì không có thư viện nên không làm, với lại nhu cầu project là tiếng Anh.
Theo Đạt nhớ không lầm là để chuẩn bị một bộ thư viện tốn rất nhiều thời gian, không biết @chazo1994 đang muốn generate cái gì, file âm thanh hay file map thôi?
bộ thư viện thì em mới đang làm nhận dạng số nên khá nhó.
có về dự án em đang theo là của viện nghiên cứu mica có nhiều người đi trước đã làm bộ thự viện rồi ạ. em chỉ develop thêm.
còn vấn đề em đang mắc với cái Phonetisaurus là lúc cài đặt nó trên ubuntu thôi a. hết error này đến error khác
em đang làm cái nhận dạng số nhỏ nhỏ trươc khi tham gia dự án to. bị mắc khi cài Phonetisaurus. ko biết là có tool nào hay hơn để tạo dic ko a?
A post was split to a new topic: Cách đưa các file huấn luyện để máy học nhận diện giọng nói trong VB.Net
Em rất hứng thú với cái này. Mà giờ không biết bắt đầu từ đâu.
Các anh có tài liệu không ạ? Em cần biết những thứ gì để có thể code được ạ?
Background của bạn? Chỉ hứng thú thôi là chưa đủ.
Nhận dạng tiếng nói thì liên quan đến vision computer.
perfect! hay qúa anh ơi.
Mình rất quan tâm và muốn tìm hiểu về vấn đề này. Các bạn có tài liệu hướng dẫn về CMUSphinx cho mình tham khảo với
Không biết google có api cho chuyển giọng nói không? Thấy dùng nó trên android cũng khá tốt.
Mjk đang tìm hiểu cách nhận dạng giọng nói tiếng việt và chuyển text tiếng việt thành giọng nói bằng ngôn ngữ android. bạn có thể cho mjk xin tài liệu không? mail mjk là: ngocmanbg@gmail.com
Cảm ơn !
Ok mình gửi qua mail nhé.
Anh ay anh dung phan mem gi tren dien thoai vay, chi cho em voi. neu duoc thi anh co the chi cho em cach lam cai do duoc khong, em cung dang co mot y tuong ve van de giong noi nay. Xin anh giup dum.
có nhiều cách để làm việc với giọng nói lắm. còn tùy theo project của bạn nữa. bạn có thể nêu qua cụ thể bạn muốn làm gì ko? mình sẽ gợi ý giúp cho.
Bạn check inbox nhé, mình muốn hỏi bạn thêm về vấn đề này mà không tiện post làm loãng topic của bạn.
Cảm ơn bạn.
Hell6w9rld@gmail.com
Cho mình xin tài liệu với. Tks bạn
Tài liệu thì bạn xem trong khóa này nè:https://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-345-automatic-speech-recognition-spring-2003/
Về toolkit thì bạn có thể thìm hiểu về CMusphinx, HTK…
còn hiện đại nhất thì bạn nên search về “neural network for speech recognition”, framework thì hình như là kaldi.
Sách thì bạn có thể tham khảo cuốn: “speech and language processing”
bạn cũng có thể xem bài này: https://drive.google.com/file/d/0B2nvwhLjNEHgNFdnVHlKRzBFZ0U/view?usp=sharing