30/09/2018, 19:55

Nhận dạng tiếng nói

Hiện tại mình đang tìm hiểu về nhận dạng tiếng nói Tiếng Việt. cơ bản bây giờ mới tìm hiểu về speechh to text và có ý tưởng cao sa là xây dựng trợ lý ảo cho người việt.

Đây là sản phẩm nơi mình đang học… một trong những nơi đầu tiên nghiên cứu về nhận dạng tiếng việt ( sảm phẩm này trước cả VAV của đại học quốc gia nha)

https://www.youtube.com/watch?v=dJW2Jnrel6I

Về chuẩn bị toán học thì sử dụng mô hình HMM và N gram

Về code sử dụng toolkit cmusphinx viết bằng C nhưng chuyên dùng cho android
ưu điểm về speech.

`Ai có hứng thú thì chúng ta lập box thảo luận với nhau và chia sẻ tài liệu nhỉ

Mọi người hãy chia sẻ hiểu biết của mình về nhận dạng tiếng nói để chúng ta cùng thảo luận và lên ý tưởng nào

Pasted image982x590 60.9 KB

Nguyễn Văn Khải viết 21:56 ngày 30/09/2018

hay quá,mình cũng đang làm về đề tài nhận diện giọng nói này nhưng lập trình trên linux,sử dụng mô hình MFCC.

chazo1994 viết 21:58 ngày 30/09/2018

MFCC là để phân tích các đặc tính của speech wave. mình mất khoảng 1 tuần tìm hiểu về nó vì mỗi tài liệu lại có công thức khac nhau! c sài toolkit gì?
t định sài trên ubuntu nhưng code android studio trên ubuntu ổn ko?

Nguyễn Văn Khải viết 21:55 ngày 30/09/2018

mình cũng đang sử dụng ubuntu để làm,viết bằng ngôn ngữ python. python cũng hỗ trợ mấy library của toán nhưng vẫn khó.tìm tài liệu trên mạng chỉ thấy làm bằng matlab vì matlab đã có sẵn mấy cái lib cho giải thuật fft.

chazo1994 viết 21:59 ngày 30/09/2018

viết bằng ngôn ngữ python. python cũng hỗ trợ mấy library của toán nhưng vẫn khó.tìm tài liệu trên mạng

bạn biết sài cmusphinx không? đang mắt chỗ generate dictionary bằng Phonetisaurus

Mai Anh Dũng viết 22:05 ngày 30/09/2018

Đạt đã từng làm cmusphinx để nhận diện ngôn ngữ, nhưng đó là tiếng Anh.

Tiếng Việt thì không có thư viện nên không làm, với lại nhu cầu project là tiếng Anh.

Theo Đạt nhớ không lầm là để chuẩn bị một bộ thư viện tốn rất nhiều thời gian, không biết @chazo1994 đang muốn generate cái gì, file âm thanh hay file map thôi?

chazo1994 viết 22:09 ngày 30/09/2018

rất nhiều thời gian, không biết @chazo1994 đang muốn generate cái gì, file âm thanh hay file map thôi?

bộ thư viện thì em mới đang làm nhận dạng số nên khá nhó.
có về dự án em đang theo là của viện nghiên cứu mica có nhiều người đi trước đã làm bộ thự viện rồi ạ. em chỉ develop thêm.
còn vấn đề em đang mắc với cái Phonetisaurus là lúc cài đặt nó trên ubuntu thôi a. hết error này đến error khác

chazo1994 viết 22:08 ngày 30/09/2018

em đang làm cái nhận dạng số nhỏ nhỏ trươc khi tham gia dự án to. bị mắc khi cài Phonetisaurus. ko biết là có tool nào hay hơn để tạo dic ko a?

*grab popcorn* viết 22:01 ngày 30/09/2018

A post was split to a new topic: Cách đưa các file huấn luyện để máy học nhận diện giọng nói trong VB.Net

Nguyễn Ngọc Đức viết 21:56 ngày 30/09/2018

Em rất hứng thú với cái này. Mà giờ không biết bắt đầu từ đâu.
Các anh có tài liệu không ạ? Em cần biết những thứ gì để có thể code được ạ?

Minh Hoàng viết 21:55 ngày 30/09/2018

Background của bạn? Chỉ hứng thú thôi là chưa đủ.
Nhận dạng tiếng nói thì liên quan đến vision computer.

Nguyễn Công Kiên viết 21:56 ngày 30/09/2018

perfect! hay qúa anh ơi.

TranDinh viết 21:55 ngày 30/09/2018

Mình rất quan tâm và muốn tìm hiểu về vấn đề này. Các bạn có tài liệu hướng dẫn về CMUSphinx cho mình tham khảo với

Nguyễn Duy Hùng viết 22:03 ngày 30/09/2018

Không biết google có api cho chuyển giọng nói không? Thấy dùng nó trên android cũng khá tốt.

Trái Tim Băng Gía viết 22:06 ngày 30/09/2018

Mjk đang tìm hiểu cách nhận dạng giọng nói tiếng việt và chuyển text tiếng việt thành giọng nói bằng ngôn ngữ android. bạn có thể cho mjk xin tài liệu không? mail mjk là: ngocmanbg@gmail.com
Cảm ơn !

chazo1994 viết 22:01 ngày 30/09/2018

Ok mình gửi qua mail nhé.

Kenh Suy Luan Manga viết 22:10 ngày 30/09/2018

Anh ay anh dung phan mem gi tren dien thoai vay, chi cho em voi. neu duoc thi anh co the chi cho em cach lam cai do duoc khong, em cung dang co mot y tuong ve van de giong noi nay. Xin anh giup dum.

chazo1994 viết 22:07 ngày 30/09/2018

có nhiều cách để làm việc với giọng nói lắm. còn tùy theo project của bạn nữa. bạn có thể nêu qua cụ thể bạn muốn làm gì ko? mình sẽ gợi ý giúp cho.

viết 22:03 ngày 30/09/2018

Bạn check inbox nhé, mình muốn hỏi bạn thêm về vấn đề này mà không tiện post làm loãng topic của bạn.
Cảm ơn bạn.

HelloWorld viết 22:07 ngày 30/09/2018

Hell6w9rld@gmail.com
Cho mình xin tài liệu với. Tks bạn

chazo1994 viết 21:56 ngày 30/09/2018

Tài liệu thì bạn xem trong khóa này nè:https://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-345-automatic-speech-recognition-spring-2003/
Về toolkit thì bạn có thể thìm hiểu về CMusphinx, HTK…
còn hiện đại nhất thì bạn nên search về “neural network for speech recognition”, framework thì hình như là kaldi.
Sách thì bạn có thể tham khảo cuốn: “speech and language processing”
bạn cũng có thể xem bài này: https://drive.google.com/file/d/0B2nvwhLjNEHgNFdnVHlKRzBFZ0U/view?usp=sharing

Bình luận về bài viết này

Chia sẻ tin đăng đến bạn bè

Gửi Messenger

Bài liên quan

chazo1994

0 chủ đề

0 bài viết

Tác giả nổi bật