01/10/2018, 14:42

Phân đoạn file ghi âm hội thoại theo người nói bằng mfcc

Mình đang muốn lập trình phân đoạn file ghi âm hội thoại theo người nói bằng mfcc. Tức là mình có file ghi âm cuộc hội thọại,1 thời điểm 1 người nói, tách file đấy ra thành nhiều file nhỏ mỗi đoạn 1 người nói
Ai có kinh nghiệm làm rồi giúp mình với

Nguyễn Phạm Anh Quân viết 16:49 ngày 01/10/2018

Tool : https://github.com/tyiannak/pyAudioAnalysis/wiki/5.-Segmentation
Theory : https://www.hindawi.com/journals/mpe/2015/209814/
HMM theory :
https://www.autonlab.org/tutorials/hmm.html
https://www.intechopen.com/books/hidden-markov-models-theory-and-applications

Pukin Cuny viết 16:52 ngày 01/10/2018

mình cảm ơn. Nhưng ở đây là mình cần phân đoạn theo sự thay đổi giọng nói. Mình chưa biết làm thế nào để biết sự khác nhau giữa các đoạn để phân ra. Ở đây mình có tìm ;phương pháp mfcc nhưng vẫn chưa hiểu cách thức làm

Nguyễn Phạm Anh Quân viết 16:49 ngày 01/10/2018

MFCC ko phải phương pháp, nó là đặc trưng của âm thanh, có thể trích xuất bằng FFT! Nguyên tắc là phải có đủ data để máy học rồi phân loại thôi, link của mình có nói về cái này!

Pukin Cuny viết 16:46 ngày 01/10/2018

Mình tưởng phân đoạn ra thì cứ so khớp sau với trước chứ bạn?đây là mình chỉ phân đoạn chứ không phải xác minh người nói. Mình tưởng vậy thì không cần data để máy học nhỉ?

Nguyễn Phạm Anh Quân viết 16:56 ngày 01/10/2018

Ok vậy bạn cứ sử dụng MFCC và các feature khác thử xem sao! Chúc bạn thành công!

Pukin Cuny viết 16:52 ngày 01/10/2018

với cái đề của mình như vậy bạn có ý tưởng gì không?nếu có bạn gợi ý giúp mình với

Bài liên quan
0