12/08/2018, 13:26

Xử lý tiếng nói - Tổng quan về tổng hợp tiếng nói và tổng hợp tiếng nói có phong cách

Abstract : Âm thanh một cách tự động với đầu vào là một đoạn văn bản, đó chính là tổng hợp tiếng nói, và đây là một thành phần quan trọng trong tổng hợp tiếng nói. Trong bài này, tôi xin phép trình bày tổng quan về tiếng nói, các hệ thống tổng hợp tiếng nói, và giới thiệu qua về tổng hợp tiếng ...

Abstract: Âm thanh một cách tự động với đầu vào là một đoạn văn bản, đó chính là tổng hợp tiếng nói, và đây là một thành phần quan trọng trong tổng hợp tiếng nói. Trong bài này, tôi xin phép trình bày tổng quan về tiếng nói, các hệ thống tổng hợp tiếng nói, và giới thiệu qua về tổng hợp tiếng nói có phong cách.

I. Tổng hợp tiếng nói

Tổng hợp tiếng nói (Speech synthesis/Tex-to Speech) là quá trình mô phỏng nhân tạo giọng nói con người từ một đoạn văn bản đầu vào

  1. Mô hình tổng hợp tiếng nói
  • Một hệ thống tổng hợp tiếng nói (text-to-speech) chuyển đổi ngôn ngữ thường sang giọng nói, các hệ thống khác chuyển đổi các trình diễn ngôn ngữ mang tính biểu tượng ví dụ như phiên âm sang giọng nói.
  • Chất lượng của một bộ tổng hợp tiếng nói được đánh giá bằng mức độ dễ nghe và giống nhau của nó với giọng nói con người.
  • Một hệ thống tổng hợp tiếng nói bao gồm 2 bộ phận chính như trong hình

tts.jpg

  1. Các phương pháp tổng hợp tiếng nói

    Như đã trình bày ở phần trên, tổng hợp tiếng nói là do máy tính tự động sinh ra, do đó, chất lượng của hệ thống tổng hợp tiếng nói được đánh giá thông qua mức độ dễ hiểu và mức độ tự nhiên của tiêng nói tổng hợp. Mức độ dễ hiểu chỉ đến việc câu phát âm có thể hiểu được dễ dàng không. Mức độ tự nhiên của giọng nói tổng hợp chỉ đến sự giống nhau giữa giọng tổng hợp và giọng nói tự nhiên của người thật. Một máy tổng hợp giọng nói lý tưởng cần vừa tự nhiên vừa dễ nghe, và mục tiêu xây dựng máy tổng hợp giọng nói là làm gia tăng đến mức tối đa hai tính chất này. Một số hệ thống thiên về mức độ dễ hiểu hơn, hoặc mức độ tự nhiên hơn tùy thuộc vào mục đích mà phương pháp được lựa chọn. Môt số phương pháp tổng hợp tiếng nói sẽ được trình bày trong phần này

    2.1. Tổng hợp mô phỏng hệ thống phát âm

    Tổng hợp mô phỏng hệ thống phát âm là phương pháp mà con người cố gắng mô phỏng quá trình tạo ra tiếng nói sao cho càng giống cơ chế phát âm của của con người càng tốt. Vì vậy, về mặt lý thuyết, đây được xem là phương pháp cơ bản nhất để tổng hợp tiếng nói, nhưng cũng vì thế mà phương pháp này khó thực hiện và tính toán nhất, và khó có thể tổng hợp được tiếng nói chất lượng cao. Do những hạn chế trong vấn đề mô phỏng các tham số tiếng nói và năng lực tính toán, mà tổng hợp mô phỏng hệ thống phát âm đã không đạt được nhiều thành công mong đợi như phương pháp tổng hợp tiếng nói khác. Đây là phương đầu tiên được sử dụng để tổng hợp tiếng nói trên thế giới.

    tts2.jpg

    `2.2. Tổng hợp tần số formant

    Tổng hợp tần số formant, hay còn gọi là tổng hợp formant, là kỹ thuật tổng hợp tiếng nói âm học cơ bản nhất, sử dụng lý thuyết mô hình nguồn lọc để tạo tiếng nói. Mô hình này mô phỏng hiện tượng cộng hưởng của các cơ quan phát âm bằng một tập các bộ lọc. Các bộ lọc này còn được gọi là các bộ cộng hưởng formant, chúng có thể được kết hợp song song hoặc nối tiếp với nhau hoặc kết hợp cả hai. Phương pháp tổng hợp formant không phải sử dụng trực tiếp mẫu giọng thật nào khi thực hiện tổng hợp tiếng nói. Thay vào đó, tín hiệu âm thanh được tổng hợp dựa trên một mô hình tuyến âm (vocal tract). Tuy nhiên, phương pháp phân tích tổng hợp vẫn cần mẫu giọng thật ở bước phân tích để có thể trích rút được các đặc trưng formant, trường độ hay năng lượng tiếng nói.

    tts2.jpg

    2.3. Tổng hợp dựa trên ghép nối

    Tổng hợp ghép nối (hay còn gọi là lựa chọn đơn vị âm) là một trong số các phương pháp tổng hợp mới phát triển sau này, kết hợp (ghép nối) các mẫu tiếng nói tự nhiên thu âm sẵn lại với nhau để tạo ra câu nói tổng hợp . Đơn vị âm (unit) phổ biến là âm vị, âm tiết, bán âm tiết, âm đôi, âm ba, từ, cụm từ. Do các đặc tính tự nhiên của tiếng nói được lưu giữ trong các đơn vị âm, nên tổng hợp ghép nối là phương pháp có khả năng tổng hợp tiếng nói với mức độ dễ hiểu và tự nhiên, chất lượng cao. Tuy nhiên, sự gián đoạn tại các điểm ghép nối có thể khiến cho âm thanh biến dạng, mặc dù đã sử dụng biện pháp và thuật toán làm trơn tín hiệu tại chỗ ghép nối. Bên cạnh đó, tập hợp các đơn vị luôn bị hạn chết về số lượng cũng như nội dung, điều này dẫn đến tiếng nói tổng hợp nghe thô rát. Ngoài ra, để có thể lưu trữ được tất cả các đơn vị âm cần thiết cho một lượng đủ lớn các giọng người nói khác nhau, với nhiều ngữ cảnh và đặc trưng trạng thái, thì cần phaircos một không gian rất lớn và tốc độ tính toán, truy vấn của hệ thống mạnh, do đó điều này là không kinh tế.

    tts2.jpg

    2.4. Tổng hợp dùng tham số thống kê HMM

    Hệ thống tổng hợp tiếng nói dựa trên HMM là một phương pháp được nghiên cứu rộng rãi hiện nay, nó dựa vào cơ chế học máy và thông qua bộ lọc để đưa ra câu nói được tổng hợp. Ưu điểm của phương pháp này là cân ít bộ nhớ lưu trữ và tài nguyên hệ thống hơn so với tỏng hợp ghép nối và có thể điều tham số để thay đổi ngữ điệu, thay đổi các đặc trưng người nói. Hệ thống tổng hợp tiếng nói dựa trên HMM là một hệ thống có khả năng tạo ra tiếng nói mang các phong cách khách nhau, với đặc trưng của nhiều người nói khác nhau, thậm chí mang cả cảm xúc của người nói.

    tts2.jpg

    2.5. Một số hệ thống tổng hợp tiếng nói tiếng Việt tiêu biểu

    • Hệ tổng hợp tiếng nói MaryTTS là một một nên tảng dành cho nghiên cứu và phát triên trong tổng hợp tiếng nói, ban đầu, hệ thống này được phát triển dành cho tiếng Đức, sau đó được mở rộng tiếng Anh, tiếng Tây Ban Nha… Hệ thống MaryTTS này sử dụng phương pháp HMM để tổng hợp lên tiếng nói, và dựa vào chuẩn SSML để điều khiển các tham số.
    • Hệ thống tổng hợp tiếng nói V-Talk của Trịnh Anh Tuấn sử dụng phương pháp ghép âm, tuy nhiên, trong quá trình ghép âm, có sử dụng biến đổi cao độ và độ dài của âm để tổng hợp nhằm giảm bớt cơ sở dữ liệu cần lưu trữ.
    • Hệ thống tổng hợp tiếng nói VTed của Nguyễn Thị Thu Trang sử dụng HMM để tổng hợp tiếng nói tiếng Việt, hệ thống này dựa trên nên tảng MaryTTS.
    • Ngoài ra, còn một số hệ tổng hợp tiếng nói khác được phát triển trên tế giới cũng như ở Việt Nam như hệ tổng hợp “Hoa Súng” của Viện nghiên cứu MICA (Đại học Bách Khoa Hà Nội), hay như hệ tổng hợp “Tiếng nói phương Nam”(VoS) của Phòng thí nghiệm Trí tuệ nhân tạo AILab (Đại học Khoa học tự nhiên TP HCM).
  2. Giới thiệu về Speech Synthesis Markup Language (SSML)

  • Để thực hiện xử lý tiếng nói một cách dễ dàng, ta cần phải dựa vào các tham số, do đó, SSML được sinh ra để tạo ra một chuẩn chung điều chỉnh các tham số.
  • SSML là ngôn ngữ đánh dấu cho tổng hợp tiếng nói được phát triển bởi W3C, nó là một trong những tiêu chuẩn được áp dụng trong các hệ tổng hợp tiếng nói, và ngôn ngữ này được xây dựng bằng nên tảng XML, giúp cho việc phân tích và xử lý các dữ liệu một cách dễ dàng hơn.
  • Do SSML được phát triển dựa trên nền tảng XML, nên nó phải tuân theo cấu trúc và cú pháp của XML, do đó, không gian tên của SSML phải được định nghĩa rõ ràng, và http://www.w3.org/2001/10/synthesis là không gian tên chuẩn của SSML và sau đây là một số thành phần đặc trưng của SSML.
    • Thuộc tính speak: thuộc tính này là một thành phần bắt buộc của SSML, nó dùng để xác đinh một file SSML và định nghĩa không gian tên.
    • Thẻ emphasis: thẻ này cho phép chúng ta yêu cầu nhấn mạnh một số điểm trong văn bản, với thẻ emphasis cung cấp cho chúng ta thuộc tính level để người dùng yêu cầu mức độ nhấn mạnh.
    • Thẻ prosody: thẻ này cho phép chúng ta yêu cầu điều khiển về cao độ f0, tốc độ và độ lớn của tiếng nói, nó bao gồm một số thuộc tính như pitch, countour, range, rate, duration.
      • i. Thuộc tính pitch cho phép yêu cầu tăng hoặc giảm tần số của toàn đoạn mà người dùng chỉ ra, thuộc tính này nhận đầu vào là các giá trị là một số kèm theo đơn vị của nó là Hz hoặc một giá trị tương đối (%).
      • ii. Thuộc tính contour cho phép chúng ta yêu cầu biến đổi hình dạng của cao độ của một đoạn tiếng nói cần tổng hợp, đầu vào của thuộc tính này yêu cầu gồm cặp tham số vị trí và giá trị điều khiển. Tham số vị trí được xác định theo % trên toàn câu và giá trị điều khiển có thể là một số với đơn vị theo sau là Hz hoặc là giá trị tương đối (%).
      • iii. Thuộc tính range cho phép chúng ta đăt lại giới hạn cho tiếng nói được xác định khi tổng hợp, giá trị đầu vào của nó là có thể là một số kèm theo đơn vị Hz hoặc một giá trị tương đối (%).
      • iv. Thuộc tính rate cho phép chúng ta yêu cầu tốc độ của đoạn tiếng nói được xác định khi tổng hợp, giá trị đầu vào của thuộc tính này là một giá trị tương đối (%).
      • v. Thuộc tính duration cho phép chúng ta yêu cầu khoảng thời gian cụ thể cho một đoạn tiếng nói được xác định khi tổng hợp, giá trị đầu vào của nó là một số kèm theo đơn vị s.

II. Giới thiệu về tổng hợp tiếng nói có phong cách

  1. Tổng quan tổng hợp tiếng nói có phong cách
  • Như ta đã biết, tổng hợp tiếng nói là phương pháp tạo âm thanh một cách tự động của máy tính với đầu vào là một văn bản. Chúng ta đánh giá chất lượng của âm thanh được tổng hợp dựa trên sự tự nhiên của nó. Bên cạnh đó, mỗi văn bản đầu vào có nhiều dạng khác nhau, ví dụ như đầu vào là một đoạn thơi, một đoạn truyện cười, đoạn truyện kinh dị... Với mỗi đầu vào ta có một phong cách đọc khác nhau, do đó, chúng ta cần phải tổng hợp với các phong cách khác nhau.
  1. Các phương pháp tổng hợp tiếng nói có phong cách
  • Phương pháp tự tổng hợp

    • Trong phương pháp này, chúng ta cần xây dựng bộ dữ liệu đủ lớn, và đa dạng, hệ thống sẽ học một cách tự động và đưa ra cho chúng ta một mô hình, và sẽ xuất ra đoạn âm thanh cần tổng hợp theo phong cách yêu cầu.
    • Ưu điểm: phương dễ thực hiện, và chất lượng tổng hợp khá cao.
    • Nhược điểm: Cần dữ liệu đầu vào đủ lớn.
  • Phương pháp phân tích mô hình

    • Trong phương pháp này, chúng ta chỉ cần một bộ dữ liệu vừa đủ. Dựa trên các tham số của âm thanh và so sánh các phong cách với nhau để đưa ra các mô hình tương ứng.
    • Ưu điểm: Không cần chuẩn bị quá nhiều dữ liệu.
    • Nhược điểm:
      • Dữ liệu yêu cầu phải bao phủ các trường hợp.
      • Một số trường hợp không xác định được mô hình.
      • Chất lượng tổng hợp không cao.

    Trong phần tiếp theo, tôi xin phép trình bày về đặc điểm về tiếng nói, cũng như đặc điểm tiếng việt, một số phương pháp xây dựng bộ dữ liệu

    Cảm ơn các bạn đã theo dõi!

0