HMM-Based Chinese Text-To-Speech System
Date Issued
2011
Date
2011
Author(s)
Tso, Chin-Heng
Abstract
語音合成系統近年發展主要可分為兩大類,第一為串接式的語音合成,從錄製好的語音資料庫中挑選所需音訊片段,串接而成所需之語音。第二則是統計模型式的語音合成,不同於前者,此方式會以語音資料庫訓練聲學模型,並於合成時以該模型計算出語音特徵參數,並合成所需之語音。
本論文實作基於隱藏式馬可夫模型之中文語音合成系統,屬於上述第二種語音合成方式。針對中文語音的特性,於訓練隱藏式馬可夫模型的階段,考慮訓練語句之聲調以及韻律結構等影響,訓練出不同韻律特性之聲學模型。並於合成階段,對欲合成的輸入文字進行分析,以條件隨機域模型預測其韻律結構,並配合上述聲學模型合成語音。實驗結果顯示,考慮以上中文特性確實有助於改善合成之語音,不論是以語音訊號誤差為標準的客觀評估,或是以人的聽覺為主的主觀評估,結果皆有進步。
本系統亦結合臉部嘴型動畫合成系統,將合成語音與臉部動畫結合,成為一個Talking Head系統。
本論文實作基於隱藏式馬可夫模型之中文語音合成系統,屬於上述第二種語音合成方式。針對中文語音的特性,於訓練隱藏式馬可夫模型的階段,考慮訓練語句之聲調以及韻律結構等影響,訓練出不同韻律特性之聲學模型。並於合成階段,對欲合成的輸入文字進行分析,以條件隨機域模型預測其韻律結構,並配合上述聲學模型合成語音。實驗結果顯示,考慮以上中文特性確實有助於改善合成之語音,不論是以語音訊號誤差為標準的客觀評估,或是以人的聽覺為主的主觀評估,結果皆有進步。
本系統亦結合臉部嘴型動畫合成系統,將合成語音與臉部動畫結合,成為一個Talking Head系統。
Subjects
HMM
TTS
Prosody structure
CRF
Lip-sync animation
Type
thesis
File(s)![Thumbnail Image]()
Loading...
Name
ntu-100-R98921029-1.pdf
Size
23.32 KB
Format
Adobe PDF
Checksum
(MD5):3647ae6147d423c3a625965d604856ea