以單位映射與模型回復建立之雙語混合聲學模型

臺灣大學: 電信工程學研究所李琳山葉青峰Yeh, Ching-FengChing-FengYeh2013-03-272018-07-052013-03-272018-07-052011http://ntur.lib.ntu.edu.tw//handle/246246/252967由於全球化的趨勢，多語言混合語句早已大量出現在日常語言之中。本論文研究之目標語料為國立台灣大學電資學院課程，具有高度自發性、背景雜訊較高、雙語混合的特色，雖以中文為主要語言，但其間不時夾雜著英語詞彙或片段，但英語遠比中文為少。本論文研究在這樣狀況下的大字彙連續語音辨識。針對雙語言混合及其高度不平衡之語言分布特性，本論文使用模型單位映射與回復演算法來改善聲學模型，並且探討在隱藏式馬可夫模型架構中，不同單位層級之融合對於辨識效能之影響。本論文所提出之演算法主要可以分為兩階段。第一階段利用接近語者特性之模型計算具語者特色之不同層級之模型單位映射表，並且根據此映射表進行模型融合，以達到跨語言分享參數及語料的目的；第二階段使用模型回復演算法解除模型融合的潛在限制，進一步提升辨識效能。實驗結果證實本論文所提出之演算法能夠有效提升辨識正確率，尤其在客位語言即英語的詞正確率上進步特別明顯。2094393 bytesapplication/pdfen-US聲學模型雙語混合單位映射模型回復Acoustic ModelCode-mixedUnit MappingModel Recovery以單位映射與模型回復建立之雙語混合聲學模型Bilingual Code-Mixed Acoustic Modeling by Unit Mapping and Model Recoverythesishttp://ntur.lib.ntu.edu.tw/bitstream/246246/252967/1/ntu-100-R98942056-1.pdf