李琳山臺灣大學:電機工程學研究所吳妙嬬Wu, Miao-RuMiao-RuWu2007-11-262018-07-062007-11-262018-07-062007http://ntur.lib.ntu.edu.tw//handle/246246/53087經過多年的發展,中文大字彙語音辨識系統已發展成熟,只要有足夠的訓練語料就能建立起高辨識率的語音辨識系統。隨著全球化的風潮,單一地區內多種語言,尤其是國際通用語言英語與當地語言,的交錯使用已相當普遍,但目前雙語辨識系統的發展程度卻遠不及單語系統。 因此本論文針對中英雙語課程錄音作為目標語料,根據既有的語音辨識系統架構,以不同定義方式設計系統內不同元件,建立雙語語音辨識系統。其中包括雙語詞典的取得、雙語音素集的設計、針對雙語特性設計語言模型、雙語語料分析,以及雙語系統等。 實驗證實,針對辨識流程就每一細部元件詳加設計,的確能夠影響辨識效能;而特別針對目標語料的雙語特性定義細部元件時,大部分多少都能朝向預期目標發展;但囿於訓練語料數量的限制,辨識率變動幅度較不明顯。但我們藉由分析不同元件、方法的辨識結果,得到許多有對發展雙語系統以及課程辨識系統的有效知識及經驗,並於最後提出改進方向。此外,本實驗的目標語料為自發性語音(spontaneous speech),但尚未就此一語料進行任何特殊考慮及設計。志謝 ⅰ 中文摘要 ⅱ 目錄 ⅲ 圖目錄 ⅶ 表目錄 ⅷ 第一章 緒論……………………………………………………………….. 1 1.1 研究動機…………………………………………………………………… 1 1.2 中英雙與連續語音的特性及其辨識系統之考慮..……………………… 2 1.2.1 英文連續語音的特性及其系統………………...………………… 2 1.2.2 中文連續語音的特性及其系統………………...………………… 3 1.2.3 中英雙語語音的特性及其系統………………...………………… 3 1.3 本論文研究主題的背景………...………………...……………………… 4 1.3.1 辭典……………………………………………...………………… 5 1.3.2 音素集…………………………………………...………………… 5 1.3.3 語言模型………………………………………...………………… 5 1.4 本論文所採用的研究方法與主要結果...………...……………………… 5 1.5 章節大要………………………...………………...……………………… 6 第二章 中英雙語連續語音辨識基礎架構及相關研究………………………….. 7 2.1 雙語語音辨識的基本架構………………………………………………… 8 2.1.1 聲學模型………………………………………...………………… 8 2.1.2 辭典……………………………………………...………………… 8 2.1.3 語言模型………………………………………...………………… 9 2.2 雙語語音辨識文獻回顧…………………………………………………… 9 2.2.1 多語系統(Multi-lingual System)...……………...………………… 9 2.2.2 多語語音辨識結合語言辨認系統……………...……………….. 12 2.2.3 混合語言系統(Code-Mixing/Code-Switching)...………………... 13 2.3 本論文實驗語料介紹……………………………………………………. 18 2.3.1 語料內容………………………....……………...………………... 18 2.3.1.1 語音語料……...…………..……………...………………... 18 2.3.1.2 文字語料……...…………..……………...……………….. 20 2.3.2 課程語料特性在雙語語音辨識中的角色……...……………..… 21 2.3.3 辭典在雙語語音辨識中的角色………………...……………….. 22 2.4 實驗工作環境與工具…………………………………………………… 23 2.5 本章結論………………………………………………………………….. 23 第三章 音素集的設計選擇……………………………………………………... 25 3.1 概論……………………………………………………………………….. 25 3.2 音素集定義方式………………………………………………………….. 27 3.2.1 單語音素集特性………………………………...……………….. 29 3.2.2 雙語音素集特性………………………………...……………….. 33 3.3 音素集與決策樹定義方式……………………………………………….. 33 3.3.1 加成三連音素集………………………………...……………….. 35 3.3.1.1 音素直接加成法...………..……………...……………….. 35 3.3.1.2 聲韻母與音素直接加成法(IF-CMU)...….……………….. 37 3.3.2 綜合三連音素集………………………………...……………….. 38 3.3.2.1 基於國際音標的綜合法(IPA-B)..…….....……………….. 39 3.3.2.2 相似度綜合法(LLH-B)……………...…...……………….. 40 3.4 比較與效能分析………………………………………………………….. 41 3.5 本章結論………………………………………………………………….. 42 第四章 語言模型的設計………………………………………………………... 43 4.1 概論………………………………………………………………………. 43 4.2 語言模型基本定義………………………………………………………. 43 4.2.1 N連語言模型….………………………………...………………. 43 4.2.2 語言模型平滑法………………………………...……………….. 45 4.2.3 語言模型評估準則 – 混淆度(Perplexity)…......……………….. 46 4.2.4 雙語語言模型………………………………...………………….. 47 4.3 語言模型實驗定義方式………………………………………………….. 48 4.3.1 完全相關語言模型……………………………...……………….. 48 4.3.1.1 雙連語言模型與三連語言模型........…………………….. 48 4.3.1.2 以詞群為基礎的語言模型..………...…...……………….. 49 4.3.2 部份相關語言模型……………………………...……………….. 52 4.3.2.1 語言模型調適………………………........……………….. 52 4.4 比較與效能分析…………………………………………………………. 55 4.5 本章結論…………………………………………………………………. 56 第五章 實驗結果與討論……………………………………………………….. 57 5.1 基礎實驗(Baseline)……………………………………………………… 57 5.2 使用不同辭典造成的影響……………………………………………… 58 5.3 使用不同音素集造成的影響…………………………………………… 58 5.3.1 完整音素直接加成雙語音素集………………...……………….. 59 5.3.2 聲韻母與音素直接加成雙語音素集…………...……………….. 60 5.3.3 基於國際音標的綜合音素集…………….…......……………….. 62 5.4 使用不同語言模型造成的影響…………………………………………. 63 5.4.1 完全相關語言模型……………………………...……………….. 63 5.4.1.1 基礎雙連語言模型與基礎三連語言模型……………….. 63 5.4.1.2 以詞群為基礎的語言模型..………...…...……………….. 64 5.4.2 調適語言模型—使用部份相關語言模型………...…………….. 66 5.5 本章結論………………………………………………………………….. 67 第六章 結論與展望……………………………………………………………... 69 6.1 分析與討論……………………………………………………………….. 70 6.2 展望………………………………………………………………………. 70 6.2.1 雙語辨識系統的展望…………………………...……………….. 70 6.2.2 課程錄音辨識系統的展望……………………...……………….. 70 參考文獻…………………………………………………………………….…… 71 附錄……………………………………………………………………………….... 73870778 bytesapplication/pdfen-US雙語音素集語言模型辭典bilingualphone setlanguage modellexicon以課程錄音為基礎的中英雙語語音辨識之初步研究Initial Study on Chinese/English Bilingual Speech Recognition based on Lecture Recordingthesishttp://ntur.lib.ntu.edu.tw/bitstream/246246/53087/1/ntu-96-R94921036-1.pdf