李琳山臺灣大學:資訊工程學研究所傅怡聖Fu, Yi-ShengYi-ShengFu2010-06-092018-07-052010-06-092018-07-052009U0001-1408200905555600http://ntur.lib.ntu.edu.tw//handle/246246/185371隨著無線網路技術日益成熟,手機與各種智慧型手提裝置逐漸普及,功能也越來越強大,需要更直覺且方便的介面來幫助使用者操作這些裝置。語音是人類溝通最自然且方便的方式,因此被視為下一個世代智慧型裝置與人類溝通最適合的介面之一。但一個好用的語音介面前提是要讓使用者可以連續輸入指令,並且沒有詞彙上的限制。因此大字彙連續語音辨識的技術十分重要。 目前學界公認能夠有效處理大字彙連續語音辨識的語音解碼演算法之一是基於詞架構之混淆網路(Word-based Consensus Network),讓一般原本使詞串(Word Utterance)正確率最大的方法可以變成使詞(Word)的正確率為最大。但是因為在中文語言架構中,詞的定義不清且長短不一,反而字(Character)才是有語意(Semantic)的最小單位,且長度變化較為有限。本論文指出基於詞架構之混淆網路並不是十分切合中文大字彙連續語音辨識,並提出了新的方法:基於字架構之混淆網路(Character-based Consensus Network)。 我們以中文廣播新聞為實驗素材,分別使用傳統的語音解碼演算法、基於詞架構之混淆網路、以及基於字架構之混淆網路進行辨識,實驗結果證明了改良後的基於字架構之混淆網路是更適合中文大字彙連續語音辨識的方法。中文摘要 I論 1.1 研究動機 1.2 本論文研究方法與主要成果 2.3 論文架構 3二章 背景知識 4.1語音辨識系統架構 4.1.1 統計式語音辨識原理 5.1.2 聲學模型 7.1.3 語言模型 8.1.4 搜尋演算法 9.2 詞圖(Word Graph) 10.2.1 詞圖定義 10.2.2 應用於詞圖之維特比搜尋演算法 12.3 本論文所使用之基礎實驗 13.3.1 基礎實驗設定 13.3.2 基礎實驗 14.4 總結 15三章 以基於詞架構之混淆網路最小化詞錯誤率 16.1 貝式最大事後機率原理(Maximum A Posterior Principle, MAP)解碼 16.2 最小詞錯誤率之分析 18.2.1基於詞架構之混淆網路 19.2.2產生混淆網路之演算法 21.3 基於詞架構之混淆網路在中文應用上的問題 22.4 總結 23四章 基於字架構之混淆網路 25.1 基於字架構之混淆網路 26.1.1 產生字架構詞圖 26.1.2 估測字事後機率 28.1.3 建構基於字架構之混淆網路 28.2 基於字架構之混淆網路使字錯誤率最小 29.3總結 30五章 實驗比較與討論 31.1 實驗環境 31.1.1聲學模型的建立 31.1.2語言模型的建立 31.1.3參數介紹 32.2 實驗結果分析 32.2.1 使用基於詞架構之混淆網路與基礎實驗的比較 32.2.2使用基於字架構之混淆網路與其餘方法的比較 33.2.3詞圖搜尋寬度的影響 33.2.4 語言模型權重的影響 34.2.5 辨識錯誤類型分析 35.3 本章結論 37六章 結論與展望 39.1 結論 39.2 展望 40考文獻 411082032 bytesapplication/pdfen-US大字彙語音辨識混淆網路speech recognitionconsensus network基於字架構之混淆網路之進一步中文大字彙續語音辨識Improved Large Vocabulary Continuous Mandarin Speech Recognition using Character-Based Consensus Networksthesishttp://ntur.lib.ntu.edu.tw/bitstream/246246/185371/1/ntu-98-R93922076-1.pdf