基於語料庫及辭典精緻化之中文語言模型強化之研究

李琳山臺灣大學：資訊工程學研究所張碧娟Chang, Pi-ChuanPi-ChuanChang2007-11-262018-07-052007-11-262018-07-052004http://ntur.lib.ntu.edu.tw//handle/246246/54116在語音辨識的研究中，使用一個對目標語料的語句有良好估測能力的語言模型，可以有效地提高語音辨識效能。因此各語音辨識系統相關的研究中，語言模型的部分向來是辨識系統中最核心的部分之一。在各式各樣的語言模型中，N連統計式語言模型是使用在語音辨識系統中，最為有效且成左漱@種模型。然而N連語言模型受到其訓練或調適所使用之文字語料的影響甚鉅，因此語料庫精緻化就成為語音辨識之語言模型研究中很重要的課題之一。此外，語音辨識的語言模型中，另一個重要的議題就是辭典的取得，這個問題在中文語言處理中更顯得重要，由於中文的詞與詞之間沒有明確的分隔，因此中文抽詞、斷詞問題向來也是研究的重點之一。故本論文中主要內容將分成語料庫精緻化、辭典精緻化、以及如何將這些技術整合使用在實際的問題上，以強化語言模型並得到更好的辨識效能。語料庫精緻化，對於N連語言模型使用在辨識系統中的效能有極大的影響。本論文中首先討論兩種重大的目標語料與訓練語料的不匹配性問題，接著討論如何取得適當的訓練語料庫，本文中先提出兩種來源的語料庫 --- 既有語料庫及衍生語料庫，其中既有語料庫指的是現存容易取得的、和目標語料有較高相關性的語料庫，而衍生語料庫指的則是以基礎轉寫結果為基礎，建構適當的查詢指令，從網際網路收集得到的語料庫。在處理廣播新聞語料的實驗中，由於高品質的既有語料庫(大量匹配性高的文字新聞語料)很容易取得，因此使用既有語料庫的辨識效能很明顯勝過使用衍生語料庫時的效能。然而，針對其他不容易取得既有語料庫的應用領域，衍生語料庫是相當重要的。另外，針對衍生語料庫中使用的查詢指令之建構，本論文提出兩種建構法 --- 分離式三連詞查詢指令建構法、相連式高信心量度查詢指令建構法。由實驗結果所得到的結論為：使用相連式高信箱連度查詢指令建構法時，可取得量較小但品質較好的衍生語料庫。辭典精緻化，在中文語言模型中佔有很重要的地位。本論文中首先討論傳統詞的定義，並討論使用在語音辨識應用中的詞的統計式定義，包括一個好的詞必須要高的內聚力，並且其左右文相依性必須要低（亦即有良好的左右詞邊界）。接著本文中分別就兩種不同的抽詞法 --- 派樹抽詞法、及迭代式組合式抽詞法，進行討論。再者，由於統計式抽詞法中，其演算法中使用的參數調整是一個重要的問題，因此在本論文中分別針對詞邊界量度的相異左/右相連詞個數門檻值、及最高特定左/右相連詞比例門檻值，還有內聚力量度的重疊子片段樣式之關聯基準量、及相鄰詞內聚力量度進行實驗及討論。由實驗的結果證明，在為了語音辨識的目的抽詞時，在詞邊界量度中的最高特定左/右相連詞比例門檻值事實上是應該被捨棄的。此外，實驗結果也顯示，迭代式組合式抽詞法的效能勝過於派樹抽詞法。推測其原因，是因為迭代式組合式抽詞法是從一初始辭典開始成長，因此不但具有統計式的長處，同時也善用了初始辭典所蘊含的詞的知識。最後，本論文將各種語言模型強化的技術，整合使用在解決兩個實際的語音辨識問題 --- 廣播新聞語料及訪談語料。由於這兩組目標語料的特性迥異，因此在語料庫的取得及精緻化、辭典的精緻化等問題上，會遭遇到不同的問題。本論文藉著將語言模型強化使用在此兩種目標語料上的實驗，來討論先前提過各種方法的效能。實驗的結果，說明了對於廣播新聞語料來說，由於其既有語料庫容易取得，因此採用既有語料庫，加上分群分類架構並搭配上辭典精緻化，便可得到相當好的辨識率的進步率。但在訪談語料的實驗中，可以發現其不匹配性高，且既有語料庫的取得困難，因此具有比較大的挑戰，本論文中亦作了一些初步的嘗試，使得其辨識效能有些釭獐W進。目錄誌謝 v 摘要 vii 圖目錄 xv 表目錄 xvii 1 導論 1 1.1 研究動機 1 1.2 相關研究 2 1.3 研究方向及成果 5 1.4 章節安排 6 2 理論背景與實驗環境介紹 9 2.1 大字彙連續語音辨識問題 9 2.2 N連統計式語言模型 11 2.2.1 語言模型評估量度 15 2.2.2 統計式語言模型的調適 17 2.3 實驗環境 18 2.3.1 語音辨識系統 18 2.3.2 文字語料庫 18 2.3.3 語音語料 19 2.3.4 辭典 19 3 語料庫精緻化 21 3.1 目標與訓練語料的不匹配 21 3.1.1 主題不匹配 22 3.1.2 時間不匹配 23 3.2 精緻語料庫的取得 24 3.2.1 既有語料庫與衍生語料庫 25 3.2.2 分離式三連詞查詢指令建構法 26 3.2.3 相連式高信心量度查詢指令建構法 27 3.3 分群分類架構 28 3.3.1 文件分群 29 3.3.2 文件分類 29 3.3.3 分群分類法之應用 30 3.4 主題匹配性之實驗結果與比較 31 3.4.1 分群分類架構的影響 32 3.4.2 既有語料庫和衍生語料庫之比較 35 3.4.3 查詢指令建構法之比較 37 3.5 時間匹配性之實驗結果與比較 38 3.5.1 以長度一個月的滑動窗進行時間重疊性分析 39 3.5.2 如何細緻選擇時間匹配語料庫 42 3.6 本章結論 44 4 辭典精緻化 47 4.1 詞的定義與問題 47 4.2 派樹抽詞法 49 4.2.1 片段樣式內聚力量度 50 4.2.2 片段樣式之左右文相依性 52 4.2.3 派樹抽詞法需調整之參數 54 4.3 迭代式組合式抽詞法 54 4.3.1 相鄰詞內聚力量度 55 4.3.2 左右文變異統計 (Context Variaion Statistics) 56 4.3.3 迭代式組合式抽詞法整體架構 57 4.4 實驗結果與比較 58 4.4.1 一字辭典及基礎辭典實驗 58 4.4.2 片段樣式左右蚊香一性之二門檻值--tf與ts 59 4.4.3 片段樣式之相異相連詞個數門檻值tf與重疊子片段樣式之關聯基準量（內聚力）門檻值tMI 64 4.4.4 迭代式組合式抽詞法之實驗 68 4.5 本章結論 70 5 語言模型強化之整合研究 73 5.1 廣播新聞語料 73 5.1.1 廣播新聞語料之特性 73 5.1.2 同時精緻化語料庫及辭典以強化語言模型之實驗 74 5.2 訪談語料 75 5.2.1 訪談語料之特性 75 5.2.2 本論文實驗使用之訪談語料介紹 75 5.3 針對訪談語料之語言模型 76 5.3.1 採用新聞語料訓練的語言模型及辭典進行辨識 76 5.3.2 採用平衡語言模型進行辨識 77 6 結論與展望 79 6.1 總結與討論 79 6.2 展望 81 參考文獻 832068562 bytesapplication/pdfen-US語言模型語音辨識辭典語料庫CorpusSpeech RecognitionLanguage ModelingLexicon基於語料庫及辭典精緻化之中文語言模型強化之研究Chinese Language Modeling Enhancement by Corpora and Lexicon Refinementthesishttp://ntur.lib.ntu.edu.tw/bitstream/246246/54116/1/ntu-93-R91922006-1.pdf