李琳山臺灣大學:電信工程學研究所周建宇Chou, Chien-YuChien-YuChou2010-07-012018-07-052010-07-012018-07-052009U0001-0807200923461100http://ntur.lib.ntu.edu.tw//handle/246246/188298豐富轉寫(rich transcription),即對自動語音辨識(ASR)產生的轉寫添加更豐富的資訊,可以幫助理解語音資訊的內容。本論文研究豐富轉寫中的語句分段(speech sentence segmentation),即在未分段的轉寫中自動標出語句段落的技術。近年來各種機器學習模型的快速進步並廣泛使用於數位語音處理領域,本論文的研究方法亦是採用這些新模型。論文使用了詞彙特徵(lexical feature)與韻律特徵(prosody feature)作為語句分段之兩大類特徵;比較條件隨機域(CRF),支撐向量機(SVM),調適性推昇法(AdaBoost)三種學習模型在COSPRO與MATBN兩套不同語料庫之表現。驗顯示詞彙特徵與韻律特徵彼此有互補的效果。使用條件隨機域為學習模型時以K–平均聚集法(K–means clustering)聚集韻律特徵的表現會比均分K 等分聚集好,使F-測量(F-measure)進步約1%;使用支撐向量機為學習模型在資料不平衡的情況下時,須設法降低不平衡的影響,使F-測量進步約5%。驗顯示在乾淨的朗讀式語料庫COSPRO中,支撐向量機表現最好,達到0.852 的F-測量;而在有雜訊的新聞語料庫MATBN中,條件隨機域表現最好,達到0.750 的F-測量,而調適性推昇法的F-測量在兩套語料庫中都居於中間。實驗並比較三種學習模型的接受器操作特性曲線(receiver operating curve, ROC curve)。與F-測量的趨勢一致。目錄試委員會審定書 i文摘要 ii錄 iii目錄 vi目錄 viii一章 緒論 1.1 語句分段與自發性語音處理之簡介與重要性 1.2 相關文獻回顧 4.3 本論文之研究方法與主要成果 5.4 章節概要 6二章 背景知識 7.1 前人使用的方法 7.2 督導式學習 8.3 條件隨機域 11.3.1 隱馬可夫模型 11.3.2 最大化熵值 13.3.3 條件隨機域 14.4 支撐向量機 16.5 綜合學習法 21.5.1 K–交叉驗證 23.5.2 自集成法 23.5.3 調適性推昇法 25.6 分類器結合 28.7 本章結論 30三章 實驗架構 31.1 實驗語料庫簡介 31.1.1 COSPRO 31.1.2 MATBN 31.2 系統架構 31.3 韻律特徵簡介 32.3.1 音高曲線基頻擷取以及音高特徵 35.3.2 能量特徵 36.3.3 長度特徵與停頓特徵 37.4 本章結論 37四章 中文語句分段之實驗 39.1 精確率、召回率、F-測量 39.2 中文語句分段實驗設計 41.3 中文語句分段實驗結果 42.3.1 以條件隨機域進行語句分段 42.3.2 以支撐向量機進行語句分段 44.3.3 以調適性推昇法進行語句分段 44.3.4 自動語音辨識錯誤對語句分段實驗的影響 46.3.5 在MATBN語料庫與在COSPRO語料庫語句分段實驗比較 47.4 本章結論 51五章 結論與展望 53.1 結論 53.2 展望 53考文獻 552938392 bytesapplication/pdfen-US語句分段豐富轉寫詞彙特徵韻律特徵條件隨機域支撐向量機調適性推昇法sentence segmentationrich transcriptionprosodyCRFSVMAdaBoost基於機器學習之中文語句分段Chinese Sentence Segmentation using Machine Learning Methodsthesishttp://ntur.lib.ntu.edu.tw/bitstream/246246/188298/1/ntu-98-R96942043-1.pdf