Chinese Sentence Segmentation using Machine Learning Methods

Chou, Chien-Yu

Chinese Sentence Segmentation using Machine Learning Methods

Date Issued

2009

Date

2009

Author(s)

Chou, Chien-Yu

URI

http://ntur.lib.ntu.edu.tw//handle/246246/188298

Abstract

豐富轉寫(rich transcription)，即對自動語音辨識(ASR)產生的轉寫添加更豐富的資訊，可以幫助理解語音資訊的內容。本論文研究豐富轉寫中的語句分段(speech sentence segmentation)，即在未分段的轉寫中自動標出語句段落的技術。近年來各種機器學習模型的快速進步並廣泛使用於數位語音處理領域，本論文的研究方法亦是採用這些新模型。論文使用了詞彙特徵(lexical feature)與韻律特徵(prosody feature)作為語句分段之兩大類特徵；比較條件隨機域(CRF)，支撐向量機(SVM)，調適性推昇法(AdaBoost)三種學習模型在COSPRO與MATBN兩套不同語料庫之表現。驗顯示詞彙特徵與韻律特徵彼此有互補的效果。使用條件隨機域為學習模型時以K–平均聚集法(K–means clustering)聚集韻律特徵的表現會比均分K 等分聚集好，使F-測量(F-measure)進步約1%；使用支撐向量機為學習模型在資料不平衡的情況下時，須設法降低不平衡的影響，使F-測量進步約5%。驗顯示在乾淨的朗讀式語料庫COSPRO中，支撐向量機表現最好，達到0.852 的F-測量；而在有雜訊的新聞語料庫MATBN中，條件隨機域表現最好，達到0.750 的F-測量，而調適性推昇法的F-測量在兩套語料庫中都居於中間。實驗並比較三種學習模型的接受器操作特性曲線(receiver operating curve, ROC curve)。與F-測量的趨勢一致。

Subjects

sentence segmentation

rich transcription

prosody

CRF

SVM

AdaBoost

Type

thesis

File(s)

Name

ntu-98-R96942043-1.pdf

Size

23.32 KB

Format

Adobe PDF

Checksum

(MD5):34a1b95a5b06b42eb7fb7c262e3f2791

Chinese Sentence Segmentation using Machine Learning Methods

關於 (About)

聯絡資訊 (Contact Us)

相關網站 (Useful Links)

關於開放取用 (Open Access, OA)

出版社期刊論文授權政策 (Copyright)

使用說明 (Instructions)

登入說明 (Sign-in)

匯入著作 (Submission)