李琳山臺灣大學:資訊工程學研究所陳舜全Chen, Shun-ChuanShun-ChuanChen2007-11-262018-07-052007-11-262018-07-052004http://ntur.lib.ntu.edu.tw//handle/246246/53844語音文件是一整個連續時間的語音資料,天生無標點符號、段落資訊,更沒有標註好標題或摘要。加上在網路或其他管道上,每天都有大量的語音文件產生出來。 在這種情況下,要很有效的利用網路上的語音文件是很不容易的。為了提供使用者大量的多媒體資訊,人們需要花大量的時間與金錢來整理並標註語音資料,這是既耗時又沒有效率的作法。於是,以電腦幫助甚至取代人工作語音文件處理,是有必要且嶄新的一種趨勢。 這一篇論文討論了三種重要的語音文件處理技術,分別對於不同的語音文件處理問題提出可行方案。這三個問題分別是:語音文件的自動切割、自動標題產生以及自動主題分析。語音文件切割能自動的將未標註段落資訊的語音文件,自動切割為一則一則有意義的段落。這樣一來就大大有利於觀看或檢索所需的語音文件,減少需要從頭觀看或收聽整個語音文件的時間。 自動標題產生則是自動為語音文件加註標題。這樣一來,要瀏覽並選擇自己所要的語音文件,就再也不需要盲目的摸索了。 對大量語音文件語料的主題分析,能將語料中的主題以視覺化的方式呈現。並以非常自然的方式呈現出文件主題分佈結構。對於處理大量語料的機構而言是相當重要的。 在這篇論文我們針對這三個問題分別做探討與分析,並且設法改正過去方法的缺點,同時發展出幾種嶄新的方法。這篇論文也對於中文語音文件特性作相對應的處理,並實驗了不同種特徵單位在中文語音文件處理上的效果。我們也利用了主動式學習來降低製作訓練語料的時間與花費,深入的探討了各種可能的情形,並詳作分析。1 導論 1 1.1 研究動機 1 1.2 相關研究 2 1.3 章節大綱 4 2 機率式潛藏語意分析 7 2.1 傳統潛藏語音分析的理論 7 2.2 機率式潛藏語音分析的理論 9 2.2.1 潛藏觀念模型 9 2.2.2 利用最大期望值法計算潛藏觀念模型 10 2.3 潛藏觀念模型的幾何意義 12 2.4 潛藏觀念模型的折入 13 2.5 機率式潛藏語意分析的實作 15 2.6 機率式潛藏語意分析與傳統潛藏語意分析的比較 15 2.7 文件語料上的潛藏觀念模型 16 3 語音文件切割 19 3.1 導論 20 3.2 以句子內聚力為基礎的語音文件切割 20 3.2.1 句子內聚力語音文件切割 21 3.2.2 使用潛藏觀念模型 25 3.3 隱藏式馬可夫模型為基礎做語音文件切割 27 3.3.1 使用語言模型 27 3.3.2 使用機率式潛藏語意分析的潛藏觀念模型 33 3.4 語音文件切割的主動式學習 35 3.4.1 主動式學習 35 3.4.2 確定性選擇抽樣法 36 3.4.3 用主動式學習執行語音文件切割 38 3.5 特徵單位 40 3.6 語音文件切割的評估機制與實驗語料 41 3.6.1 評估機制 41 3.6.2 實驗語料 46 3.7 實驗結果 48 3.7.1 以句子內聚力為基礎的語音文件切割實驗結果 48 3.7.2 隱藏式馬可夫模型語音文件切割實驗結果 51 3.7.3 主動式學習在語音文件切割的實驗結果 55 4 自動標題產生器 59 4.1 導論 59 4.2 整體架構 61 4.3 前置處理 62 4.3.1 關鍵詞的抽取 62 4.3.2 斷詞系統 64 4.3.3 主題分類器 64 4.4 標題產生器 64 4.4.1 最近鄰居法 64 4.4.2 限制字彙型單純貝式法 65 4.4.3 完整字彙型單純貝式法 66 4.4.4 以詞頻倒文件頻做抽取是摘錄法 66 4.4.5 適應性最近鄰居法 67 4.5 後置處理 69 4.6 實驗與評估 69 4.6.1 實驗語料與評估方式 69 4.6.2 以詞為基本單位的實驗結果與評估 71 4.6.3 不同特徵的實驗結果與評估 73 5 語音文件語料的主題分析 79 5.1 導論 79 5.2 機率式潛藏語料庫勘測圖 80 5.3 機率式潛藏語料庫勘測圖的理論 84 5.4 實驗結果 85 6 系統整合 89 6.1 系統整合概述 89 6.2 系統整合瀏覽介面 90 6.3 系統整合自動化流程 91 6.4 實作系統 92 7 結論與展望 95 7.1 結論 95 7.2 展望 981504535 bytesapplication/pdfen-US標題設定主題重組語音文件處理主題切割Topic OrganizationTopic SegmentationSpoken Document ProcessingTitle Generation中文語音文件分析之初步研究-主題切割,標題設定及主題重組Initial Studies on Chinese Spoken Document Analysis - Topic Segmentation, Title Generation and Topic Organizationthesishttp://ntur.lib.ntu.edu.tw/bitstream/246246/53844/1/ntu-93-R91922026-1.pdf