李琳山臺灣大學:電機工程學研究所李延信Lee, Yen-ShinYen-ShinLee2007-11-262018-07-062007-11-262018-07-062006http://ntur.lib.ntu.edu.tw//handle/246246/53504在這個科技日新月異的時代,多媒體數位資訊的成長相當迅速,也最為人們所吸引。其中所包含的語音資訊,往往提供了多媒體數位內容非常重要的訊息,因此在檢索或瀏覽大量的多媒體數位內容時,語音文件將成為一個很重要的角色。但是想要一一的瀏覽語音文件,也是是一件很費時費力的的事情,因此分析語音文件,偵測相關主題或者事件,再將結果呈現給使用者瀏覽是一門非常重要的課題。 在本篇論文中,提出了一套方法可以針對語音文件,進行事件的的偵測與時間的分析,找出在語音文件中所包含的一些重要事件及其發生時間,並將這些事件以視覺化的介面呈現,提供使用者更方便的瀏覽環境。 這套方法主要是以傳統的文件分類、主題分析的方法為基礎,利用文件的內容(document content)與文件發佈的時間戳記(timestamp)這兩種資訊,進而找出在時間軸上相對應的事件。將事件根據時間的前後順序一一呈現,同時並呈現該事件的概略摘要。若使用者想要更進一步的了解該事件,也能很輕鬆的透過介面而得到想要的資訊。 本論文也描述了一套台大語音實驗室所發展的以中文語音新聞為例的搜尋瀏覽系統,整合了語音文件的類專有名詞抽取、切割、資訊檢索、標題與摘要自動產生,並且提出與此系統互相整合的方法。摘要 I 第1章 導論 1 1.1 研究動機 1 1.2 相關研究 2 1.3 研究方向 3 1.4 章節大綱 4 第2章 基本背景知識及實驗語料庫介紹 5 2.1 事件之定義 5 2.2 事件偵測之方法與常用特徵 6 2.2.1 標準向量空間模型 6 2.2.2 階層式聚合分群演算法 8 2.2.3 事件偵測常用的方法 10 2.3 評估機制 11 2.4 實驗語料庫 13 2.5 機率式潛藏語意分析 14 2.5.1 傳統潛藏語意分析的理論 14 2.5.2 機率式潛藏語意分析的理論 16 2.5.3 利用機率式潛藏語意模型對文件分類 19 2.5.4 機率式潛藏語意分析與傳統潛藏語意分析的比較 20 2.6 本章結論 20 第3章 利用機率模型對文字新聞進行事件偵測與時間分析 21 3.1記事與事件的特性 21 3.2 機率式事件分析與偵測模型 22 3.2.1記事與事件的表達 23 3.2.2 記事的生成模型 24 3.2.3 利用最大期望值演算法求取生成模型 26 3.3 記事文件的選擇與模型係數初始值設定之方法 28 3.3.1 重要記事文件選擇的方法 29 3.3.2 模型參數初始值之設定 32 3.4將時間資訊加入機率式潛藏語意模型 33 3.5評估效能與實驗結果比較 34 3.5.1 各種事件偵測方法之結果比較 34 3.5.2 選取記事文件的各種方法評比 40 3.5.3 各種模型初始條件設定方法之評比 44 3.6 本章結論 46 第4章 對中文語音新聞進行事件偵測與時間分析 47 4.1 語音文件與文字文件的差異 47 4.2 中文語言特性與分析中文語音文件常用索引特徵 48 4.3 使用不同索引特徵來進行事件偵測的結果比較 50 4.4 結合不同索引特徵提升事件偵測效能 56 4.5 本章結論 57 第5章 事件總數之選定 59 5.1 事件決定之方法 59 5.1.1 以階層式聚合分群法決定事件總數 59 5.1.2 以顯著峰頂法決定事件總數 61 5.2 事件數選定之結果比較 64 5.3 本章結論 66 第6章 事件之呈現與系統整合 69 6.1 事件摘要 69 6.1.1 事件摘要方法 70 6.1.2 事件摘要的結果 72 6.2 事件之呈現 73 6.3 語音文件檢索系統介紹 75 6.4 系統整合 78 6.5 本章結論 78 第7章 結論與展望 79 7.1 結論 79 7.2 展望 80 參考文獻 83707729 bytesapplication/pdfen-US文件分類事件偵測語音文件document clusteringevent detectionspeech document語音文件之事件偵測與時間分析─以廣播新聞為例Event Detection and Time Analysis for Spoken Documents─Examples with Broadcast Newsthesishttp://ntur.lib.ntu.edu.tw/bitstream/246246/53504/1/ntu-95-R93921103-1.pdf