李琳山Lee, Lin-Shan臺灣大學:資訊工程學研究所張弘霖Chang, Hung-LinHung-LinChang2010-06-022018-07-052010-06-022018-07-052008U0001-2207200814403400http://ntur.lib.ntu.edu.tw//handle/246246/184969結合多種影音效果的多媒體文件,隨著網路世界的流通,正逐漸成為身處數位時代中的人們,吸取新資訊的重要來源。而這些多媒體文件所帶有的語音訊息,更常常扮演著其中最為關鍵的角色。但是瀏覽以語音資訊為主的文件,並沒有辦法像瀏覽文字文件一樣地方便,因此以快速而準確地從眾多語音文件中,找到使用者想要知道的資訊為目標的語音文件檢索相關技術,自然也就日漸受到大家的注目了。起文字文件檢索,語音文件檢索尚須面對在自動語音辨識過程中,由於環境雜訊或是語者說話型態等因素,而可能會產生的高辨識錯誤率,使得檢索的難度更加上升。因此,如何為語音文件建立起良好的索引方式,來盡可能保存有助於語音文件檢索工作進行的資訊,便是本論文的第一項主題。以詞為單位之位置特定事後詞圖,充分使用候選詞於詞圖上的位置資訊,在過去的研究中展現出在語音文件檢索工作上的優勢。本論文則是更進一步,思考以字元或是音節等次詞單元作為建立位置特定事後機率詞圖的基本單位,不但順利地解決了原先以詞為單位之位置特定事後機率詞圖所無法處理的詞典外詞彙問題,而同時也能達到更好的檢索效果。件檢索系統於實際應用時,常常有不少與查詢指令高度相關的文件,因為沒有包含查詢詞,而無法被基於字面比對的檢索系統所檢索出來。本論文的第二項主題便是以此為出發點,引入機率式潛藏語意分析模型,利用詞彙在潛藏觀念上的機率分佈,建立有效的詞彙相關度量測方法。接著我們再將其應用至以潛藏語意為基礎的檢索模式上,適度解決了字面比對無法處理的查詢詞與檢索目標文件無法匹配的問題。誌謝 i要 iii錄 v目錄 ix目錄 xi一章 導論 1.1 研究動機 1.2 國際相關研究 2.3 本論文之研究方向及背景 3.4 章節大綱 5二章 基本背景知識介紹 7.1 文件檢索技術的基本概念 7.2 語音文件索引之介紹 9.2.1文件索引對於檢索工作之重要性 9.2.2 文字與語音索引之差異 10.2.3典型的語音索引方式 11.2.3.1 最佳序列 11.2.3.2 詞圖 13.2.3.3 混淆網路 14.3資訊檢索之評估機制 16.3.1準確率與召回率 17.3.2文字檢索會議評估機制 18.4 本章總結 19三章 位置特定事後機率詞圖 21.1位置資訊對於文件檢索的重要性 21.2 以詞為單位之位置特定事後機率詞圖 25.2.1 軟性匹配 25.2.2 特定位置之事後機率 26.3 以次詞為單位之位置特定事後機率詞圖 28.3.1 詞典外詞彙問題 28.3.2 次詞單元 30.3.3 以次詞單元為單位之位置特定事後機率 31.4 基於位置特定事後機率詞圖之語音文件的索引與檢索 35.4.1 以位置特定事後機率詞圖作為語音文件之索引 35.4.2 以位置特定事後機率詞圖為基礎之語音文件檢索 35.5 位置特定事後機率詞圖應用於語音文件檢索之實驗 37.5.1 實驗語料與測試環境介紹 37.5.2 實驗方法與結果分析 37.5.2.1 綜合詞典內詞彙與詞典外詞彙查詢指令之檢索 39.5.2.2 詞典內詞彙查詢指令之檢索 42.5.2.3 詞典外詞彙查詢指令之檢索 45.5 本章總結 48四章 混淆網路與位置特定事後機率詞圖作為語音文件索引之比較 49.1 混淆網路與位置特定事後機率詞圖概念的回顧 49.2 混淆網路與位置特定事後機率詞圖架構差異之分析 50.3 混淆網路與位置特定事後機率詞圖作為語音文件索引之實驗 54.3.1 實驗語料與測試環境介紹 54.3.2 實驗方法與結果分析 54.3.2.1 語音索引之涵蓋性 55.3.2.2 語音文件之檢索效能 56.3.2.3 索引儲存空間與檢索效能之綜合比較 60.4 本章總結 62五章 基於機率式潛藏語意分析模型之相關詞彙抽取 63.1 機率式潛藏語意分析 63.1.1 傳統潛藏語意分析的概念 63.1.2 機率式潛藏語意分析的概念 65.1.2.1 潛藏觀念模型 65.1.2.2 使用最大期望值演算法求取潛藏觀念模型 68.2 相關詞彙抽取 69.2.1 以總體分析法為基礎之相關詞彙抽取 69.2.2 以潛藏觀念模型為基礎之相關詞彙抽取 72.3 相關詞彙抽取實驗 74.3.1 實驗語料與測試環境介紹 74.3.2 基礎相關詞彙抽取實驗 75.3.3 基於關鍵詞之相關詞彙抽取實驗 77.4 本章總結 81六章 基於潛藏語意之語音文件檢索 83.1 詞彙相關度量測於文件檢索之應用 83.2由位置特定事後機率詞圖進行詞典內詞彙抽取 85.3 基於潛藏語意之檢索系統架構 86.4 基於潛藏語意之語音文件檢索實驗 89.4.1 實驗環境與測試語料介紹 89.4.2 實驗方法與結果分析 89.4.2.1 基準實驗 90.4.2.2 距離度量方式分析實驗 91.4.2.3 潛藏觀念數目分析實驗 92.4.2.4 索引詞裁剪分析實驗 93.4.2.5 詞彙相關度閥值分析實驗 95.4.2.6 詞彙相關度權重分析實驗 98.4.2.7 基於關鍵詞之語音文件檢索實驗 100.4.2.8 基於潛藏語意與基於字面比對的語音文件檢索實驗之比較 102.4.2.9 語音文件檢索結果之展現 104.5 本章總結 105七章 結論與展望 107.1 論文總結 107.2 未來展望 109考文獻 111application/pdf1902984 bytesapplication/pdfen-US語音文件檢索機率式潛藏語意分析模型位置特定事後機率詞圖Spoken Document RetrievalProbabilistic Latent Semantic AnalysisPosition Specific Posterior Lattices基於位置特定事後機率詞圖及潛藏語意分析之語音文件檢索Spoken Document Retrieval Based on Position Specific Posterior Lattices and Latent Semantic Analysisthesishttp://ntur.lib.ntu.edu.tw/bitstream/246246/184969/1/ntu-97-R95922040-1.pdf