李琳山臺灣大學:電信工程學研究所郭克儉Kuo, Ko-ChienKo-ChienKuo2007-11-272018-07-052007-11-272018-07-052007http://ntur.lib.ntu.edu.tw//handle/246246/58586科技的快速發展帶給我們許多便利,也使得生活上所得資訊不再只限於文字,而有了多媒體與語音文件。為了方便整理和快速瀏覽,我們先使用自動語音辨識將多媒體文件的語音訊號轉寫 (Transcribe) 為文字後再做處理,呈現。處理的方式包括分類、自動摘要 (Automatic Summarization)、和自動標題產生(Automatic Title Generation)等。 本論文除了探討純文字文件下的自動標題產生,另一個研究主題為針對經自動轉寫產生,與有錯誤的文件中做自動標題產生。論文中以語音新聞為例,探討辨識錯誤對自動標題產生的影響。 本論文內容主要分為三大部分:”建造式標題產生法基本型”、”建造式標題產生法之改進及用於自動轉寫有錯誤之文件”,以及”使用不同特徵單位於建造式標題產生法中”。出步實驗顯示若干效能的提升是做得到的。Title generation is considered important in the near future for easy browsing and retrieving the multimedia document. The natural properties of titles are different from summaries, which make automatic title generation a more challenging task and hence not much improvement has been reported compared with automatic summarization. In this paper an improved non-extractive title generation method is developed. An evaluating data is first summarized and then with Viterbi beam search and various scores learnt form training corpus, we found the output title. Very positive results were btained.封面………………………………………………………………………………… i 口試委員會審定書………………………………………………………………… ii 中文摘要…………………………………………………………………………… iii 目錄………………………………………………………………………………… iv 圖目錄……………………………………………………………………………… v 表目錄……………………………………………………………………………… vi 第一章 導論…………………………………………………………………… 1 1.1 研究動機……………………………………………………………………… 1 1.2 相關研究………………………………………………………………… 2 1.3 本論文研究方法與主要成果…………………………………………… 3 1.4 論文架構 ………………………………………………………………… 4 第二章 知識背景及實驗語料介紹 ……………………………………………… 6 2.1 研究動機 ……………………………………………………………………… 6 2.0 導論 ……………………………………………………………………… 6 2.1 機率式潛藏語意分析模型 ……………………………………………… 6 2.1.1 潛藏觀念模型 …………………………………………………… 7 2.1.2 利用最大期望值法求得潛藏觀念模型 ………………………… 8 2.2 類專有名詞擷取及其他關鍵用語 ……………………………………… 10 2.2.1 派樹式類專有名詞抽取 ………………………………………… 11 2.2.2 類專有名詞外其他關鍵用語擷取 ……………………………… 13 2.3 應用機率式潛藏語意分析模型之語音文件摘要 ……………………… 14 2.4 統計式語言模型 ………………………………………………………… 15 2.5 實驗語料介紹與評估方式 ……………………………………………… 17 2.5.1 實驗語料介紹 …………………………………………………… 17 2.5.2 實驗評估方式 …………………………………………………… 17 2.5.2.1 專人評比相關度與可讀性 ……………………………… 18 2.5.2.2 F評比 …………………………………………………… 20 第三章 建造式標題產生法基本型 ………………………………………………22 3.0 導論 …………………………………………………………………………… 22 3.1 整體架構 ……………………………………………………………………… 23 3.2 前處理 ………………………………………………………………………… 25 3.2.1 類專有名詞擷取 ……………………………………………………… 25 3.2.2 類專有名詞外其他標題用語選取 …………………………………… 25 3.2.3 語音文件之摘要擷取 ………………………………………………… 28 3.3 建造式標題產生法 …………………………………………………………… 29 3.3.1 標題用語選擇 ………………………………………………………… 30 3.3.2 標題結構模型 ………………………………………………………… 31 3.3.3 標題長度模型 ………………………………………………………… 33 3.3.4 建造式標題模型 ……………………………………………………… 35 3.3.5 維特比光束搜尋 ……………………………………………………… 36 3.4 本章結論 ……………………………………………………………………… 38 第四章 建造式自動標題產生法之延伸 ………………………………………… 39 4.0 導論 …………………………………………………………………………… 39 4.1 實驗語料介紹 ………………………………………………………………… 39 4.2 摘要比例之效應 ……………………………………………………………… 40 4.3 語言模型之效應 ……………………………………………………………… 41 4.4 位置分數的效應 ………………………………………………………… 43 4.5 潛藏主題亂度分數的效應 …………………………………………………… 45 4.6 N-連詞性標記模型的效應 …………………………………………………… 45 4.7 類專有名詞的效應 …………………………………………………………… 46 4.8 關鍵用語的效應 ……………………………………………………………… 47 4.9 長度模型的效應 ……………………………………………………………… 48 4.10 適應性最近距離法、建造式標題產生法基本型、與調整參數後之建造式標題產生法綜合比較 ………………………………………………………………… 49 4.11 人工綜合評比 …………………………………………………………………52 4.12 不同領域下之表現 ………………………………………………………… 53 4.13 本章結論 …………………………………………………………………… 56 第五章 建造式標題產生法應用於有錯誤率之文件 …………………………… 57 5.0 導論 …………………………………………………………………………… 57 5.1 測試文件具有錯誤率的情況 ………………………………………………… 59 5.2 使用不同特徵單位於自動標題產生 ………………………………………… 62 5.2.1 在人工轉寫上的實驗結果與比較 …………………………………… 64 5.2.2 在自動轉寫上的實驗結果與比較 …………………………………… 67 5.3 本章結論 ……………………………………………………………………… 71 第六章 結論與未來展望 ………………………………………………………… 72 6.1 結論 …………………………………………………………………………… 72 6.2 未來展望 ……………………………………………………………………… 73 參考文獻 …………………………………………………………………………… 74632445 bytesapplication/pdfen-US語音文件 自動標題產生Chinese spoken document title generation中文語音文件自動標題設定之進一步研究Improved Automatic Title Generation for Chinese Spoken Documentsthesishttp://ntur.lib.ntu.edu.tw/bitstream/246246/58586/1/ntu-96-R94942126-1.pdf