中文文字/語音文件中類專有名詞擷取及其可能應用之初步研究

李琳山臺灣大學：資訊工程學研究所劉禹吟Liu, Yu-YingYu-YingLiu2007-11-262018-07-052007-11-262018-07-052004http://ntur.lib.ntu.edu.tw//handle/246246/54151類專有名詞辨識是希望將文章中重要的類專有名詞(如：人名、地名、組織名等)標註出來，對於文章作一個初步的文件了解動作，如此我們即可得知文章中關連到哪些人、事件發生在什麼地方、與哪些組織有關等資訊。當我們將釵h詞典外詞彙分辨成類專有名詞的語意類別後，也對釵h的後續應用帶來幫助，如：可幫助問答系統做問句語意剖析及以類專有名詞於句子中的出現種類與數量做為自動摘要系統評估句子重要性的一個指標值。本論文除了探討純文字文件下的類專有名詞辨識，另一個重要的研究主題為在語音文件中做類專有名詞辨識，由於語音文件中包含了辨識的不確定性，若能加入判斷語音辨識正確與否的考量，在語音辨識錯誤處做類專有名詞的修正與回收，對於語音文件的後續加值應用的幫助是更大的。因此本論文主要以三個部分做探討，分別是``文字文件類專有名詞辨識'、``語音文件類專有名詞辨識'以及``類專有名詞辨識衍生之相關應用'。 ``文字文件類專有名詞辨識'，我們實作了統計導向的``以類別語言模型為基礎的類專有名詞辨識'及規則導向的``結合派樹式類專有名詞抽取與經驗法則的類專有名詞辨識'。在統計導向的方法中，我們提出地名與組織名皆可以巢狀的類別語言模型來估測，如此才能辨識出各種複雜結構組成的類專有名詞。而在規則導向的方法中，我們提出一個前端對整篇文章做派樹式類專有名詞抽取的方法；利用整篇文章所帶的字串前後文統計值與字面值，幫助抽取出邊界正確的類專有名詞，並可回收一般方法較難偵測出的縮寫類專有名詞，後端再結合詞性的標註與各種經驗法則，在新聞領域上可以得到不錯的類專有名詞辨識率。我們認為這兩種方法在不同的應用上，如：不同文體或加入更多種類的類專有名詞類別上，皆各有其優勢及實用上的價值。 ``語音文件類專有名詞辨識'，我們探討了直接使用``文字文件類專有名詞辨識器'於語音文件上會遇到的主要問題，並提出結合關鍵詞可信度分數門檻值限制來幫助增加類專有名詞辨識的精確率，以及從額外的資源中粹取出和欲處理的語音文件相關的``時間與主題同質的類專有名詞庫'，將``時間與主題同質的類專有名詞'與語音文件的內容在不同特徵單位下(字元、音節)可匹配時，對於類專有名詞辨識回收率的影響。此匹配法在音節完全或近似匹配下，對於原本字元辨識錯誤的類專有名詞，可能做到既回收了原本辨識不出來的類專有名詞，亦得到錯誤字元修正的效果。實驗結果發現結合``關鍵詞可信度分數門檻值'的使用來幫助精確率的提升，並採用``時間與主題同質的類專有名詞'在音節完全/近似匹配設定來幫助回收率時，我們可以得到進步釵h的F-測量結果。 ``類專有名詞辨識衍生之相關應用'，我們討論了兩種本論文實作出的系統架構，分別是``自動建立類專有名詞索引之資訊檢索系統'及``網際網路語音問答系統'，也詳細地說明系統中各個元件的概念及後端資料處理的程序。我們認為在未來愈來愈需要使用自然語言做互動的應用中，能判別詞典外詞彙的語意類別是處理自然語言語意的一個重要步驟，也因此智慧型應用系統中若能結合類專有名詞辨識的元件，則可處理的領域廣度及文件了解的深度上都能有所提升。1 導論 1 1.1 研究動機 1 1.2 類專有名詞的定義 3 1.3 文字文件類專有名詞辨識的相關研究 4 1.4 語音文件類專有名詞辨識的相關研究 7 1.5 章節安排 9 2 評估方式與實驗資源介紹 11 2.1 類專有名詞辨識的評估 11 2.1.1 評估公式 11 2.1.2 評分器 13 2.2 語音文件類專有名詞辨識的評估 14 2.3 實驗環境 15 2.3.1 詞典與語料庫 15 2.3.2 抽詞方法 18 2.3.3 斷詞方法與語言模型調適 19 2.3.4 語音辨識器與聲學模型 20 3 文字文件類專有名詞辨識 21 3.1 以類別語言模型為基礎的類專有名詞辨識 22 3.1.1 理論推導 22 3.1.2 語言模型的訓練 27 3.1.3 實作方法 28 3.1.4 實驗設計 31 3.1.5 實驗結果與討論 32 3.2 結合派樹式類專有名詞抽取與經驗法則的類專有名詞辨識 37 3.2.1 派樹式類專有名詞抽取 37 3.2.2 整體系統架構 42 3.2.3 實驗結果與討論 49 3.3 本章結論 51 4 語音文件類專有名詞辨識 55 4.1 直接辨識法 57 4.2 結合關鍵詞辨識可信度分數門檻值限制 61 4.2.1 可信度分數計算與詞圖的基本概念 61 4.2.2 可信度分數門檻值的使用與設計 64 4.2.3 實驗結果 67 4.3 結合時間與主題同質的類專有名詞匹配 70 4.3.1 基本概念與實作架構 70 4.3.2 類別語言模型法實驗結果 79 4.3.3 派樹式規則法實驗結果 85 4.3.4 最佳設定結果比較 88 4.4 本章結論 89 5 類專有名詞辨識衍生之相關應用 91 5.1 自動建立類專有名詞索引之資訊檢索系統 91 5.2 網際網路語音問答系統 93 5.2.1 系統實作簡介 95 5.3 本章結論 98 6 結論與未來展望 101 6.1結論................................101 6.2未來展望............................10310929286 bytesapplication/pdfen-US類專有名詞辨識語音文件處理純文字文件處理named entity recognitiontext document processingspoken document processing中文文字/語音文件中類專有名詞擷取及其可能應用之初步研究An Initial Study on Named Entity Extraction from Chinese Text/Spoken Documents and Its Potential Applicationsthesishttp://ntur.lib.ntu.edu.tw/bitstream/246246/54151/1/ntu-93-R91922019-1.pdf