語料庫統計值與網際網路統計值在自然語言處理上之應用：以中文斷詞為例

陳信希臺灣大學：資訊工程學研究所林筱晴Lin, Hsiao-ChingHsiao-ChingLin2007-11-262018-07-052007-11-262018-07-052004http://ntur.lib.ntu.edu.tw//handle/246246/53665由於World Wide Web近年來成長迅速，收集了各種不同種類的文件，具有資訊量大、動態的、且取得容易的優點，可以將web視為龐大且具時效性的語料庫。本論文主要目的是將web應用在自然語言處理上，以中文斷詞為例。斷詞系統以word-based n-gram model解歧義性，在沒有未知詞的情況下，實驗發現bigram model效能比tri-gram model好，而bigram model和reverse bigram model之間的效能差異並不大。由於corpus-based方法可以精確的計算出詞頻，而web-based方法受到搜尋引擎設計上的限制，造成page count不準確的因素，使得 corpus-based方法的效能會較web-based方法略佳。專有名詞辨識系統是針對人名、地名、和組織名三種類型所設計的，以likelihood ratio test演算法測試某一詞串是否通過檢驗，其中所用到的統計值來源為搜尋引擎的page count。實驗顯示專有名詞辨識成本P否主要取決於搜尋引擎收錄的網頁量，如果某專有名詞曾出現在網路上，則它的page count大於零，並且有很大機會可以通過公式檢驗，成左瑪踼悒X來。由於實驗發現，corpus統計值針對解決歧義性問題的效能略勝於web統計值，而web統計值可以用於專有名詞辨識工作，解決未知詞問題，因此我們結合兩者的優點，先利用web統計值偵測未知詞，再利用corpus解歧義性，可以使斷詞系統得到最佳的效能。本論文提出以web-based方法解決中文斷詞問題，不需要太多語言知識，只要透過搜尋引擎得到page count，視為詞頻應用於統計模型上，實作容易。實驗顯示，web資訊在自然語言處理上是有用的。第一章緒論 1 1.1. 研究動機 1 1.2. 研究目的與方法 2 1.3. 相關研究 3 1.4. 論文架構 5 第二章中文斷詞 6 2.1. 中文斷詞的定義與目標 6 2.1.1. 詞的定義 6 2.1.2. 中文斷詞的目標 6 2.2. 中文斷詞的問題 7 2.2.1. 斷詞標準不同 7 2.2.2. 歧義性 8 2.2.3. 未知詞 9 2.2.4. 斷詞方法的分類 10 2.2.4.1. 基於規則的斷詞方法 10 2.2.4.2. 基於統計的斷詞方法 10 2.3. 實驗資源 11 2.3.1. 中央研究院平衡語料庫 11 2.3.2. 前綴/後綴詞表(Prefix/suffix list) 12 2.4. 演算法 13 2.4.1. Word-based bigram model 13 2.4.2. Prefix/suffix rule 14 2.5. 實驗步驟 14 2.5.1. Dict-only策略 14 2.5.2. Dict+preffix/suffix rule策略 15 2.6. 實驗方法與結果 15 2.6.1. 評估參數 15 2.6.2. 實驗一：word-based bigram model 16 2.6.2.1. 實驗說明 16 2.6.2.2. 實驗結果 16 2.6.2.3. 實驗討論 16 2.6.3. 實驗二：正向與反向掃描詞串的比較 17 2.6.3.1. 實驗說明 17 2.6.3.2. 實驗結果 18 2.6.3.3. 實驗討論 18 2.6.4. 實驗三：Bigram model與 tri-gram model的比較 18 2.6.4.1. 實驗說明 18 2.6.4.2. 實驗結果 19 2.6.4.3. 實驗討論 19 2.6.5. 實驗結果整理 20 2.7. 實驗分析與討論 20 2.7.1. 錯誤分析 20 2.7.2. 實驗討論 21 第三章專有名詞辨識 26 3.1. 專有名詞辨識的目標 26 3.2. 實驗資源 27 3.2.1. MET-2測試語料 27 3.2.2. 系統辭典 27 3.2.3. NE keyword list 28 3.2.4. Stopword list 28 3.3. 演算法 28 3.3.1. Likelihood ratio test 28 3.3.2. 公式 29 3.3.2.1. 原始公式 29 3.3.2.2. 修改後的公式 30 3.3.2.3. N值的設定 30 3.4. 實驗步驟 30 3.5. 實驗方法與結果 31 3.5.1. 評估參數 31 3.5.2. 實驗一：字典與答案為互斥的 32 3.5.2.1. 實驗說明 32 3.5.2.2. 實驗結果 33 3.5.2.3. 實驗討論 34 3.5.3. 實驗二：系統辭典內增加收錄地名 34 3.5.3.1. 實驗說明 34 3.5.3.2. 實驗結果 35 3.5.3.3. 實驗討論 37 3.5.4. 實驗三：混合使用Google和AltaVista的統計值 38 3.5.4.1. 實驗說明 38 3.5.4.2. 實驗結果 38 3.5.4.3. 實驗討論 39 3.5.5. 實驗四：將測試資料內page count=0的答案刪除 39 3.5.5.1. 實驗說明 39 3.5.5.2. 實驗結果 40 3.5.5.3. 實驗討論 42 3.5.6. 實驗五：考慮pattern出現的次數 42 3.5.6.1. 實驗說明 42 3.5.6.2. 實驗結果 43 3.5.6.3. 實驗討論 44 3.6. 實驗分析與討論 45 3.6.1. 測試資料分析 45 3.6.2. 不同統計值來源的比較 45 3.6.3. 錯誤分析 48 第四章斷詞與專有名詞辨識的整合 51 4.1. 研究目標 51 4.2. 實驗資源 51 4.2.1. CTS語料 51 4.2.2. 其它資源 52 4.3. 實驗步驟 52 4.4. 實驗結果與討論 52 4.4.1. 評估參數 52 4.4.2. 實驗結果 53 4.4.3. 實驗分析與討論 54 第五章結論 571526582 bytesapplication/pdfen-US語料庫統計值網際網路統計值統計值自然語言處理中文斷詞Chinese SegmentationNatural Language ProcessingWeb StatisticsCorpus Statistics語料庫統計值與網際網路統計值在自然語言處理上之應用：以中文斷詞為例Applications of Corpus Statistics and Web Statistics in Natural Language Processing: Chinese Segmentation as an Examplethesishttp://ntur.lib.ntu.edu.tw/bitstream/246246/53665/1/ntu-93-R91922098-1.pdf