陳信希臺灣大學:資訊工程學研究所羅永聖Lo, Yong-ShengYong-ShengLo2010-06-022018-07-052010-06-022018-07-052008U0001-1906200817240800http://ntur.lib.ntu.edu.tw//handle/246246/184939在本論文中,我們提出一個串聯式的字典暨條件隨機域之斷詞與詞性標記法,來為中文斷詞及標記詞性。該方法的第一步先透過查詢豐富的字典資訊以及使用常見的語言規則,將一個中文句子所有可能的斷詞結果列舉出來,第二步再使用條件隨機域學習到的句法結構,從所有可能的斷詞結果中,選出最合適者,並標上正確的詞性標籤。聯式字典暨條件隨機域之斷詞與詞性標記法可以同時解決中文斷詞議題中常見的三個問題:斷詞歧異性、斷詞準則不一、未知詞,來得到很好的斷詞效能。我們解決這三個問題的作法分別是(1)使用條件隨機域在具有詞性標記的訓練語料中,學習句法結構,以解決斷詞歧異性的問題。(2)提出一套標準流程,使得整合多類型字典資訊時,不會有斷詞準則不一的問題。(3)透過多個不同種類的字典以及常見的語言規則來解決未知詞的問題。同時,這個方法除了提供彈性(例如:動態納入所需字典資訊)以及實用性(例如:依照不同的文章類型來選用字典與系統設定,以達到最好的斷詞結果以及詞性標記)之外,更因為它易於實作的特性,大大降低了進入中文語言處理的門檻。於實驗資源,我們共收集16部不同類型的字典,並使用SIGHAN bakeoff 1中由中央研究院提供的訓練集以及測試集,來進行斷詞與詞性標記的實驗。我們也收集一份醫學類型的語料,以針對不同類型的文章進行斷詞實驗及分析。驗中證明,僅使用少量(7,229句)訓練集的串聯式字典暨條件隨機域之斷詞與詞性標記法即可達到良好的斷詞及詞性標記效能。若使用由46個詞性標記而成的訓練集,斷詞及詞性標記的效能分別可以達到F分數0.964及0.922;而若使用由簡化後共10個詞性標記而成的訓練集,則斷詞及詞性標記的效能亦可達到F分數0.954以及0.939。此外,我們的實驗數據也顯示,若能依照不同類型文章的特性來選用合適的字典與系統設定,就可以達到最好的斷詞效能。This paper proposes a dictionary-CRF-combined approach for Chinese word segmentation and part of speech tagging. This approach proposes all probable sentences by looking up dictionaries and selects the best sentence utilizing a CRF model. This approach can incorporate as many dictionaries as possible to solve new term problem without re-training the model. Moreover, a practical method which adds terms in the system’s dictionary without causing any inconsistence of segmentation rules is also proposed. Most usefully, this approach is able to select dictionaries and segmentation settings according to the document type. Training and testing collections of SIGHAN bakeoff 1 and a medical document collection are used in the experiments. This approach achieves an f-score 0.964 in segmentation, and 0.922 in part of speech tagging, which is satisfactory. Moreover, the training process uses only 7,229 lines in the training file, and this shows that it is easy to build this model by small training data. This approach achieves an f-score 0.954 in segmentation and 0.939 in part of speech tagging even 10 simplified parts of speech are used for training. The simplicity, practicability and flexibility are the superiorities of this approach.口試委員會審定書 I文摘要 II文摘要 III錄 IV圖目錄 VII表目錄 VIII一章 緒論 1.1. 研究動機 1.2. 研究目的與方法 2.3. 相關研究 3.3.1. 以經驗法則為基礎的中文斷詞研究 3.3.2. 以統計式方法為基礎的中文斷詞研究 3.3.3. 以機器學習為基礎的中文斷詞研究 3.3.4. 混用多種模型的中文斷詞研究 4.4. 論文架構 4二章 斷詞與詞性標記方法 5.1. 斷詞暨詞性標記系統 5.1.1. 系統架構 6.1.2. 字典的詞彙過濾機制 7.1.2.1. 納入字典詞彙 7.1.2.2. 新增字典流程 8.1.3. 條件隨機域模型 9.1.3.1. 條件隨機域 9.1.3.2. 訓練資料格式 10.1.3.3. 特徵樣版的選擇 10.2. 兩階段串聯式斷詞與詞性標記 11.2.1. 第一階段:產生斷詞候選句 12.2.1.1. 使用字典資訊產生候選句法 12.2.1.2. 範例 16.2.2. 第一階段:條件隨機域選句 18.2.2.1. 選句法 18.2.2.2. 範例 19.2.3. 第二階段:產生斷詞候選句 22.2.3.1. 使用語言規則產生候選句法 22.2.3.2. 範例 24.2.4. 第二階段:條件隨機域選句 25.2.4.1. 選句法 25.2.4.2. 範例 25三章 斷詞與詞性標記實驗 30.1. 實驗資源 30.1.1. 斷詞與詞性標記訓練與測試語料 30.1.1.1. 訓練集 30.1.1.2. 測試集 32.1.2. 所有字典列表 32.1.2.1. 一般字典 34.1.2.2. 專業字典 36.1.2.3. 統一詞性對應法 36.2. 實驗方法與結果 37.2.1. 評估方法 37.2.2. 實驗一:中文斷詞效能 39.2.2.1. 實驗說明 39.2.2.2. 實驗結果 40.2.2.3. 實驗討論 40.2.3. 實驗二:人名,二字詞拆解與尾詞模組之效能 42.2.3.1. 實驗說明 42.2.3.2. 實驗結果 42.2.3.3. 實驗討論 42.2.4. 實驗三:字典標準化處理之效能 45.2.4.1. 實驗說明 45.2.4.2. 實驗結果 45.2.4.3. 實驗討論 46.2.5. 實驗四:詞性數目對系統效能的影響 47.2.5.1. 實驗說明 47.2.5.2. 實驗結果 47.2.5.3. 實驗討論 48.2.6. 實驗五:詞性標記效能 49.2.6.1. 實驗說明 49.2.6.2. 實驗結果 49.2.6.3. 實驗討論 50.2.7. 與其他斷詞系統之效能比較 53四章 考慮文章類型的中文斷詞系統 55.1. 文章類型與斷詞之關係 55.2. 實驗資源 56.3. 實驗方法與結果 57.3.1. 實驗一:已知類型文章之斷詞效能比較 57.3.1.1. 實驗說明 57.3.1.2. 實驗結果 57.3.1.3. 實驗討論 58.3.2. 實驗二:未分類與已分類文章之斷詞效能比較 59.3.2.1. 實驗說明 59.3.2.2. 實驗結果 60.3.2.3. 實驗討論 61五章 結論 62六章 未來發展 63考文獻 64錄一 詞性對應轉換表 65錄二 外部語料1中斷詞準則不一的詞彙 67application/pdf535839 bytesapplication/pdfen-US中文斷詞詞性標記字典條件隨機域語言規則Chinese word segmentationpart of speech taggingdictionariesconditional random fieldCRFlinguistic rulesSIGHAN結合多類型字典與條件隨機域之中文斷詞與詞性標記系統研究An Approach of Using Multiple Dictionaries and Conditional Random Field in Chinese Segmentation and Part of Speech Taggingthesishttp://ntur.lib.ntu.edu.tw/bitstream/246246/184939/1/ntu-97-R95922009-1.pdf