指導教授:陳信希臺灣大學:資訊網路與多媒體研究所廖婉珊Liao, Wan-ShanWan-ShanLiao2014-11-292018-07-052014-11-292018-07-052014http://ntur.lib.ntu.edu.tw//handle/246246/263429 近年來自然語言處理的研究,隨著字、詞層面的研究日益成熟,以及PDTB、RST-DT等大規模語篇關係語料庫的出現,對於語篇關係的研究日益增加。若是能正確預測篇章的關係,將有助於理解通篇的語義關係,在自然語言處理的相關應用如QA系統、自動摘要也都有很大的幫助。 然而,由於中文缺乏了語料庫的資源,目前對於中文語篇關係的研究還是不多。 在本文中,我們先針對哈爾濱工業大學在2013年發布的HIT-CIR中文語篇關係語料庫進行初步的分析。在研究過程中,因為資料集的稀疏,我們轉以另一個大規模的虛擬資料集做為訓練集。實驗的結果顯示使用大規模的語料訓練模型,有利於預測不同來源的文本。 最後,我們進一步的分析,顯隱性語篇關係的分類性能,並分析了語篇單位周遭的非主要語篇標記是否和句子本身的語篇關係相關。 In recent years, research in natural language processing, with the study words, phrases levels become more sophisticated. Since the large-scale manually annotated corpus of discourse relations such as PDTB and RST-DT have been released, the study of discourse relation is increasing. If we could correctly predict the relationship between discourse, it will help to understand the semantic understanding. The related applications in natural language processing, such as QA systems, automatic summaries are also of great help. However, due to the lack of a corpus of Chinese resources, the study in Chinese discourse relations are still little currently. In this work, we first make a preliminary analysis for HIT-CIR Chinese Discourse Relations Corpus, Harbin Institute of Technology released in 2013. Because of small-scale of datasets, we turn to treat another large-scale pseudo dataset as the training set. Experimental results show that this large-scale corpus training model promote to predict the discourse relation of text from different sources. Finally, we were further analyzed to the classification performance of implicit and explicit discourse relations, and analyzed whether the non-primary Markers is relevance to its discourse relation.口試委員會審定書 I 誌謝 II 中文摘要 III ABSTRACT IV 表目錄 VII 第一章 緒論 1 1.1 語篇關係 1 1.2 研究動機與目的 3 1.3 論文架構 4 第二章 相關研究 5 2.1 語篇關係語料庫 5 2.1.1 RST-DT 5 2.1.2 PDTB 2.0 5 2.2 英文語篇關係分析 7 2.3 中文語篇關係分析 9 第三章 語言資源 10 3.1 中文語篇標記辭典 10 3.2 中文語篇標記機率分布辭典 12 3.3 哈爾濱工業大學中文篇章關係語料( HIT-CIR CDTB) 13 3.4 ClueWeb 09 中文語料庫 17 3.4.1 語料庫取樣 17 3.5 NTU Discourse Corpora 18 第四章 實驗方法 19 4.1 特徵抽取 19 4.2 分類器 21 4.3 評估方法 21 第五章 HIT-CIR 語料庫分析 23 5.1 複句資料集 23 5.1.1 資料分析 23 5.1.2 四分類語篇關係預測 24 5.1.3 多層級語篇關係分析 27 5.2 分句資料集 29 5.2.1 資料分析 29 5.2.2 四分類語篇關係預測 29 5.2.3 多層級語篇關係分析 32 第六章 跨語料庫分析 34 6.1 語篇標記機率分布之效能分析 34 6.2 訓練集大小之效能分析 37 6.3 單一特徵之效能分析 37 6.4 HIT-CIR測試集分析 38 6.5 7,601測試集分析 41 第七章 顯隱性關係分析 44 7.1 顯隱性關係的預測效能分析 44 7.2.1 中文語篇標記辭典決定 49 B. 顯性關係 54 7.2.2 中文語篇標記機率分布辭典決定 57 A. 隱性關係 57 B. 顯性關係 60 第八章 結論 63 參考文獻 64897693 bytesapplication/pdf論文公開時間:2015/04/06論文使用權限:同意有償授權(權利金給回饋學校)中文語篇關係顯隱性關係跨語料庫語篇標記Discourse Relation中文顯性和隱性語篇關係分析之研究Chinese Explicit and Implicit Discourse Analysisthesishttp://ntur.lib.ntu.edu.tw/bitstream/246246/263429/1/ntu-103-R01944023-1.pdf