陳信希臺灣大學:資訊工程學研究所張哲豪Chang, Jhe-HowJhe-HowChang2007-11-262018-07-052007-11-262018-07-052007http://ntur.lib.ntu.edu.tw//handle/246246/54080本論文研究網路上社群的發問文問答對列的問題,由於發問文中常有重複發問的現象存在,為了解決這種情況,對資料庫中已存在的問答做了問題切割後,提出問答匹配的概念,讓原本的問答變為數個單純的小問答,再來和使用者發問的問題做比較,以期能達到可自動回答使用者的問題,又能將重複發問的文章過濾,不收入資料庫的目標。 本論文提出3種方式來實作問答匹配,分別是TF-IDF模型、猜測問題類型、和機率模型。TF-IDF模型中藉由TF-IDF公式算出各詞彚的權重,並使用Cosine相似度計算公式計算相似度分數,以判斷答案子句回答哪一個小問題。在經過經驗法則修正後,最好的結果可以得到0.7024的效能。 在猜測問題類型方式中,由詞性的角度切入,嘗試只使用詞性的資訊來找出答案子句對應的問題類型,並依此找出答案子句回答的問題。本論文提出3種計算權重的方式,其中最好的一種可得到0.6430的效能。 在機率模型中,把詞彚在問題和答案中共同出現的機率,當做衡量兩詞彚關係的指標。本論文提出2種計算詞彚w和詞彚q之間關係分數的方式,其中最好的一種,可得出0.7111的效能。 這3種模型各有特色,實驗結果顯示機率模型是較為穩固而有效的方式。目錄 I 摘要 III 附圖目錄 IV 附表目錄 V 第一章 緒論 1 1.1. 研究動機 1 1.2. 相關研究 2 1.3. 實驗語料庫介紹 3 1.4. 研究方法介紹 5 1.5. 實驗設置 7 1.5.1. 測試語料 7 1.5.2. 評估公式 9 1.5.3. baseline方法 9 1.6. 論文編排 9 第二章 TF–IDF模型 11 2.1. 基本公式 11 2.1.1. TF-IDF計算公式 11 2.1.2. 相似度評估公式 13 2.2. 分析與補強 14 2.2.1. TF-IDF模型分析 14 2.2.2. TF-IDF模型弱點補強方式 15 2.3. TF-IDF模型實驗 17 2.3.1. 實驗設計 17 2.3.2. 實驗數據 18 2.3.3. 實驗討論 19 第三章 猜測問題類型 21 3.1. 基本想法 21 3.2. 實作 23 3.2.1. 計算方式 24 3.2.1.1. 直接計算出現次數 24 3.2.1.2. 計算出現次數/詞性總次數 24 3.2.1.3. TF-IDF方式 25 3.2.2. 相似度評估公式 26 3.3. 討論 26 3.4. 猜測問題類型實驗 28 3.4.1. 實驗資料 28 3.4.2. 實驗設計 29 3.4.3. 實驗數據 30 3.4.4. 實驗討論 31 第四章 機率模型 32 4.1. 基本想法 32 4.2. 基本公式 33 4.2.1. 相似度評估公式 33 4.2.2. 機率計算方式 35 4.2.2.1. P(q ,Q | w ,A) 35 4.2.2.2. P(q ,A | w ,Q) 36 4.3. 模型分析與討論 36 4.4. 機率模型實驗 37 4.4.1. 實驗資料 37 4.4.2. 實驗設計 39 4.4.3. 實驗數據 39 4.4.4. 實驗討論 40 第五章 結論與未來研究 41 5.1. 結論 41 5.2. 未來研究 41 參考文獻 43 附錄一 45 附錄二 46 附錄三 48 附錄四 50en-US資訊檢索自動問答系統問答匹配機率模型機器翻譯模型information retrievalquestion answering systemaligning sub-questions and answersprobabilistic modelmachine translation model社群發問語料庫中問答匹配之研究Aligning Sub-questions and Answers in QA Archivesthesis