陳信希Chen, Hsin-Hsi臺灣大學:資訊工程學研究所劉亦謙Liu, I-ChienI-ChienLiu2010-05-172018-07-052010-05-172018-07-052009U0001-2207200916523900http://ntur.lib.ntu.edu.tw//handle/246246/183388本論文研究社群問答資料庫中的答案擷取機制,由於社群問答網站的使用者必須等待其他網友來回答,為了解決這種情況,由既有的資料庫中擷取答案來提供給使用者,不但可以省去等待時間,亦可以減少重複發問的情形。本論文中,我們提出兩種不同的答案擷取,主題式答案擷取以及詞彙關聯式答案擷取。主題式答案擷取,將答案先分為幾個主題,依據使用者問題來挑選合適的主題,最後在該主題中進行問題與答案的相似度計算,並傳回答案給使用者。在相似度計算的部分又有三種不同的計算方式,分別是傳統資訊檢索、句子層次計算、以及翻譯模型計算。傳統資訊檢索以文章為單位計算問句與答案的相似度成績;句子層次便是將計算的對象縮小為句子,再由句子之間互相影響相似度成績,加總為答案的相似度;翻譯模型則是將問題翻譯成為虛擬的答案,再進而計算虛擬答案與答案文章的相似度。彙關聯式答案擷取,建立問題詞彙以及答案詞彙兩兩之間的關聯,評估其關聯的強弱而得到詞彙關聯度。詞彙關聯度有三個部分組成:問題詞彙權重、關聯重要性、以及答案詞彙鑑別度。藉由詞彙關聯度的大小,計算使用者問題以及答案文章之間的相似度成績,傳回答案給使用者。驗結果以詞彙關聯度的正確率最高,達到55.72%。主題式答案擷取的實驗結果,經改善後也能夠達到50.52%的正確率。口試委員審定書 ii謝 iii要 iv錄 v圖目錄 vii表目錄 viii一章 緒論 1.1. 研究背景 1.1.1. 搜尋引擎 1.1.2. 社群問答網站 2.2. 研究動機 3.3. 研究目的與方法 4.4. 論文編排 4二章 文獻探討 5.1. 問答系統 5.2. 常見問答集問答系統 6.3. 論壇問答擷取 6.4. 社群問題搜尋 7三章 答案擷取 9.1. 主題式答案擷取 9.1.1. LDA模組 10.1.1.1. LDA分群 11.1.1.2. LDA選群 12.1.2. 問句與答案文章相似度計算 14.1.2.1. 傳統資訊檢索 14.1.2.2. 句子層次計算 15.1.2.3. 翻譯模型計算 16.2. 詞彙關聯式答案擷取 17.2.1. 詞彙關聯度 18.2.1.1. 問題詞彙權重 18.2.1.2. 關聯重要性 19.2.1.3. 答案詞彙鑑別度 19.2.2. 詞彙關聯度展示 20四章 實驗結果與討論 22.1. 實驗語料介紹 22.1.1. 訓練及測試語料 23.1.2. 實驗參數設定 23.2. 評估方式 24.3. 答案擷取實驗 24.3.1. 主題式答案擷取實驗結果 24.3.2. 詞彙關聯式答案擷取實驗結果 24.4. 實驗討論 25.4.1. 主題選取成為效能瓶頸 25.4.2. 斷句正確性不佳 26.4.3. 詞彙關聯度與翻譯模型比較 28五章 結論與未來研究 30.1. 結論 30.2. 未來研究 30考文獻 32application/pdf1131905 bytesapplication/pdfen-US資訊檢索自動問答系統社群問答網站答案擷取Information RetrievalAnswering SystemQuestion AnsweringCommunity-Based ServiceAnswering Retrieval社群問答資料庫答案擷取之研究Answer Retrieval on Community-Based Question-Answeringthesishttp://ntur.lib.ntu.edu.tw/bitstream/246246/183388/1/ntu-98-R96922120-1.pdf