Aligning Sub-questions and Answers in QA Archives
Date Issued
2007
Date
2007
Author(s)
Chang, Jhe-How
DOI
zh-TW
Abstract
本論文研究網路上社群的發問文問答對列的問題,由於發問文中常有重複發問的現象存在,為了解決這種情況,對資料庫中已存在的問答做了問題切割後,提出問答匹配的概念,讓原本的問答變為數個單純的小問答,再來和使用者發問的問題做比較,以期能達到可自動回答使用者的問題,又能將重複發問的文章過濾,不收入資料庫的目標。
本論文提出3種方式來實作問答匹配,分別是TF-IDF模型、猜測問題類型、和機率模型。TF-IDF模型中藉由TF-IDF公式算出各詞彚的權重,並使用Cosine相似度計算公式計算相似度分數,以判斷答案子句回答哪一個小問題。在經過經驗法則修正後,最好的結果可以得到0.7024的效能。
在猜測問題類型方式中,由詞性的角度切入,嘗試只使用詞性的資訊來找出答案子句對應的問題類型,並依此找出答案子句回答的問題。本論文提出3種計算權重的方式,其中最好的一種可得到0.6430的效能。
在機率模型中,把詞彚在問題和答案中共同出現的機率,當做衡量兩詞彚關係的指標。本論文提出2種計算詞彚w和詞彚q之間關係分數的方式,其中最好的一種,可得出0.7111的效能。
這3種模型各有特色,實驗結果顯示機率模型是較為穩固而有效的方式。
Subjects
自動問答系統
問答匹配
機率模型
機器翻譯模型
information retrieval
question answering system
aligning sub-questions and answers
probabilistic model
machine translation model
Type
thesis