指導教授:陳信希臺灣大學:資訊工程學研究所李卿澄Li, Qing-ChengQing-ChengLi2014-11-262018-07-052014-11-262018-07-052014http://ntur.lib.ntu.edu.tw//handle/246246/261427世界上的知識日新月異,透過志願編輯者更新的知識庫無法跟上知識產生與改變的速度,如何縮短知識產生與知識庫更新間的差距,也就是知識庫加速,便成為了重要的議題。 知識庫中記載的實體與其特性也是相當重要的知識,本研究提出了基於樣式,自資訊匯集而成之內容串流中快速地偵測文件是否包含特定實體特性的方法。偵測流程包含了樣式比對、樣式篩選與特性消歧義等步驟。透過樣式比對與實體特性與樣式的關聯偵測實體特性,存在樣式的品質、可信賴度、對映特性的歧義等問題,本研究於樣式比對前進行樣式篩選,比對後進行特性消歧義以降低上述問題的影響。 實驗結果分析了樣式信心值、可信賴度、特性歧義度對效能造的影響,發現特性消歧義的步驟中,引入實體類型資訊與使用簡單貝氏分類器後,偵測效能有顯著的提升。 透過實體特性的偵測,有助於自內容串流中篩選對知識庫更新有幫助的文章,以供志願編輯者作為更新與維護知識庫的依據。World knowledge varies with time, but the change of knowledge about an entity often waits for a long time before a human editor update it in knowledge base (KB). How to accelerate the update of KB is an important problem, it’s also called knowledge base acceleration (KBA). In this paper, we propose a method that detects entity’s properties in content stream efficiently and effectively base on patterns. The detection process has three phases including pattern selection phase, pattern matching phase and property disambiguation phase. pattern quality, reliability and ambiguity are three major issues in the process. The experimental results show the impact of patterns’ confidence value, reliability and ambiguity degree. We found that using the entity type information and naive bayes classifier improve the performance of the detection system. Detection of entity’s properties filters documents from content stream. It’s helpful for human editors to use the information in those documents to update the KB.口試委員會審定書 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i 誌謝 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii 摘要 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iv 目錄 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v 圖目錄 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vii 表目錄 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . viii 第一章 緒論 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1 背景介紹 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 研究動機 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.3 研究目標 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.4 論文架構 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 第二章 相關研究與文獻 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.1 知識庫 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.1.1 結構化知識庫 . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.1.2 知識庫加速 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.1.3 知識庫的應用 . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.2 樣式與實體間關係 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 第三章 研究方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3.1 以樣式偵測特性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3.2 樣式比對 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 3.3 樣式篩選 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.4 特性消歧義 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 第四章 實驗結果與分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 4.1 測試資料集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 4.2 評估標準 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.3 實驗結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4.3.1 效率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4.3.2 原始效能 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4.3.3 樣式篩選 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4.3.4 特性消歧義 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.3.5 錯誤分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 第五章 結論與未來展望 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 5.1 結論 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 5.2 未來展望 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 參考文獻 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425984321 bytesapplication/pdf論文公開時間:2014/08/12論文使用權限:同意無償授權知識庫加速樣式比對實體特性偵測內容串流中實體特性偵測之研究Detection of Entity Properties in Content Streamthesishttp://ntur.lib.ntu.edu.tw/bitstream/246246/261427/1/ntu-103-R01922024-1.pdf