意見探勘在關連發掘上的應用

陳信希臺灣大學：資訊工程學研究所何修維Ho, Hsiu-WeiHsiu-WeiHo2007-11-262018-07-052007-11-262018-07-052006http://ntur.lib.ntu.edu.tw//handle/246246/53682同性質的一群物體，任兩者之間可能存在有某些關係，而不是兩兩獨立的；關連發掘的目的，就是要從一群同性質的物體之中，找出任兩者之間是否有關係。我們將物體稱為「標的」（target），而物體間的關係則稱為「關連」。瞭解標的之間的關連，有許多可能的應用，例如協助建構社會網絡（social network）就是其中之一。傳統的詞語搭配（collocation）檢驗方法，可以應用在關連發掘上，亦即如果兩個標的的詞語搭配性質較強，就代表它們之間有關連。這篇論文則從意見的角度切入，提出新的關連發掘方法。我們假設，如果兩個標的在一段時間之內，它們的意見變化很類似，那就表示兩者有關連。所以，我們首先針對單一標的進行意見分析，觀察一段時間之中大眾對它的意見變化；接著再對任兩個標的，檢視它們的意見變化是否類似。在本篇論文中，共提出了三種關連發掘模型：「以詞語搭配為基礎之模型」（2 個模型）、「以意見為基礎之模型」（4 個模型），和整合前兩者的「綜合模型」（2 個模型）。我們從93 個網站蒐集了2003 年8 月到2005 年3 月的財經新聞，總共1,282,050 篇，做為實驗文件集。這篇論文將台灣股市的上市、上櫃公司當作實驗標的，然後利用三種模型，分別去檢驗每一個公司配對是否有關連。答案集則由股價資料中抽取出來，以股價的連動關係，來做為公司間是否具有關連的參考答案。接著用精確度（precision）、回收率（recall）和f分數（f-score）來評估三種模型。實驗結果顯示，綜合模型是所有模型中效能最好的，在提交前25、50 和100 個公司配對時，精確度分別為1、0.9 和0.75。由於綜合模型不只採用了詞語搭配，還參考標的的意見變化，而使得效能提升，因此可以說明，意見分析的確有助於關連發掘。摘要.......................................................I 索引.......................................................II 附圖目錄...................................................IV 附表目錄...................................................V 第一章緒論................................................1 1.1.研究動機...............................................1 1.2.相關研究...............................................1 1.3.方法介紹...............................................3 1.4.論文編排...............................................4 第二章實驗材料............................................5 2.1.實驗文件集介紹.........................................5 2.2.答案集的取得...........................................9 2.2.1.卡方檢定.............................................9 2.2.2.取得答案集的步驟.....................................10 第三章網路意見探勘........................................14 3.1.目的...................................................14 3.2.意見追蹤...............................................14 3.3.爆量偵測...............................................16 3.4.意見摘要...............................................18 3.5.實驗結果與討論.........................................19 第四章關連發掘............................................23 4.1.目的...................................................23 4.2.以詞語搭配為基礎之模型.................................23 4.2.1.互訊息模型...........................................24 4.2.2. t-檢定模型..........................................24 4.3.以意見為基礎之模型.....................................25 4.3.1.曲線重疊模型.........................................25 4.3.2.數位化曲線重疊模型...................................28 4.3.3.爆量偵測.............................................28 4.3.4.卡方模型.............................................31 第五章關連發掘實驗結果....................................32 5.1.目的...................................................32 5.2.以詞語搭配為基礎之模型實驗結果.........................33 5.3.意見為基礎之模型實驗結果...............................35 5.4.綜合模型...............................................42 5.4.1.答案綜合模型.........................................42 5.4.2.分數綜合模型.........................................43 5.4.3.實驗結果.............................................43 第六章意見的預測功能......................................45 6.1.研究動機...............................................45 6.2.實驗結果與討論.........................................45 第七章結論與未來研究......................................48 7.1.結論...................................................48 7.2.未來研究...............................................49 參考資料...................................................50388988 bytesapplication/pdfen-US意見抽取關連發掘opinion extractionrelationship discovery意見探勘在關連發掘上的應用Applications of Opinion Mining in Relationship Discoverythesishttp://ntur.lib.ntu.edu.tw/bitstream/246246/53682/1/ntu-95-R93922135-1.pdf