陳信希臺灣大學:資訊工程學研究所何修維Ho, Hsiu-WeiHsiu-WeiHo2007-11-262018-07-052007-11-262018-07-052006http://ntur.lib.ntu.edu.tw//handle/246246/53682同性質的一群物體,任兩者之間可能存在有某些關係,而不是兩兩獨立的;關連發掘的目的,就是要從一群同性質的物體之中,找出任兩者之間是否有關係。我們將物體稱為「標的」(target),而物體間的關係則稱為「關連」。瞭解標的之間的關連,有許多可能的應用,例如協助建構社會網絡(social network)就是其中之一。 傳統的詞語搭配(collocation)檢驗方法,可以應用在關連發掘上,亦即如果兩個標的的詞語搭配性質較強,就代表它們之間有關連。這篇論文則從意見的角度切入,提出新的關連發掘方法。我們假設,如果兩個標的在一段時間之內,它們的意見變化很類似,那就表示兩者有關連。所以,我們首先針對單一標的進行意見分析,觀察一段時間之中大眾對它的意見變化;接著再對任兩個標的,檢視它們的意見變化是否類似。 在本篇論文中,共提出了三種關連發掘模型:「以詞語搭配為基礎之模型」(2 個模型)、「以意見為基礎之模型」(4 個模型),和整合前兩者的「綜合模型」(2 個模型)。我們從93 個網站蒐集了2003 年8 月到2005 年3 月的財經新聞,總共1,282,050 篇,做為實驗文件集。這篇論文將台灣股市的上市、上櫃公司當作實驗標的,然後利用三種模型,分別去檢驗每一個公司配對是否有關連。答案集則由股價資料中抽取出來,以股價的連動關係,來做為公司間是否具有關連的參考答案。接著用精確度(precision)、回收率(recall)和f分數(f-score)來評估三種模型。實驗結果顯示,綜合模型是所有模型中效能最好的,在提交前25、50 和100 個公司配對時,精確度分別為1、0.9 和0.75。由於綜合模型不只採用了詞語搭配,還參考標的的意見變化,而使得效能提升,因此可以說明,意見分析的確有助於關連發掘。摘要.......................................................I 索引.......................................................II 附圖目錄...................................................IV 附表目錄...................................................V 第一章 緒論................................................1 1.1.研究動機...............................................1 1.2.相關研究...............................................1 1.3.方法介紹...............................................3 1.4.論文編排...............................................4 第二章 實驗材料............................................5 2.1.實驗文件集介紹.........................................5 2.2.答案集的取得...........................................9 2.2.1.卡方檢定.............................................9 2.2.2.取得答案集的步驟.....................................10 第三章 網路意見探勘........................................14 3.1.目的...................................................14 3.2.意見追蹤...............................................14 3.3.爆量偵測...............................................16 3.4.意見摘要...............................................18 3.5.實驗結果與討論.........................................19 第四章 關連發掘............................................23 4.1.目的...................................................23 4.2.以詞語搭配為基礎之模型.................................23 4.2.1.互訊息模型...........................................24 4.2.2. t-檢定模型..........................................24 4.3.以意見為基礎之模型.....................................25 4.3.1.曲線重疊模型.........................................25 4.3.2.數位化曲線重疊模型...................................28 4.3.3.爆量偵測.............................................28 4.3.4.卡方模型.............................................31 第五章 關連發掘實驗結果....................................32 5.1.目的...................................................32 5.2.以詞語搭配為基礎之模型實驗結果.........................33 5.3.意見為基礎之模型實驗結果...............................35 5.4.綜合模型...............................................42 5.4.1.答案綜合模型.........................................42 5.4.2.分數綜合模型.........................................43 5.4.3.實驗結果.............................................43 第六章 意見的預測功能......................................45 6.1.研究動機...............................................45 6.2.實驗結果與討論.........................................45 第七章 結論與未來研究......................................48 7.1.結論...................................................48 7.2.未來研究...............................................49 參考資料...................................................50388988 bytesapplication/pdfen-US意見抽取關連發掘opinion extractionrelationship discovery意見探勘在關連發掘上的應用Applications of Opinion Mining in Relationship Discoverythesishttp://ntur.lib.ntu.edu.tw/bitstream/246246/53682/1/ntu-95-R93922135-1.pdf