DC 欄位 | 值 | 語言 |
dc.contributor | 陳信希 | zh-TW |
dc.contributor | Chen, Hsin-Hsi | en |
dc.contributor | 臺灣大學:資訊工程學研究所 | zh-TW |
dc.contributor.author | 李佳穎 | zh-TW |
dc.contributor.author | Lee, Chia-Ying | en |
dc.creator | 李佳穎 | zh-TW |
dc.creator | Lee, Chia-Ying | en |
dc.date | 2009 | en |
dc.date.accessioned | 2010-05-17T03:48:57Z | - |
dc.date.accessioned | 2018-07-05T01:33:55Z | - |
dc.date.available | 2010-05-17T03:48:57Z | - |
dc.date.available | 2018-07-05T01:33:55Z | - |
dc.date.issued | 2009 | - |
dc.identifier.other | U0001-2807200912042100 | en |
dc.identifier.uri | http://ntur.lib.ntu.edu.tw//handle/246246/183360 | - |
dc.description.abstract | 意見代表人們對某個議題的主觀想法,人們常透過文章表述意見,意見探勘 (opinion mining) 的技術可以幫助使用者自動分析大量文章中的意見。意見包括意見傾向 (opinion polarity) 、意見強度 (opinion strength) 、意見持有者 (opinion holder) 及評論目標 (opinion target) 四個要素。意見中表述意見的人或組織稱為意見持有者,意見持有者在不同議題中發表過的意見代表他的意見立場。在意見探勘中,意見持有者辨識的技術對於了解有哪些人或組織在表述意見、某個意見持有者的意見立場及兩個意見持有者的意見立場是否相似等相關資訊特別重要。意見持有者辨識主要有五個挑戰:同指涉解析 (coreference resolution) 、巢狀結構 (nested structure) 、處理歧異的標記、完整的意見持有者及候選詞選擇。見持有者辨識的目的是從意見句中擷取表述意見的人或組織,本研究提出一個以機器學習為基礎的意見持有者辨識方法。本研究將意見持有者辨識分為作者意見辨識及意見持有者標記兩部分。在作者意見辨識中,本研究提出詞彙相關資訊、詞性相關資訊、具名實體資訊、標點符號資訊、文句組成資訊及意見相關資訊等特徵值並使用支援向量機來解決此問題。在意見持有者標記中,本研究提出詞彙相關資訊、詞性相關資訊、具名實體資訊、標點符號資訊、文句組成資訊、前後文相關資訊及意見相關資訊等特徵值並使用條件隨機域模型來解決此問題。最後結合作者意見辨識結果及意見持有者標記結果產生最後的意見持有者。研究所實作出來的系統,應用在NTCIR7多語意見分析評比項目繁體中文語料的評估上,可以達到F值為0.734的效能,是採取機器學習方法的參賽隊伍中效能最佳的,也相當接近目前最佳系統的效能。對於意見持有者辨識語料中標記歧異的情形,本研究加以分析,並提出使用此語料來訓練模型的方法,本研究也針對系統辨識錯誤之結果分析,並提出兩種解決方法:具名實體修復及意見持有者尾詞標記。研究將意見持有者辨識應用於意見立場分析,我們以意見持有者在不同主題中的意見傾向來代表意見立場,並以餘弦相似度代表兩個意見持有者的意見立場相似程度。我們分別使用正確答案與系統辨識出之答案做意見立場分析,雖然本系統辨識之答案的效能不是最佳的,但應用在意見立場分析上可以達到與正確答案類似的結果。 | zh-TW |
dc.description.abstract | People write various articles in order to express their opinions. The opinion includes opinion polarity, opinion strength, opinion target and opinion holder. In this paper, we focus on the identification of opinion holders. In each article, the opinion holder could be the post-author or a nominal (noun, noun phrase or named entity) which issues some opinions in the article. In this paper, the task of opinion holder identification is divided into two subtasks: identification of author’s opinions and labeling of opinion holders, respectively. In this paper, we apply SVM (Support Vector Machine) and CRF (Conditional random field) to automatically extract opinion holders. The SVM is adopted to identify author’s opinions, and the CRF is utilized to label opinion holders (i.e., nominals). We propose some features including lexical features, part-of-speech features, named entity features, punctuation mark features, position features, context features and opinion-word features in the SVM and the CRF. Finally, the mining process will combine the result of the SVM and CRF. In experiments, the proposed method achieves the F-score 0.734 in NTCIR7 MOAT task at traditional Chinese side. It is best than other teams who utility learning methods. | en |
dc.description.tableofcontents | 誌謝 I文摘要 II文摘要 III錄 IV圖目錄 VI表目錄 VII一章 緒論 1.1 研究動機 1.2 研究目的 2.3 問題挑戰 2.4 相關研究 3.4.1 以經驗法則為基礎的相關研究 4.4.2 以機器學習為基礎的相關研究 4.4.3 本研究提出的方法 5.5 論文架構 5二章 意見持有者辨識方法 6.1 辨識流程 6.2 針對斷詞與詞性標記的特殊處理 7.3 作者意見辨識 8.3.1 特徵值擷取 9.3.2 支援向量機 10.4 意見持有者標記 11.4.1 特徵值擷取 11.4.2 決策樹演算法 14.4.3 條件隨機域模型 14.4.4 協同訓練 15.5 後置處理 16.5.1 意見持有者為詞組時之特殊處理 16.5.2 具名實體修復 17.6 合併作者意見辨識及意見持有者標記之結果 18三章 實驗與討論 20.1 實驗語料 20.1.1 NTCIR 7多語意見分析評比項目介紹 20.1.2 意見分析標記工具 21.1.3 意見持有者標記原則與答案產生方式 22.2 實驗資源 23.2.1 意見詞詞典 23.2.2 具名實體詞典 23.3 作者意見辨識實驗 24.3.1 實驗一、特徵集對作者意見辨識效能的影響 26.3.2 實驗二、訓練語料對作者意見辨識效能的影響 27.3.3 實驗三、標記歧異的語料對作者意見辨識效能的影響 29.4 意見持有者標記實驗 30.4.1 實驗一、分類演算法對意見持有者標記效能的影響 32.4.2 實驗二、特徵集對意見持有者標記效能的影響 35.4.3 實驗三、CRF標籤集對意見持有者標記效能的影響 36.4.4 實驗四、協同訓練與具名實體修復對意見持有者標記效能的影響 39.5 意見持有者辨識整體實驗 40.5.1 結果合併策略對效能的影響 40.5.2 與NTCIR 7參賽隊伍比較 41四章 意見立場分析 44.1 意見立場分析方法 44.2 意見立場分析結果 46.2.1 以所有意見持有者實體分析 46.2.2 以代表國家政府的意見持有者實體分析 47.3 意見立場分析的比較與討論 50五章 結論與未來展望 51.1 結論 51.2 未來展望 52考文獻 53錄一:意見持有者實體近義詞列表 55 | en |
dc.format | application/pdf | en |
dc.format.extent | 2593263 bytes | - |
dc.format.mimetype | application/pdf | - |
dc.language | zh-TW | en |
dc.language.iso | en_US | - |
dc.subject | 意見持有者辨識 | zh-TW |
dc.subject | 意見立場分析 | zh-TW |
dc.subject | 意見探勘 | zh-TW |
dc.subject | 條件隨機域 | zh-TW |
dc.subject | 支援向量機 | zh-TW |
dc.subject | opinion holder identification | en |
dc.subject | opinion viewpoint analysis | en |
dc.subject | opinion mining | en |
dc.subject | conditional random field | en |
dc.subject | CRF | en |
dc.subject | support vector machine | en |
dc.subject | SVM | en |
dc.title | 意見持有者辨識及其意見立場分析 | zh-TW |
dc.title | A Study on Identification of Opinion Holders and Analysis of Their Viewpoints | en |
dc.type | thesis | en |
dc.identifier.uri.fulltext | http://ntur.lib.ntu.edu.tw/bitstream/246246/183360/1/ntu-98-R96922084-1.pdf | - |
item.fulltext | with fulltext | - |
item.languageiso639-1 | en_US | - |
item.openairecristype | http://purl.org/coar/resource_type/c_46ec | - |
item.cerifentitytype | Publications | - |
item.openairetype | thesis | - |
item.grantfulltext | open | - |
顯示於: | 資訊工程學系
|