https://scholars.lib.ntu.edu.tw/handle/123456789/24380
標題: | 文件內容之分析--語料庫為本的模型 | 作者: | 陳光華 陳信希 |
關鍵字: | 文件內容;語料庫 | 公開日期: | 1996 | 出版社: | 臺北市:國立臺灣大學圖書資訊學系 | 期: | 11 | 起(迄)頁: | 97-114 | 來源出版物: | 台灣大學圖書館學刊 | 摘要: | 一般資訊檢索的研究著重於檢索模型的建構、查詢的回饋機制、檢索行為的探討、檢索系統的 執行效能。本文則把研究的重心回歸資訊或文件本身,希望對資訊的內容有一個初步的瞭解。 本文根據三個因素:1)詞彙的重複,2)詞彙的重要性,3)共容語意,提出一個基於真實語 料的文件內容分析的模型。這樣的模型著重於文章中名詞/動詞與名詞/名詞之間的配對關 係。本文也說明如何使用文件分析模型進行文件切分與文件主題辨識的研究,同時討論相關實 驗的結果。 An important step to understand text is to build the discourse structure through cohesion and coherence. However, to build the discourse structure in turn depends on the full understanding of texts, so that many efforts on this line are not automatic and not successful. A corpus-based model based on 1) repetition of words, 2) importance of words, and 3) collocational semantics for texts is proposed in this paper. It focuses on association norms of noun-noun relations and noun-verb relations defined on discourse level and sentence level, respectively. According to this model, a text partition algorithm is proposed to determine the boundaries of discourse structures and a topic identification algorithm is also presented. The results of a series of experiments show that the proposed model is promising. |
URI: | http://ntur.lib.ntu.edu.tw//handle/246246/29212 | Rights: | 國立臺灣大學圖書資訊學系;國立臺灣大學資訊工程學系 |
顯示於: | 圖書資訊學系 |
檔案 | 描述 | 大小 | 格式 | |
---|---|---|---|---|
jlis1996.pdf | 79.87 kB | Adobe PDF | 檢視/開啟 |
在 IR 系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。