https://scholars.lib.ntu.edu.tw/handle/123456789/24372
標題: | 電子文獻主題之自動辨識 Automatic Identification for Topics of Electronic Documents |
作者: | 陳光華 | 關鍵字: | 資訊檢索;電子文獻;主題辨識;Information Retrieval;Electronic Document;Topic Identification | 公開日期: | 1997 | 出版社: | 臺北市:國立臺灣大學圖書資訊學系 | 期: | 59 | 起(迄)頁: | 43-58 | 來源出版物: | 中國圖書館學會會報 | 摘要: | 網際網路上的電子文件數量極為龐大,如何快速有效的進行電子文件主題標引的工作逐漸成為一項重要的研究課題。目前有關的研究著重於名詞的行為,期望藉由文獻中名詞的頻率或是其他統計值,求得文獻的主題分類。雖然文獻的主題是由名詞組成,但是本文認為決定那些名詞成為主題的因素卻不只是名詞。因為文獻的組織是具有結構性的,是事件驅動(Event-Driven)的,而事件則是由名詞與動詞共同完成的,名詞與動詞在決定文獻主題的過程中具有重要地位。本論文考慮文獻的一般行為,提出四項因素:1) 詞彙的重要性,2) 詞彙的重複性,3) 詞彙的共現性,4) 詞彙的距離,建構一個數學模型並進行讀者與模型的比較實驗。實驗結果顯示該模型的自動主題辨識與人工主題辨識具有相當的效能。 The volume of electronic documents in the Internet grows very quickly. How to effectively assign topics to documents becomes an important issue. In the present time, the researches based on this line focus on the behavior of nouns in documents. Although topics are composed of nouns, the constituents that determine which nouns are topics are not only nouns. We think that texts are well-organized and are event-driven. Therefore, nouns and verbs together contribute the process of topic identification. This paper considers four factors: 1) word importance, 2) word frequency, 3) word co-occurrence, and 4) word distance and constructs a mathematical model. The preliminary experiments show that the performance of the proposed model is equivalent to that of human being |
URI: | http://ntur.lib.ntu.edu.tw//handle/246246/29200 | Rights: | 國立臺灣大學圖書資訊學系 |
顯示於: | 圖書資訊學系 |
檔案 | 描述 | 大小 | 格式 | |
---|---|---|---|---|
blac1997.pdf | 828.35 kB | Adobe PDF | 檢視/開啟 |
在 IR 系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。