簡立峰臺灣大學:資訊管理學研究所周宗霈Chou, Tsung-PeiTsung-PeiChou2007-11-262018-06-292007-11-262018-06-292007http://ntur.lib.ntu.edu.tw//handle/246246/54194術語是句子、文章精煉之後的詞彙,是資訊呈現的基本單位,常做為概念的導引,術語的組織有助於使用者了解主題,進而快速掌握重要的資訊。當術語來源及使用者需求不固定時,傳統的術語組織方法難以直接滿足使用者的需求,分群結果缺乏語意上的解釋,分類方法則需耗費大量的人力。 在本論文中,我們提出一結合分類及分群之術語組織方式,我們運用分群方法發掘重要的術語主題,幫助使用者快速掌握整個術語中的重要概念,使用者可依此決定術語類別並從分群結果中擷取訓練語料,最終全部術語以分類方法進行組織。分群及分類方法為一反覆交替過程,過程中可不斷接受使用者回饋,而持續修正組織結果。 此方式使得術語組織的過程大為簡化,且能考量不同使用者的偏好,依使用者自訂的類別組織術語。我們從初步實驗獲得的結果發現,本研究所提方法能使組織結果更為理想。Terms, short and meaningful word string which extracted from sentences and articles, can be the basic unit of information and guideline of concept. The organization of terms can help user understand topics and therefore grasp the key point quickly. When the sources of terms and requests of user are varied, conventional methods, clustering and classification, cannot satisfy users. The clustered results are lack of comprehensive explanations and the classification method need much manual work. In this thesis, we develop an approach to combine the clustering and classification methods on term organization which provide a more comprehensive overview on terms. We use clustering method to extract the main topic and then user can decide the target classes from clustering results. Finally, all terms will be classified to their belonging classes. The clustering and classification methods are iterative to achieve a better performance.目錄 謝 辭 II 論文摘要 III THESIS ABSTRACT IV 目錄 V 表次 VII 圖次 VIII 第一章 緒論 1 第一節 研究背景 1 第二節 研究動機與目的 3 第三節 論文架構 5 第二章 文獻探討 6 第一節 向量空間模型 6 2.1.1 文件相似度 7 第二節 分群技術 9 2.2.1 階層式分群演算法 9 2.2.2 分割式分群演算法 11 第三節 分類技術 12 2.3.1 Naïve Bayes 13 2.3.2 K個最近鄰居法 14 第四節 術語組織相關研究探討 15 2.4.1 術語研究 15 2.4.2 以分群及分類技術為基礎的術語組織方法 16 第三章 問題與研究方法 18 第一節 問題陳述 18 第二節 研究架構與方法 19 第三節 系統實作 21 3.3.1 系統架構 21 3.3.2 術語特徵值擷取 21 3.3.3 術語組織 23 第四節 系統特性 28 第四章 實驗結果 29 第一節 實驗流程 29 第二節 術語分群實驗 30 4.2.1 實驗設置 30 4.2.2 實驗評估方式 30 4.2.3 術語分群之效能 31 4.2.4 分析及討論 35 第三節 類別標示實驗 36 4.3.1 利用類別名稱進行分類之效能 36 4.3.2 利用類別內術語進行分類之效能 37 第四節 結合分群與分類之術語組織實驗 37 4.4.1 實驗設置 37 4.4.2 實驗結果 38 4.4.3 分析及討論 43 第五章 結論與未來展望 44 第一節 結論 44 第二節 未來展望 44 參考文獻 46 附錄一 中研院平衡語料庫詞類標記集 50639625 bytesapplication/pdfen-US術語組織分群技術分類技術全球資訊網Term OrganizingClusteringClassificationWorld Wide Web結合文件分類及分群之術語組織技術Organization of Term Associations through a Combination of Text Classification and Clusteringotherhttp://ntur.lib.ntu.edu.tw/bitstream/246246/54194/1/ntu-96-R94725028-1.pdf