簡立峰臺灣大學:資訊管理學研究所蔡景祥Tsai, Ching-HsiangChing-HsiangTsai2007-11-262018-06-292007-11-262018-06-292005http://ntur.lib.ntu.edu.tw//handle/246246/54411藉由搜尋引擎的幫助,人們已可輕易地從網路上獲得大量的資訊,然而這樣的搜尋結果經常缺乏適當的組織,使用者常須費心逐一檢視搜尋結果以找尋相關的資訊。過去的研究嘗試利用文件分群技術解決此問題,然而分群之後的結果往往缺乏語意上的解釋。 本論文提出一個新的搜尋結果組織技術,首先從搜尋結果摘錄中發掘出重要的主題術語,重要主題術語可以幫助使用者快速瀏覽整個搜尋結果中的重要概念,接著以使用者自訂的主題類別重新組織搜尋結果。在過去的搜尋結果組織技術中,都沒有考慮到使用者的偏好問題,本研究提出的作法不但可以以使用者比較熟悉的主題類別去標記所有出現在搜尋結果中的重要主題,幫助理解,還可以藉此瞭解重要主題之間的關係。這個技術可以提供使用者對於搜尋結果中重要主題的有較佳的整體概念,並且可以針對不同使用者的不同偏好加以重新組織,以個別使用者偏好的方式呈現。從初步實驗所獲致的結果發現,本研究所提方法可協助使用者快速瀏覽搜尋結果與重新闡述他的查詢。With the rapid growth of the amount of Web pages and the number of users, the demand for powerful search engines is high. Existing commercial search engines are still fraught with some disadvantages. The ranked list of search result pages returned from a search engine is often long and mixed with some concepts that are relevant to the user’s query but hard to be identified. Web search results are actually lack of a well organization, which require users to pay attention on examining the retrieved pages and identifying the correct ones. Conventional research to dealing with this problem relied on using document/term clustering algorithms to handle search results. However, the clustered results are still lack of comprehensive explanations. In this thesis, we develop a new search result organizing approach which contains some characteristics outperformed from the conventional approaches. First, it extracts important topic terms from search result pages and tries to provide a comprehensive overview for the search result. Second, the extracted topic terms are organized with the manner the user prefers. In fact, users’ preferences were seldom taken into account in previous research. With the proposed approach, it is able to extract important topic terms from Web search result snippets and organizes them with the topic classes defined by users. A series of experiments has been conducted and the obtained results show that the proposed approach can help users effectively browse the concepts embedded in the search result pages and easier to locate relevant pages.謝詞 一 論文摘要 二 THESIS ABSTRACT 三 目錄 四 表次 六 圖次 七 第一章 序論 1 第一節 研究背景 1 1.1.1 全球資訊網上的搜尋服務 1 1.1.2 文件分群技術 2 第二節 研究動機與目的 3 第三節 論文架構 3 第二章 文獻探討 5 第一節 傳統分群演算法 5 2.1.1 階層式分群演算法 7 2.1.2 分割式分群演算法 8 第二節 向量空間模型與文件分群 9 第三節 網路搜尋結果分群相關研究探討 11 2.3.1 以術語為基礎的分群技術 13 2.3.2 以超連結為基礎的分群技術 15 2.3.3 結合術語與超連結的分群技術 18 2.3.4 文件分群技術應用於搜尋結果再組織之缺點 18 第三章 問題與研究方法 20 第一節 問題定義 20 3.1.1 問題一:發掘重要主題與摘要群聚 20 3.1.2 問題二:重新組織搜尋結果 21 第二節 研究架構與方法 22 第三節 系統實作 23 3.3.1 系統功能 24 3.3.2 系統架構 24 3.3.3 系統前置作業 26 第四節 系統特性 26 第五節 成效評估與使用者研究 27 第四章 主題發掘與搜尋結果群聚 29 第一節 主題擷取 30 第二節 主題選取 30 第三節 主題集合形成 33 第四節 實作細節 35 第五節 效能衡量 38 4.5.1 實驗1-1:主題發掘技術的效能 38 4.5.2 實驗1-2:不同主題發掘技術之間的重複情況 44 4.5.3 實驗1-3:主題發掘技術對於搜尋結果摘要的覆蓋率 46 第五章 依自訂主題組織搜尋結果 47 第一節 自動訓練使用者自訂主題類別分類器 49 第二節 自動分類主題 51 第三節 實作細節 54 第四節 效能衡量 55 5.4.1 實驗2-1:主題分類技術的效能 56 5.4.2 實驗2-2:間接相關程度對於主題分類效能的影響 59 5.4.3 實驗2-3:主題類別的熵值 61 5.4.4 實驗2-4:間接相關程度對於主題類別熵值的影響 63 5.4.5 實驗2-5:間接相關程度對主題分類效能與主題類別熵值的影響 64 第六章 結論與未來展望 67 第一節 結論 67 第二節 未來展望 67 參考文獻 69 附錄 73 簡歷 771357488 bytesapplication/pdfen-US全球資訊網搜尋結果組織分群技術分類技術World Wide WebSearch Result OrganizingClusteringClassification網路搜尋結果自動組織之研究A Study on Organizing Web Search Resultsotherhttp://ntur.lib.ntu.edu.tw/bitstream/246246/54411/1/ntu-94-R92725028-1.pdf