丁肇隆蔡進發臺灣大學:周宗江Chou, Chung ChiangChung ChiangChou2007-11-262018-06-282007-11-262018-06-282004http://ntur.lib.ntu.edu.tw//handle/246246/51093現今的網際網路是一個超大型的資料庫,任何人只要能夠利用電腦連上網路就可以在這個大型資料庫中取得所需的資訊或知識。而形成網際網路蓬勃發展的重要因素是Tim Berners-Lee於1990年所提出的HTML標籤語言。然而,經過十幾年的演變,要在網際網路上找到有價值的資訊或知識卻越來越困難,主要的原因在於網路上的資源絕大多數都沒有適當的內容描述方式。最明顯的例子就是HTML,其標籤內容缺乏嚴謹的資料描述方式,使得目前的搜尋引擎大多僅能透過關鍵字比對的方式,搜尋可能相關的網頁;使用者經常得面對上萬篇的搜尋結果,但只能找到極少有用的資訊或知識。 語意網(Semantic Web)是下一代網際網路主要發展的方向,目標是希望網路上的所有資源透過適當的內容描述方式,使得搜尋引擎或使用者代理程式(User Agent)能夠提高搜尋結果的精確度,但這種遠景尚無法在短時間內完成。因此是否能夠透過目前現有的搜尋引擎、資料探勘技術和語意描述方式,讓使用者能夠容易找到有用且有組織的資訊或知識,是本論文研究的方向。 本研究以主題地圖(Topic Maps)與延伸式標籤語言(Extensible Markup Language, XML)為基礎所制訂的主題地圖標籤語言(XML Topic Maps, XTM)為組織知識架構的方法,以及相關的規範與軟體技術為學習與應用的對象,並以WWW為知識探勘的資料來源建構一個知識礦掘(Knowledge Mining)之樣版架構。Internet is the biggest, unstructured database in the world today. It's easy for everyone to get information or knowledge from Internet. The Hyper-Text Markup Language (HTML) created by Tim Berners-Lee makes this situation come true. Everyone can publish their web pages on Internet, but no well-structured content description language can be used. That makes it harder and harder to get useful information or knowledge from Internet. The obvious example is HTML. Tags have less content description mechanism. That's why modern search engine such as Google or Yahoo! can only use keyword matching to find out lots of web pages, but useful web pages is very few. The Semantic Web is next generation technology to solve this problem. It's focus on content description. Every shared resource should be given semantic description such that search engine or user agent can "understand" what the resource is and improve the precision of search results, but it's not an easy job. For getting more useful information or knowledge, it’s a possible way to combine recommended content description language we have now, data-mining technologies to find information or knowledge, and structure a more semantic result for user. In this paper, XTM (XML Topic Maps) is a content description language to describe found data or information. Some specifications, mining technologies and software are learned also. We combine these to create a knowledge mining template to mine the useful, well-organized information or knowledge from Internet.摘要 I Abstract II 目錄 III 表目錄 V 圖目錄 VI 原始碼目錄 VIII 第一章 緒論 9 1-1 研究動機 9 1-2 研究目的 11 1-3 論文架構 11 第二章 文獻探討與相關技術 13 2-1 知識的定義與表示方式 13 2-1-1 知識的定義 13 2-1-2 知識的表示方式 14 2-2 語意網(Semantic Web) 15 2-2-1 全球資訊網(WWW)和語意網 15 2-2-2 語意網的架構 16 2-3 主題地圖(Topic Maps) 17 2-3-1 主題地圖的起源與規範 17 2-3-2 主題地圖的基本要素之一 – Topic (主題) 17 2-3-3 主題地圖的基本要素之二 – Occurrence (發生位置) 20 2-3-4 主題地圖的基本要素之三 – Association (關連性) 20 2-3-5 主題的特徵 (Characteristic) 與領域 (Scope) 21 2-3-6 主題地圖的合併 22 2-3-7 主題地圖解析器 23 2-3-8 主題地圖與知識表示法 24 2-4 關鍵字(詞)的擷取 25 2-5 Open Directory Project 29 第三章 系統架構 30 3-1 系統架構 30 3-2 樣版與搜尋樣式 32 3-3 主題地圖的記錄方式 35 3-4 關鍵字探勘的改進 36 第四章 知識礦掘網站的實作 40 4-1 樣版管理 40 4-1-1 新增樣版 40 4-1-2 檢視樣版 40 4-1-3 編輯樣版 40 4-1-4 編輯預設樣版 41 4-2 網路搜尋與瀏覽主題地圖 41 4-2-1 搜尋設定 41 4-2-2 搜尋結果導覽 43 4-3 系統評估 43 4-3-1 靜態網頁的搜尋 — 以OECD Shipbuilding為例 43 4-3-2 動態搜尋 — 以XML為例 45 4-3-3 動態搜尋 — 以Linux為例 47 4-3-4 系統評估 47 第五章 結論 49 5-1 研究成果 49 5-2 未來展望 49 參考文獻 109en-US知識礦掘延伸式標籤語言主題地圖Knowledge MiningTopic MapsExtensible Markup Language利用主題地圖建構知識礦掘網站之研究Study on the Application of Topic Maps in Knowledge Miningthesis