https://scholars.lib.ntu.edu.tw/handle/123456789/117290
標題: | Free-DOM:萃取鬆散文件中的重要資訊並結構化之方法 Free-DOM:A Free-text Document Object Model |
作者: | 王文廷 Wang, Wen-Ting |
關鍵字: | DOM;XML;資料萃取;正規表達式;Document object model;Data extraction;Regular expression | 公開日期: | 2006 | 摘要: | 全球資訊網(WWW)(World Wide Web)上的資料,絕大多數皆以HTML(HyperText Markup Language)文件呈現;而全球資訊網上資料的加值應用,則須以此廣大的文件庫為基礎。又因為HTML文件是一種內容與排版呈現描述交雜在一起的文件,並沒有語意結構的描述,所以重要資訊的線索並不存在標籤(TAG)之中,因此HTML文件不論在語意上或者在結構上皆為鬆散的文件。所以在鬆散文件中的資料萃取及資料操控問題尤為重要。觀察深層網頁,可以假設同一個網站中的文章排版風格相近,同文章中的重要資訊也有相同的排版風格,Free-DOM主要應用在此類的文章之上。對鬆散文件的資料萃取而言,正規表達式提供一個豐富且精準的萃取機制。對資料操控來說,文章物件模型(Document Object Model)(DOM)提供了一個重要的機制來處理結構化的文章。Free-DOM係指使用正規表達式萃取鬆散文件(Free-Text)中的重要資料,然後使用文章物件模型的概念來結構化萃取後的資料。為了要做全球資訊網路資料的加值應用,本文設計Free-DOM來萃取結構化鬆散文件中的重要資訊以提供程式語言操控或是直接以XML(Extensible Markup Language)格式輸出結構化文件之後讓DOM操控以利於做全球資訊網路資料的加值應用。 Most documents available over the World Wide Web are written in or transformed into HTML. However, HTML is a loosely structured language that mixes presentational style with content. It is therefore important to design ways that can extract data from HTML documents. In this thesis we propose a method, Free-DOM (a Free-text Documents Object Model), for this purpose. Free-DOM is aimed at extracting data from HTML documents with a similar presentational format. It uses the regular expression to capture the structure of the format that it wants to extract, and the concept of DOM (Document Object Model) to manipulate the extracted data. Thus Free-DOM provides an extraction-and-manipulation language for free-text documents. Free-DOM supports programming languages (such as C++) as a library to pre-process and manipulate documents. It also works as a server-side script language to do value-added applications over the World Wide Web. We show the effectiveness of our method by several examples. |
URI: | http://ntur.lib.ntu.edu.tw//handle/246246/54119 | 其他識別: | zh-TW |
顯示於: | 資訊工程學系 |
檔案 | 描述 | 大小 | 格式 | |
---|---|---|---|---|
ntu-95-R93922073-1.pdf | 23.31 kB | Adobe PDF | 檢視/開啟 |
在 IR 系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。