曹承礎臺灣大學:資訊管理學研究所蘇俊斌Su, Chun-pinChun-pinSu2007-11-262018-06-292007-11-262018-06-292005http://ntur.lib.ntu.edu.tw//handle/246246/54259根據TWNIC 2005年1月中旬之調查報告指出,臺灣地區上網人口成長約1,380萬人,上網的家庭已達463萬戶,普及率高達65.02%,故Internet不僅已成為一個強大的媒體平臺,它也變成每個企業不可或缺的重要通路。企業都思索如何應用此通路來收集客戶瀏灠行為資料及維護客戶關係,找出顧客的真正需求,提昇服務品質和滿意度,以鞏固顧客忠誠度,使企業能長期從客戶價值中獲利。 但是要從網站的記錄來分析客戶瀏灠行為,在實務上還是有許多難題待解: (1) 網站的記錄,資訊是片斷分散的資訊,先天上資料並不夠完整。(2)網站的記錄的量通常都非常大,如何萃取、轉換成有用的資訊都是挑戰。(3)如何挖掘出對企業有用的知識也是難題。 本研究的貢獻是: (1)提出一套實用又簡單的分析架構可以有效的分析網站的記錄,對上述難題提供解決方案,(2)同時還提出一項演算法,它可算出網頁被點閱的熱門程度,進一步繪製出網站二維的瀏灠地圖,從視覺化呈現探勘結果,讓解釋上更明瞭易懂。應用本研究之分析架構和準則,就能從分析網站的記錄中萃取出網友的瀏灠行為,可協助企業多瞭解客戶,獲知客戶喜好有關的知識。 其結果可用於改善: (1)網站結構設計、(2)網頁瀏灠動線設計、(3)也可以用來分析單一客戶、一群特定目標客戶、或是全站客戶點閱記錄。從分析結果中,就能得到熱門網頁及客戶喜好的瀏灠動線,有了這些資訊後,只要再加入網站較高層次的語意資訊,例如:那些網頁是與購物車相關網頁、那些是檢索服務入口網頁等資訊,就可獲得許多網站經營上的實務知識。 本研究並以一個實際在線上服務的內容網站,從2005年3月至4月,一個月期間約六千六百萬筆記錄,共1.26GB大小的原始網站日誌資料為分析對象,經處理後選取其中三個最具代表性的典型資料為範例,來實證本研究所提的分析架構和演算法的適用性。According to the survey report, issued by TWNIC Jan. 2005, Internet popularity had grown to 13,800,000 users, about 4,630,000 home families, approaching 65% of whole families in Taiwan. Therefore, the Internet not only is a powerful media, but also become an important channel to enterprises. All enterprises are eager to find out a useful way to synergize such a powerful channel. They have been trying to analyze the visiting log of the web, and mine the behavior of customers who had contacted the enterprise through the Internet, willing to collect more customer information and provide more personalized services to customers. However, in practicality, there are some difficulties encountered. The First is the web logs are distributed information, which are separated on several servers, and need to be integrated and do lots of processing. Secondary, one of the difficulties is how to extract the key features from the huge logs, and how to solve the scalability issues. The third problem is how to find the suitable mining tools to discover the implicit knowledge from bunch of irrelevant raw data. Our research proposes a novel framework, which integrates most useful public domain resources and some self-developed tools, provides powerful analyzing tools to overcome such difficulties. This thesis also illustrates a novel algorithm to visualize click-stream mining result, named “Click-map”. This presentation is able to assist the web master to discover users’ navigation behaviors from the click path analysis more easily. For examining the availability of the framework and analysis methods, we use online web logs for the period of one month as examples. The logs came from an online content search services site, with 1.26GB data size and over 66 million records, recorded from March to April in 2005. The results proofed our framework to be useful and effective.目錄 謝詞 一 中文摘要 二 英文摘要 三 第一章 緒論 1 第一節 研究背景 1 第二節 研究動機 4 第三節 研究目的 7 第四節 研究範圍 10 第五節 章節結構 11 第二章 文獻探討 12 第一節資料探勘與網路探勘的異同 13 第二節網路探勘的分類與應用 16 第三節網頁使用探勘的執行步驟 18 第四節網頁使用探勘技術分析 20 第五節網路探勘文獻評述 23 第三章 研究方法 25 第一節 研究架構 25 第二節 探勘資料源網站日誌檔格式 27 第三節 資料前處理過程及工具 31 3.3.1資料清除程序 32 3.3.2網址代碼化處理程序 33 3.3.3區段化處理程序 33 3.3.4將資料轉換成入庫格式之處理程序 36 3.3.5從資料庫將探勘資料匯出轉換程序 40 第四節 網路探勘工具和探勘資料準備 42 3.4.1 WEKA的探勘資料格式-ARFF 43 3.4.2 點閱路徑分析 43 3.4.3以 Click-map視覺化呈現點閱路徑 44 第四章 實證分析 50 第一節 本研究對象說明 50 第二節 以關聯法則探勘器挖掘隱性知識 53 第三節 以路徑縱灠探勘器挖掘隱性知識 56 4.3.1 分析所有身份可識別者的集體點閱行為 56 4.3.2 分析個人的點閱行為 58 4.3.3 分析單週全站集體點閱記錄以挖掘熱門路徑 60 第五章 結論及未來工作 65 第一節 結論及貢獻 65 第二節 研究限制 69 第二節 未來發展建議 70 參考文獻 71 相關網站 75 附錄一 把點閱資料區段化(Sessionize)的三種經驗計算 76 附錄二 本研究所提的網站探勘資料庫設計架構 79 附錄三 資料庫處理Store Procedure spWUMT00程式碼 82 附錄四 Chen(1998) MFR演算法範例 86 附錄五 以PERL程式語言實作MFR演算法程式碼 90 附錄六 本研究網站vip.tol.com.tw網址與網頁代碼對應表 93 附錄七 把網站探勘資料轉換成 ARFF格式之範例 94 附錄八 以PERL程式語言實作Click-map演算法程式碼 961568079 bytesapplication/pdfen-US網路探勘網頁使用探勘網誌分析點閱行為分析瀏灠行為分析最大前向參考路徑點閱路徑地圖瀏灠路徑資料探勘Web Usage MiningUser Navigation Behavior AnalysisClick-stream AnalysisWeb Log MiningPath Traversal Pattern MiningMaximum Forward ReferenceWebhouseClick-mapWeb Mining應用網站探勘技術於網友瀏灠行為分析-以內容服務網站為例Apply Web Mining Techniques to Analyze the Navigation Behavior of Visitors - Using Online Content Site as Exampleotherhttp://ntur.lib.ntu.edu.tw/bitstream/246246/54259/1/ntu-94-P91747003-1.pdf