劉清臺灣大學:農藝學研究所葉瑞鈴Yeh, Ruey-LingRuey-LingYeh2010-05-052018-07-112010-05-052018-07-112008U0001-3101200806324400http://ntur.lib.ntu.edu.tw//handle/246246/180047在資訊科技的時代,資料對組織而言扮演著資訊來源的重要角色,當面臨資料有遺漏或不足之不完美資料庫時,從資料庫所得之結果可能提供有偏差或誤導的解決辦法;因此,對資料庫進行插補遺漏值及函數映射加值,已成為資料採礦之主要步驟之一。有目標資料庫與輔助資料庫時,可以利用函數映射方法使資料庫整合為一個大資料庫,即為加值後的資料庫,本研究之目的為當資料庫加值後,評估資料之架構及正確性。依不同的資料型態而使用不同的資料採礦技術建立插補及加值模型,連續資料使用迴歸分析及類神經網路,類別資料使用羅吉斯迴歸、類神經網路、C5.0 及 CART建立預測模型。研究以RMSE、正確率及Kappa統計量評估插補及加值資料庫之結果,研究結果顯示,對連續資料而言,迴歸分析提供最好的估計,但類別資料大部分以C5.0之結果較好。應用插補及函數映射使資料庫加值並增加大量的資料及資訊量,經過評估後,資料庫加值確實有其效果,對於進行資料採礦極具助益。Data plays a vital role as a source of information to organizations, especially in times of information and technology. One encounters a not-so-perfect database from which data is missing or insufficient, and the results obtained from such a database may provide biased or misleading solutions. Therefore, imputing missing data and functional mapping to a database has been regarded as one of the major steps in data mining.A goal database and an auxiliary database utilizing functional mapping make the database combine as a great database, the purpose of this research is to evaluate the structure of the data when the database has been value-added. The present research used different methods of data mining to construct imputative and value-added models in accordance with different types of data. When the missing data is continuous, regression models and Neural Networks are used to build predictive models. For the categorical missing data, the logistic regression model, neural network, C5.0 and CART are employed to construct predictive models. n this research use RMSE , accuracy rate and Kappa statistic to examine the results of imputation and value-added database. The results showed that the regression model was found to provide the best estimate of continuous data; but for categorical data, the C5.0 model proved the best method.After the assessment of the data, using the imputation and functional mapping makes the database add value and increase the amount of information of the data. The value-added database really has its effect because the increase of the amount of information is good for the database that will carry on data mining.目 錄__________________________________試委員會審定書 i謝 ii文摘要 iii文摘要 iv一章 緒論 1.1 研究背景 1.2 研究動機及目的 3.3 研究概述 4.4 章節說明 5二章 資料庫加值及評估方法 6.1 函數映射的概念 6.2 資料庫加值的概念 7.3 遺漏值處理方法 7.4 加值評估方法 16三章 資料採礦技術 21.1 資料庫系統簡介 21.2 資料倉儲概論 21.3 資料採礦概述 23.4 資料採礦的功能 25.5 資料採礦演算法 27四章 實例研究一 44.1 工商及服務業普查資料庫簡介 44.2 資料瞭解及準備 45.3 建立預測模型 45.4 評估 48五章 實例研究二 54.1 技術創新調查資料庫簡介 54.2 資料處理與準備 54.3 資料庫加值過程 55.4 加值成效評估 56六章 結論與建議 74.1 結論 74.2 建議 75.3 未來研究方向 76用文獻 78錄一:工商及服務業普查項目 82錄二:工商及服務業普查調查表 85錄三:技術創新調查項目 88錄四:技術創新調查調查表 94錄五:三種加值方法加值結果與原始資料結構之比較 102錄六:Imputing manufacturing material in data mining(SCI paper) 114圖 目 錄__________________________________1.1 函數映射(Functional mapping) 42.1 函數映射架構(the structure of functional mapping) 62.2 混亂矩陣(confusion matrix) 193.1 羅吉斯曲線圖(logistic regression curve) 303.2 CART的分割( the partition of CART) 333.3 人工神經元結構( the structure of Processing Element) 373.4 類神經演算法轉化函數圖形( Transfer Function plot of Neural Network) 383.5 前向式類神經網路( Feed-forward Neural Network ) 403.6 回饋式類神經網路( Feedback Neural Network) 403.7 倒傳遞類神經網路( Backpropagation Neural Network ) 414.1 連續依變數之分配( Distribution of the continuous dependent variable Neural Network ) 454.2 類別依變數之分配( Distribution of the categorical dependent variable Neural Network ) 464.3連續遺漏值之模擬插補結果(RMSE)比較圖( Multiple plot of the continuous missing data) 525.1 技術創新變數加值結果正確率比較(The accuracy rate of value-added variables) 635.2 技術創新變數加值結果KAPPA統計量比較( The Kappa statistic of value-added variables) 68 目 錄__________________________________4.1 皮爾森相關係數及迴歸結果(Pearson correlation and results of the regression) 474.2 迴歸及類神經網路之評估(the evaluation of the regression and the neural network) 494.3 羅吉斯迴歸之結果(Results of the logistic regression) 504.4 類別訓練及測試模型的正確率(Accuracy rate of the categorical training and testing model) 504.5 四個模型的錯誤率(Error rate of four models) 504.6 類神經網路模型之相對重要性(Relative importance in neural network) 514.7類別遺漏值之模擬插補結果表( Simulation results of the categorical missing data ) 525.1加值類別變數之全部正確率摘要( Summary of the accuracy rate of value-added categorical variable) 575.2 加值類別變數之全部Kappa統計量摘要( Summary of the Kappa statistic of value-added categorical variables) 575.3變數加值結果評估表(The evaluation of value-added variables result) 586.1 各種相關係數(All kinds of the correlation) ) 75135 bytestext/htmlen-US資料採礦遺漏值插補函數映射資料庫加值C5.0CARTBPNNData miningMissing dataImputationFunctional MappingValue-added database資料採礦技術對資料庫加值成效評估之研究The study of value-added database evaluation in data miningthesishttp://ntur.lib.ntu.edu.tw/bitstream/246246/180047/1/index.html