歐陽彥正臺灣大學:資訊網路與多媒體研究所范右昇Fan, Yu-ShengYu-ShengFan2007-11-272018-07-052007-11-272018-07-052007http://ntur.lib.ntu.edu.tw//handle/246246/58409在高等的真核生物中,被發現存在有結構非穩定區段的蛋白質與日俱增,而且這些區段大部分是與其生物功能相關。隨著越來越多的蛋白質的結構被解出,發現許多的蛋白質都具有一些結構變動較大或沒有穩定結構的區段,通常稱為非穩定區段(Disordered regions)。許多研究發現,這些非穩定的區段其實是一些重要生物功能的作用區,並且在與其反應物或受質結合時,會使原本不穩定結構的區段可以有穩定的折疊,形成較穩定的結構。此反應過程稱之為觸發蛋白質折疊(induced folding)。 因為具有非穩定區段的蛋白質(Intrinsically Unstructured Proteins;IUPs)不容易去觀察其作用區的特性,雖然這個主題的相關研究漸漸被重視,卻很少有研究大量收集具有觸發蛋白質折疊的蛋白質結構來供觀察和分析,如果能夠預測一個蛋白質是否具有觸發蛋白質折疊的區域,我們便可以推測出這些蛋白質區域帶有的特殊功能和它們結構轉變的關係,對分析目前尚未解出結構的蛋白質功能研究上將有莫大的幫助。因此在本篇論文中,我們從蛋白質結構資料庫(Protein Data Bank;PDB)擷取出結構有變動的蛋白質,經過程式的篩選比對,整理出具有觸發蛋白質折疊的蛋白質資料集。 根據先前學者的研究以及實驗結果,所有蛋白質中具有觸發蛋白質折疊的區域通常具有一些相同的物化特徵或結構特性。本篇論文使用比對蛋白質結構非穩定區段和一系列過濾資料的方法收集資料集。使用以序列演化資訊為基礎,轉換為胺基酸物化性質的特徵集,以及從序列預測出來的蛋白質二級結構資訊作為特徵集,建立一個預測模型,應用在收集到的觸發之蛋白質資料集,採用徑向基函數網路(Radial Basis Function Networks; RBFN)的分類演算法,來預測觸發蛋白質折疊的區域可以有不錯的準確度。In many eukaryotes, more and more proteins have been founded to be fully or partially disordered, which means unstable three-dimensional conformation. In particular, most of these disordered proteins, also called intrinsically unstructured proteins (IUPs), are shown to be functionally significant. When IUPs interact with their partners, they usually undergo disorder-to-order transition that turns the disordered regions into stable structures. This process is also referred to as "induced folding". Although there has been an increasing amount of studies on IUPs, few datasets are provided for analysis and investigation on induced folding. Since the “induced folding” regions of IUPs are closely related to the protein functions, correctly predicting these regions facilitates the studies in proteomics. In this thesis, we collect a ligand induced folding benchmark from PDB (Protein Data Bank), and propose a predictor for detecting ligand induced folding regions directly from protein sequences. The benchmark is built with the PDB structures that contain proteins with identical sequences but inconsistent structure information. Each pair of structures is manually confirmed that the dissimilar regions are spatially close to ligands within 5Å. Furthermore, a prediction model is built with feature sets based on position-specific scoring matrices (PSSM). The developed Radial Based Function Network classifier (using QuickRBF package) achieves an AUC score (area under the ROC) of 0.7833. After expanding the feature sets with physiochemical and predicted secondary structure information, the prediction performance can be further improved to 0.8142.目錄 CHAPTER 1 導言 1 CHAPTER 2 相關研究 4 2.1 觸發蛋白質折疊 4 2.2 特徵集 8 2.2.1 位置加權矩陣(PSSM) 9 2.2.2 蛋白質二級結構(Secondary Structure Element) 10 2.2.3 蛋白質物化性質 10 2.3 分類法比較 11 2.3.1 類神經網路(Neural Network – NN) 11 2.3.2 徑向基函數網路(Radial Basis Function Network - RBFN) 12 CHAPTER 3 資料集與實驗方法 14 3.1 目標 14 3.2 資料集(DATASET) 14 3.3 特徵集取得與轉換 19 3.3.1 位置加權矩陣的使用(PSSM) 19 3.3.2 PSSM以物化性質轉換(PSSM-物化性質) 20 3.3.3 純化後的PSSM以物化性質轉換(PSSM-純化物化性質) 21 3.3.4 移動窗(Sliding window) 24 3.3.5 蛋白質二級結構SSE (secondary structure element) 25 3.4 分類法RBFN及分類工具QUICKRBF 29 3.5 結果評估準則 29 3.6 特徵選取(FEATURE SELECTION) 33 CHAPTER 4 結果和討論 34 4.1 實驗 分類器 QUICKRBF 中心值比較 34 4.1.1 實驗目標 34 4.1.2 實驗結果 35 4.1.3 實驗討論 36 4.2 實驗 PSI-BLAST 重覆次數比較 36 4.2.1 實驗目標 36 4.2.2 實驗結果 37 4.2.3 實驗討論 39 4.3 實驗 PSI-BLAST 使用各種不同大小的資料庫的比較 40 4.3.1 實驗目標 40 4.3.2 實驗結果 40 4.3.3 實驗討論 41 4.4 實驗 PSSM以及轉化成物化性質系列比較 41 4.4.1 實驗目標 41 4.4.2 實驗結果 42 4.4.3 實驗討論 47 4.5 實驗 蛋白質二級結構單獨預測觸發蛋白質折疊 48 4.5.1 實驗目標 48 4.5.2 實驗結果 48 4.5.3 實驗討論 50 4.6 實驗 PSSM+蛋白質二級結構預測結果 50 4.6.1 實驗目標 50 4.6.2 實驗結果 50 4.6.3 實驗討論 52 CHAPTER 5 結論與未來展望 53 5.1 結論 53 5.2 未來展望 54 5.2.1 資料集的準備 54 5.2.2 生物特性資訊的收集 54 參考文獻 551661045 bytesapplication/pdfen-US蛋白質非穩定區段序列二級結構觸發蛋白質折疊proteindisorder regionSSEsequence analysisdisorderinduced folding預測配位基觸發之蛋白質折疊Prediction of Ligand Induced Folding Regions from Protein Sequencesthesishttp://ntur.lib.ntu.edu.tw/bitstream/246246/58409/1/ntu-96-R94944031-1.pdf