黃乾綱臺灣大學:工程科學及海洋工程學研究所楊家瑞Yang, Chia-JuiChia-JuiYang2010-07-142018-06-282010-07-142018-06-282008U0001-2907200821074200http://ntur.lib.ntu.edu.tw//handle/246246/188939蛋白質結構分析主要可分成整體(global)結構與局部(local)結構兩個層面,其中局部結構對於蛋白質功能性的分析特別息息相關,在某一蛋白質分群中常出現的相似結構片段,可能具有蛋白質生物性或演化上的意義,生物學家稱這些局部結構為保存區域(conserved region)。然而根據PDB網站所蒐集的蛋白質結構數量,目前已突破五萬大關,在這麼多的蛋白質中結構中,如何利用資料探勘技術,擷取出有意義的局部結構,進一步鑑定是否就是所謂的保存區域,便成為生物學家熱切的研究方向。本論文中,以NRS(neighborhood residues sphere)的概念,利用一個球體空間來記錄蛋白質局部結構中胺基酸殘基的分佈狀況,為了達到快速比對與分群的目的,我們嘗試將蛋白質結構編碼,以一維資訊儲存成特徵值來代表每個局部結構的空間資訊,經過不斷的探討與實驗,驗證了各種不同雜湊格設計方式的優劣以及緩衝區的必要性,進而改良出最能準確紀錄局部結構資訊的編碼方式,並應用在保存區域的探索上,期望在分類於同一種酵素底下的蛋白質中,找出那些對催化作用有影響力的區域。外,我們也將局部結構編碼方式應用在蛋白質整體結構比對上,快速地找出整體結構間高度相似的局部區域,利用它們作為比對時的基礎,將結構轉換至同一座標系統以方便作比對,並觀察蛋白質結構中其他區域的相似度,進而延伸探討stability與flexibility的問題。論文的出發點,在於希望能發展出一套快速描述局部結構之空間資訊的演算法流程,為每個蛋白質建立出可能的保存區域候選結構,實驗成果以及中間所遭遇的問題都值得將來在面對同樣的議題時,提出思考或是改進的空間。Analysis of protein structure were mainly divided into two aspects – global structure and local structure,especially the latter correlated closely with analysis of protein function. Most biologists supposed when some frequent patterns reveal in certain protein structure group, it may have some meanings of protein function or evolution in these regions, biologists usually name these regions “conserved regions”. Unfortunately it is very time-consuming when we want to find these conserved regions in a huge database of protein structure, and therefore how to use technology of data mining to solve this problem has become a hot thesis of bioinformatics.In this paper, we use concept of NRS (neighborhood residues sphere) to record distribution of amino acid residue of protein local structure. In order to cluster similar local structure quickly, we encoded every protein local structure to 1-Dimension information. Through heuristic experiments and discussions, we verified accuracy of every encoding method. Further we applied encoding method to mine possible conserved regions which may catalyze in enzyme structure classification database. Finally we also discussed the issue of flexibility and stability of global structure based on this structure encoding method scheme.口試委員會審定書………………………………………………………………... ii謝………………………………………………………………………………... iii文摘要…………………………………………………………………………... iv文摘要…………………………………………………………………………... vhapter 1 導論 - 1 -.1 動機 - 1 -.2 蛋白質整體結構與區域結構 - 1 -.3 保存區域(conserved region) - 3 -.4 以結構編碼方式應用在蛋白質分群 - 3 -.5 章節介紹 - 4 -hapter 2 文獻探討 - 5 -.1 研究背景介紹 - 5 -.1.1 蛋白質結構的組成 - 5 -.1.1 酵素(Enzyme) - 5 -.1.2 Protein Data Bank - 6 -.1.3 其他蛋白質資料庫 - 7 -.2 保存區域的層級 - 7 -.2.1 序列上的保存區域 - 7 -.2.2 結構上的保存區域 - 8 -.2.3 功能性residue與保存區域關係 - 9 -.2.4 Conservation與蛋白質演化、功能上的關係 - 10 -.3 保存區域定義與尋找 - 10 -hapter 3 區域結構編碼設計與討論 - 14 -.1 設計背景與動機 - 14 -.2 基本編碼方式 - 15 -.2.1 新座標系統轉換 - 15 -.2.2 鄰近區域結構編碼 - 16 -.3 結構編碼演算法流程 - 18 -.4 結構編碼方法分析與探討 - 18 -.5 結構編碼方法改良 - 20 -.6 蛋白質結構比對 - 21 -hapter 4 實驗與保存區域探尋 - 23 -.1 實驗:結構編碼方法比較 - 23 -.1.1 實驗設計 - 23 -.1.2 實驗流程 - 24 -.1.3 實驗結果與討論 - 25 -.1.4 門檻值(threshold)調整測試 - 28 -.2 實驗:保存區域探尋 - 30 -.2.1 實驗設計 - 30 -.2.2 實驗結果 - 30 -.2.3 更多的實驗結果 - 33 -hapter 5 應用:結構編碼方法應用於整體結構比對 - 41 -.1 應用背景 - 41 -.2 整體結構比對設計 - 42 -.3 演算法流程 - 44 -.4 實驗 - 45 -.4.1 實驗設計 - 45 -.4.2 比對數據 - 45 -.4.3 實驗結果探討 - 46 -hapter 6 結論與未來展望 - 49 -.1 結論與貢獻 - 49 -.2 未來展望 - 50 -考文獻 - 52 -3578944 bytesapplication/pdfen-US保存區域蛋白質結構比對編碼索引幾何雜湊conserved regionprotein structure comparisonencodingindexinggeometric hashing以改良式蛋白質結構編碼方法應用在保存區域探尋Mining conserved regions by an improved protein structural encoding methodthesishttp://ntur.lib.ntu.edu.tw/bitstream/246246/188939/1/ntu-97-R95525053-1.pdf