蕭朱杏臺灣大學:流行病學研究所溫淑惠Wen, Shu-HuiShu-HuiWen2007-11-272018-06-292007-11-272018-06-292004http://ntur.lib.ntu.edu.tw//handle/246246/56202摘 要 大型相關性研究要推論疾病與成千上萬個標誌基因之間的關係時,常藉由檢定多個標誌基因,如SNP,與疾病間之相關性來找出疾病易感受基因。在檢定過程會遇到多重檢定的問題,此時型Ⅰ誤可能會隨檢定個數增加而變大。傳統Bonferroni法雖不至於增加型Ⅰ誤,但因其過於保守,相對降低檢定力。然而,初步掃描基因的研究首重檢定力,換句話說,降低型Ⅱ誤較符合所需。本論文提出兩階段作法,在第一階段挑選相關的SNP時,不希望錯過相關性只有中等的SNP;亦即調高檢定力,希望可以挑到大部分與疾病相關的SNP。在第二階段則採取較嚴格的顯著性水準,以控制整體偽陽率。在本論文中,將提出兩階段方法的實際操作流程,並探討兩階段方法的統計特性,包括整體偽陽率及偵測力(TPR)的推導。此外,也建議兩階段設計所需的樣本數,以及第一、第二階段樣本數的選擇。然後,將藉由模擬研究評估兩階段方法的表現,並與傳統Bonferroni法比較整體偽陽率及TPR。模擬結果顯示,當病例組與對照組的基因頻率差異越小時,兩階段方法之整體TPR比Bonferroni法好;在整體偽陽率的部分,兩階段方法仍適當控制整體犯偽陽之情況。Abstract Multiple hypothesis testing is a commonly occurred problem in genome-wide association studies. As the number of markers increases, the overall false positive rate inflates. The traditional Bonferroni correction is so stringent that the overall power is usually small. This may not meet the primary interest of finding the markers of even mild effect. In this thesis, we propose a two-stage selection method to address this problem. The main idea is to maintain a substantial power in the first stage and control the incurred false positives in the second stage. The implementation of the proposed procedure will be provided. Its statistical properties, including the rate of diminishing non-associated SNPs, overall false positive rate, and overall true positive rate, will be derived. In addition, we will recommend the determination of the sample size under each stage. We also illustrate the proposed method with a simulation study, and compare it with Bonferroni method. The two-stage procedure performs better than Bonferroni method even when the difference in marker allele frequency between case and control group is moderate.目 錄 第一章、研究問題背景………………………………………… 1 第一節 相關性研究................................ 1 第二節 研究動機…........................... .... 4 第三節 以單一核苷酸多型性(SNP)標誌基因為例....... 6 第二章、多重檢定現行方法回顧………………….......... 9 第一節 符號定義…………………................. 9 第二節 現有解決多重檢定的方法….……….............. 14 (一) 控制FWER的方法:Bonferroni-based methods.... 14 (二) 控制FDR的方法.................................... 18 第三章、兩階段篩選方法............................................…. 21 第一節 同時降低型Ⅰ誤與型Ⅱ誤的困難................... 22 第二節 兩階段法操作流程............................... 25 第三節 兩大特性....................................... 29 第四節 統計性質..................................... 30 第五節 不同偽陽測度量的評估........................ 52 第六節 評估指標的建議................................. 56 第七節 樣本數估計..................................... 62 第四章、模擬研究………………………………....... 67 第一節 模擬流程.............................................. 67 第二節 兩階段選取相關SNP方法在模擬資料的表現..... 71 (一) 不同測度量的評估.................................................... 71 (二) 與Bonferroni法比較................................................ 77 (三) 模擬結果總結............................. 83 第五章、討論與建議…………………………………………… 95 第一節 總結與討論............................................... 95 第二節 未來研究.................................................................. 101 參考文獻…………………………………………..…………….. 103 附錄一 簡介單一核苷酸多型性(SNP) 110 附錄二 利用Taylor展式推導比例(ratio)之漸近期望值及漸近變異數…………........................................................ 114 附錄三 檢定力公式及樣本數推導…………............................ 117 附錄四 檢定統計量的表現........................................................ 119 附錄五 FPR與FDR的關係...................................................... 125 附錄六 兩階段法與Bonferroni法不同偽陽測度量理論值... 126 附錄七 Bonferroni法與兩階段法:在第二階段重抽獨立樣本 (N1+N2) 模擬結果......................................................... 128 附錄八 兩階段法之第二階段採取BH procedure之模擬結果.................................................................................... 130 模擬程式........................................................................................ 1331339407 bytesapplication/pdfen-US多重檢定兩階段法Bonferroni法TPRFPRFDRTwo-stage methodBonferroni method大型資料相關性研究之多重檢定問題Multiple Hypothesis Testing in Large-scale Association Studiesthesishttp://ntur.lib.ntu.edu.tw/bitstream/246246/56202/1/ntu-93-D89842005-1.pdf