2024-05-182024-05-18https://scholars.lib.ntu.edu.tw/handle/123456789/715236The institute’s aim is the pursuit of cutting-edge research. The specialties of our professors are diversified which creates an inspiring learning environment for the students. Through the effort of teachers and students, the Institute conducts outstanding research. In order to facilitate the characteristics of diversity in our pedagogy, we arrange flexible course offerings and student activities. For example, we set the required course credits at the lowest limit, and suggest students take more elective courses. To increase research interaction among teachers and students we publish annual research reports which assemble the abstracts of published papers of our faculty members for editing and indexing. Though the Institute has a long history, there is room for further academic development. With the increasing number of students, maintaining interaction between professors and students is a challenge we are dealing with. In addition, the rapid progress of the human genome research has substantial impact on epidemiology, biostatistics and preventive medicine. In the past few years, many professors have adjusted their research direction to genetics. We face the challenge of interacting and mastering some vital topics in the field. The research community in Taiwan has passed beyond the stage of pure quantitative assessment; our next goal is to deepen the research topic and achieve innovative research results. From the point of view of public health, we will face greater challenges to actively and effectively convert the research results into relevant policies. These challenges are also our future prospects. The goal of the Division of Epidemiology is to train students to be advanced epidemiologists, to investigate community diseases and detect outbreaks, to study risk factors and pathogenic mechanisms of disease, and to provide effective methods of disease prevention, health promotion, and life prolongation. Due to the international competition in epidemiological research and the changes in state of illness, the future directions of the division include developing methods of epidemiological and genetic epidemiology, epidemiological research of infectious diseases, psychiatric diseases and chronic diseases. In addition, the directions of the Division of Biostatistics and data science are to train the students to have sufficient knowledge in development, design, statistical principals, methods, and practices needed to carry out biomedical and heath protection research, and to give them experience in cooperating in biomedical and relevant fields. The major themes of current research include genetic statistics analysis, general linear models, factor analysis, path analysis, survival analysis, LISREL models, longitudinal evaluation, Bayesian analysis, clinical trial, statistics in epidemiology, statistical modeling, and transmission model of infectious diseases. The course design of Division of Preventive Medicine is based on promoting the entire concept of preventive medicine. Using the knowledge and theories of Biostatistics, Epidemiology, Disease Prevention, Health Economic Evaluation, Health Education, Health Policy and Management, to theoretically and practically develop evidence based preventive medicine in research design and decision making. It will help to adequately diagnose the health problems in communities, participation in public health, and guide specialists in community preventive health care. Therefore, we have mapped the following future directions: 1. Prevention in chronic disease: to study the risk factors of cardiovascular disease, diabetes, obesity, cerebrovascular disease, other chronic diseases, and life style changes that prevent these diseases. 2. Screening of cancers and cost effectiveness, economical evaluation: to study different screening methods, analyzing and evaluating their costs for economical effectiveness. 3. Mental health care in community: in community medicine, studying the prevention of mental illness and promotion of mental health in communities. 4. Surveillance and control of infectious disease: encourage students to develop the ability to control emerging infectious diseases. 5. Promotion of woman and child health care: reduction in the incidence of premature birth, prevention of fetus death, nutrition of new born babies, control of childhood abuse, and prevention of disabilities. 6. Preventive policy and management in chronic diseases: encourage students to develop new preventive medicine policies and management.巨量資料及高速運算科技的普及,促成了AI應用時代的來臨。在背後支撐AI發展的資料科學領域已然成為顯學,大專院校也紛紛開設資料科學的相關系所以吸引更多人才投入,許多就業市場也把python和deep learning列為錄取的基本門檻。然而現今網路資訊發達,會執行deep learning說到底不是難事,只要有基本的程式編寫知識即可。這樣的趨勢固然對許多只追求結果而不在乎過程的分類問題提供了捷徑,然而這個被忽略的過程卻往往是通往更偉大成就的必經道路,而統計學則是通行證。統計學是處理資料的學問,其涵蓋的面向相當廣泛,從資料的蒐集、相對應的推論方法、到分析結果的解讀及應用都有詳細的探討與研究,可說是資料科學發展的基石。這也意味著正確的資料分析,在每一個環節都必須有統計學的把關,才能確保分析結果是有效且有用的。 傳統的 "data analysis" 將資料解構後硏究細部,是較為狹隘的概念。"data analytics"的含義較深廣,並具前瞻性。Data analytics除了研究資料各細部外,更注重各細部間彼此之關聯及互動,以及從過去累積至今之現有數據中找出様態或規律,藉以預測未來。Data analytics和 data analysis內涵的不同,英文字義是很清楚的,比如國際知名大學或研究機構多設置有"Institute for Data Analytics"或 "Center for Data Analytics"。然而data analytics至今仍無合適的中文翻譯,以彰顯和data analysis ("資料分析")的不同。此處我們提倡以"數據拓析"做為新所的中文名(健康數據拓析統計研究所)。拓析的意思是拓展研析,這個中文譯名恰如其分地反應出analytics的內涵。 傳統的統計學(statistics)其研究主題主要針對機率及統計的各項議題如隨機變數、抽樣分佈、假說檢定、估計理論、大樣本方法、迴歸分析及統計建模等等進行理論上的研究,許多大學也都有設立理論導向的統計研究所,並以上述主題為主要發展目標。然而,實務問題的迫切需求,會刺激統計學的全新發展,例如工程統計、財務統計、以及目前統計學主要研究領域之一的健康數據拓析統計(Health Data Analytics and Statistics)。健康數據拓析統計主要是由醫學及公共衛生的研究所面臨的實際問題以刺激其發展的統計領域。當今健康數據拓析統計學所探討的主要議題如下,皆值得深入研究、改良、並進一步發展。 1. 體學數據拓析統計 自從人類基因圖譜完整定序以來,各種體學(omics)的研究方興未艾,如基因體學(genomics)、表觀基因體學(epigenomics)、轉錄體學(transcriptomics)、蛋白質體學(proteomics)、代謝體學(metabolomics)、微生物基因體學(microbiomics)、暴露體學(exposomics)、等等。體學資料特色為大p小n(變數多但樣本數小)。因此要發展特別的統計方法來處理,比如各種高效能的多重檢定校正方法、集合眾多變數以提升檢定力的方法、以及考量基因調控(gene regulation)及基因網路(gene network)的生物資訊(bioinformatics)演算法、等等。體學資料種類繁多且經常來自不同的分析平台(platform),如何進行統整分析,亦是統計方法學的挑戰。體學數據拓析除了著重跨體學(cross-omics)、跨物種(cross-species)及跨平台(cross-platform)的研究外,更重要的是能夠進行跨領域(cross-discipline)的合作。體學資料拓析除了統計、數學、資訊、醫工、等等,乾實驗室(dry lab)的方法外,必須能夠跨領域結合生命科學及基礎醫學(如細胞生物學及分子生物學)的濕實驗室(wet lab)的方法,進行有關功能、機轉、調控、及人體健康效應的探討,才能做出重大科學貢獻。 2. 健康大數據拓析統計 健康大數據,如全球疾病負擔(global burden of disease)資料、癌症登記資料、全民健保資料、環境監測資料(如空氣污染、土壤重金屬污染)、等等,皆有待進一步發展適切的統計方法。比如,疾病發生率死亡率長期趨勢及未來預測的年齢年代世代模型(age-period-cohort model)、族群癌症存活(population-based cancer survival)研究為克服死因分類錯誤之相對存活分析(relative survival analysis)、全民健保研究校正未測量干擾因子的傾向分數(propensity score)方法、克服不死時間偏差(immortal time bias)的研究設計及統計方法、等等。環境監測資料則要發展時空模型,結合時間序列分析(time series analysis)及空間分析如克里金法(kriging)及土地利用迴歸(land-use regression)。 3. 健康物聯網拓析統計 健康物聯網(HIoT, Internet of Things on Health)對健康照護將產生革命性的影響。健康物聯網聯結電子病歷資料、醫療影像資料、移動醫療資料、穿戴式裝置健康監測資料、居家監控資料等等,有待進一步發展適切的統計方法,比如文字探勘(text mining)、張量學習(tensor-based learning)、降維度(dimension reduction)方法、深度學習(deep learning)、推荐系統(recommender system)等AI方法與統計學結合。健康物聯網拓析統計亦需要利用雲端運算(cloud computing)技術以及網路拓析(network analytics)的方法。這些皆有賴統計、數學、資訊、醫工、臨床醫學及公共衛生的跨領域合作,提升遠距醫療照護及居家看護的品質、整合資源減少醫療實體負擔。 4. 病因及致病機轉研究方法 慢性疾病如癌症、心血管疾病等之病因複雜,經常牽涉到基因與環境眾多因素間複雜的協同(synergy)、拮抗(antagony)、與中介(mediation)關係。未知或未測量的因子所可能造成的干擾作用(confounding),更對病因與致病機轉的釐清造成極大的挑戰。因果推論的統計方法,比如反事實潛在結果模型(counterfactual potential outcome model)、因果圓派模型(causal-pie model)、結構方程式模型(structural equation model)、以及孟德爾隨機指派(Mendelian randomization)方法、等等,近年來在病因及致病機轉的釐清,取得了不錯的進展。 5. 疾病自然史及篩檢、診斷、預後研究方法 慢性疾病以癌症為例,其自然史包括癌細胞的生成、症狀的產生、診斷、治療、至康復、失能、乃至死亡之整個歷程。疾病的篩檢係針對可檢驗臨床前期(detectable preclinical period),然而不同個案期程長短不依,因而造成前置期偏差(lead-time bias)及長度偏差(length-time bias)等問題,需要特別的統計方法解決。篩檢成效的評估亦仰賴進階的統計模型,如馬可夫轉移模型(Markov transition model)、及多階段致癌模型(multistage carcinogenesis model)、等等。診斷工具的評估除了傳統的敏感度(sensitivity)及特異度(specificity)外,亦仰賴統計學方法,如接收者操作特徵曲綫分析(ROC curve analysis)、決策曲綫分析(decision curve analysis)、等等。疾病預後方面更需要發展統計方法,如存活資料迴歸樹(regression tree for survival data)、失能調整存活分析(disability-adjusted survival analysis)、等等。 6. 傳染病數理模式 新冠肺炎疫情造成公共衛生、社會及經濟之巨大衝擊。傳染病資料如流行曲綫(epidemic curve)、點圖(spot map)、接觸追蹤(contact tracing)、社會網絡(social network)等等之分析,能初步闡釋傳染病之流行特徵。傳染病之數理模式,如易感曝露感染復原模型(susceptible-exposed-infected-recovery model)、個體為本模擬(agent-based modeling)、等等,可以預測傳染病未來可能之流行方式,也可評估各種管控方案(如社交距離保持、接觸追蹤、隔離、封鎖)的效果。 7. 臨床醫學及公共衛生觀察性硏究方法 觀察性研究是臨床醫學及公共衛生常用的研究設計方法。觀察性研究設計,如世代追蹤硏究(cohort study)、病例對照硏究(case-control study)、唯病例硏究(case-only study)、病例世代研究(case-cohort study)、病例雙親硏究(case-parents study)、雙胞胎研究(twin study)、家族硏究(family study)、系譜研究(pedigree study)、等等,常易產生各種偏差、如選擇性偏差(selection bias)、資訊偏差(information bias)、及干擾偏差(confounding bias)。值得研究者持續發展研究設計及資料分析的統計方法以改良之。 8. 臨床試驗及公共衛生介入計劃評估方法 臨床試驗研究提供醫療照護成效的嚴謹評估。第一期至第四期的臨床試驗,皆牽涉到専門的統計方法,包括計量設定(dose finding)、樣本數計算(sample size calculation)、隨機指派方式(randomization method)、對照組選擇(control selection)、等等,值得深入探討。公共衛生介入計劃,經常無法採取隨機分派方式進行評估,有賴特別的統計方法,如雙重差分硏究法(difference-in-difference study)、中斷性時間序列分析(interrupted time series analysis)、等等。 9. 醫學及公共衛生統合分析及決策分析 統合分析及網絡統合分析(network meta-analysis),統整眾多硏究成果,為實證(evidence-based)及精準(precision)醫學/公共衛生學之基礎。決策分析及網絡決策分析(network decision analysis)則能權衡成本和效益,提供研擬臨床決策準則及公共衛生政策之參考。統合分析及決策分析的統計方法值得深入硏究。此外,貝氏統計(Bayesian statistics)在健康數據拓析統計各領域都扮演舉足輕重的角色,值得大力推展。 綜合以上描述,健康數據拓析統計學所探討的問題通常會有以下幾個特性,進而增加健康數據拓析統計方法發展的困難: l 資料結構複雜 健康研究根據問題會有相當複雜的資料結構,進而必須使用不同的統計推論方法。例如前瞻性研究(prospective study)或是回遡性硏究(retrospective study)、長期追蹤資料(longitudinal data)、存活資料(survival data)、群集資料(clustered data)、等等。 l 重視模型解釋性 健康資料相關的統計問題常常關注的不只是預測結果是否正確,而更重視分析結果的解釋以及探討資料中隱含的生物醫學作用機轉(mechanism)。相較於預測,後者更加仰賴每一個環節(包括資料蒐集、模型選擇、分析方法…等)的統計邏輯是否正確。 l 資料取得困難 健康資料往往涉及到活體的資訊,因此在取得及分析上會有更為複雜的問題產生。例如樣本數較小(例如道德考量、稀少疾病、成本考量…等問題),或是資料蒐集過程容易產生缺失值(missing value)和極端值(outlier),或是因外在因素導致無法觀測到完整的資料(例如censoring),進而增加統計分析的困難度。 l 變數個數遠大於樣本數 健康研究資料所涉及到的變數個數通常很大,如基因位點資料、單核苷酸多態性(SNP)資料、拷貝數變異(CNV)資料、甲基化(methylation)資料、等等,但是樣本數卻相對小很多,以至於AI領域常用的複雜模型無法有良好的表現,因為並沒有足夠的樣本數去估計大量的參數。 因此,雖然現今資料科學及AI相當熱門,業界及學界對健康資料統計人才的需求也不見減少,而健康數據拓析統計也一直都是統計學主要的研究領域之一。Health Data Analytics and StatisticsAcademic Institute