傳統的 "data analysis" 將資料解構後硏究細部,是較為狹隘的概念。"data analytics"的含義較深廣,並具前瞻性。Data analytics除了研究資料各細部外,更注重各細部間彼此之關聯及互動,以及從過去累積至今之現有數據中找出様態或規律,藉以預測未來。Data analytics和 data analysis內涵的不同,英文字義是很清楚的,比如國際知名大學或研究機構多設置有"Institute for Data Analytics"或 "Center for Data Analytics"。然而data analytics至今仍無合適的中文翻譯,以彰顯和data analysis ("資料分析")的不同。此處我們提倡以"數據拓析"做為新所的中文名(健康數據拓析統計研究所)。拓析的意思是拓展研析,這個中文譯名恰如其分地反應出analytics的內涵。
傳統的統計學(statistics)其研究主題主要針對機率及統計的各項議題如隨機變數、抽樣分佈、假說檢定、估計理論、大樣本方法、迴歸分析及統計建模等等進行理論上的研究,許多大學也都有設立理論導向的統計研究所,並以上述主題為主要發展目標。然而,實務問題的迫切需求,會刺激統計學的全新發展,例如工程統計、財務統計、以及目前統計學主要研究領域之一的健康數據拓析統計(Health Data Analytics and Statistics)。健康數據拓析統計主要是由醫學及公共衛生的研究所面臨的實際問題以刺激其發展的統計領域。當今健康數據拓析統計學所探討的主要議題如下,皆值得深入研究、改良、並進一步發展。
健康大數據,如全球疾病負擔(global burden of disease)資料、癌症登記資料、全民健保資料、環境監測資料(如空氣污染、土壤重金屬污染)、等等,皆有待進一步發展適切的統計方法。比如,疾病發生率死亡率長期趨勢及未來預測的年齢年代世代模型(age-period-cohort model)、族群癌症存活(population-based cancer survival)研究為克服死因分類錯誤之相對存活分析(relative survival analysis)、全民健保研究校正未測量干擾因子的傾向分數(propensity score)方法、克服不死時間偏差(immortal time bias)的研究設計及統計方法、等等。環境監測資料則要發展時空模型,結合時間序列分析(time series analysis)及空間分析如克里金法(kriging)及土地利用迴歸(land-use regression)。
3. 健康物聯網拓析統計
健康物聯網(HIoT, Internet of Things on Health)對健康照護將產生革命性的影響。健康物聯網聯結電子病歷資料、醫療影像資料、移動醫療資料、穿戴式裝置健康監測資料、居家監控資料等等,有待進一步發展適切的統計方法,比如文字探勘(text mining)、張量學習(tensor-based learning)、降維度(dimension reduction)方法、深度學習(deep learning)、推荐系統(recommender system)等AI方法與統計學結合。健康物聯網拓析統計亦需要利用雲端運算(cloud computing)技術以及網路拓析(network analytics)的方法。這些皆有賴統計、數學、資訊、醫工、臨床醫學及公共衛生的跨領域合作,提升遠距醫療照護及居家看護的品質、整合資源減少醫療實體負擔。
臨床試驗研究提供醫療照護成效的嚴謹評估。第一期至第四期的臨床試驗,皆牽涉到専門的統計方法,包括計量設定(dose finding)、樣本數計算(sample size calculation)、隨機指派方式(randomization method)、對照組選擇(control selection)、等等,值得深入探討。公共衛生介入計劃,經常無法採取隨機分派方式進行評估,有賴特別的統計方法,如雙重差分硏究法(difference-in-difference study)、中斷性時間序列分析(interrupted time series analysis)、等等。