七、Validation 原理說明

在現今以預測模型做為主要目標的論文,幾乎都要再報告 Resampling calibration Validation 的結果,才有機會可以通過統計審查這一關,特別是發在優質的雜誌時。

雖然在上述第五點,雖然有提到以「PredictABEL」得到一些其他 Calibration 指標,但須注意,這些指標都是利用該模式的「預測機率」算出來的。然而其實這個模式的「類推性」(generalizability)是受限制的,因為一個模式通常都是在我們同一群樣本之下,用精挑細選的方式揀擇最後留在模式中的變項,因此通常會傾向得到一個高估模式表現的結果(例如比較高的解釋力、比較低的預測誤差)。

此時,重新抽樣(resampling)就是一個很重要的工具。在理想的情況之下,假使樣本數足夠大,我們會傾向於一開始就將樣本切成兩半(或是分成七成與三成),第一群樣本作為訓練/校準樣本(training/calibration sample),第二群稱為測試/驗證樣本(test/validation sample)。

然後我們會先估計訓練樣本的結果,以得到最終留在模式的預測變項的迴歸係數,接著我們會限制驗證樣本的「迴歸係數不可以自己估計」,而是強迫套用訓練樣本的迴歸係數。因此對於驗證樣本而言會得到兩個模式表現的相關指標,第一個是被限制後的結果,第二個是自由估計的結果,在此情況之下,一定是被限制的結果會比較差(例如 AUC 比較小、預測誤差比較大),然後我們再去比較這兩組結果的差別,倘若差異不大,那麼就代表「該訓練樣本的預測模型,有可能可以套用到其他外部族群」;反之,若兩組模式表現差異巨大,那麼就代表該訓練樣本所得到的預測模式不具有外推性。

但嚴格來說,上述的驗證方式其實還是算是內部驗證(internal validation),因為縱使將樣本分割成兩份,在本質上訓練樣本與驗證樣本仍是來自同一個同質性較高的族群。最理想的情況,是可以做外部驗證(external validation),例如我們拿台灣當為訓練樣本,以日本當為驗證樣本,但這在一般研究其實比較難做到。

內部驗證大致可以分為三類,第一種是 Leave-one-out,也就是將每一個樣本輪流當成驗證樣本,例如一共有 200 個樣本,使用其他 199 名的樣本當成是訓練樣本,剩下來的那一名樣本當成驗證樣本,然後重複操作兩百次,再把結果平均起來,就是修正後的結果,目前在醫學研究中這種方式比較少用。

第二種是 K-fold validation,概念其實跟 Leave-one-out 很類似,只是是一開始將樣本切成 k 個等份,通常 k = 3, 5, 10,以 k=10 為例,此時就是將其他九份當成訓練樣本,剩下來的那一份當成驗證樣本,然後重複操作十次,接著再平均起來。此種方式目前在醫學研究中偶爾還會看到。

最後一種是目前醫學研究的主流方法,叫做自我重複抽樣法(bootstrap sampling),亦即將原先的整體樣本當成是母群體,然後採取「取出放回」的方式進行反覆抽樣,假使原先樣本數是 200 人,重複取出放回 200 次後,會得到一個跟原先樣本不太一樣的新樣本,後者稱為重複抽樣樣本(bootstrap sample)。

與前面兩種方法一樣,限制 bootstrap sample 不能自由估計,必須使用原先樣本所得到的迴歸係數。接著每一個 bootstrap sample 都會有一個限制與不受限制的結果,相減之後再取所有 bootstrap samples 的平均就是經過修正後的模式結果。

                 通常 bootstrap sample 的數量是越大越好,實務建議至少是 200-300 次,但筆者實際運用通常是都 1-2千次,但將資料筆數多時,設越多次則需要執行的時間就越久。關於三種常見的重複抽樣的方法,可以參考以下圖示。

 

1.jpg

(圖片來源:https://reurl.cc/5gXMmq

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 晨晰部落格新站 的頭像
    晨晰部落格新站

    晨晰統計部落格新站(統計、SPSS、BIG DATA討論園地)

    晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()