以R軟體進行二元結果變項之風險預測模型的實作（第4篇） ~晨晰統計林星帆顧問整理 @ 晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

七、Validation 原理說明

在現今以預測模型做為主要目標的論文，幾乎都要再報告 Resampling calibration 及 Validation 的結果，才有機會可以通過統計審查這一關，特別是發在優質的雜誌時。

雖然在上述第五點，雖然有提到以「PredictABEL」得到一些其他 Calibration 指標，但須注意，這些指標都是利用該模式的「預測機率」算出來的。然而其實這個模式的「類推性」（generalizability）是受限制的，因為一個模式通常都是在我們同一群樣本之下，用精挑細選的方式揀擇最後留在模式中的變項，因此通常會傾向得到一個高估模式表現的結果（例如比較高的解釋力、比較低的預測誤差）。

此時，重新抽樣（resampling）就是一個很重要的工具。在理想的情況之下，假使樣本數足夠大，我們會傾向於一開始就將樣本切成兩半（或是分成七成與三成），第一群樣本作為訓練/校準樣本（training/calibration sample），第二群稱為測試/驗證樣本（test/validation sample）。

然後我們會先估計訓練樣本的結果，以得到最終留在模式的預測變項的迴歸係數，接著我們會限制驗證樣本的「迴歸係數不可以自己估計」，而是強迫套用訓練樣本的迴歸係數。因此對於驗證樣本而言會得到兩個模式表現的相關指標，第一個是被限制後的結果，第二個是自由估計的結果，在此情況之下，一定是被限制的結果會比較差（例如 AUC 比較小、預測誤差比較大），然後我們再去比較這兩組結果的差別，倘若差異不大，那麼就代表「該訓練樣本的預測模型，有可能可以套用到其他外部族群」；反之，若兩組模式表現差異巨大，那麼就代表該訓練樣本所得到的預測模式不具有外推性。

但嚴格來說，上述的驗證方式其實還是算是內部驗證（internal validation），因為縱使將樣本分割成兩份，在本質上訓練樣本與驗證樣本仍是來自同一個同質性較高的族群。最理想的情況，是可以做外部驗證（external validation），例如我們拿台灣當為訓練樣本，以日本當為驗證樣本，但這在一般研究其實比較難做到。

內部驗證大致可以分為三類，第一種是 Leave-one-out，也就是將每一個樣本輪流當成驗證樣本，例如一共有 200 個樣本，使用其他 199 名的樣本當成是訓練樣本，剩下來的那一名樣本當成驗證樣本，然後重複操作兩百次，再把結果平均起來，就是修正後的結果，目前在醫學研究中這種方式比較少用。

第二種是 K-fold validation，概念其實跟 Leave-one-out 很類似，只是是一開始將樣本切成 k 個等份，通常 k = 3, 5, 10，以 k=10 為例，此時就是將其他九份當成訓練樣本，剩下來的那一份當成驗證樣本，然後重複操作十次，接著再平均起來。此種方式目前在醫學研究中偶爾還會看到。

最後一種是目前醫學研究的主流方法，叫做自我重複抽樣法（bootstrap sampling），亦即將原先的整體樣本當成是母群體，然後採取「取出放回」的方式進行反覆抽樣，假使原先樣本數是 200 人，重複取出放回 200 次後，會得到一個跟原先樣本不太一樣的新樣本，後者稱為重複抽樣樣本（bootstrap sample）。

與前面兩種方法一樣，限制 bootstrap sample 不能自由估計，必須使用原先樣本所得到的迴歸係數。接著每一個 bootstrap sample 都會有一個限制與不受限制的結果，相減之後再取所有 bootstrap samples 的平均就是經過修正後的模式結果。

通常 bootstrap sample 的數量是越大越好，實務建議至少是 200-300 次，但筆者實際運用通常是都 1-2千次，但將資料筆數多時，設越多次則需要執行的時間就越久。關於三種常見的重複抽樣的方法，可以參考以下圖示。