如何正確解讀臨床試驗的次群體分析~~晨晰統計林星帆顧問整理 @ 晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

在臨床試驗中，次群體分析（subgroup analysis；或稱為子群體分析）扮演了相當重要的角色。現今的臨床試驗會有主要療效指標（primary efficacy endpoint），有些則是會另外設定次要療效指標（secondary efficacy endpoint），當然有些是針對副作用設定為主要指標，那麼就變成是主要及次要安全性指標（primary and secondary safety outcomes）。

臨床試驗針對主要療效/安全性指標一定都會作次群體分析，次要療效/安全性指標則有時候也會提供，結果也許放在本文，也有可能放在附錄。因為在整體的試驗結果只提供了一個答案：「整個實驗組（例如用藥組）對上整個對照組（例如安慰劑組）的結果是否具有差異」。

然而一個臨床試驗的成本非常高昂，一次只回答一個問題未免太不符合成本效益，此時次群體分析可以回答臨床很實際的問題：『該治療（藥物/手術/療法）對於結果變項的效果，在不同次群體之間是否會有不一樣？』。

在臨床試驗中，使用森林圖（forest plot）呈現次群體分析的結果已經是標準方法了。然而，在筆者實際協助醫師的案例中，非常多研究經驗豐富的醫師，甚至非常多 reviewers 對於次群體分析的理解是有疑慮的，因此筆者本篇文章專門來說明次群體分析的正確解讀方式。

下方圖形列出四種常見的誤解狀況，假設結果變項是二元變項或存活資料，在風險比（risk ratio）為 1 的右邊代表是治療組的結果比較差，在 1 的左邊代表是治療組的結果比較好。如果結果變項是連續型資料，例如血壓或血糖，那麼風險比就變成是迴歸係數，垂直線的 X 軸落點會由 1 改成 0。

狀況一：某一組顯著，另外一組不顯著，就直接下結論

圖形中的「Condition 1」是最常見的誤解狀況，可看到 Level A（例如男性）的信賴區間沒有經過 1，代表達統計顯著；然而 Level B（例如女性）則沒有顯著，因為其信賴區間經過 1。

在圖形右方有一欄為「P for interaction」（交互作用），它是一個正式的統計檢定，在檢驗：「兩組的風險比（迴歸係數、勝算比，etc…）在統計上是否有顯著差異」，因此，不能單獨只看某一組顯著而另外一組不顯著就直接下結論，用一個很繞口但準確的說法就是：「一組顯著而另外一組不顯著 ≠ 兩組（的效果）具有顯著差異」。

常見的情況是，在次群體分析中，兩個不同組別（i.e., Level A vs. Level B）的樣本數可能差異很大，樣本數大的那一組就容易顯著，因為信賴區間比較窄；而樣本數小的那一組就比較難顯著，因為信賴區間比較寬。就如同圖形中「Condition 1」的 Level B 的信賴區間很寬，表示這一組的樣本數比較小。

因此在「Condition 1」中，由於交互作用的顯著性數值很大，因此結論就是治療組的效果在 Level A 與 Level B 是一致的，或者是說我們沒有辦法證明治療組的效果在 Level A 與 Level B 之間具有顯著差異，即使前者本身達顯著（也許是因為樣本數大），而後者本身未達顯著（可能是樣本數小）。

狀況二：兩組個別都顯著，但交互作用也顯著

圖形中的「Condition 2」可看到 Level A 與 Level B 兩組的信賴區間都沒有經過 1，表示個別來看這兩組自己的介入都有顯著成效。然而此時交互作用也達顯著（P <0.05），這表示：『兩組的風險比在統計上達顯著差異』。

此時就看兩組個別點估計（point estimate），Level A 與 Level B 的風險比分別為 0.6 以及 0.26，這表示就治療的效果而言，在 Level B 的效果比在 Level B 來得明顯。若 A 是年輕人，B 是老年人，那麼表示該介入對於老年人的效益優於年輕人。

狀況三：兩組個別都不顯著，但交互作用達顯著

圖形中的「Condition 3」狀況是兩組都不顯著，但 A 組是風險比大於 1 的方向，B 組是風險比小於 1 的方向，且交互作用達統計顯著。如果整體樣本的結論是治療組顯著有效（風險比 <1），那麼此結果表示該治療用在 Level A 的研究對象比較沒有成效。

圖形中的「Condition 4」狀況是兩組都不顯著，但兩組的風險比都呈現小於 1 的保護方向，而且交互作用也達顯著。倘若整體樣本的結論也是治療組顯著有效（風險比 <1），那麼此結果的意思是：該治療使用在 Level A（危險比 0.5）的成效顯著大於使用在 Level B（危險比 0.89）的研究對象。

大家務必記得，在次群體分析中，由於整體樣本被分割成好幾份，因此對 A 組或 B 組而言，樣本數都變小了，因此即使整體樣本的結論是顯著的（因為樣本最大），但在次群體分析的各組組內都未能達顯著，然而還是可能會得到一個達統計顯著的交互作用。

小結

從很多年前其實就已經有相關研究指出次群體分析的解讀方式以及常見誤解，但似乎推展的不是很順利，導致目前仍有許多研究人員未能正確解讀次群體分析的結果，希望本篇文章能夠釐清一些觀念。最後，有興趣的讀者可以參考文末的參考文獻^1-8。

參考文獻

1.)Altman DG, Bland JM. Interaction revisited: the difference between two estimates. BMJ. 2003;326(7382):219.

2.)Assmann SF, Pocock SJ, Enos LE, Kasten LE. Subgroup analysis and other (mis) uses of baseline data in clinical trials. The Lancet. 2000;355(9209):1064-1069.

3.)Brankovic M, Kardys I, Steyerberg EW, et al. Understanding of interaction (subgroup) analysis in clinical trials. European journal of clinical investigation. 2019;49(8):e13145.

4).Brookes ST, Whitely E, Egger M, Smith GD, Mulheran PA, Peters TJ. Subgroup analyses in randomized trials: risks of subgroup-specific analyses: power and sample size for the interaction test. Journal of clinical epidemiology. 2004;57(3):229-236.

5.)Cuzick J. Forest plots and the interpretation of subgroups. The Lancet. 2005;365(9467):1308.

6.)Pocock SJ, Assmann SE, Enos LE, Kasten LE. Subgroup analysis, covariate adjustment and baseline comparisons in clinical trial reporting: current practice and problems. Statistics in medicine. 2002;21(19):2917-2930.

7.)Sun X, Briel M, Walter SD, Guyatt GH. Is a subgroup effect believable? Updating criteria to evaluate the credibility of subgroup analyses. Bmj. 2010;340.

8.)Wang R, Lagakos SW, Ware JH, Hunter DJ, Drazen JM. Statistics in medicine—reporting of subgroup analyses in clinical trials. New England Journal of Medicine. 2007;357(21):2189-2194.