醫學存活分析採用競爭因子存活分析的理由－晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

　Austin與Fine於2016年發表於Circulation期刊的文章，以實際資料數據闡述當存活分析存在競爭因子時，研究者使用一般傳統的Kaplan-Meier存活函數，與考慮競爭因子之下的存活函數分析，比較兩者之間得到的分析結果差異，以此說明當存在競爭因子時，為何研究者必須採用競爭因子存活分析的原因。本文章將以過去分析過的資料集做為示範樣本，操作當資料集存在競爭因子時，傳統Kaplan-Meier存活分析函數與考慮競爭因子的次分佈瞬間危險函數（Subdistribution Hazard Function，SDH），兩者之間存活分析結果的差異，並簡述造成存活分析結果有落差的原因。

　　範例樣本中，實驗組有1,182人，對照組有2,027人，兩組人在設限、興趣事件及競爭事件的比例分佈如下圖所示，可以發現兩組的分佈差異甚大。

Kaplan-Meier存活函數之下的興趣事件發生率

由下圖的1-KM可看出，Study group跟Control group兩條線很相近，log-rank檢定的P值為0.9556，顯示兩組在興趣事件的發生率是沒有顯著差異的。此外，在KM法估算下，Study group的發生率為7.25%，Control group的發生率為11.83%。

次分佈瞬間危險函數（Subdistribution Hazard Function，SDH）之下的興趣事件發生率

由下圖的累積發生率函數圖（Cumulative incidence function，CIF）可以發現，Subdistribution Hazard Function之下的CIF檢定P值達顯著水準，表示檢定結果顯示，Study group興趣事件的發生風險顯著低於Control group。此外，兩組在SDH函數之下估算出的發生率都比上述傳統Kaplan-Meier法估算的發生率低。Study group的發生率為3.83%，Control group的發生率為9.00%。

上述示範的兩種存活分析方式，得到不同的結論。那是因為資料集中存在競爭因子（例如死亡），而傳統的Kaplan-Meier法未考慮競爭因子，直接將發生競爭事件者視同設限（Censor）處理。在Kaplan-Meier存活函數估算中，有個前提假設，假設資料的設限是獨立且無訊息的（Non-informative censoring）。白話的意思就是，設限跟發生興趣事件是獨立無相關的，設限者跟非設限者一樣，都有可能於未來發生興趣事件，只是在某個追蹤時間點停止追蹤成為設限者而已。但是發生競爭事件的人，很顯然違反Kaplan-Meier估算法的這項前提假設，因為發生競爭事件的人是帶有資訊的設限（Informative censoring），這些人跟普通設限者不一樣，發生競爭事件的人未來沒有機會再發生興趣事件了。也因此，從上述兩張圖估算的發生率可看出，考慮競爭因子的SDH法計算出的發生率是較低的。SDH法估算發生率時，把發生競爭事件的人保留在危險集合（Risk set），並且認定發生競爭事件的人未來不會有機會發生興趣事件，因此SDH法估算出的興趣事件發生率會較低，而這個發生率也比較接近實際臨床觀察到的興趣事件發生率。

　　此外，由於SDH法將觀察者的追蹤結果分為三種，設限、發生興趣事件與發生競爭事件，因此三種事件的發生率合併起來會是100%。而傳統Kaplan-Meier法計算發生率只能分成設限與發生事件，當使用Kaplan-Meier法個別估算興趣事件發生率與競爭事件發生率，並將興趣事件發生率、競爭事件發生率與設限率加總後，會發現三者相加超過100%的情況。原因就在於Kaplan-Meier法將競爭事件視為設限，假設這些人未來仍有機會發生興趣事件，估算出的發生率是高估的，因此三者加總會超過100%，這是不合理的狀況。這也說明了為什麼資料存在競爭因子時，存活分析必須採用考慮競爭因子的存活函數的原因。使用競爭風險模式做存活分析，與組別間競爭因子分佈的比例有無顯著差異並沒有關係，意思是指即使組別間競爭因子分佈比例沒有差異，當資料集存在競爭因子，且競爭事件的比例超過10%時，Austin強烈建議必須使用競爭風險存活分析，避免發生高估興趣事件發生率所導致的不恰當結論。