以醫學資料庫進行療效比較研究時必須避免的偏誤（第3篇，共3篇）－晨晰統計林星帆顧問整理 @ 晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

比較療效時常見的偏誤（Sharma 等人）

Sharma 等人於 2019 年在《Clinical Epidemiology》發表了一篇名為『Observational studies of treatment effectiveness: worthwhile or worthless?』的文章²，本篇文章所提到的偏誤以及處理方式並非針對醫學資料庫，而是對於所有的觀察型研究都適用，而且針對的是前瞻性世代研究（prospective cohort study）。

他們將世代研究常見的偏誤分成六大項，不過很多項目的中文目前並沒有一致的翻譯，所以我一律先用英文表示，分別為Prevalent user bias、Incomplete follow-up bias、Channeling bias、Confounding bias、Reporting bias與Attrition bias，以下分別說明之。

Prevalent user bias

先前提到Franklin 與 Schneeweiss（2017）也有論述到這一點，Sharma 等人更明確地定義此問題為：『Prevalent users survived a period of exposure before the study and may be at lower risk of an event』，解決之道仍為 New user design。

Incomplete follow-up bias

這一項目與 New user design 有關，假使我們對於所有用藥組/治療組都限定必須是首次開始治療時間（以前不能接受過相關治療），那麼可能導致追蹤時間會變成的比較短，以致於某些重要臨床事件可能來不及被觀察到，例如糖尿病口服藥後的心血管事件。

處理的方式可能又要回到 Prevalent users 的設計，不過目前許多研究會同時將 Prevalent users 以及 New users 都納入收案，然後在論文裡頭會分別分析這兩種族群（病人不會重複），筆者認為這確實是一個很好的方案。

Channeling bias

Channeling bias 又稱為 Confounding by indication，定義為：『開藥的適應症本身就會影響到感興趣事件的發生』。特別是比較治療組與『對照組』（Non-user）時，特別容易出現此種偏誤。

舉缺血性中風病人使用 Aspirin 為例，如果使用醫學資料庫分析這個主題，往往會與臨床試驗得到相反的結論，即 Aspirin 組反而會有比較高的中風復發風險。這是因為醫師之所以會對於該患者開立抗血小板藥物，就代表醫師認為這位患者屬於較高風險族群，然而這種醫師臨床判斷卻又無法在資料庫的任何變項被完美地測量到（或許可以部分地測量到），所以就會變成用藥組的事件風險會變的比較高。

處理此類偏誤方式為『活性對照組』（active comparator or active control），亦即不要使用 Non-user 為對照組，而改用也有相同適應症的患者，這會有許多好處，最主要是由於適應症類似，因此可預期兩組病人在一開始的疾病特性會比較接近。以心房顫動的治療來說，若要比較新型口服抗凝血劑（DOACs）的效果，那麼絕對不可用 Non-user 來當成對照組，而要用類似適應症的 Warfarin 來當活性對照組。

Confounding bias

根據筆者經驗，confounding bias 可以分成兩大類，第一種是可觀察到的，第二種是觀察不到的（unmeasured/unobserved confounders）。

可觀察到的混淆變項比較容易處理，目前主流是使用傾向分數配對（propensity score matching）或傾向分數的 Inverse probability of treatment weight（IPTW），甚至是傳統的多變項校正都可以處理很大部分的 confounding bias。關於傾向分數的介紹，可參考筆者之前的部落格文章：

https://reurl.cc/zrjeV

https://reurl.cc/mZjLV

但若是 unmeasured confounders，就要多花點心力來處理。假使那些觀察不到的混淆變項與可觀察到的混淆變項之間存在著相關，那麼先前提到傾向分數配對、加權或多變項校正可以處理掉一部分的 confounding bias。

然而由於我們其實不知道確切的相關情形如何，因此仍然存在著很大的 confounding bias 的可能性。這時候有幾種處理方式，首先是盡量從資料庫的資訊中尋找可能的代理變項（proxy variable）。以抽煙來講，健保資料庫並沒有這些生活形態或物質使用的資訊，但可以試圖以性別及慢性阻塞肺病（COPD）作為代理變項，因為台灣女性只有 5% 抽煙以及 COPD 患者大多數都有抽煙習慣。

然而，儘管使用了代理變項，但還是缺乏量化的指標來衡量究竟這個（或這些）unmeasured confounders 對於既有結論的影響程度的多寡。此時可以有幾種選項，最簡單的作法（且此作法還可以發表在 NJEM 上面）是作敏感度測試（sensitivity analysis），即根據文獻報導，找出暴露組與未暴露組在該混淆變項（例如抽煙）的盛行率，然後再根據文獻找出抽煙與否對感興趣結果變項的勝算比，如此可以得出要在如何地不均衡的情況之下（例如暴露組抽煙 20%，未暴露組抽煙 10%）會讓療效接近於零（即risk ratio = 0）³。

另外作法就比較複雜，稱為傾向分數校準（propensity score calibration），使用此方法的前提是必須具有一個外部資料集，且具有那些醫學資料庫不具有的unmeasured confounders，接著使用統計方法去校正原本的估計值。不過根據筆者觀察，目前這個作法多數發表在方法學雜誌，真的有外部驗證資料與具有此類分析方法技術的團隊仍屬少數。

Reporting bias

這邊指的 Reporting bias 有別於 Meta-analysis 在評估偏差風險（risk of bias）時的選擇性報導（selective reporting）。Sharma 等人舉了一個很好的例子，就是當我們比較心房顫動病人使用 Warfarin 與 DOACs 時，由於使用 Warfarin 本身有較高出血風險，因此有比較有高的機會回去門診接受 international normalized ratio（INR）的檢查，由於有比較多的門診與檢查機會，自然有可能會被紀錄到較多的臨床事件（例如：小中風）。

不過這個問題在醫學資料庫中應該不難解決，例如可以使用較嚴重的臨床事件，例如住院主診斷，來擷取病人的感興趣事件。

Attrition bias

這是指兩組人沒有相同長度的可能追蹤時間，這常發生在新治療與舊治療的比較，例如新治療在 2010 年才開始，而舊治療在 2000 年就開始，這會導致由於新治療的追蹤時間比較短，因而有比較少的事件發生。

根據筆者經驗，這有兩種處理方式，第一種是『固定追蹤時間設計』，例如兩組人最多只追蹤到 5 年，缺點是兩組人的最後 5 年的樣本不能作為收案（因為追蹤不足 5 年），而這段時間只能作為其他樣本的觀察期，另一方面也會損失一些樣本；第二種是將開始治療日期或年/月加以配對，限定兩組人的收案日期類似，若治療不影響存活率，那麼兩組人理應有一樣的可能追蹤時間，缺點也是會排除掉不少樣本。

結語

本系列文章介紹了以醫學資料庫進行療效比較的觀察型研究時的常見偏誤以及其因應之道，期待未來各位讀者在進行此類研究時，能審慎地預防、偵測與處理這些偏誤。

參考文獻

1. Franklin JM, Schneeweiss S. When and how can real world data analyses substitute for randomized controlled trials? Clinical Pharmacology & Therapeutics. 2017;102(6):924-933.

2. Sharma M, Nazareth I, Petersen I. Observational studies of treatment effectiveness: worthwhile or worthless? Clinical epidemiology. 2019;11:35.

3. Schneeweiss S. Sensitivity analysis and external adjustment for unmeasured confounders in epidemiologic database studies of therapeutics. Pharmacoepidemiology and drug safety. 2006;15(5):291-303.

（全文完）