在醫學統計的領域中,針對信度的分析,若研究者有一個新的測量工具想與黃金指標(Gold standard)或是過去常用的測量工具進行比較時,我們一般希望新的方法與黃金指標(Gold standard) 或是過去常用的測量工具兩者之間具有相當程度的一致性(agreement),這樣才能證明新的測量工具具有一定的準確性。當針對類別型資料(categorical data),實務上最常使用的是 kappa 統計量,計算方式如下:
如表格所示,假設今天研究者想比較新工具與黃金指標工具在測量上的一致性,藉以用來作為新工具是否能用於實務上的標準,因此蒐集了兩種工具使用在同樣條件(協助測量的人、測量的時間等等非隨機因素)下,針對同一群人進行測量的結果。
為了要了解兩種工具的一致性,研究者計算了Kappa值,計算方式如下:
Kappa=(觀察機率-期望機率)/(100%-期望機率)
觀察機率(Po)=(50+60)/230
期望機率(Pe)=(130*(90/230)+100*(140/230))/230=(50.9+60.9)/230
Kappa=(Po-Pe) / (100%- Pe)
為了方便計算,公式也可以簡化如下:
Kappa的值一般會介於-1到1之間
- 0 < Kappa <= 0.4,代表此測量工具的可重複性差
- 0.4 < Kappa < 0.75
- Kapp ≥ 0.75 代表此測量工具的可重複性高,可以做為新工具的使用
上述內容是當測量資料為類別資料時,會使用Kappa作為信度指標,但當測量資料為連續變項時,實務上則會使用組內相關係數(Intraclass correlation coefficient, ICC)作為評測信度的指標,一般來說可分為三種情況作使用,(1) 同一種測驗針對同一群受試者前後施測結果的一致性(Test-retest reliability),主要目的是想觀察同一種工具不同時間測量的一致性 (2) 兩個或兩個以上的施測者在同一時間對同一施測對象施測結果的一致性(Interrater reliability),主要目的是想觀察測量工具是否會因為不同施測者而產生測量結果出現不一致的情況 (3) 同一個施測者在兩個或以上時間點對同一施測對象施測結果的一致性(Intrarater reliability),主要目的是想觀察同一位施測者測量的結果是否會因為多次測量而有不一致的情況。
ICC的計算公式根據不同情境,而有些微的不同,但基本的公式概念就跟一般信度計算類似,真實的變異/(真實的變異+隨機的變異),舉例來說,令 A代表個案真實的變異,令B代表由施測者間信度不良所造成的誤差,則ICC=A/(A+B)
組內相關係數的計算有三種模型,分別是One-way random、Two-way random和Two-way mixed。其中,One-way random模型用於檢驗每一個受試者的平均值是否完全相等(實務上比較少有機會從許多評分當中選擇去評分的人,一般都是同一組評分者針對所有受試者評分),但因為沒有考慮不同施測者造成的影響,因此無法應用於評價診斷試驗的可重複性。而Two-way random model與Two-way mixed model相似,它們同時考慮了受試者和施測者的影響,在理論上都可以用於測量工具可重複性的評估。但是這兩種模型結果的推論範圍存在著差異。Two-way random模型的結果可以推論到所有相似、可能的研究者;而Two-way mixed模型的結果僅限於給定的研究者,不能推論其他研究者,因此實務上建議選擇Two-way random模型。
Two-way random模型有absolute agreement和consistency兩種計算方式,其中,absolute agreement有考慮施測者的系統偏差,可用於測量不同施測者是否給予受試者相同的評分。而consistency則不考慮施測者的系統誤差,僅適用於評價不同施測者之間的評分是否高度相關。針對診斷測量工具的可重複性評估來說,研究者會希望不同施測的人都能得到一致的結果,而不是僅僅是「高度相關」。因此,我們應該選擇absolute agreement計算方式。下圖是根據Terry K. Koo等人的論文提供ICC該如何做選擇的依據,會分成model、type、definition三個部分作為分類,根據不同的情境選擇相對應ICC的計算方式。
參考資料:
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4913118/?report=reader#!po=23.6842
留言列表