近來發了多篇關於二元羅吉斯迴歸分析的文章,本篇將再延續此議題,介紹此統計方法在G-power軟體上的應用。提到G-power軟體就會聯想到事前計算樣本數(sample size)或事後計算檢定力(power),關於這方面的知識,可參考林星帆顧問所整理的「樣本數規劃初探(Sample size & power analysis)」(http://dasanlin888.pixnet.net/blog/post/34468802),裡面最重要的概念即「顯著性」、「統計檢定力」、「效果量」與「樣本數」此4者之間的關係是互補的,換句話說,只要固定其中3個參數,第4個參數就可以從公式中計算出來(不過會因所使用的統計方法不同,有時也要再多提供其他參數)。
本篇將分成兩個部分來做介紹,(1)事前計算所需樣本數(sample size);(2)事後計算統計結果的檢定力(power)。
(一)事前計算所需樣本數:
關於計算樣本數,一個很重要的參數即是「效果量」,而效果量的取得通常分為三種(1)文獻探討;(2)試驗性研究(pilot study);(3)假設中度(medium)效果量。不過由於利用二元羅吉斯迴歸計算樣本數時,效果量會受到自變項的單位所影響,無法隨便假設一個中度效果量值,此時我們只能乖乖的從文獻裡去尋找我們需要的參數作為參考,再代入G-power軟體裡,以下為需要收集的參數。
(a)「顯著性」—α通常直接設定為0.05。
(b)「統計檢定力」—Power通常直接設定為0.80。
(c)「P(Y=1)」—結果/依變項(Outcome)的發生機率,因此必須在文獻的敘述統計裡找到Y=1的百分比,或是母群體Y=1所佔的比例。E.g.發生或有癌症的人數比例(有癌症+無癌症=100%)。
(d)「OR值(odds ratio)」—即X影響Y的效果量,通常一篇研究都會有一個最主要的研究因子(X),因此需要針對此變項找到文獻所統計出來的結果(OR值),通常會在卡方檢定or羅吉斯迴歸的部分。
(e)「自變項X的敘述性統計量」—雖然G-power裡提供X多種分配的設定,不過此處我們只舉兩個比較常見的例子,(1)當X為連續變項時,我們必須在文獻的敘述統計裡找到X的平均數(mean)與標準差(standard deviation),軟體預設平均數=0、標準差=1;當X為二分類的類別變項時,必須在文獻的敘述統計裡找到X=1的百分比,軟體預設0.5(即百分比為50%)。
操作(X為連續變項):
(1)點選Test family的「z tests」→Statistical test裡選擇「Logistic regression」。
(2)Type of power analysis裡選擇「計算樣本數」。
(3)選擇「雙尾」。
(4)找到文獻裡的odds ratio(OR值),本例假設OR=2.111。
(5)找到文獻裡outcome的發生率(P(Y=1)),本例假設0.05(5%)。
(6)設定型一誤差,一般設定為0.05。
(7)設定統計檢定力,一般設定為0.8。
(8)此處維持預設0。
(9)本圖例假設X為連續變項,因此X的分配必須選擇「Normal」。
(10)既然X為連續變項,那麼從文獻裡找到X個平均數與標準差,本例假設平均數=0,標準差=1。
(11)按下計算。
(12)即可得到我們的研究所需樣本數為296。
操作(X為二分類類別變項):
(1)點選Test family的「z tests」→Statistical test裡選擇「Logistic regression」。
(2)Type of power analysis裡選擇「計算樣本數」。
(3)選擇「雙尾」。
(4)找到文獻裡的odds ratio(OR值),本例假設OR=3.4。
(5)找到文獻裡outcome的發生率(P(Y=1)),本例假設0.05(5%)。
(6)設定型一誤差,一般設定為0.05。
(7)設定統計檢定力,一般設定為0.8。
(8)此處維持預設0。
(9)本圖例假設X為二分類的類別變項,因此X的分配必須選擇「Binomial」。
(10)既然X為二分類的類別變項,那麼從文獻裡找到X為1的百分比,本例假設0.5(50%)。
(11)按下計算。
(12)即可得到我們的研究所需樣本數273。
(二)事後計算統計檢定力:
關於統計檢定力的計算,代表研究者已完成了統計檢定(二元羅吉斯迴歸),想確定檢定力是否足夠,此時必須從結果中得到以下參數,代入G-power裡計算出統計檢定力。
(a)「顯著性」—※無論做出來統計結果的顯著性為何,這邊一律代入0.05。
(b)「樣本數」—輸入實際樣本數。
(c)「P(Y=1)」—結果/依變項(Outcome)的發生機率,依本研究實際Outcome 1的比例代入。
(d)「OR值(odds ratio)」—即X影響Y的效果量,依本研究羅吉斯迴歸所計算出來的Exp(B)值代入。
(e)「自變項X的敘述性統計量」—雖然G-power裡提供X多種分配的設定,不過此處我們只舉兩個比較常見的例子,(1)當X為連續變項時,我們必須利用敘述統計找到X的平均數(mean)與標準差(standard deviation);當X為二分類的類別變項時,必須利用敘述統計找到X=1的百分比。