擔任統計顧問以來,我覺得最難的統計問題就是如何得到有顯著的結果,因為只要統計結果有顯著,客戶就會開心,若不顯著,顧問就會遭殃,看來統計顧問也算是要看天吃飯的一個職業了。在大環境的影響下,無論是學位論文或是期刊發表,結果顯著似乎論文被接受的必要條件,這也間接導致為什麼文獻都做出有顯著的結果,但我的卻沒有,進一步開始懷疑自己是不是資料分析有誤。
為了能夠正視P值不顯著的問題,我們必須先瞭解什麼是顯著性,於是google”顯著性”三個字,並在維基百科中,得到了顯著性的定義,嗯….想要認識顯著性P值,我覺得還是從它的故事起源聽起,最能夠瞭解顯著性P值的精髓。
故事發生在1920年代的劍橋大學,某天風和日麗的下午,一群人優閒地享受下午茶時光。就如同往常一樣準備沖泡奶茶的時候,這時有位女士說:「沖泡的順序對於奶茶的風味影響很大。先把茶加進牛奶裡,與先把牛奶加進茶裡,這兩種沖泡方式所泡出的奶茶口味截然不同。」當時大家聽起來都會覺得這是件不可思議的事情,這兩種沖泡方式最後當然都是泡出奶茶,怎麼可能會有風味的差異呢。突然有位紳士靠過來說:「我們做實驗來檢定這個假設吧。」於是一群人就熱心幫忙準備實驗,實驗中準備了許多杯奶茶,有些是先放茶再加牛奶,有些先放牛奶再加茶,並將這些奶茶隨機排序讓這位女士品茗。
這時我們試想,如果這位女士喝完第一杯茶後並且說對了沖泡順序,那你是否會相信她剛剛的主張呢??相信不會,因為你一定會覺得就算是用猜的,也是有一半機會可以猜中,換句話說,如果事實上沖泡順序並不會影響奶茶風味,但我們卻因為女士猜中了一杯而接受了女士的主張,這時候結論犯錯的機率將會是50%;此時女士喝完了第二杯並說對的沖泡順序,我們應該會更願意接受女士的主張,除非兩杯都是剛好猜對,換句話說,如果事實上沖泡順序並不會影響奶茶風味,但我們卻因為女士猜中了二杯而接受了女士的主張,這時候結論犯錯的機率將會是25%;為了取得大家的信任,女士將持續不斷地喝下去,隨著猜中的杯數越來越多,降低了結論犯錯的機率,而這個犯錯的機率即是我們所熟悉的顯著性P值,當P值低於我們所設定的容忍水準時,最終使我們接受了女士的主張。這個故事到這就告一段落了,而那位紳士就是費雪,後來他寫了統計學偉大的巨作「實驗設計」。像這樣從一開始的假設,到設計實驗,分析實驗結果,最後下結論,這整個過程,正是統計分析的精髓。
由於費雪當初提到的假設檢驗是以P值<0.05為例,加上多數領域的研究也認同5%以下的機率算是小概率事件,自然衍生以顯著性小於0.05為檢驗標準。如果當我們結果顯著性出現0.06或0.07而被拒絕,不就很可惜嗎?那我們是否有其他努力的空間呢?下面將挑幾個遇到P值不顯著時,常給客戶的小建議。
1.挑選邊緣顯著結果(p值介於0.05~0.10)
右圖是一個常常發生的差異分析例子,單因子變異數分析的F檢定結果達顯著水準,表示有證據顯示行為意向的不同是由於教育程度的不同所致,但在Scheffe法的事後比較裡,卻顯示任兩組間介無明顯的差異,這是Scheffe法為了避免型一誤差膨脹問題,而公式對於P值的計算較為保守所致,此時客戶就會有疑問,那結論到底有沒有差異呢??
從上一段P值的由來可知,當P值越小時,我們下結論時所犯錯的機率就會越低,這也代表下結論時的信心越高,證據越強。我們會發現事後比較中,國小以下與專科以上比較的P值為.054,已經非常接近顯著標準,證據相對來說是比較強的,所以為了追求結果一致,會建議大家再補充此結果(當然還是得視老闆或委員的接受度而定)。
2.使用不同的統計方法
以右圖為例,在研究年齡與臨床照護分數的相關時,發現採用皮爾森積差相關分析的結果並未達顯著水準,若此時我們將年齡分成不同級距時,則必須改用其它的統計方法來討論年齡與臨床照護分數的關係,你將會發現P值就有機會改變,結果有可能會變更顯著,當然也有可能會變更不顯著。
3.進行組別合併
針對原先已經是分組的變項,當您發現某些組別(水準)的人數較少時,統計檢定結果通常會比較差一些,此時會建議將人數比較少的組別做有意義的合併,來改善顯著性的結果。
4.報告效果量
當樣本數過小時,無論做什麼統計檢定,想達到統計顯著的結果都非常困難,試想樣本代表性不足,怎麼會有足夠的證據去證明你的主張呢,此時我們可以額外報告分析結果的效果量,比較研究結果所對應的效果量標準,作為研究結果的結論依據,以下列出幾個比較常用統計方法所對應的效果量。
P值的危機
近年來,多數的統計學家不斷提倡應避免使用顯著性0.05作為判斷標準,因為P值沒有小於0.05,並不代表就得出「沒有差異」或「沒有關聯」的結論;或者,僅僅因為置信區間包含0就得出這樣的結論。目前開始有一些替代性的報告方式來取代這傳統的P值,不過在這些替代方法成熟前,為了能夠自保,我們也只能盡量往達顯著的條件去努力了。
留言列表