當研究問題在檢驗兩個類別變項間的關聯性或差異性時,卡方檢定是我們挑選統計方法的首要選擇,透過交叉表呈現兩個變項的分布狀況,再利用卡方檢定來檢驗關聯性或差異性的結果,本篇文章將一步一步的帶著大家學會卡方檢定。
首先,我們必須瞭解「預期個數」或稱「期望個數」,這是當我們只知道每個變項的分布狀況,但還不知兩者聯合分布時的預期假設,我們會假設兩個變項應相互獨立,間接的計算出兩者變項聯合時的分布情形。舉例來說,在100位的病患中,男女人數各佔半數,各有50人,有無慢性病的人數也各佔半數=50人時,兩個變項的交叉分布如表(1),此時兩個變項完全獨立。
當我們真實資料的分布不如上圖時,這代表兩個變項已經開始出現非完全獨立的情形,因此如果您有研究過卡方檢定的公式,單純就是拿這4格的實際人數與預期人數進行比較,當兩者的差異程度越大時,所計算出來的卡方值也會越大,此時顯著性p值會越小,代表證據會顯著。譬如說下表(2)和預期人數相比差異並不大,但表(3)和預期人數相比差異就很大。
之所以會提到預期人數的概念,這是因為交叉表裡的每一個細格,盡可能要求在5人以上,倘若真的有細格的人數低於5人,也希望這些細格的比例不要太高,一般要求是在20%以下,若超過20%,則會建議改用費雪精確性檢定(Fisher’s exact test),不過根據我的經驗,蠻多人會把這20%的比例誤認為實際的人數分布,所以才在此特別教學強調指的是預期的人數分布。舉例來說,在100位的病患中,男女人數比例為9:1(男9、女1),有無慢性病的比例為1:9(有9、無9),那預期的人數分布就會像是表(3)表格
經計算,女性有慢性病的預期人數為1人(注意,這是預期人數而非實際的觀察人數),因此這細格就屬於預期人數不到5人的細格,而此細格佔總細格數(4格)的四分之一,因此細格人數不到5人的比例為25%,所以實際應用上,這個例子需要捨棄卡方檢定,而改用費雪精確性檢定。不過不需要擔心自己需要這麼麻煩的計算,這些資訊在SPSS的報表中會提供讓我們知道,好讓我們做統計檢定的選擇。為了更完整的學習,在此用比較複雜的例子來進行教學,研究問題是,年齡與慢性病數是否有明顯的關聯性,或者說是不同年齡層者在慢性病數的分布比較是否有明顯差異。
示範例子有4個年齡層(參考下圖左),分別是1=未滿40歲、2=41-50歲、3=51-60歲、4=61歲以上,而對象依照慢性病數分成0=無慢性病、1=1種慢性病、2=2種以上慢性病,最右邊排人數,是去記錄在每一個組合下的人數有多少,若要直接以此資料格式進行分析之前,就先以人數進行加權,若是按照一般常見的格式,單純只是把某一組合重複登錄就好,以未滿40歲無慢性病者共23人來說,如下圖右方輸入資料。
留言列表