SPSS操作卡方檢定（Chi-square test）-（一） @ 晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

當研究問題在檢驗兩個類別變項間的關聯性或差異性時，卡方檢定是我們挑選統計方法的首要選擇，透過交叉表呈現兩個變項的分布狀況，再利用卡方檢定來檢驗關聯性或差異性的結果，本篇文章將一步一步的帶著大家學會卡方檢定。

首先，我們必須瞭解「預期個數」或稱「期望個數」，這是當我們只知道每個變項的分布狀況，但還不知兩者聯合分布時的預期假設，我們會假設兩個變項應相互獨立，間接的計算出兩者變項聯合時的分布情形。舉例來說，在100位的病患中，男女人數各佔半數，各有50人，有無慢性病的人數也各佔半數=50人時，兩個變項的交叉分布如表（1），此時兩個變項完全獨立。

當我們真實資料的分布不如上圖時，這代表兩個變項已經開始出現非完全獨立的情形，因此如果您有研究過卡方檢定的公式，單純就是拿這4格的實際人數與預期人數進行比較，當兩者的差異程度越大時，所計算出來的卡方值也會越大，此時顯著性p值會越小，代表證據會顯著。譬如說下表（2）和預期人數相比差異並不大，但表（3）和預期人數相比差異就很大。

之所以會提到預期人數的概念，這是因為交叉表裡的每一個細格，盡可能要求在5人以上，倘若真的有細格的人數低於5人，也希望這些細格的比例不要太高，一般要求是在20%以下，若超過20%，則會建議改用費雪精確性檢定（Fisher’s exact test），不過根據我的經驗，蠻多人會把這20%的比例誤認為實際的人數分布，所以才在此特別教學強調指的是預期的人數分布。舉例來說，在100位的病患中，男女人數比例為9：1（男9、女1），有無慢性病的比例為1：9（有9、無9），那預期的人數分布就會像是表（3）表格

經計算，女性有慢性病的預期人數為1人（注意，這是預期人數而非實際的觀察人數），因此這細格就屬於預期人數不到5人的細格，而此細格佔總細格數（4格）的四分之一，因此細格人數不到5人的比例為25%，所以實際應用上，這個例子需要捨棄卡方檢定，而改用費雪精確性檢定。不過不需要擔心自己需要這麼麻煩的計算，這些資訊在SPSS的報表中會提供讓我們知道，好讓我們做統計檢定的選擇。為了更完整的學習，在此用比較複雜的例子來進行教學，研究問題是，年齡與慢性病數是否有明顯的關聯性，或者說是不同年齡層者在慢性病數的分布比較是否有明顯差異。

示範例子有4個年齡層（參考下圖左），分別是1=未滿40歲、2=41-50歲、3=51-60歲、4=61歲以上，而對象依照慢性病數分成0=無慢性病、1=1種慢性病、2=2種以上慢性病，最右邊排人數，是去記錄在每一個組合下的人數有多少，若要直接以此資料格式進行分析之前，就先以人數進行加權，若是按照一般常見的格式，單純只是把某一組合重複登錄就好，以未滿40歲無慢性病者共23人來說，如下圖右方輸入資料。