Phi相關係數介紹及R實作 @ 晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

一、Phi相關係數(φ)是甚麼:

主要的功能是去衡量兩個二元類別變項的相關性強度，這邊有一件重要的事要提醒讀者，「相關不等於因果關係」，因此雖然下面表格的定義是寫X跟Y，但X不是因，Y也不是果，因此X與Y欄列互換也可以。Phi相關的使用主要是當我們使用卡方分析的時候，當我們計算出來的Chi-square值在統計上達顯著時，我們可以進一步以Chi-square值(X平方)為計算去計算phi相關係數，φ平方=X平方/n，其中n為觀察值的個數，藉以測量兩個二元類別變項的相關性強度以及方向性。

二、Phi相關係數(φ)是如何計算的:

將兩個二元類別變項整理成如下面的2×2交叉表，其中1和0的擺設位置必須跟下方表格一致，若只變動 X 或只變動 Y 的 1/0 位置，計算出來的Phi相關係數會正負號顛倒。Phi相關係數的基本概念是：兩個二元類別變數的觀察值若大多落在2×2交叉表的主對角線上面時，意思是指當下面表格b,c的觀察值佔大多數時，觀察值大多為(X,Y)=(1,0) or (0,1)的情境下，會呈現一個負相關。Phi相關係數的範圍會介在-1 to 1之間，當Phi相關係數為1時代表c=0 and b=0，沒有存在(X,Y)=(1,0) or (0,1)的情況;當Phi相關係數為-1時代表a=0 and d=0，沒有存在(X,Y)=(1,1) or (0,0)的情況。聰明的讀者應該會發現Phi相關係數φ的大小只根據樣本的分布情形而改變，因此Phi相關係數φ之值只有相對之意義，即數值愈大者，表示相關程度愈高。

三、Phi相關係數φ的實際例子:

上面描述了許多與Phi相關係數φ有關的特性，以下來個實例:今天研究者欲觀察肥胖狀態 (體重過胖/體重正常)與代謝症候群(有/無)的相關性。虛無假設(H0)是：肥胖與代謝症候群無相關性;對立假設(H1)是：肥胖與代謝症候群有相關性，觀察對象為從新陳代謝科的病人當中隨機選取100個病人，然後去收集這群病人的肥胖狀態以及有無代謝症候群（肥胖狀態X ，有無代謝症候群Y），X有兩種結果值（過胖=1／正常=0），Y也有兩種結果值（有代謝症候群=1／無代謝症候群=0）。

我們根據公式去計算Phi相關係數φ會得到 φ=((40*55)-(12*10))/sqrt((52*65*50*67))=0.6181 ，我們根據交叉表的資料也不難發現，體重過胖的病人中有代謝症候群的比例比起體重正常的病人來的大很多，因此我們跑出來的Phi相關係數φ才會呈現一個中度的正相關。計算出Phi相關係數φ後，如果要知道這樣的相關性到底強不強，其實可以根據下面Phi相關係數的範圍表格做判斷。