迴歸分析診斷~SAS簡易教學－晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

本節主要介紹在進行迴歸分析時，我們常會做一些診斷，以確保分析結果的精確性，而這些診斷包含了(1)共線性診斷（Collinarity diagnosis）、(2)極端值（outliers）的殘差診斷、(3)觀察值的影響力（influential）診斷、(4)殘差自我相關。

(1)共線性診斷方面：常見的指標為容忍度（tolerance，小於0.1有共線性問題）、變異數膨脹因素（Variance inflation factor, VIF，大於10有共線性問題）、條件指標（Condition index, CI，大於30有共線性問題）。

(2)殘差方面：以標準化殘差、t標準化殘差、t標準化刪除殘差診斷之，若絕對於超過2 or 3則表示該觀察值可能為極端值。Ps.不過我只在SAS報表中找到標準化殘差值。

(3)影響點方面：常見的指標為槓桿量H（leverage，超過2P/N，P為參數個數(含截距)，N為樣本數）、DFFIT（大於1(小樣本) or 2/√(P/N)）、DFBETA（大於1(小樣本) 2/√(N)）、Cook’s D（可利用Excel計算1-FDIST(D,p,N-p)=百分位數，以得知此觀察值的百分位數是否大於50%，甚至大於20%、10%，越小越嚴格；；或是利用FINV(1-百分位數,p,N-p)，去找出D的臨界值，大於此臨界值為影響點）、共變異率（Covariance ratio，COVRATIO，大於3p/N）

(4)殘差自我相關：利用Durbin-Waston去計算，相關值在2左右表示無相關，若數值接近4表示有正相關，若數值接近0表示有負相關，但通常時間序列的資料才需檢驗，因此本節將省略此部分的解釋。

（1）語法

1.設定原始資料集

現在要將我們的資料輸入到SAS裡，

DATA REG是指設定一個叫做REG的資料集

INPUT Y X1 X2 X3 X4 X5是指設定叫Y、X1、X2、X3、X4與X5的變數

CARD是指開始輸入我們的資料

2.執行逐步迴歸

PROC REG 執行迴歸分析

Model Y=X1 X2 X3 X4 X5是指模式的依變項為Y，

自變項為X1、X2、X3、X4與X5

vif是指要求計算VIF值

collin是指要求進行共線性診斷

STB是指要求列出標準化的迴歸係數

DW是指要求進行Durbin-Waston test

R是指要求進行殘差分析

INFLUENCE是指要求對每個觀察值進行影響力分析

output out=inf 將跑出來的結果輸出到inf資料集

h=hhat cookd=cook covratio=cov dffits=dffits rstudent=restudent 依照指示，

輸出資料集的變項名稱分別為hhat、cook、cov、dffits、restudent

(我想要上統計課)

（2）報表

1.迴歸分析摘要表

可參考之前的迴歸教學

2.共線性診斷一

找出VIF值大於10的變數，由報表可知所有變項的VIF皆小於10

3.共線性診斷二

看條件指標時（CI），Number1是不去看的，由報表可知，Number6的CI值大於30，表示可能存在共線性問題，但注意Number6並非指第6個變數，而是指6個變項在此模式中時有共線性的問題，另外需搭配變異數比例（Variance proportions）去檢測哪個變數可能存在共線性問題

4.變異數比例

Number6的X4與X5有較高的變異數比例，可能存在共線性組合

5.殘差自我相關檢驗

Durbin-Waston test檢驗出來的值為2.611，到底有沒有接近2，主觀想法的成份居多

6.t標準化殘差值

絕對值數值大於2或3，表示樣本點可能為極端值，如第3筆與第15筆。

7.槓桿量H hat

超過2P/N代表該樣本點可能為離群值，此迴歸模式參數個數p=6，樣本數=16，所以計算出來的2P/N=0.75，因此H值超過0.75可能為離群值。

8.DFFITS

在小樣本時，DFFITS大於1可能為影響點；在大樣本時，DFFITS大於2/√(P/N)可能為影響點，2/√(P/N)=3.265986。本研究樣本數僅16人屬於小樣本，因此以1為標準即可，可能為影響點有第3筆、第4筆、第7筆、第8筆、第9筆、第15筆。

9.Cook’s D

其D值的分配服從F(p, N-p)，需去計算該樣本點的D值之百分位數。

可利用Excel計算1-FDIST(D,p,N-p)=百分位數，以得知此觀察值的百分位數是否大於50%，甚至大於20%、10%，越小越嚴格；

或是利用FINV(1-百分位數,p,N-p)，去找出D的臨界值，大於此臨界值為影響點）

在此分別以百分位數10%、20%、50%為例，在Excel中利用函數FINV(0.9,6,10)、FINV(0.8,6,10)、FINV(0.5,6,10)，分別找出D臨界值為0.340491、0.493141、0.954357，可以看出若以百分位數10%為標準最嚴格，被判定為影響點的有第4筆、第15筆。