本節主要介紹在進行迴歸分析時,我們常會做一些診斷,以確保分析結果的精確性,而這些診斷包含了(1)共線性診斷(Collinarity diagnosis)、(2)極端值(outliers)的殘差診斷、(3)觀察值的影響力(influential)診斷、(4)殘差自我相關。
(1)共線性診斷方面:常見的指標為容忍度(tolerance,小於0.1有共線性問題)、變異數膨脹因素(Variance inflation factor, VIF,大於10有共線性問題)、條件指標(Condition index, CI,大於30有共線性問題)。
(2)殘差方面:以標準化殘差、t標準化殘差、t標準化刪除殘差診斷之,若絕對於超過2 or 3則表示該觀察值可能為極端值。Ps.不過我只在SAS報表中找到標準化殘差值。
(3)影響點方面:常見的指標為槓桿量H(leverage,超過2P/N,P為參數個數(含截距),N為樣本數)、DFFIT(大於1(小樣本) or 2/√(P/N))、DFBETA(大於1(小樣本) 2/√(N))、Cook’s D(可利用Excel計算1-FDIST(D,p,N-p)=百分位數,以得知此觀察值的百分位數是否大於50%,甚至大於20%、10%,越小越嚴格;;或是利用FINV(1-百分位數,p,N-p),去找出D的臨界值,大於此臨界值為影響點)、共變異率(Covariance ratio,COVRATIO,大於3p/N)
(4)殘差自我相關:利用Durbin-Waston去計算,相關值在2左右表示無相關,若數值接近4表示有正相關,若數值接近0表示有負相關,但通常時間序列的資料才需檢驗,因此本節將省略此部分的解釋。
(1)語法
1.設定原始資料集
現在要將我們的資料輸入到SAS裡,
DATA REG是指設定一個叫做REG的資料集
INPUT Y X1 X2 X3 X4 X5是指設定叫Y、X1、X2、X3、X4與X5的變數
CARD是指開始輸入我們的資料
2.執行逐步迴歸
PROC REG 執行迴歸分析
Model Y=X1 X2 X3 X4 X5是指模式的依變項為Y,
自變項為X1、X2、X3、X4與X5
vif是指要求計算VIF值
collin是指要求進行共線性診斷
STB是指要求列出標準化的迴歸係數
DW是指要求進行Durbin-Waston test
R是指要求進行殘差分析
INFLUENCE是指要求對每個觀察值進行影響力分析
output out=inf 將跑出來的結果輸出到inf資料集
h=hhat cookd=cook covratio=cov dffits=dffits rstudent=restudent 依照指示,
輸出資料集的變項名稱分別為hhat、cook、cov、dffits、restudent
(2)報表
1.迴歸分析摘要表
可參考之前的迴歸教學
2.共線性診斷一
找出VIF值大於10的變數,由報表可知所有變項的VIF皆小於10
3.共線性診斷二
看條件指標時(CI),Number1是不去看的,由報表可知,Number6的CI值大於30,表示可能存在共線性問題,但注意Number6並非指第6個變數,而是指6個變項在此模式中時有共線性的問題,另外需搭配變異數比例(Variance proportions)去檢測哪個變數可能存在共線性問題
4.變異數比例
Number6的X4與X5有較高的變異數比例,可能存在共線性組合
5.殘差自我相關檢驗
Durbin-Waston test檢驗出來的值為2.611,到底有沒有接近2,主觀想法的成份居多
6.t標準化殘差值
絕對值數值大於2或3,表示樣本點可能為極端值,如第3筆與第15筆。
7.槓桿量H hat
超過2P/N代表該樣本點可能為離群值,此迴歸模式參數個數p=6,樣本數=16,所以計算出來的2P/N=0.75,因此H值超過0.75可能為離群值。
8.DFFITS
在小樣本時,DFFITS大於1可能為影響點;在大樣本時,DFFITS大於2/√(P/N)可能為影響點,2/√(P/N)=3.265986。本研究樣本數僅16人屬於小樣本,因此以1為標準即可,可能為影響點有第3筆、第4筆、第7筆、第8筆、第9筆、第15筆。
9.Cook’s D
其D值的分配服從F(p, N-p),需去計算該樣本點的D值之百分位數。
可利用Excel計算1-FDIST(D,p,N-p)=百分位數,以得知此觀察值的百分位數是否大於50%,甚至大於20%、10%,越小越嚴格;
或是利用FINV(1-百分位數,p,N-p),去找出D的臨界值,大於此臨界值為影響點)
在此分別以百分位數10%、20%、50%為例,在Excel中利用函數FINV(0.9,6,10)、FINV(0.8,6,10)、FINV(0.5,6,10),分別找出D臨界值為0.340491、0.493141、0.954357,可以看出若以百分位數10%為標準最嚴格,被判定為影響點的有第4筆、第15筆。
10.共變異率(Covariance ratio,COVRATIO,大於3p/N)
若此數值超過3p/N表示其觀察點可能為影響點,計算其3p/N為1.125,COVRATIO超過1.125的觀察點有第1筆、第2筆、第5筆、第6筆、第7筆、第10筆、第12筆、第13筆、第14筆、第16筆。
Ps.以上p為參數個數(含截距),N為樣本數
11.DFBETA
在小樣本時,DFBETA大於1可能為影響點;在大樣本時,DFBETA大於2/√(N)可能為影響點,2/√(N)=0.5。本研究樣本數僅16人屬於小樣本,因此以1為標準即可,可能為影響點有第3筆、第4筆、第15筆。
留言列表