本節主要介紹在進行迴歸分析時,我們常會做一些診斷,以確保分析結果的精確性,而這些診斷包含了(1)共線性診斷(Collinarity diagnosis)、(2)極端值(outliers)的殘差診斷、(3)觀察值的影響力(influential)診斷、(4)殘差自我相關。

 

 

(1)共線性診斷方面:常見的指標為容忍度(tolerance,小於0.1有共線性問題)、變異數膨脹因素(Variance inflation factor, VIF,大於10有共線性問題)、條件指標(Condition index, CI,大於30有共線性問題)。

(2)殘差方面:以標準化殘差、t標準化殘差、t標準化刪除殘差診斷之,若絕對於超過2 or 3則表示該觀察值可能為極端值。Ps.不過我只在SAS報表中找到標準化殘差值。

(3)影響點方面:常見的指標為槓桿量Hleverage,超過2P/NP為參數個數(含截距)N為樣本數)、DFFIT(大於1(小樣本) or 2/(P/N))、DFBETA(大於1(小樣本) 2/(N))、Cook’s D(可利用Excel計算1-FDIST(D,p,N-p)=百分位數,以得知此觀察值的百分位數是否大於50%,甚至大於20%10%,越小越嚴格;;或是利用FINV(1-百分位數,p,N-p),去找出D的臨界值,大於此臨界值為影響點)、共變異率(Covariance ratioCOVRATIO,大於3p/N

(4)殘差自我相關:利用Durbin-Waston去計算,相關值在2左右表示無相關,若數值接近4表示有正相關,若數值接近0表示有負相關,但通常時間序列的資料才需檢驗,因此本節將省略此部分的解釋。

 

1)語法

1.設定原始資料集

現在要將我們的資料輸入到SAS裡,

DATA REG是指設定一個叫做REG的資料集

INPUT Y X1 X2 X3 X4 X5是指設定叫YX1X2X3X4X5的變數

CARD是指開始輸入我們的資料

 

2.執行逐步迴歸

PROC REG 執行迴歸分析

Model Y=X1 X2 X3 X4 X5是指模式的依變項為Y

自變項為X1X2X3X4X5

vif是指要求計算VIF

collin是指要求進行共線性診斷

STB是指要求列出標準化的迴歸係數

DW是指要求進行Durbin-Waston test

R是指要求進行殘差分析

INFLUENCE是指要求對每個觀察值進行影響力分析

output out=inf 將跑出來的結果輸出到inf資料集

h=hhat cookd=cook covratio=cov dffits=dffits rstudent=restudent 依照指示,

輸出資料集的變項名稱分別為hhatcookcovdffitsrestudent

 

 

(我想要上統計課)

2)報表

 

 

1.迴歸分析摘要表

可參考之前的迴歸教學

 

2.共線性診斷一

找出VIF值大於10的變數,由報表可知所有變項的VIF皆小於10

 

 


 

 

3.共線性診斷二

看條件指標時(CI),Number1是不去看的,由報表可知,Number6CI值大於30,表示可能存在共線性問題,但注意Number6並非指第6個變數,而是指6個變項在此模式中時有共線性的問題,另外需搭配變異數比例(Variance proportions)去檢測哪個變數可能存在共線性問題

4.變異數比例

Number6X4X5有較高的變異數比例,可能存在共線性組合

 

 


 

 

5.殘差自我相關檢驗

Durbin-Waston test檢驗出來的值為2.611,到底有沒有接近2,主觀想法的成份居多

 

 

6.t標準化殘差值

絕對值數值大於23,表示樣本點可能為極端值,如第3筆與第15筆。

 

7.槓桿量H hat

超過2P/N代表該樣本點可能為離群值,此迴歸模式參數個數p=6,樣本數=16,所以計算出來的2P/N=0.75,因此H值超過0.75可能為離群值。

 

8.DFFITS

在小樣本時,DFFITS大於1可能為影響點;在大樣本時,DFFITS大於2/(P/N)可能為影響點,2/(P/N)=3.265986。本研究樣本數僅16人屬於小樣本,因此以1為標準即可,可能為影響點有第3筆、第4筆、第7筆、第8筆、第9筆、第15筆。

 

9.Cook’s D

D值的分配服從F(p, N-p),需去計算該樣本點的D值之百分位數。

 

可利用Excel計算1-FDIST(D,p,N-p)=百分位數,以得知此觀察值的百分位數是否大於50%,甚至大於20%10%,越小越嚴格;

 

或是利用FINV(1-百分位數,p,N-p),去找出D的臨界值,大於此臨界值為影響點)

 

在此分別以百分位數10%20%50%為例,在Excel中利用函數FINV(0.9,6,10)FINV(0.8,6,10)FINV(0.5,6,10),分別找出D臨界值為0.3404910.4931410.954357,可以看出若以百分位數10%為標準最嚴格,被判定為影響點的有第4筆、第15筆。

 

10.共變異率(Covariance ratioCOVRATIO,大於3p/N

若此數值超過3p/N表示其觀察點可能為影響點,計算其3p/N1.125COVRATIO超過1.125的觀察點有第1筆、第2筆、第5筆、第6筆、第7筆、第10筆、第12筆、第13筆、第14筆、第16筆。

 

Ps.以上p為參數個數(含截距)N為樣本數

 

 

 



11.DFBETA

在小樣本時,DFBETA大於1可能為影響點;在大樣本時,DFBETA大於2/(N)可能為影響點,2/(N)=0.5。本研究樣本數僅16人屬於小樣本,因此以1為標準即可,可能為影響點有第3筆、第4筆、第15筆。

 

 


 

 

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 晨晰部落格新站 的頭像
    晨晰部落格新站

    晨晰統計部落格新站(統計、SPSS、BIG DATA討論園地)

    晨晰部落格新站 發表在 痞客邦 留言(3) 人氣()