多元(複)迴歸分析

Multiple Regression Analysis)~取自網路文章

 

1、利用OLSordinary least squares)來做多元迴歸可能是社會學研究中最常用的統計分析方法。利用此法的基本條件是應變項為一個分數型的變項(等距尺度測量的變項),而自變項之測量尺度則無特別的限制。當自變項為類別變項時,我們可依類別數(k)建構k-1個數值為01之虛擬變項(dummy variable)來代表不同之類別。因此,如果能適當的使用的話,多元迴歸分析是一相當有力的工具。

 

2、多元迴歸分析主要有三個步驟:

第一、利用單變項和雙變項分析來檢視各個準備納入複迴歸分析的變項是否符合OLS線性迴歸分析的基本假定。

選定迴歸模式,並評估所得到的參數估計和適合度檢定(goodness of fit)。

在我們認真考慮所得到的迴歸分析結果前,應做殘餘值(residuals)之診斷分析(diagnosis)。但通常我們是先確定迴歸模式之設定(specification)是否恰當後,才會做深入之殘餘值分析。

 (我想要上統計課)

3、迴歸分析的第一步是一一檢視每個即將納入迴歸分析模式的變項。首先,我們必須先確定應變項有足夠的變異(variability),而且是接近常態分配(迴歸係數的估計並不要求應變項是常態分配,但對此估計做假設測定時,則是要求殘餘值應為常態分配。而應變項離開常態分配的狀態很遠時,殘餘值不是常態分配的可能性增大)。其次,各自變項也應該有適當的變異,並且要瞭解其分配之形狀和異常的個案(outlying casesoutliers)。

我們可用直方圖(histogram)和Normal P-Pprobability plot)圖等來測定應變項是否拒絕其為常態分配的假設,以及是否有異常之個案。同樣的,我們可用直方圖和其他單變項之統計來檢視各個自變項之分配形狀、程度,以及異常個案等。

SPSS中,我們可用Analyze內的Descriptive Statistics中的Explore來得到上述之統計和圖。

 

4、做雙變項相關之分析之主要目的是檢視變項間之關係是否為線性關係(linearity)和是否為共線性(collinearity)之情況。最基本的作法是看雙變項之相關矩陣。如果應變項與自變項間之關係很弱或比自變項間之相關弱的話,就應質疑所設定之多元迴歸模式是否適當。

檢視自變項與應變項間是否為線性關係的基本作法是看雙變項間之散佈圖(scatter plot)。進階且比較好的作法是在控制其他自變項後,再看某一自變項與應變項間之部分線性關係(partial linearity)。線性關係是迴歸分析重要的假定,而且指的是自變項與應變項間之部份線性關係。我們並不用太關心自變項間是否為線性關係,但如對自變項間關係之設定有誤時,也會導致我們對虛假關係不適當的控制和解釋上的錯誤。

探索自變項與應變項間部分線性關係的方式是在控制其他自變項後,逐一檢視某一自變項及進一步加入此自變項之平方後,看看兩個迴歸模式間是否達顯著之差異。如果是的話,則此自變項與應變項間之關係並不是線性關係。當發現自變項與應變項間並非線性關係時,除了將該自變項之平方加入迴歸分析的方法外,也可將該自變項做對數轉換(log transformation),例如我們常將個人之收入做對數轉換之處理。究竟如何處理是適當的,是以理論為基礎。

SPSS中,我們可用Analyze內之Correlate中的BivariateGraphs中的Scatter來得到雙變項之相關矩陣及散佈圖。部份線性相關之檢視則需用到Transform內的Compute來建構一個變項的平方,然後用Analyze內之Regression中的Linear來檢視。

 

5、在決定迴歸分析的模式後,我們應進一步檢視自變項間是否有多元共線性(multicollinearity)的問題,也就是自變項間是否有高度相關的問題。如果自變項間高度相關的話,會影響到對迴歸係數之假設測定。我們可以用因素分析來檢查自變項間是否有多元共線性,或者是逐一將某一自變項(當成為應變項)和所有其他自變項做多元迴歸分析。

在以SPSS做迴歸分析時,我們也可在其Statistic之選項中選擇partial correlationcollinearity之統計。SPSS所提供之collinearity的統計包括ToleranceVIFvariance inflation factor)和Condition Index等。這些統計是有關連性的。如ToleranceVIF就是互為倒數,如果是Tolerance越小,就表示該自變項與其他自變項間之共線性越高或幾乎是其他自變項的線性組合。

 

6、如果自變項是類別的變項,我們可以將這些類別一一建構成為虛擬變項。依照類別數目(k),我們只需建構k-1個虛擬變項即可。如性別有兩類,因此我們只需建構一個「男性」的虛擬變項。如果受訪者為男性,則其「男性」變項為1,如為女性,則其「男性」變項為0。同理,如果一個類別變項有四類,如台灣地區別是分成北、中、南、東等四區,則我們可將此類別變項建構成「中部」、「南部」及「東部」等三個虛擬變項。當受訪者是在北部時,其在此三虛擬變項的值會都是0。至於將那個類別做為參考類別(reference category),也就是不建構為虛擬變項的類別,通常是次數最多的類別。我們也可依理論或研究假設的需要,來考量是將那個類別做為參考類別。

當我們將這些虛擬變項納入迴歸模式後,個別虛擬變項的迴歸係數(如果達統計顯著的話),就是此虛擬變項所代表之類別與參考類別間在截距上的差距。如果我們假設此類別變項對應變項的影響,不只是在截距上的不同,且會有不同的斜率,也就是與另一自變項間有交互作用(interaction),我們可以進一步將虛擬變項與此另一自變項相乘而成另一新變項(如「男性*受教育年數」)。我們可將原來的兩個自變項及此新變項一起納入迴歸分析中。如果此新變項之迴歸係數達顯著的話,則其意義是與虛擬變項相乘之自變項(如受教育年數)對應變項的影響會因虛擬變項所代表的類別不同(如性別)而有不同的斜率(即影響力)。例如當受教育年數對收入的影響,男性比女性來得大時,則迴歸分析結果可能一方面表現在「男性」此一虛擬變項的正向係數達顯著,表示在受同樣教育年數的條件下,男性的起薪比女性高,另一方面也表現在「男性*受教育年數」之正向係數達顯著,表示男性每年受教育對收入的回報大過女性。

此外,當我們假設自變項與應變項的關係為∩型時,或是應變項會隨自變項之數值增大而變化趨緩時,我們就可建構一自變項的平方,將此自變項及其平方一起納入,如果此平方的變項達顯著,則我們可知此自變項對應變項的影響不是直線性的。

 

7、在完成以上之基礎工作後,而且發現沒有問題或將問題做了適當的處理後,我們就可開始做多元迴歸的分析。

      檢視多元迴歸分析之結果的步驟是先檢視整體模式之適合度(goodness of fit)。這是看迴歸分析結果之ANOVA表中之F test是否達到顯著。如果是的話,我們可說此模式在母群體之R2不是0,或自至少有一個自變項對應變項有解釋力。R2(或納入自變項數目做了調整後之adjusted R2)的意義是所有自變項解釋了多少比例之應變項的變異量。

      在檢視完整體模式之解釋力後,下一步是逐一檢視各自變項之斜率(slope),也就是迴歸係數是否達到顯著(即測定其是否為0之虛無假設)。這是要看每一自變項迴歸係數的T-testp值(通常應至少小於0.05)。如果某一自變項之係數達顯著水準的話,則其意義是在控制其他自變項的情況下,此一自變項對應變項之獨特影響力(unique effect)為何。另一說法是,自變項每增加一個測量時用的單位,會改變多少應變項測量時之單位。我們可代入此自變項一個數值(如此變項之平均數),然後計算在此數值和Bunstandardized coefficient)乘積,這乘積就是此自變項在此數值時,應變項的數值有多大。

      如果我們要知道和其他自變項比較,那一個自變項對應變項之獨特影響力比較大,則我們是要看Betastandardized coefficient)或部分相關係數(看此比較好)。

 

8、如果我們的迴歸分析是建立在一個因果模式上,那我們可進行階層式迴歸分析(hierarchical regression)。看我們研究的焦點為何,我們可逐一將自變項加入迴歸模式中,然後看不同階段之迴歸模式的整體解釋力和各個自變項解釋力的變化。

 

9、嚴謹的迴歸分析是要進一步對residuals做檢視後,才報告分析所得到之結果。殘餘值是指每個個案將其自變項之數值代入迴歸模式中計算在應變項之預測值,然後將實際觀察到之值與此預測值相減後所得到之殘餘。對殘餘值之診斷主要有兩項:

      Influence diagnosis:此診斷要看的是有無一些異常的個案可能對迴歸模式的估計造成不當之的影響,並膨脹standard errors。特別是當樣本數較小時,我們要當心此可能性。在SPSS的迴歸分析之Save的選項中,可將標準化處理後之殘餘值(standardized residuals)儲存起來。SPSS也會將標準化之殘餘值大於3的個案之ID報告出來。如果此類個案數目不多的話(依機率,每一百個標準化之殘餘值中會有5個殘餘值之z值大於2),那我們就可說是沒有異常個案影響迴歸模式估計的問題。

      NormalityhetroskedasticityOLS迴歸分析假定在prediction function之不同level的殘餘值是常態分配,而且變異量是相同的。因此,我們可利用單變項之分析來看檢視預測值和殘餘值是否為常態分配,以及兩者間是否有相關(依照假定迴歸模式之殘餘項應和自變項間沒有相關),以及殘餘值在prediction function之各level是否有相同之變異。在SPSS之迴歸分析中也是利用Save中之選項將predicted valuesresiduals儲存後做進一步的分析。我們也可直接利用Plots內的選項來做這些檢視的工作。

arrow
arrow
    全站熱搜

    晨晰部落格新站 發表在 痞客邦 留言(9) 人氣()