公告版位
晨晰統計顧問有限公司在板橋~~服務市話:02-29602817 手機:0918-276-622 聯絡信箱:raising.statistic@gmail.com。 網址:http://www.rai-stat.com.tw。 歡迎大家踴躍發問,問問題請用facebook問(http://tinyurl.com/raising100)會快速回覆喔,我們每週才會統一回一次部落格上的問題。

多元(複)迴歸分析

Multiple Regression Analysis)~取自網路文章

 

1、利用OLSordinary least squares)來做多元迴歸可能是社會學研究中最常用的統計分析方法。利用此法的基本條件是應變項為一個分數型的變項(等距尺度測量的變項),而自變項之測量尺度則無特別的限制。當自變項為類別變項時,我們可依類別數(k)建構k-1個數值為01之虛擬變項(dummy variable)來代表不同之類別。因此,如果能適當的使用的話,多元迴歸分析是一相當有力的工具。

 

2、多元迴歸分析主要有三個步驟:

第一、利用單變項和雙變項分析來檢視各個準備納入複迴歸分析的變項是否符合OLS線性迴歸分析的基本假定。

選定迴歸模式,並評估所得到的參數估計和適合度檢定(goodness of fit)。

在我們認真考慮所得到的迴歸分析結果前,應做殘餘值(residuals)之診斷分析(diagnosis)。但通常我們是先確定迴歸模式之設定(specification)是否恰當後,才會做深入之殘餘值分析。

 

3、迴歸分析的第一步是一一檢視每個即將納入迴歸分析模式的變項。首先,我們必須先確定應變項有足夠的變異(variability),而且是接近常態分配(迴歸係數的估計並不要求應變項是常態分配,但對此估計做假設測定時,則是要求殘餘值應為常態分配。而應變項離開常態分配的狀態很遠時,殘餘值不是常態分配的可能性增大)。其次,各自變項也應該有適當的變異,並且要瞭解其分配之形狀和異常的個案(outlying casesoutliers)。

我們可用直方圖(histogram)和Normal P-Pprobability plot)圖等來測定應變項是否拒絕其為常態分配的假設,以及是否有異常之個案。同樣的,我們可用直方圖和其他單變項之統計來檢視各個自變項之分配形狀、程度,以及異常個案等。

SPSS中,我們可用Analyze內的Descriptive Statistics中的Explore來得到上述之統計和圖。

 

4、做雙變項相關之分析之主要目的是檢視變項間之關係是否為線性關係(linearity)和是否為共線性(collinearity)之情況。最基本的作法是看雙變項之相關矩陣。如果應變項與自變項間之關係很弱或比自變項間之相關弱的話,就應質疑所設定之多元迴歸模式是否適當。

檢視自變項與應變項間是否為線性關係的基本作法是看雙變項間之散佈圖(scatter plot)。進階且比較好的作法是在控制其他自變項後,再看某一自變項與應變項間之部分線性關係(partial linearity)。線性關係是迴歸分析重要的假定,而且指的是自變項與應變項間之部份線性關係。我們並不用太關心自變項間是否為線性關係,但如對自變項間關係之設定有誤時,也會導致我們對虛假關係不適當的控制和解釋上的錯誤。

探索自變項與應變項間部分線性關係的方式是在控制其他自變項後,逐一檢視某一自變項及進一步加入此自變項之平方後,看看兩個迴歸模式間是否達顯著之差異。如果是的話,則此自變項與應變項間之關係並不是線性關係。當發現自變項與應變項間並非線性關係時,除了將該自變項之平方加入迴歸分析的方法外,也可將該自變項做對數轉換(log transformation),例如我們常將個人之收入做對數轉換之處理。究竟如何處理是適當的,是以理論為基礎。

SPSS中,我們可用Analyze內之Correlate中的BivariateGraphs中的Scatter來得到雙變項之相關矩陣及散佈圖。部份線性相關之檢視則需用到Transform內的Compute來建構一個變項的平方,然後用Analyze內之Regression中的Linear來檢視。

 

5、在決定迴歸分析的模式後,我們應進一步檢視自變項間是否有多元共線性(multicollinearity)的問題,也就是自變項間是否有高度相關的問題。如果自變項間高度相關的話,會影響到對迴歸係數之假設測定。我們可以用因素分析來檢查自變項間是否有多元共線性,或者是逐一將某一自變項(當成為應變項)和所有其他自變項做多元迴歸分析。

在以SPSS做迴歸分析時,我們也可在其Statistic之選項中選擇partial correlationcollinearity之統計。SPSS所提供之collinearity的統計包括ToleranceVIFvariance inflation factor)和Condition Index等。這些統計是有關連性的。如ToleranceVIF就是互為倒數,如果是Tolerance越小,就表示該自變項與其他自變項間之共線性越高或幾乎是其他自變項的線性組合。

 

6、如果自變項是類別的變項,我們可以將這些類別一一建構成為虛擬變項。依照類別數目(k),我們只需建構k-1個虛擬變項即可。如性別有兩類,因此我們只需建構一個「男性」的虛擬變項。如果受訪者為男性,則其「男性」變項為1,如為女性,則其「男性」變項為0。同理,如果一個類別變項有四類,如台灣地區別是分成北、中、南、東等四區,則我們可將此類別變項建構成「中部」、「南部」及「東部」等三個虛擬變項。當受訪者是在北部時,其在此三虛擬變項的值會都是0。至於將那個類別做為參考類別(reference category),也就是不建構為虛擬變項的類別,通常是次數最多的類別。我們也可依理論或研究假設的需要,來考量是將那個類別做為參考類別。

當我們將這些虛擬變項納入迴歸模式後,個別虛擬變項的迴歸係數(如果達統計顯著的話),就是此虛擬變項所代表之類別與參考類別間在截距上的差距。如果我們假設此類別變項對應變項的影響,不只是在截距上的不同,且會有不同的斜率,也就是與另一自變項間有交互作用(interaction),我們可以進一步將虛擬變項與此另一自變項相乘而成另一新變項(如「男性*受教育年數」)。我們可將原來的兩個自變項及此新變項一起納入迴歸分析中。如果此新變項之迴歸係數達顯著的話,則其意義是與虛擬變項相乘之自變項(如受教育年數)對應變項的影響會因虛擬變項所代表的類別不同(如性別)而有不同的斜率(即影響力)。例如當受教育年數對收入的影響,男性比女性來得大時,則迴歸分析結果可能一方面表現在「男性」此一虛擬變項的正向係數達顯著,表示在受同樣教育年數的條件下,男性的起薪比女性高,另一方面也表現在「男性*受教育年數」之正向係數達顯著,表示男性每年受教育對收入的回報大過女性。

此外,當我們假設自變項與應變項的關係為∩型時,或是應變項會隨自變項之數值增大而變化趨緩時,我們就可建構一自變項的平方,將此自變項及其平方一起納入,如果此平方的變項達顯著,則我們可知此自變項對應變項的影響不是直線性的。

 

7、在完成以上之基礎工作後,而且發現沒有問題或將問題做了適當的處理後,我們就可開始做多元迴歸的分析。

      檢視多元迴歸分析之結果的步驟是先檢視整體模式之適合度(goodness of fit)。這是看迴歸分析結果之ANOVA表中之F test是否達到顯著。如果是的話,我們可說此模式在母群體之R2不是0,或自至少有一個自變項對應變項有解釋力。R2(或納入自變項數目做了調整後之adjusted R2)的意義是所有自變項解釋了多少比例之應變項的變異量。

      在檢視完整體模式之解釋力後,下一步是逐一檢視各自變項之斜率(slope),也就是迴歸係數是否達到顯著(即測定其是否為0之虛無假設)。這是要看每一自變項迴歸係數的T-testp值(通常應至少小於0.05)。如果某一自變項之係數達顯著水準的話,則其意義是在控制其他自變項的情況下,此一自變項對應變項之獨特影響力(unique effect)為何。另一說法是,自變項每增加一個測量時用的單位,會改變多少應變項測量時之單位。我們可代入此自變項一個數值(如此變項之平均數),然後計算在此數值和Bunstandardized coefficient)乘積,這乘積就是此自變項在此數值時,應變項的數值有多大。

      如果我們要知道和其他自變項比較,那一個自變項對應變項之獨特影響力比較大,則我們是要看Betastandardized coefficient)或部分相關係數(看此比較好)。

 

8、如果我們的迴歸分析是建立在一個因果模式上,那我們可進行階層式迴歸分析(hierarchical regression)。看我們研究的焦點為何,我們可逐一將自變項加入迴歸模式中,然後看不同階段之迴歸模式的整體解釋力和各個自變項解釋力的變化。

 

9、嚴謹的迴歸分析是要進一步對residuals做檢視後,才報告分析所得到之結果。殘餘值是指每個個案將其自變項之數值代入迴歸模式中計算在應變項之預測值,然後將實際觀察到之值與此預測值相減後所得到之殘餘。對殘餘值之診斷主要有兩項:

      Influence diagnosis:此診斷要看的是有無一些異常的個案可能對迴歸模式的估計造成不當之的影響,並膨脹standard errors。特別是當樣本數較小時,我們要當心此可能性。在SPSS的迴歸分析之Save的選項中,可將標準化處理後之殘餘值(standardized residuals)儲存起來。SPSS也會將標準化之殘餘值大於3的個案之ID報告出來。如果此類個案數目不多的話(依機率,每一百個標準化之殘餘值中會有5個殘餘值之z值大於2),那我們就可說是沒有異常個案影響迴歸模式估計的問題。

      NormalityhetroskedasticityOLS迴歸分析假定在prediction function之不同level的殘餘值是常態分配,而且變異量是相同的。因此,我們可利用單變項之分析來看檢視預測值和殘餘值是否為常態分配,以及兩者間是否有相關(依照假定迴歸模式之殘餘項應和自變項間沒有相關),以及殘餘值在prediction function之各level是否有相同之變異。在SPSS之迴歸分析中也是利用Save中之選項將predicted valuesresiduals儲存後做進一步的分析。我們也可直接利用Plots內的選項來做這些檢視的工作。

創作者介紹
創作者 晨晰部落格新站 的頭像
晨晰部落格新站

晨晰統計部落格新站(統計、SPSS、BIG DATA討論園地)

晨晰部落格新站 發表在 痞客邦 留言(7) 人氣()


留言列表 (7)

發表留言
  • 雪刃白牙
  • 請問有關於設虛擬變項的問題
    當我有六個自變項 其中有三個是類別變項 想要建立迴歸模型
    該三類別變項分別是 性別(0,1) 職別(1-4) 年齡(1-4)
    則我是否無法直接在SPSS上把這三個變項丟入線性迴歸中 一定要設虛擬變項?
    又 我的設定法是否可以如下:
    性別只有兩類 不用設
    職別當作參考變項
    年齡設三個虛擬變項 所以共丟四個年齡變項進去
    所以最後我的變項數是 3個連續+6個類別 請問這樣對嗎?
    感恩
  • 您好:判斷是否一定要設定為虛擬變項的原則是「該變項是否可視為連續變項」,例如如果您的年齡雖然分4類,但是是每十歲一個級數,那也可以把年齡當成是連續變項去使用,屆時迴歸係數單位為「每增加十歲,依變項會增加幾分」;

    另外性別已經是1跟0的虛擬變項編碼,因此已經不用設定,直接丟即可。但是「職別」則是選擇其中一組當參照組,例如選「1」這一組,然後設定3個虛擬變項,年齡也是一樣選「1」這一組當參照並設定3個虛擬變項。最後會是1+3+3,一共7個虛擬變項(1或0),而沒有連續變項。

    晨晰部落格新站 於 2012/02/16 10:24 回覆

  • justin
  • X, Y相關性... 是指X, Y兩因子可能非相互獨立影響Z 的情況
    甚至存在Y = f(X) 關係, 不知該如何try出它們間的關係
    以及如何進一步整合到 Z = (X, Y) 模型中
    (不好意思描述不夠清楚)
  • 您好:是否有更清楚的描述,或是實例說明?

    晨晰部落格新站 於 2008/06/17 11:52 回覆

  • justin
  • 喔... 因為我分開探討, 由"單因素"進而到"多因素"結構
    X,Y的線性多元(逐步)迴歸已跑過, 個別(對Z)的曲線適配也跑過
    只是不知X,Y間相關性如何? 或是交互項怎麼設?
    那麼該如何建立非線性的 Z = f(X,Y) 模型?
    非常感謝老師熱心解惑!
  • 交互作用項直接把X跟Y交乘績放在模型裡頭就行了。
    至於您所說的X跟Y的相關性是指什麼?

    晨晰部落格新站 於 2008/06/12 11:28 回覆

  • justin
  • 我使用SPSS跑線性複迴歸分析(逐步), 找出X, Y兩個顯著變項
    由線性複回歸分析已知X,Y皆對依變項Z達顯著影響也個別求出X,Y對 Z的曲線回歸式(無截距項):Z = a*X + b*X^2 ........(1)Z = c*Y + d*Y^2 ........(2)
    欲畫出X,Y,Z三者關係的3D圖直接把兩條相加, 畫出來總是一個plane...請問要如何整合(1),(2)兩式而得到一個非線性的複回歸模型也就是要怎麼try出適配度高的 Z = f(X,Y)畫出 curved surface
    以及要如何使用SPSS跑出非線性複迴歸模形的參數估計值?
    感謝指點~!!
  • 您好:為什麼要分開作兩條呢?把X跟Y一起放在同一個多項式迴歸式裡頭試試看。

    晨晰部落格新站 於 2008/06/11 10:57 回覆

  • claire
  • TEST
  • 肥臉饅頭貓
  • 此篇文章把線性多元迴歸的概念寫的很清楚,受益良多,但有幾點我想提出討論:                     
    1、原文提到:「用因素分析來檢查自變項間是否有多元共線性」
    就我個人實務經驗沒見過用因素分析來檢查的,都是用Tolerance、VIF及CI來判斷。
    或依據文獻理論將貢獻較低且共線性較高的變項逐一移除,再重新檢視迴歸模型的適切度。
    2、原文提到:「就是此虛擬變項所代表之類別與參考類別間在截距上的差距....」
    參考類別原文是Reference Category,意旨男生若拿來跟女生比,女生即為參考類別。
    3、原文提到:「如果我們要知道和其他自變項比較,那一個自變項對應變項之獨特影響力比較大,則我們是要看Beta(standardized coefficient)」
    下這個結論是很草莽的作法,個人非常不同意這個論點。
    因為在多元迴歸裡頭,某個自變項對應變項之獨特影響力不是該自變項作用的效果而已,
    而是在該自變項與其他自變項一起作用之下的預測效果,因此這個論點有問題。
  • pete
  • 多元(複)迴歸分析 ...《詳全文》

您尚未登入,將以訪客身份留言。亦可以上方服務帳號登入留言

請輸入暱稱 ( 最多顯示 6 個中文字元 )

請輸入標題 ( 最多顯示 9 個中文字元 )

請輸入內容 ( 最多 140 個中文字元 )

請輸入左方認證碼:

看不懂,換張圖

請輸入驗證碼