公告版位
目前分類:迴歸與SEM (57)
- Jan 12 Tue 2016 10:05
利用NCSS的脊迴歸(ridge regression)解釋多元共線性(multi-collinearity)~(2)
- Jan 04 Mon 2016 10:07
利用NCSS的脊迴歸(ridge regression)解釋多元共線性(multi-collinearity)~(1)
『http://dasanlin888.pixnet.net/blog/post/34469324』-之前部落格文章中有介紹迴歸係數跟預期方向相反的相關議題,我們定義為可能是多元共線性所造成的,對於研究者來說勢必相當困擾,畢竟此結果無法使用。
因此進行迴歸分析時,當遭遇以下幾種情況時,可能要注意迴歸模式中是否存在多元共線性(multi-collinearity)的問題:(1)共線性指標超過標準(含容忍度tolerance、變異膨脹因子VIF、條件指標CI)(2)迴歸係數的方向性與相關係數相反(3)解釋力R平方過高,但個別變項的係數未達顯著水準。
- Nov 02 Mon 2015 10:02
統計觀點~~迴歸也可以作差異分析
這次想和大家重新檢討一些統計方法的問題。一般人作差異分析,通常都會說比較二組的分數差異用T檢定,比較三組則用單因子變異數分析(one way ANOVA)。每一種方法有不同的使用時機。
- Jun 08 Mon 2015 09:10
Mean Center Many Variables(多個變數平均中心化)
這篇將介紹一個資料處理方法「Mean Center」,又稱置中平減或中心化,大部分出現在統計模式中含有交互作用(interaction)項時,必須處理的過程,這是因為在統計模式中,若同時出現主效果(main effects)「A」&「B」及交互作用效果(interaction effects)「A*B」時,容易使模式產生「多元共線性」(multicollinearity)的問題,而「Mean Center」可以降低模式多元共線性的程度,幫助交互作用項迴歸係數的解釋。
一般「Mean Center」的作法,是利用描述性統計分析將變項的平均數求出,接著利用轉換裡的計算(Compute),將各自變項減掉各自平均數後創造出新的變項;不過有時研究可能要針對1、20個變項進行此動作,將會花費不少時間,因此本篇將介紹SPSS分享的新工具,輕鬆完成「Mean Center」,此公用程式可適用在SPSS 17.0之後的版本,且有安裝Python Essentials,本篇以SPSS 22.0版為操作介面,介紹安裝此公用程式及後續的操作。
- Mar 09 Mon 2015 11:30
二元羅吉斯迴歸之SPSS操作~下
- Mar 02 Mon 2015 09:11
二元羅吉斯迴歸之SPSS操作~上
- Jan 26 Mon 2015 08:59
簡單解釋二元羅吉斯迴歸~2
再來,是依變項的部分,我們知道每個受訪者會發生運動傷害的機率與不會發生運動傷害的機率相加,一定是100%(P(會發生)+P(不會發生)=1),在羅吉斯迴歸的方程式中,公式以P(會發生)/P(不會發生)做為一個人會不會發生依變項=1(有運動傷害)的風險(又稱勝算,odds),如果今天一個人會發生的機率是50%的話,不會發生的機率也一定是50%,此時所算出來的風險(odds)就會剛好是1,如果今天算出來的風險(odds)超過1的話,就代表該受訪者比較可能有依變項=1(有運動傷害)的現象;反之(odds)低於1的話,就代表該受訪者比較不可能有依變項=1(有運動傷害)的現象,所以1即為決定方向性的重要標準。再繼續延伸到下表裡的OR值(odds ratio),OR值可以想成把兩群對象的風險(odds)進行比較,如果有一群對象A的風險(odds)為0.6,另一群對象B的風險為0.3,那對象A相較於對象B的OR值則為2(A比B容易發生),或解釋成對象B相較於對象A的OR值則為0.5(B比A不容易發生),因此仍以1作為OR值判斷的標準,OR值超過1,越容易發生Outcome=1(有運動傷害),或可以解釋發生風險比較高。
如果上述的教學您還可以接受的話,那麼恭喜您,應該對羅吉斯的迴歸解釋有相當瞭解,若您對於上述不是很明白,也不用擔心,最後要教您最快解釋報表的方法,同樣的以自變項及依變項拆成兩段解釋。
- Jan 19 Mon 2015 09:06
簡單解釋二元羅吉斯迴歸~1
一篇研究在經過多種量化分析的統計方法後,經常以找尋預測因子或影響因子作為Ending,所使用的統計方法即是大家常看到的迴歸分析,一般所指的迴歸分析若沒有特別強調,通常都是線性迴歸(Linear Regression),而且是多個自變項所組成的多元線性迴歸(Multiple Linear Regression),不過根據我的經驗,多數客戶學線性迴歸並沒有太大的問題,就算拿書自學也都能輕易上手;而這篇所要介紹的是從統計方法聽起來就比較難的二元羅吉斯迴歸。
二元羅吉斯迴歸與線性迴歸的差別,僅在於依變項/Outcome尺度的不同,當依變項為二類的類別變項(通常Coding 1 & 0)時,會採用二元羅吉斯迴歸進行分析;而當依變項為連續尺度的變項時,則是使用線性迴歸。(當依變項的水準為三類以上,則採用多項式羅吉斯迴歸)。
- Nov 10 Mon 2014 09:38
迴歸分析-變項各自解釋力(二)
本篇將說明如何找到變項各自單獨的解釋力,不過是否符合老闆的需要,還是得視情況而定,本篇提供兩種找尋的方式,(1)仍是以R平方改變量找尋變項解釋力;(2)利用部分相關(part correlation)來計算(非偏/淨相關)。
在分享找尋變項各自單獨的解釋力之前,先利用下圖瞭解對依變項的解釋力包含哪一些,此處設定兩個自變項X1、X2,依變項Y來做介紹。
- Nov 03 Mon 2014 09:38
迴歸分析-變項各自解釋力(一)
有關問卷調查的研究中,獨立樣本t檢定、單因子變異數分析、皮爾森相關、多元線性迴歸是推論統計常使用的分析方法,其中前三項都不致於有什麼太大的奇怪問題,但在迴歸分析裡,有些老闆會要求學生「列出每一個自變項對依變項的解釋力,好看出哪一個自變項的影響力或預測力最大」。
老闆的要求看起來似乎合理,不過通常他們認知各自變項的解釋力,和真正變項的解釋力不太相同,以下先介紹如何求出老闆要求的各自變項解釋力,在本文章採用的例子,自變項有3個(分別是X1、X2、X3),依變項名稱為Y。
- Apr 07 Mon 2014 09:39
中介調節分析的SPSS Macro彙整
會寫這個主題,是因為筆者以迴歸方法進行中介或調節研究時,除了使用SPSS軟體一一跑出報表外,更方便的方法是利用Hayes, A. F.、Preacher, K. J.等人所研發的各種SPSS Macro及SAS code,一次把所有數值跑出來。
只是Hayes等人寫的巨集有很多版本,隨著發表時間的不同,功能各有不同,如sobel test、多元中介、Bootstrap、加入控制變項、允許多個自變項、Johnson-Neyman詹森內曼法等,每個版本強調不同的項目。雖然Hayes在2013年發表的PROCESS,號稱是集過去於大成的終極版,但也因為功能太強了,以到於使用上有點複雜。
- Jan 06 Mon 2014 10:08
虛擬變項的解釋
在迴歸分析(線性、羅吉斯…等)中,當自變項為類別變項時,研究者都要先進行虛擬編碼(Dummy Code)的動作,關於此部分的操作教學,無論是在網路上或教科書上都相當的多,像是吳明隆(2009,p572)或邱皓政(2010,p11-18)老師的教科書裡都有提到,有興趣的讀者都可以參考,或是在搜尋引擎上打上關鍵字「虛擬變數」、「虛擬編碼」、「Dummy Variable」、「Dummy Code」,應該都可以找到許多部落格的圖文教學。
因此本篇文章將著重在虛擬變項迴歸係數的解釋,本篇將以比較簡單的線性迴歸來做說明。一般最常見的迴歸分析,自變項幾乎都是連續變項,這是因為迴歸裡假設自變項與依變項存在著線性關係,因此若自變項並非等距或比率變項,其求得的迴歸係數就無法解釋。
- Aug 05 Mon 2013 09:09
迴歸模型建立(建模)之淺談-下~An introduction to strategy of model building for regression 晨晰統計林星帆顧問整理
雖然可以用N + (p*10) 的原則或者是根據正式公式樣本數計算的公式來大略預估需要多少人數,但是如果自變項數目太多時,這個原則可能還是失效的。
例如我們有10個自變項,若按照N + (p*30) 的原則(N設100),那麼所需要的是400名樣本;反之,舉一個極端的例子,如果我們有100個自變項,則需要3100名樣本,但按照經驗法則,如果一個迴歸模型中真的包括了100個自變項,那麼儘管樣本數高達3100名但結果可能還是很難有顯著的發現,這100個自變項可能達顯著水準的只會有少數幾個。一般我們在許多期刊論文上面看到迴歸模型的自變項很少超過10個,可能的話也盡量不要超過20個(儘管樣本數可能很大)。
- Jul 29 Mon 2013 09:09
迴歸模型建立(建模)之淺談-上 An introduction to strategy of model building for regression~晨晰統計林星帆顧問整理
無論是各種領域,只要使用到量化研究,最重要的也讓人最感興趣的就是「尋找預測因子」或「尋找關聯性」,或是大膽地說想要探討「因果關係」。例如醫學研究中,胸腔科的醫師可能想知道與肺腺癌病人的存活率有關聯性的變項有哪些;政治學的研究中,可能想要探討什麼特質的選民會投票給某種屬性的候選人或政黨,這也需要用到「預測」的技術,而在現代的統計學中,目前最主流作預測分析的統計方法就是迴歸分析(Regression analysis)。
迴歸分析會因為依變項尺度(Scale)的不同而採用不同的模型,例如連續型依變項是線性迴歸(Linear regression)、二元型依變項是Logistic regression等等各種不同的模型,不過大致上皆可歸類到廣義線性模式(之前的簡介,不過今天這篇文章不是在介紹統計分析方法,而是要淺談「迴歸模型建立的策略」,簡稱「建模」,說的白話一點就是我們如何決定一組迴歸模型中最後要保留哪些自變項。
- May 20 Mon 2013 09:18
SPSS操作HLM教學(下)
- May 06 Mon 2013 09:26
SPSS操作HLM教學(上)
前陣子有客戶詢問關於HLM的操作分析,一般在跑HLM的研究都會使用HLM的軟體,當然,我本來也打算以HLM的軟體來教他,不過我想大部分的研究者和我的客戶一樣並沒有HLM的軟體,那麼該怎麼辦呢?此時客戶提出:「不能使用SPSS嗎?」。SPSS在15版之後裡已加入HLM分析,不過個人認為點選介面不太好理解,因此一直沒主動去摸索,也藉此機會逼自己瞭解一下,並將操作過程與心得記錄下來與各位分享心得。
在學習操作前,建議是要稍微瞭解HLM的基礎原理,因此若還沒接觸過HLM的讀者,建議先讀過我們部落格康顧問所寫的3篇文章:HLM學習心得分享1~3。
- Jan 21 Mon 2013 09:47
潛在變項模式簡介(Introduction to latent variable modeling)~晨晰統計林星帆顧問整理
近幾年來越來越多人使用潛在變項模式(Latent variable modeling)的分析,事實上我們大家一直很熟悉的「因素分析」或「結構方程模式」也都是潛在變項模式的一種,本文旨在介紹各種類型的潛在變項模式以及使用時機。
- Dec 17 Mon 2012 10:26
迴歸分析樣本數規劃之計算流程
上一篇說到以G-power軟體來計算迴歸分析的樣本數,通常只要在內文裡交代利用的計算軟體,透過迴歸分析方法,設定「型一誤差α」、「檢定力1-β」、「效果量effect size」與「自變項個數」各為多少,所計算的樣本數為何,十篇裡有八、九篇都能順利過關。
- Dec 10 Mon 2012 09:21
透過G-power軟體計算迴歸分析所需之樣本數
多元迴歸分析(Multiple Regression Analysis)常被拿當來作一篇研究最主要的分析方法,而研究的一開始必須先去先計算要收案的樣本數,此時論文裡就會出現各式各樣的抽樣公式,通常以隨機抽樣公式為主。
- Jun 26 Tue 2012 10:13
HLM學習心得分享(三)~康顧問分享
接著,後面二個模型是Random-coefficient、Intercept-and slopes-as-outcomes。
第一個模式是在Level 1(學生層級),加入學生個人的社經地位(SES)來預測學生個人學業成績,如同迴歸一般,預測某一學生的成績是以常數項,加上社經地位(SES)乘以迴歸係數,再加殘差項。只是這時侯,常數項不只一個,學校有幾所,常數項便有幾個,因為它代表的是該學校內所有學生的平均成績。故學校有好多所,所以常數項當然也有多個,這是第一個Random-coefficient。