在多數的關聯性研究中,都是以迴歸分析作為最終的統計方法,因此在進行樣本數規劃時,迴歸分析也是最常被拿來計算的設定選項,當研究有先收個30至50筆來做個小型先趨pilot研究時,研究者通常會以自己資料來去進行迴歸效果量的計算,並回推所需樣本數,總比又再度使用中度效果量來得嚴謹。
假如收案過程中,不斷地重覆分析迴歸時,可能會遇到一件惱人的問題,就是自變項中有類別變項,做幾次迴歸分析,就得做幾次的虛擬變項編碼,而且只要類別變項一多,就會越做越無力。
在多數的關聯性研究中,都是以迴歸分析作為最終的統計方法,因此在進行樣本數規劃時,迴歸分析也是最常被拿來計算的設定選項,當研究有先收個30至50筆來做個小型先趨pilot研究時,研究者通常會以自己資料來去進行迴歸效果量的計算,並回推所需樣本數,總比又再度使用中度效果量來得嚴謹。
假如收案過程中,不斷地重覆分析迴歸時,可能會遇到一件惱人的問題,就是自變項中有類別變項,做幾次迴歸分析,就得做幾次的虛擬變項編碼,而且只要類別變項一多,就會越做越無力。
筆者最近在研究機器學習分析時,經常會遇到一個困惱的問題,就是不同演算法經常是散落在各種不同的套件,有在使用R作統計分析的讀者應該會了解這種困擾,為了跑不同機器學習的分析筆者必須去搜尋各種模型所需要的套件,但R的套件實在是非常的多,同一個演算法可能都能找到許多不同的套件可供使用,因此筆者就需要再進一步深入研究這些套件的差異以符合筆者的需求。
就當筆者深陷需要花很多時間搜尋需要功能套件時,筆者意外地在網路上搜尋到”caret”這個強大的套件,此套件的全名是” Classification And REgression Training”,從字面上就可以知道這個套件的功能在於解決機器學習模型訓練(迴歸 or 分類問題)的一個綜合性套件,此套件整合了絕大多數機器學習常用的演算法,例如:隨機森林、KNN、Adaboost等演算法,筆者接下來將針對caret常用的幾個功能做介紹。
為了在R上面執行決策樹,我們首先要在R studio上先下載”rpart-package”、 ”rpart.plot-package”,並利用library()載入,再x利用read_csv將原始資料載入到R studio做分析。
前陣子在處理客戶諮詢問題時,剛好用到一個比較罕見的資料處理技巧-位移函數(Lag & Lead),所以這篇文章以這個題目做個教學,順便記錄下來。客戶的資料屬於縱貫型資料,是多家公司在多個年度的營運狀況,這時有個研究問題,想用去年的進貨成本來預測今年的營利淨所得,所以我們必須這兩個年度的不同變項拉在同一筆資料上,才有辦法分析我們想要的結果,這時就得用到位移函數(Lag & Lead)。
壹、遞延函數Lag
前一篇文章介紹Power BI有一個Google Analytics的App(即GA模板),可以讓你快速建立GA的視覺化報表。本篇繼續介紹後半段。
第三頁Map Analytics地圖分析,這一頁用來找出你的網站瀏覽者,來自那些國家/地區較多,人數愈多圓餅愈大。更酷的是遊標移到某個國家/地區時,還會秀出該地點人群的瀏覽量時段分布,週間那一時段最多人。不過,我覺得它用顏色來代表語言別是一個敗筆,因為語言數太多了,顏色實在難以區別。
貳、用重新編碼(recode)處理分組問題
最常出現的兩種情況,原本的欄位屬於開放題,譬如說年齡,因應研究需要而分成N組年齡層,如畫面中的age,依照15歲以下、16-20歲、21歲以上分成三組,形成變項『年齡分三組』;另一種情況,原本已經分組的變項,可能某一組樣本數較少,而併入其他組別中,如畫面中的年齡分三組,試圖將15歲以下、16-20歲合併成一組,成變項『年齡分兩組』,分別為20歲以下與21歲以上。
執行量化分析的過程,應該是資料輸入à資料清理à資料處理à資料分析,資料輸入是將紙本的資料轉換為數位化的過程,隨著網路問卷越來越多人使用,或許有些研究者可以略過這一步驟;再來是資料清理,必須把資料整備到可以分析的狀態,包含定義廢卷、處理異常值、量表遺漏值、邏輯性;接著是資料處理,根據研究問題與假設,把需要用到的變數建立出來,通常會使用兩大功能,重新編碼(recode)與計算(compute);最後就可以開始分析。
公司部落格的過去文章,其實包含了很多統計方法的介紹,或是操作的說明,資料處理也有,但多數是些比較特殊的狀況,今天我們就回過頭來,學學這簡單且重要的處理技能。一般問卷調查最常出現的設計型態,就是放上一些個人背景變項的題目,以及用兩三個量表去收集受訪者的心理特質,只要是這樣的設計,那重新編碼(recode)與計算(compute)就一定得用到,這邊我們定義成三種情形,(一)用重新編碼(recode)處理反向題轉向計分;(二)用重新編碼(recode)處理分組問題;(三)用計算(compute)產出因素或量表總分。
項目與總分相關,指的就是題目與總分的相關性,用來檢驗題目的同質性表現,一講到相關,其實就是大家馬上聯想到的皮爾森積差相關分析,去求得相關係數作為同質性的指標,一般最低要求,相關係數需在0.3以上並達顯著水準。
1、點選『相關』à『雙變數』。
在問卷發展階段,通常會利用項目分析來檢驗量表題目的品質,項目分析從字面上的意思來看,指的就是對題目所做的分析,其目的在於正試問卷施測前,對題目進行適切性的評估,用一些指標來判別題目是否需要刪除或修改,而比較常用的項目分析指標包含了極端組檢驗法,以及題目與總分相關法,所示範的資料與信度分析為同一筆資料,為七個題項所組成的工作滿意度量表,共包含106受試者。
極端組檢驗法的概念,是找出對於工作滿意程度感到極滿意與極不滿意的最極端兩群對象,接著利用獨立樣本t檢定,比較兩群人在每一個題項上的差異性,合理來說,極高滿意組應該在每一個項目所展現出的滿意程度高於極低滿意組,但如果發生兩組對象在某一個項目的滿意程度無顯著差異,這代表不管誰來填這一題,所測得的滿意程度是差不多的,失去了題目應有的鑑別力。
搜尋了一下過去的文章,有寫過用SAS進行ANCOVA與詹森內曼法的教學,以及用SPSS進行詹森內曼法的教學,因此這篇將補足用SPSS進行ANCOVA的教學分析,畢竟ANCOVA應該算是在變異數分析裡比較熱門的分析方式,至於比較詳細的原理及教學,可以找一些變異數分析的專書,應該蠻好找到相關的內容。
多數的共變數分析,常出現在前後測的介入研究中,而且在多個研究領域上的接受度也是頗高的,除了使組別在後測的比較更精確之外,在統計方法的使用上也比使用獨立樣本t檢定或配對樣本t檢定來得好看。
本篇文章將介紹關於SPSS在三階層HLM的操作應用,筆者曾於過去寫過SPSS在二階層HLM的應用文章,其中有提到模式中固定效果的設定,會較HLM軟體來得直觀,就算到了三階層HLM也是如此,因此本篇文章僅以零模型為例,介紹隨機效果的設定方式,並以HLM軟體所分析出來的結果來驗證正確性。
一、資料介紹
記得之前有向大家介紹SPSS建立虛擬變項的功能,但因為該功能是要搭配較新版本的SPSS並且有安裝Python Essentials,請參考「
SPSS Create Dummy Variables Tool(SPSS建立虛擬變數工具)」http://dasanlin888.pixnet.net/blog/post/447970946),多數的研究者取得不易,在一個偶然的機會下,得知還有另外其他簡單的建立方式,因此藉由此篇來跟大家分享,若是對虛擬變項的概念不熟,或是不知道為什麼要建立虛擬變項,那請參閱這篇(http://dasanlin888.pixnet.net/blog/post/340316597)。
我們曾在另一篇文章中,介紹EXCEL進行單因子ANOVA分析(詳見「應用Excel大數據提高客戶滿意度班-課程重點分享」一文),這裏進一步介紹事後比較。下圖複習單因子ANOVA,假設已完成各學歷組摘要及F檢定,p值小於0.05為顯著,雖然長條圖可以看出「高中/職以下」滿意度較高。不過,仍須以事後比較來證明。
隨機對照試驗(randomized controlled trial,RCT)是常見的實驗設計手法之一,近年來常遇到客戶使用廣義估計方程式(generalized estimating equations,GEE)進行介入效果的驗證,本篇文章將以最簡單的兩組前後測資料為例,使用SPSS 22.0進行操作說明及報表解讀。
進行GEE分析所使用的資料,必須為長資料格式(long form data),係指每一人次的資料必須為單獨一筆,像是標示A:ID 1受訪者的前後測資料必須分別輸入成兩筆資料。