操作(有關鍵變數-兩檔案皆提供觀察值):
(8)為了按照編號來合併兩個檔案,先勾選「匹配已排序檔案關鍵變數的觀察值」,預設值為「兩者皆提供觀察值」,代表就算兩邊檔案收錄的樣本不完全相同,無論以國語成績或是數學成績的頁面來操作,所有樣本最後都會一同留置在新的資料集中。
操作(有關鍵變數-兩檔案皆提供觀察值):
(8)為了按照編號來合併兩個檔案,先勾選「匹配已排序檔案關鍵變數的觀察值」,預設值為「兩者皆提供觀察值」,代表就算兩邊檔案收錄的樣本不完全相同,無論以國語成績或是數學成績的頁面來操作,所有樣本最後都會一同留置在新的資料集中。
這篇文章要來教大家實用的資料處理-合併資料,過去在接收客戶的資料時,常常遇到客戶將資料建檔在不同的資料集中,有些是按照不同的測驗階段分別建立,有些則按照問卷不同部分分別建立,但無論如果建立檔案,最後都必須整併在同一個檔案之下才方便進行分析,此時就需要用到合併資料的功能。此次示範的兩個檔案(如下圖),一個為國語成績,共7名樣本,編號為ID1至ID7,另一個為數學成績,共7名樣本,編號為ID4至ID10,因此兩個檔案的交集樣本為ID4至ID7,共4名樣本,在操作選項中,有4種不一樣的設定,下面將一一說明。
一般我們看到的t檢定,通常指的是獨立樣本t檢定(Independent sample t test),用來比較兩組獨立群體在連續變項上的差異,因此適用條件有兩個重點,(1)要比較的變項為連續尺度的變項(若要更嚴格的定義,則必須符合常態性的假設),(2)兩組數據來自兩個相互獨立的群體,不受彼此的影響。
不久之前有提到可以用次數分配來檢查我們的原始資料,今天將做個延伸,分享一些次數分配可以搭配的分析工作,以及一些功能的說明,本篇將內容分成(1)提供組別合併資訊;(2)分組規劃;(3)豐富的描述性統計量;(4)提供統計圖。
不久之前有提到可以用次數分配來檢查我們的原始資料,今天將做個延伸,分享一些次數分配可以搭配的分析工作,以及一些功能的說明,本篇將內容分成(1)提供組別合併資訊;(2)分組規劃;(3)豐富的描述性統計量;(4)提供統計圖。
提供組別合併資訊:
當我們收集完資料並完成建檔後,在分析之前,一定要確實做到檢查的工作,檢查的重點,包含了數值的合理性,以及變數的遺漏狀況。我們用的分析方法,是最簡單及最常見的次數分配與描述性統計量,沒錯,只要分析有做到敘述統計的話,大致上都能檢查到資料的問題,下面我們將這些問題整理出來。
利用敘述統計探視變數的遺漏狀態:
當我們收集完資料並完成建檔後,在分析之前,一定要確實做到檢查的工作,檢查的重點,包含了數值的合理性,以及變數的遺漏狀況。我們用的分析方法,是最簡單及最常見的次數分配與描述性統計量,沒錯,只要分析有做到敘述統計的話,大致上都能檢查到資料的問題,下面我們將這些問題整理出來。
利用次數分配找到輸入錯誤的變數:
表格:
(8)最常見的相關係數表,直接根據輸入的報表,只留下相關係數的部分製表,左邊列輸入變數名稱,上方欄則用代號表示,顯著性的部分直接以星號表示就好,這樣的呈現一目了然。然而也是有缺點的,當放入的變項太多時,在兩兩變項的相關組合下會產生非常的相關係數,將容易造成表格的數字不好閱讀。從表4-4-1可知研究變項有3個,分別是日常生活功能、憂鬱、生活品質,因此主要的相關分析有「日常生活功能與憂鬱」、「日常生活功能與生活品質」、「憂鬱與生活品質」,剩下未標顏色的區域為生活品質各構面的自我相關。
獨立樣本T檢定、單因子變異數分析、卡方分析、皮爾森積差相關,是在研究變項之間的關係時,最常使用的統計方法,前三項已經有寫過文章做教學介紹,因此本篇將補齊第四個統計方法「皮爾森積差相關」,用於衡量兩個連續變項的相關性,係數介於-1至1之間,正負代表變項關係的方向性,數值代表變項之間的關係強度,若係數之絕對值愈接近1,表示關聯性愈強。
相對前面三種統計方法,皮爾森積差相關操作簡單,解釋也不難,所以除了操作教學之外,也會說明表格的呈現方式,並延伸常遇到的問題。
結果:
(9)單因子變異數分析的第一張為描述性統計,可以得到每一組的樣本數、平均數、標準差。由於差異分析的表格通常需要交代各組別的描述性統計,所以會建議步驟4需要勾選,並將各組的平均數與標準差呈現於表格中。
當比較樣本平均數差異的組別數來到三組以上時,就不適用先前教過的獨立樣本t檢定,而必須改用單因子變異數分析(One way ANOVA)。順帶一提,當組別數只有兩組樣本的話,也是可以使用單因子變異數分析來進行組間的平均數比較,得到的結果會和獨立樣本t檢定的結果一致,不過大部分研究遇到兩組的組間比較,仍是以獨立樣本t為主。
獨立樣本單因子變異數分析與獨立樣本t檢定有一樣的前題假設:(1)被檢定的變項需符合常態性;(2)樣本獨立性;(3)變異數同質性,有關三項假設的說明,可以參考上一篇SPSS進行獨立樣本t檢定,其中關於變異數質性的操作,會比獨立樣本t檢定來得複雜一些些,將在下方操作時一併說明。
最近想要回來介紹一些比較常用的統計方法,雖然這些方法在網路上都非常容易,不過除了介紹操作流程之外,想順便將常常被提問的問題一起分享給大家。
獨立樣本t檢定收錄在SPSS的「比較平均數」裡,比較兩組樣本的平均數差異用來推論到母群體的結果。進行獨立樣本t檢定前有三項假設需先符合:(1)被檢定的變項需符合常態性,透過常態檢定,或是呈現偏態、峰度或常態機率圖形說明,由於常態檢定在大樣本的條件下,分配的非常態性容易達到顯著條件,此時採用圖表判定,會比較合適一些;(2)樣本獨立性,指的是每一筆樣本都是獨立的資料,什麼情況下會不獨立呢?舉例來說,同一位研究對象被重複收案兩次,那就會違反樣本獨立性的假設;(3)變異數同質性,針對兩組樣本的變異數進行比較,當比較結果未達顯著才符合同質性的假設,而在SPSS軟體裡同時提供了變異數符合同質及違反同質的t檢定結果,因此只需要判斷使用那一個結果即可。
前陣子遇到一個諮詢問題,有些變項因為不同組別的標準不一樣,在做分析時會先按照個別的標準轉換成新的變數,再利用此變數進行後續的統計分析,譬如說男女性的腰圍,通常男性的標準範圍為小於90公分,而女性應小於80公分,因此都會先依照標準轉成二元變數後,再進行統計分析,但如果今天我們想利用原始的測量數據來分析,又該如何處理呢?答案很簡單,不同組別進行個別的標準化。
變數的標準化以公式來說,首先要求出該變數的平均數與標準差,接著讓樣本減掉平均值後,最後再除以標準差即可,不過在SPSS裡更為簡單,我們只需要透過描述性統計分析的功能,進一步把標準化的變數儲存下來。
這篇要介紹的是SPSS中一個資料處理的功能-分割檔案(Split Files),當研究者需要針對一筆資料中的不同組別來進行相同分析時,就可以使用此資料處理功能,譬如說在分析人口學變項的敘述統計時,除了針對全體對象以外,還想針對男性或女性個別檢視,我們有三種作法,第一種方式是將原始檔案依組別拆開另存新檔,形成男性一個檔案,女性一個檔案,再開始個別檔案進行分析;第二種方式是在原始檔案中,利用以前教學過的篩選條件,先篩選男性樣本進行分析後,再改篩選女性進行分析;第三種則是本篇的主題,分割檔案(Split Files),透過指定變項進行檔案分割後,所有分析都會以各組別的結果輸出,因此分析只要做一次,不用重複進行,否則今天若有一筆全國資料,需要針對不同縣市個別進行,若採用前兩種方式處理,那麼同一種分析就得進行22次。
當變項做完敘述性統計後,通常緊接著就會進行推論性統計,來回答各式各樣的研究問題及假設,那複選題的部分又該如何進行推論性統計呢?譬如說不同性別在慢性病的比例上有無差異,之前複選題分析的教學文章中有提到,複選題的每一個選項在資料集中都被視為一個變項,因此最直接的方式,就是將每一項慢性病都獨立最一次推論性統計(無論是做獨立樣本t檢定或是卡方檢定),不過有時候複選題的選項非常多,像慢性病就可能多達一二十種,呈現在表格非常較為繁瑣,所以不妨先以簡易的方式來呈現。
如何化繁為簡呢?重點就是要把複選題想辦法變為單選題,不過要成功的執行這一步,還是得靠各自領域的專業知識,才有辦法建立出一個有意義的單選題,以上述的慢性病來說,最常見的處理方式,就是計算出慢性病總數或是重組成有無慢性病,使此變項變成慢性病的代表變項,再來和其他變項進行相關或差異分析。
一般針對連續變項的分布情形,通常會使用盒形圖來做視覺化的呈現,盒形圖的組成會包含下左圖所提到的,中位數(median)、上四分位數(25th quantile)、下四分位數(75th quantile)、上邊緣(最大值,maximum)、下邊緣(最小值,minimum)以及可能的異常值(outlier),我們可以透過盒形圖的對稱與否觀察資料的離散程度,也可以檢視資料當中有無不合理的異常值。除此之外,盒形圖也可以用來比較不同組別資料的分布差異,如下右圖所示,一號實驗對象的光速平均而言(中位數約930)比起其他實驗組別要來得快,但資料的分布也比較分散。