由上一篇可知,在SAS做資料處理與分析的過程中,是由一連串的DATA STEP與PROC STEP所組合而成,而不論是哪一個STEP,又皆是由數個敘述句所組成的,以下將針對敘述句與SAS變數做介紹,以及說明應注意的事項。
由上一篇可知,在SAS做資料處理與分析的過程中,是由一連串的DATA STEP與PROC STEP所組合而成,而不論是哪一個STEP,又皆是由數個敘述句所組成的,以下將針對敘述句與SAS變數做介紹,以及說明應注意的事項。
最近在複習利用SAS來做資料的處理,所參考教科書為林政豐老師的SAS應用之資料處理(2005),期望在學習的過程中,將自己所看到且應注意的地方紀錄下來,並與大家來做討論,若有發現錯誤的地方,也希望能給小弟一些批評與指教。
當單因子變異數分析的基本假設無法滿足時,最常被用來代替的是克-瓦二氏單因子等級變異數分析。由此可知,當資料為三組以上的獨立樣本,欲檢定組別在次序變數上是否存在差異,或雖然變數為等距比例的變數,但資料不能符合單因子變異數分析的基本假定時,克-瓦二氏單因子等級變異數分析是代替單因子變異數分析來檢驗多群體間是否有差異的好方法。
無母數統計是一種不需要考慮樣本所來自的母群之分配條件的統計檢定,是將原始資料經由排序(rank)後,重新給予等級分數,並用此等級分數來做分析,假如有一筆資料為1、10、100、500,那麼經由排序後重新給予的等級分數會變為1、2、3、4。
上一章提到在執行共變數分析前,必須先檢視是否有違反迴歸係數同質性的問題,如果違反,表示共變數對於依變項的影響程度,會因為組別的不同而有所差異,此時需改用詹森-內曼法(Johnson – Neyman method)來進行共變數分析。
詹森-內曼法主要原理:由於共變數(X)對於依變數(Y)的影響會因為組別(M)的不同而有所差異,因此必須將結果依共變數的區段不同來解釋。第一個區段為XD+的右邊,此處為組一的Y顯著高於組二;第二個區段為XD到XD+的區域,此處雖然組一的Y高於組二,但差異的程度未達顯著水準;第三個區段為XD點上,此處的組一與組二的Y會相等;第四個區段為XD-到XD的區域,此處雖然組二的Y高於組一,但差異的程度未達顯著水準;第五個區段為XD-的左邊,此處為組二的Y顯著高於組一。(如下圖)
在前一篇提到當自變項個數為2,且皆為獨立因子時,我們使用的是獨立樣本二因子變異數分析;若兩個自變項中,一個為獨立因子,另一個為相依因子時,則要改用二因子混合設計;若兩個自變項皆為相依因子時,則要改用二因子完全相依設計,又稱隨機化區組多因子設計(randomized block factorial design)。
以下列表格為例,想要去測量五位消費者,對於某知名飲料店糖份(半糖、全糖)與冰塊量(去冰、少冰、全冰)的接受程度,因此每一位必須喝完6種不同配置的飲料,每種飲料試喝間隔為1小時,並在喝完後填寫滿意度調查表(1~10分)。
之前探討當要比較三組(獨立因子)以上的平均數差異時,我們必須用到One-way ANOVA,此時若要同時探討二個獨立因子的差異(譬如說教室氣氛是否會影響到成績,以及教學法是否會影響到成績),甚至這兩個獨立因子是否存在交互作用時(譬如說不同教室氣氛間的成績差異,是否會因為教學法的不同而不同;或不同教學法間的成績差異,是否會因為教室氣氛間的不同而不同),則要使用獨立樣本二因子變異數分析。
當我們有一群樣本在某一事件上的發生與否(Event or not),而且還知道持續多久的期間(Duration)才發生Event,此時我們可根據樣本此兩個依變項,畫出樣本的存活曲線(survival curves),而使用的方法為Kaplan-Meier。
之前我們介紹了三種較常用的相關分析,分別為皮爾森積差相關(Pearson product-moment correlation)、史皮爾曼等級相關(Spearman rank order correlation)與點二系列相關(Point-biserial correlation),但這些分析僅適用變項X對Y為一對一的相關分析,我們稱為簡單相關。當X與Y變項皆不只為一個變項時,我們可改用典型相關分析來求出X與Y的線性相關,我們稱為多元相關。
一般而言,無論我們用CARDS或是INFILE來建立資料集,所建立的Data都將先暫存到目錄底下WORK的資料館裡(如下圖),因此我們可以到此資料館裡,將此Data另存成SAS的資料檔(副檔名為sas7bdat),可是如果要一直手動來執行上述的步驟似乎有點麻煩。