縱貫性資料分析(Longitudinal data analysis, LDA)在現今的研究中已經逐漸變成主流,因為LDA考慮一個個體2次以上的重複測量的資料,在研究設計與統計的觀點比較能有效推論因果關係(Causal effect),因此近來開始蔚為風行。

而國內有些大型的資料庫分析正符合LDA的條件,例如以國民健康局的「台灣地區中老年身心社會生活狀況長期追蹤」調查系列為例,此資料庫從1989年即開始追蹤中老年人的資料,請訪員作問卷調查,問卷內容涵蓋甚廣,包含家戶資料、就醫資料、生活型態、身心社會功能等等。接著此資料庫分別於19931996199920032007再進行了五波的後續追蹤,期間由於個案過世的情形因此在19962003年再增加了另外2族(Cohort)的長者資料,因此可知此資料庫非常符合LDA的需求,大多數的個案都有2次以上的資料,很適用於縱貫型的統計分析,例如存活分析、GEE分析或HLM分析(又稱為LMMMultilevel分析)。

2年來由於不少客戶有使用這個資料庫,因此也讓我有機會來瞭解到其資料的內容,以下就我個人處理的經驗中將其優勢與劣勢(或使用的限制)整理如下,給未來有機會使用到的朋友參考。

優勢部分:

一、節省設計問卷或實驗介入的時間與成本:

每一波的問卷的題目皆超過上千題,因此對於研究者而言不用再花費心力重新設計問卷;有些時候此資料庫也可作為準實驗的設計,例如可探討有喪偶與無喪偶的存活分析比較,此時此資料庫即有現成的資料,研究者可不需再進行臨床試驗即可取得資料並進而分析。

二、大樣本、妥善抽樣與低抽樣誤差

由於這些資料庫皆是政府的主管機關所主導,因此樣本數很大並且會作好妥善的抽樣,因此研究的推論效度或外在效度極佳,即抽樣樣本的結果可以推論到母群體的精確程度較佳。

三、階層性資料(Clustered data)因此適合高階統計分析

此資料庫其實兩個階層(Two level)的資料,第一層為受訪者,第二層則為重複測量(Repeated measure),因此適合使用GEE分析或HLM分析等縱貫型的分析方法,相對於傳統的統計方法較能得到相對正確的結果,亦即研究的內在效度較佳

四、資料豐富

之前有提到,此資料庫的每一波問卷都上千題,包括無論是背景資料(分類資料)、事實性資料(行為頻率)或態度性測量(量表)可說是應有盡有,因此可研究的議題非常的多

劣勢部分(或使用限制):

一、遺漏值的問題(missing value

真實的調查中常見遺漏值的問題,此資料庫也無可避免的會有一些未回答或不適用的題目,雖說在統計上是可以作填補(Imputation),但多少還是會影響到結果的推論性

二、資料錯誤

雖然此資料庫已經經過很嚴謹的資料檢查,但使用過程中我發現仍有不少資料有輸入錯誤的情形,此類錯誤可分成兩種,第一種是數值錯誤,例如譯碼簿(Coding book)的選項只有1~2,但是實際的數據卻有4, 8, 9;第二種錯誤是邏輯錯誤,例如當我把問卷資料及存活資料串檔之後,發現1993年有問卷資料者卻在1990年就死亡,因此在資料使用上還是得非常小心。

三、量表的信效度問題

資料庫裡頭已經內建許多的量表,例如憂鬱量表(CESD)、社會支持(Social support)等,但通常會有2個問題,首先是這些量表有可能都是縮短版的而不是原始版本,因此可能會被質疑到量表的有效性;再者這些量表有些根本不是臨床上在使用或已經經過驗證的量表,例如社會支持量表就是如此

四、調查內容會變動

有些重要的議題可能在後來才開始設計到問卷裡頭,例如長期照護最近幾年在台灣才開始受到關注,因此在2007年才開始加入長期照護的相關變項,因此如果想要探討這部分變項的話就只能分析2007年之後的資料,此為限制之一;另外一個限制則是同一個量表也有可能在不同波(Wave)作了調整,例如功能性日常活動量表(IADL)在1989年只有5題但1993年後都有6題,例如憂鬱量表(CESD)在1993年是5題、1996200310題,但在2007又變成了11題,這對於研究者在使用上會造成困擾。

 

綜上所述,此資料庫雖然有許多使用上的限制與劣勢,但相信倘若在使用上特別地注意到這些限制,並作妥善的處理,仍然可以做出值得參考的結果。

arrow
arrow
    全站熱搜

    晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()