資料結構與輸入型態介紹（Broad data vs. Long data）~晨晰統計林星帆顧問整理－晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

在這幾年的統計諮詢經驗中，很常碰到客戶的資料整理的格式「不適合」跑統計分析，並不是資料整理的格式「不正確」，而是說「不適合」，這是因為每個人都有自己習慣的資料記錄方式，假設你在進行一個實驗介入的研究，將A班當成實驗組而B班是控制組，而除了「實驗介入」這個組間因子（between-subject factor）之外，你可能還有組內因子「within-subject factors」例如「時間點」，最常見的就是前測與後測或者還有追蹤測驗（delayed posttest），因此你可能把資料keyin成Table 1這個樣子：

photo.php

那這樣子keyin正確與否呢？答案是：看狀況。

為什麼這麼說呢？假使你今天要用的是「傳統」的統計分析，例如用二因子混合設計變異數分析（Two-way Mixed Design ANOVA）或者是把前測分析當成共變項（covariate）作二因子混合設計共變異數分析（Two-way Mixed Design ANCOVA）的話，那麼Table 1的keyin格式就是正確的了，然而這種每一個subject只會有一列（row）的資料型態叫作「Broad data」，意思就是說資料欄位因為比較多，因此寬度上比較「寬」。

假使今天我們想要用比較fancy的統計分析，例如用Linear mixed model (就是Hierarchical linear model or Multilevel model) 或者是廣義估計方程式（Generalized estimating equation, GEE）來檢驗實驗介入的成效時，那麼Table 1這種Broad data就不敷使用了，因為在縱貫資料分析（Longitudinal data analysis）中，「每一次subject的資料」都被當成一筆資料，也就是如果重複測量三次資料，那麼對縱貫資料分析而言我們樣本數事實上是N = n × number of time points。

photo(1).php

由Table 2可知，每一個subject在每一次時間點都會有一列資料，這種資料就叫作「Long data」，意思是說由於資料的列數變多，因此資料本身比較「長」，眼尖的讀者可能會發現我把「時間」分為兩個變項，一個是Period而另一個是Time (exact), 前者是根據測量的間距（interval, 意思就是說第1次、第2次、第3次），後者是根據實際的時間（例如第一個月、第二個月及第四個月）。這裡的差別是如果以HLM跑分析的話最好採用實際的時間，因為HLM是將時間視作連續變項；GEE的話則是兩者皆可採用，因為在GEE模式中可將時間視為連續變項或類別變項。

以上介紹了實際研究中，最可能出現的「長資料」及「短資料」，不過由於統計軟體在處理長短資料之間的互換上的功能是蠻方便的，因此無論是長資料要轉為短資料或者短資料要轉成長資料都是很簡單的任務，但以實際研究記錄資料而言，最好還是都從「短資料」開始輸入資料，因為受試者的資料我們一定是一次只有收到一個時間點的資料，用「短資料」是由左至右keyin因此會比較便利，但如果是用「長資料」由上往下keyin的話，那就比較不好輸入了。