在鉅量資料時代,資料是多樣性的,一般常用來分析的結構化資料只佔20%,更多的是文字資料,如訪談稿、機器記錄檔(log)、FB臉書、Twitter推特、網誌、部落格、留言版等,所獲得的資料都是一堆文字,對統計學家來說,其分析意義主要在字詞出現頻率。高出現次數代表被討論或關注的頻率高,也就是該字詞可能是一種多數人的主流意見。
所以這方面分析統計方法難度並不高,重點在於如何擷取文字資料、自動辨別字詞與計數。前者會因為來源不同而需要不同的技術或軟體,而後者則需要事先建立龐大的字詞資料庫以供比對。今天筆者介紹一種應用在部落格分析上的方法,非常簡單且容易學習,最重要的是免費。
晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()
在進行問卷分析或一些量化研究時,常會遇到一種資料處理的情形-『將一個連續值作分組的動作』,譬如說我們收集到受訪對象實際年齡的資料,但想做年齡層的分組,可能以每5歲或每10歲做一個級距分組,或是想依每組差不多的人數,將研究對象分成N組,此時最常用的就是重新編碼(Recode)。
重新編碼這個功能雖然可以精確的將數字依照自己的規則作轉換,且調整的彈性也較大,不過如果研究者若想嘗試許多種分組方式來得到不同的結果,或是這種分組的工作必須重覆執行,那麼SPSS所提供的Visual Binning功能將會為您節省蠻多時間,當然它還是有重新編碼功能做不到的地方。
晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()
所以我們可以得知,LMM廣受歡迎的最主要原因就是可以設定「隨機效果」(random effect),例如允許每一位個案的初始值(在我們這個例子中,就是前測分數)可以不同,換句話說,每個人的初始值具有變異性,我們可以從前測分數(β0i)的第二層迴歸係數中再拆解為3個項目,其中第3項的「μ0i」就是很關鍵的隨機效果,有這一項就代表我們允許前測分數(β0i)具有變異數,到時候統計報表會提供這個變異數的顯著性,此變異數的統計符號以「τ00」表示。
然而此時的「γ01」代表的是實驗組與對照組在前測的分數是否有顯著差異,也就是兩組前測分數的同質性檢驗,值得注意的是,雖然LMM是以兩層方程式來表示,但是在之前介紹的多因子變異數分析或GEE的方程式中也都有這個項目,只是LMM看起來會有一點不太一樣。另外一個不是很具有實務意義的就是「γ00」,它代表的是對照組的前測分數是否不同於0,一般不去解釋這個項目。
晨晰部落格新站 發表在 痞客邦 留言(1) 人氣()
大台北地區民眾因為享受到了捷運的好處,所以都希望捷運蓋愈多愈好,最好是蓋到自己家門口,但這是不可能的事。在民眾期望很高的情況下,政府只要路線稍有增減或變動,立刻會引起很大的反應。所以,筆者發想,如果可以畫一張大台北地區人口密度圖,然後看看這些未來規劃路線經過區域的人口密集程度,或許大家對捷運建設的必要性及優先順序能有必較客觀看法。
這張圖的資料來源,拜Opendata之賜,台北市及新北市政府都有提供里界圖、各里面積及人口數,使用QGIS軟體畫出里界圖。為區分人口密集度,乃以各里之人口數除以面積得到之人口密度數值,以Quantile(Equal count)分為十個等級,顏色愈深代表人口密度愈高。
晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()
晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()
晨晰部落格新站 發表在 痞客邦 留言(19) 人氣()
上一篇曾經介紹過介入性研究常使用的統計方法,有獨立樣本t檢定、成對樣本t檢定、單因子共變數分析、二因子混合設計變異數分析等,除了這些方法之外,本篇再介紹一個最近比較受歡迎的方法—廣義估計方程(Generalized estimating equation, GEE)。
嚴格來說,GEE只能算是一種估計方法而非統計方法,且建立在廣義線性模式(Generalized Linear Models, GedLM)來進行分析。那麼本篇將以一個2×2的介入性研究(兩組前後測)為例子,分享如何在SPSS以GEE進行分析。
晨晰部落格新站 發表在 痞客邦 留言(1) 人氣()
l 混合線性模式 (Linear mixed model, LMM)
目前為止,對於檢驗實驗介入成效的方法,我們已經知道非常多種方式,而在這其中目前又以GEE及現在即將要介紹的LMM蔚為主流,不過很有趣的是,這兩種方法皆克服了傳統統計方法(例如t-test, ANCOVA, ANOVA)的某些限制,因此才會廣受研究者的歡迎,但這兩種當代主流方法卻在「看待及處理」同一個個案的重複測量資料時,採用完全不同的角度,以下就讓我們開始介紹LMM。
晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()
為了因應Big Data巨量資料時代來臨,政府推動開放資料加值應用(Open Data),一方增進政府施政透明度、提升民眾生活品質,一方面也滿足產業界需求。初步已建置了一個開放資料平臺,依照主題及機關別,提供分類查詢。其中一個比較熱門的應用是:不動產買賣實價登錄批次資料。
晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()
在之前一篇「SPSS操作HLM教學」中提到一個關於資料處理的名詞「Aggregate」(整合),其主要的功能是在各群體之下,針對某一個變項去計算每個群體的統計量,實務上最常計算的統計量為平均數。
就我自己的經驗,這個功能常被用在具階層性(hierarchical)的資料,因為關於這種資料的研究,要時常在不同層次的單位下來進行分析,所以常會看到這樣研究裡的樣本數忽大忽小。就如同下圖,每五位教師都來自於同一個學校,假設有1,000位教師,對關於教師的變項進行分析時,那麼樣本數應該會有1,000個,但如果是對於學校的變項進行分析時,樣本數就會剩下200個了。
晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()