晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

Mar 24 Mon 2014 10:03
另類文字探勘技術

在鉅量資料時代，資料是多樣性的，一般常用來分析的結構化資料只佔20%，更多的是文字資料，如訪談稿、機器記錄檔（log）、FB臉書、Twitter推特、網誌、部落格、留言版等，所獲得的資料都是一堆文字，對統計學家來說，其分析意義主要在字詞出現頻率。高出現次數代表被討論或關注的頻率高，也就是該字詞可能是一種多數人的主流意見。

所以這方面分析統計方法難度並不高，重點在於如何擷取文字資料、自動辨別字詞與計數。前者會因為來源不同而需要不同的技術或軟體，而後者則需要事先建立龐大的字詞資料庫以供比對。今天筆者介紹一種應用在部落格分析上的方法，非常簡單且容易學習，最重要的是免費。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：其他類統計知識

▲top

Mar 17 Mon 2014 09:02
SPSS之視覺分組(Visual Binning)

在進行問卷分析或一些量化研究時，常會遇到一種資料處理的情形－『將一個連續值作分組的動作』，譬如說我們收集到受訪對象實際年齡的資料，但想做年齡層的分組，可能以每5歲或每10歲做一個級距分組，或是想依每組差不多的人數，將研究對象分成N組，此時最常用的就是重新編碼（Recode）。

重新編碼這個功能雖然可以精確的將數字依照自己的規則作轉換，且調整的彈性也較大，不過如果研究者若想嘗試許多種分組方式來得到不同的結果，或是這種分組的工作必須重覆執行，那麼SPSS所提供的Visual Binning功能將會為您節省蠻多時間，當然它還是有重新編碼功能做不到的地方。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：研究方法

▲top

Mar 10 Mon 2014 10:10
實驗介入成效之各種統計方法比較－IX(LMM)~晨晰統計林星帆顧問整理

所以我們可以得知，LMM廣受歡迎的最主要原因就是可以設定「隨機效果」（random effect），例如允許每一位個案的初始值（在我們這個例子中，就是前測分數）可以不同，換句話說，每個人的初始值具有變異性，我們可以從前測分數（β_0i）的第二層迴歸係數中再拆解為3個項目，其中第3項的「μ₀_i」就是很關鍵的隨機效果，有這一項就代表我們允許前測分數（β_0i）具有變異數，到時候統計報表會提供這個變異數的顯著性，此變異數的統計符號以「τ₀₀」表示。

然而此時的「γ₀₁」代表的是實驗組與對照組在前測的分數是否有顯著差異，也就是兩組前測分數的同質性檢驗，值得注意的是，雖然LMM是以兩層方程式來表示，但是在之前介紹的多因子變異數分析或GEE的方程式中也都有這個項目，只是LMM看起來會有一點不太一樣。另外一個不是很具有實務意義的就是「γ₀₀」，它代表的是對照組的前測分數是否不同於0，一般不去解釋這個項目。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(1) 人氣()

個人分類：研究方法

▲top

Mar 03 Mon 2014 09:21
從大台北人口密度看捷運該怎麼蓋

大台北地區民眾因為享受到了捷運的好處，所以都希望捷運蓋愈多愈好，最好是蓋到自己家門口，但這是不可能的事。在民眾期望很高的情況下，政府只要路線稍有增減或變動，立刻會引起很大的反應。所以，筆者發想，如果可以畫一張大台北地區人口密度圖，然後看看這些未來規劃路線經過區域的人口密集程度，或許大家對捷運建設的必要性及優先順序能有必較客觀看法。

這張圖的資料來源，拜Opendata之賜，台北市及新北市政府都有提供里界圖、各里面積及人口數，使用QGIS軟體畫出里界圖。為區分人口密集度，乃以各里之人口數除以面積得到之人口密度數值，以Quantile(Equal count)分為十個等級，顏色愈深代表人口密度愈高。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：統計應用專題

▲top

Feb 24 Mon 2014 09:01
2014年統計與SPSS課程調查報告

授課單位

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：晨晰的宣傳與服務專案

▲top

Feb 17 Mon 2014 09:42
兩組介入性研究之GEE操作~下

三、報表

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(19) 人氣()

個人分類：其他類統計知識

▲top

Feb 10 Mon 2014 09:01
兩組介入性研究之GEE操作~上

上一篇曾經介紹過介入性研究常使用的統計方法，有獨立樣本t檢定、成對樣本t檢定、單因子共變數分析、二因子混合設計變異數分析等，除了這些方法之外，本篇再介紹一個最近比較受歡迎的方法—廣義估計方程（Generalized estimating equation, GEE）。

嚴格來說，GEE只能算是一種估計方法而非統計方法，且建立在廣義線性模式（Generalized Linear Models, GedLM）來進行分析。那麼本篇將以一個2×2的介入性研究（兩組前後測）為例子，分享如何在SPSS以GEE進行分析。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(1) 人氣()

個人分類：其他類統計知識

▲top

Jan 27 Mon 2014 09:41
實驗介入成效之各種統計方法比較－VIII（LMM）~晨晰統計林星帆顧問整理

l 混合線性模式 (Linear mixed model, LMM)

目前為止，對於檢驗實驗介入成效的方法，我們已經知道非常多種方式，而在這其中目前又以GEE及現在即將要介紹的LMM蔚為主流，不過很有趣的是，這兩種方法皆克服了傳統統計方法（例如t-test, ANCOVA, ANOVA）的某些限制，因此才會廣受研究者的歡迎，但這兩種當代主流方法卻在「看待及處理」同一個個案的重複測量資料時，採用完全不同的角度，以下就讓我們開始介紹LMM。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：研究方法

▲top

Jan 20 Mon 2014 09:09
實價登錄資料分析

為了因應Big Data巨量資料時代來臨，政府推動開放資料加值應用(Open Data），一方增進政府施政透明度、提升民眾生活品質，一方面也滿足產業界需求。初步已建置了一個開放資料平臺，依照主題及機關別，提供分類查詢。其中一個比較熱門的應用是：不動產買賣實價登錄批次資料。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：統計應用專題

▲top

Jan 13 Mon 2014 11:01
資料整合(Aggregate)

在之前一篇「SPSS操作HLM教學」中提到一個關於資料處理的名詞「Aggregate」（整合），其主要的功能是在各群體之下，針對某一個變項去計算每個群體的統計量，實務上最常計算的統計量為平均數。

就我自己的經驗，這個功能常被用在具階層性（hierarchical）的資料，因為關於這種資料的研究，要時常在不同層次的單位下來進行分析，所以常會看到這樣研究裡的樣本數忽大忽小。就如同下圖，每五位教師都來自於同一個學校，假設有1,000位教師，對關於教師的變項進行分析時，那麼樣本數應該會有1,000個，但如果是對於學校的變項進行分析時，樣本數就會剩下200個了。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()