因素分析的目的是要將變項加以分類,而集群分析的目的則是將觀察個體分類,像是醫學上常將各種疾病分類。

 

在集群分析裡,個體間的相似性或相異性主要是用個體間的距離來判斷,若個體間的距離越大,表示相異性越大,換句話說相似性越小。

 

集群分析主要分為階層式與非階層式,而非階層式的集群分析最常使用的是K-means法,兩者的適用時機如下表:

 

 

項目

階層式集群分析

K-means

1

群數未知

群數已知

2

適用小樣本

適用大樣本

3

主要是想知道可以分幾群

主要是想知道觀察個體會分到哪一群

 

 

不過現在許多研究者會同時採用這兩種方法,先利用階層法決定集群的個數,再利用K-means法進行分群,這就是近年來比較常聽到的兩階段法(Two Stage Cluster analysis

 

本篇所舉的例子,是想利用506位觀光客的觀光原因(包含他人推薦(X1)、美食購物(X2)、特色景點(X3)),將506位以兩階段式集群分析作分群。

 

階層式集群分析介紹

 

承上所述,集群分析是利用距離來衡量個體之間的相異性,那如何定義距離呢?若是計量的資料,有像是街道距離、柴比雪夫距離、冪距離等(可參考陳正昌、程炳林、陳新豐、劉子鍵合著的多變量分析方法,2003p222),一般可能以歐基里德距離較常遇到。

 

在進行階層式集群分析時,分成集結法與分裂法,所謂集結法是先將每一個個體視為不同的群體,再將兩個相近的群體一步一步地進行合併,最後所有的個體合成一個群體;分裂法就正好相反,先將所有個體視為一個群體,再將相異性較大的個體一步一步地分裂開來,而方法較被廣泛的使用有平均連結法(or稱群間連結)與華德法。


 

1)語法

本處只介紹典型相關的主要語法。

 

PROC CLUSTER DATA=clus   對資料集clus進行階層式集群分析

OUTTREE=tree   輸出資料集文tree

Method=WAR STANDARD  使用華德法,並將變項先標準化

RMSSTD CCC PSEUDO NOEIGEN NONORM;  列出判斷集群數的指標,但不列特徵值

VAR X1 X2 X3;        變數為X1X2X3

ID N;                N為個體辨視碼

 

 

 

2)報表

1.NCL

分析的步驟

2.Cluster Joined

個體集群的過程

3.FREQ

集群後,觀察體個數

4.RMSSTD

新群集內的同質性(homogeneity),此值越小越好,如果在某一步驟增加值相對較大則代表應停止集群的合併,由下表可知NCL5NCL4時,增加值相對較大,應停在NCL5

5.SPRSQ

兩個新集群時的同質性損失,因此越小越好,如果在某一步驟增加值相對較大,則代表應停止集群的合併,應停在NCL3orNCL4

6.RSQ

RSQ表示集群與集群之間的相異程度,越大越好,因此遞減值最大時則代表應停止集群的合併,應停在NCL4orNCL5

7.CCC

立方分群指標,如果有某處先升後降的情形(區域最高點),表示為最佳分群數,由於本處只列出部分數據,因此不參考此指標

8.PSF

集群間變異均方與集群內變異均方的比例,找區域的最高點(遞增量最大)

9.PST2

找區域的最高點(遞增量最大)

10.BSS

代表觀察在合併集群時的凝聚係數增量,如果增量大增時,代表集群內的誤差大增,應該停止合併,應停在NCL4orNCL5

 

 

NCL

RMSSTD

SPRSQ

RSQ

CCC

PSF

PST2

BSS

6

0.6550

0.0304

0.670

-4.4

199

55.8

45.166

5

0.6061

0.0314

0.639

-3.2

217

52.7

46.62

4

0.7280

0.0614

0.577

-3.7

224

87.2

91.243

3

0.7979

0.0938

0.483

3.78

231

103

139.32

2

0.7671

0.0946

0.389

16.3

314

117

140.53

 


arrow
arrow
    全站熱搜
    創作者介紹
    創作者 晨晰部落格新站 的頭像
    晨晰部落格新站

    晨晰統計部落格新站(統計、SPSS、BIG DATA討論園地)

    晨晰部落格新站 發表在 痞客邦 留言(5) 人氣()