因素分析的目的是要將變項加以分類,而集群分析的目的則是將觀察個體分類,像是醫學上常將各種疾病分類。
在集群分析裡,個體間的相似性或相異性主要是用個體間的距離來判斷,若個體間的距離越大,表示相異性越大,換句話說相似性越小。
集群分析主要分為階層式與非階層式,而非階層式的集群分析最常使用的是K-means法,兩者的適用時機如下表:
項目 |
階層式集群分析 |
K-means法 |
1 |
群數未知 |
群數已知 |
2 |
適用小樣本 |
適用大樣本 |
3 |
主要是想知道可以分幾群 |
主要是想知道觀察個體會分到哪一群 |
不過現在許多研究者會同時採用這兩種方法,先利用階層法決定集群的個數,再利用K-means法進行分群,這就是近年來比較常聽到的兩階段法(Two Stage Cluster analysis)
本篇所舉的例子,是想利用506位觀光客的觀光原因(包含他人推薦(X1)、美食購物(X2)、特色景點(X3)),將506位以兩階段式集群分析作分群。
階層式集群分析介紹
承上所述,集群分析是利用距離來衡量個體之間的相異性,那如何定義距離呢?若是計量的資料,有像是街道距離、柴比雪夫距離、冪距離…等(可參考陳正昌、程炳林、陳新豐、劉子鍵合著的多變量分析方法,2003,p222),一般可能以歐基里德距離較常遇到。
在進行階層式集群分析時,分成集結法與分裂法,所謂集結法是先將每一個個體視為不同的群體,再將兩個相近的群體一步一步地進行合併,最後所有的個體合成一個群體;分裂法就正好相反,先將所有個體視為一個群體,再將相異性較大的個體一步一步地分裂開來,而方法較被廣泛的使用有平均連結法(or稱群間連結)與華德法。
(1)語法
本處只介紹典型相關的主要語法。
PROC CLUSTER DATA=clus 對資料集clus進行階層式集群分析
OUTTREE=tree 輸出資料集文tree
Method=WAR STANDARD 使用華德法,並將變項先標準化
RMSSTD CCC PSEUDO NOEIGEN NONORM; 列出判斷集群數的指標,但不列特徵值
VAR X1 X2 X3; 變數為X1、X2、X3
ID N; 以N為個體辨視碼
(2)報表
1.NCL
分析的步驟
2.Cluster Joined
個體集群的過程
3.FREQ
集群後,觀察體個數
4.RMSSTD
新群集內的同質性(homogeneity),此值越小越好,如果在某一步驟增加值相對較大則代表應停止集群的合併,由下表可知NCL5到NCL4時,增加值相對較大,應停在NCL5
5.SPRSQ
兩個新集群時的同質性損失,因此越小越好,如果在某一步驟增加值相對較大,則代表應停止集群的合併,應停在NCL3orNCL4
6.RSQ
RSQ表示集群與集群之間的相異程度,越大越好,因此遞減值最大時則代表應停止集群的合併,應停在NCL4orNCL5
7.CCC
立方分群指標,如果有某處先升後降的情形(區域最高點),表示為最佳分群數,由於本處只列出部分數據,因此不參考此指標
8.PSF
集群間變異均方與集群內變異均方的比例,找區域的最高點(遞增量最大)
9.PST2
找區域的最高點(遞增量最大)
10.BSS
代表觀察在合併集群時的凝聚係數增量,如果增量大增時,代表集群內的誤差大增,應該停止合併,應停在NCL4orNCL5
NCL |
RMSSTD |
SPRSQ |
RSQ |
CCC |
PSF |
PST2 |
BSS |
6 |
0.6550 |
0.0304 |
0.670 |
-4.4 |
199 |
55.8 |
45.166 |
5 |
0.6061 |
0.0314 |
0.639 |
-3.2 |
217 |
52.7 |
46.62 |
4 |
0.7280 |
0.0614 |
0.577 |
-3.7 |
224 |
87.2 |
91.243 |
3 |
0.7979 |
0.0938 |
0.483 |
3.78 |
231 |
103 |
139.32 |
2 |
0.7671 |
0.0946 |
0.389 |
16.3 |
314 |
117 |
140.53 |
留言列表