SAS簡易教學～集群分析（上）－晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

因素分析的目的是要將變項加以分類，而集群分析的目的則是將觀察個體分類，像是醫學上常將各種疾病分類。

在集群分析裡，個體間的相似性或相異性主要是用個體間的距離來判斷，若個體間的距離越大，表示相異性越大，換句話說相似性越小。

集群分析主要分為階層式與非階層式，而非階層式的集群分析最常使用的是K-means法，兩者的適用時機如下表：

不過現在許多研究者會同時採用這兩種方法，先利用階層法決定集群的個數，再利用K-means法進行分群，這就是近年來比較常聽到的兩階段法（Two Stage Cluster analysis）

本篇所舉的例子，是想利用506位觀光客的觀光原因（包含他人推薦(X1)、美食購物(X2)、特色景點(X3)），將506位以兩階段式集群分析作分群。

階層式集群分析介紹

承上所述，集群分析是利用距離來衡量個體之間的相異性，那如何定義距離呢?若是計量的資料，有像是街道距離、柴比雪夫距離、冪距離…等（可參考陳正昌、程炳林、陳新豐、劉子鍵合著的多變量分析方法，2003，p222），一般可能以歐基里德距離較常遇到。

在進行階層式集群分析時，分成集結法與分裂法，所謂集結法是先將每一個個體視為不同的群體，再將兩個相近的群體一步一步地進行合併，最後所有的個體合成一個群體；分裂法就正好相反，先將所有個體視為一個群體，再將相異性較大的個體一步一步地分裂開來，而方法較被廣泛的使用有平均連結法（or稱群間連結）與華德法。

（1）語法

本處只介紹典型相關的主要語法。

PROC CLUSTER DATA=clus 對資料集clus進行階層式集群分析

OUTTREE=tree 輸出資料集文tree

Method=WAR STANDARD 使用華德法，並將變項先標準化

RMSSTD CCC PSEUDO NOEIGEN NONORM; 列出判斷集群數的指標，但不列特徵值

VAR X1 X2 X3; 變數為X1、X2、X3

ID N; 以N為個體辨視碼

（2）報表

1.NCL

分析的步驟

2.Cluster Joined

個體集群的過程

3.FREQ

集群後，觀察體個數

4.RMSSTD

新群集內的同質性（homogeneity），此值越小越好，如果在某一步驟增加值相對較大則代表應停止集群的合併，由下表可知NCL5到NCL4時，增加值相對較大，應停在NCL5

5.SPRSQ

兩個新集群時的同質性損失，因此越小越好，如果在某一步驟增加值相對較大，則代表應停止集群的合併，應停在NCL3orNCL4

6.RSQ

RSQ表示集群與集群之間的相異程度，越大越好，因此遞減值最大時則代表應停止集群的合併，應停在NCL4orNCL5

7.CCC

立方分群指標，如果有某處先升後降的情形（區域最高點），表示為最佳分群數，由於本處只列出部分數據，因此不參考此指標

8.PSF

集群間變異均方與集群內變異均方的比例，找區域的最高點（遞增量最大）

9.PST2

找區域的最高點（遞增量最大）

10.BSS

代表觀察在合併集群時的凝聚係數增量，如果增量大增時，代表集群內的誤差大增，應該停止合併，應停在NCL4orNCL5