K-Means集群分析(非階層式)介紹

 

在指定已知的群數下(假設3個),在所有個體中隨機抽取3個點,接著將所有觀察點依此3個點最近距離分成3群,接著將這3群分別找出中心點,再將所有觀察點依此3個點最近距離分成3群,一直重覆動作到收歛為止。

 

 

1)語法

 

 

1.變項標準化

先將3個變項標準化

2.非階層式集群分析

PROC FASTCLUS DATA=std OUT=km CLUSTER=clus  針對std資料集執行非階層式集群分析,報表輸出到km資料集,集群命名成clus

LIST DISTANCE  列出集群中心距離

MAXCLUSTERS=3  集群數設定為3

RADIUS=0  每個觀察體都可以成為中心點

REPLACE=FULL  使初始中心點有合理的間距及排除離群值

MAXITER=20;  最大疊代數

VAR X1 X2 X3;  輸入變數

 

 

2)報表

1.集群在3個變項的初始中心點

Ex:第一個集群的中心點位置為(X1, X2, X3)=(-0.38, 0.52, -3.77)

2.疊代時收歛過程

在第5步時皆小於0.02達到收歛

3.疊代時收歛過程

提醒您有滿足收歛

 


 

4.列出觀察個體集群

列出所有觀察個體歸類的集群,及與該集群中心點的距離

 


 

 

5.集群內個數

6.集群內標準差

7.集群內觀察點與中心點的最大距離

8.集群與其他最近的集群

9.集群與其他最近的集群距離

10.全體標準差

因為事先將所有變數標準化過了

11.聯合集群內標準差

12.R平方

用集群代號(Dummy Code)預測該變項的判定係數,R平方越高表示群間差異越大

13.可預測及不可預測的比率

14.F

15.整體近似R平方

無太大的意義

16.CCC指標

無太大的意義

 


 

 

17.集群的平均數

18.集群的標準差

19.集群中心間的距離

 


 

 

陳正昌、程炳林、陳新豐、劉子鍵(2003)。應用多變量分析方法-統計軟體應用。臺北:五南。


 

 

 

 

 

 

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 晨晰部落格新站 的頭像
    晨晰部落格新站

    晨晰統計部落格新站(統計、SPSS、BIG DATA討論園地)

    晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()