K-Means集群分析(非階層式)介紹
在指定已知的群數下(假設3個),在所有個體中隨機抽取3個點,接著將所有觀察點依此3個點最近距離分成3群,接著將這3群分別找出中心點,再將所有觀察點依此3個點最近距離分成3群,一直重覆動作到收歛為止。
(1)語法
1.變項標準化
先將3個變項標準化
2.非階層式集群分析
PROC FASTCLUS DATA=std OUT=km CLUSTER=clus 針對std資料集執行非階層式集群分析,報表輸出到km資料集,集群命名成clus
LIST DISTANCE 列出集群中心距離
MAXCLUSTERS=3 集群數設定為3個
RADIUS=0 每個觀察體都可以成為中心點
REPLACE=FULL 使初始中心點有合理的間距及排除離群值
MAXITER=20; 最大疊代數
VAR X1 X2 X3; 輸入變數
(2)報表
1.集群在3個變項的初始中心點
Ex:第一個集群的中心點位置為(X1, X2, X3)=(-0.38, 0.52, -3.77)
2.疊代時收歛過程
在第5步時皆小於0.02達到收歛
3.疊代時收歛過程
提醒您有滿足收歛
4.列出觀察個體集群
列出所有觀察個體歸類的集群,及與該集群中心點的距離
5.集群內個數
6.集群內標準差
7.集群內觀察點與中心點的最大距離
8.該集群與其他最近的集群
9.該集群與其他最近的集群距離
10.全體標準差
因為事先將所有變數標準化過了
11.聯合集群內標準差
12.R平方
用集群代號(Dummy Code)預測該變項的判定係數,R平方越高表示群間差異越大
13.可預測及不可預測的比率
14.偽F值
15.整體近似R平方
無太大的意義
16.CCC指標
無太大的意義
17.集群的平均數
18.集群的標準差
19.集群中心間的距離
陳正昌、程炳林、陳新豐、劉子鍵(2003)。應用多變量分析方法-統計軟體應用。臺北:五南。
留言列表