SAS簡易教學～集群分析（下） @ 晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

K-Means集群分析(非階層式)介紹

在指定已知的群數下（假設3個），在所有個體中隨機抽取3個點，接著將所有觀察點依此3個點最近距離分成3群，接著將這3群分別找出中心點，再將所有觀察點依此3個點最近距離分成3群，一直重覆動作到收歛為止。

（1）語法

1.變項標準化

先將3個變項標準化

2.非階層式集群分析

PROC FASTCLUS DATA=std OUT=km CLUSTER=clus 針對std資料集執行非階層式集群分析，報表輸出到km資料集，集群命名成clus

LIST DISTANCE 列出集群中心距離

MAXCLUSTERS=3 集群數設定為3個

RADIUS=0 每個觀察體都可以成為中心點

REPLACE=FULL 使初始中心點有合理的間距及排除離群值

MAXITER=20; 最大疊代數

VAR X1 X2 X3; 輸入變數

（2）報表

1.集群在3個變項的初始中心點

Ex:第一個集群的中心點位置為(X1, X2, X3)=(-0.38, 0.52, -3.77)

2.疊代時收歛過程

在第5步時皆小於0.02達到收歛

3.疊代時收歛過程

提醒您有滿足收歛

4.列出觀察個體集群

列出所有觀察個體歸類的集群，及與該集群中心點的距離

5.集群內個數

6.集群內標準差

7.集群內觀察點與中心點的最大距離

8.該集群與其他最近的集群

9.該集群與其他最近的集群距離

10.全體標準差

因為事先將所有變數標準化過了

11.聯合集群內標準差

12.R平方

用集群代號(Dummy Code)預測該變項的判定係數，R平方越高表示群間差異越大

13.可預測及不可預測的比率

14.偽F值

15.整體近似R平方

無太大的意義

16.CCC指標

無太大的意義

17.集群的平均數

18.集群的標準差

19.集群中心間的距離

陳正昌、程炳林、陳新豐、劉子鍵（2003）。應用多變量分析方法-統計軟體應用。臺北：五南。

晨晰部落格新站

晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

晨晰部落格新站發表在痞客邦留言(0) 人氣()

E-mail轉寄

晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

一個討論統計的好地方

公告版位

SAS簡易教學～集群分析（下）

分享

歷史上的今天

留言列表

熱門文章

文章分類

最新文章

最新留言

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

QR Code

POWERED BY