群平均法によるクラスター間の距離の値について
[OS]ALL
[リリース] 6.07, 6.08, 6.09, 6.10
[キーワード] stat, cluster, method, average, var, id, outtree, nonorm, tree
[質問]クラスター分析(群平均法)によるクラスター間距離が入力データよりもかなり小さくなるのはなぜでしょうか。 たとえば次の入力データ(飛行距離)の範囲は200から2800なのに、クラスター間距離の範囲は、0.1から1.3になっています。
data city(type=distance);
title '米国主要都市間の飛行距離データ';
input (atlanta chicago denver houston
losangel maimi) (5.) /
(newyork sanfran seattle washdc)
(5.)
@21 city $15.;
cards;
0
atlanta
587 0
chicago
1212 920 0
denver
701 940 879 0
houston
1936 1745 831 1374 0
los angeles
604 1188 1726 968 2339 0
miami
748 713 1631 1420 2451 1092
0 newyork
2139 1858 949 1645 347 2594
2571 0 san fransisco
2182 1737 1021 1891 959 2734
2408 678 0 seattle
543 597 1494 1220 2300 923
205 2442 2329 0 washington dc
;
run;
proc cluster data=city method=average
outtree=tree;
var atlanta--washdc;
id city;
run;
proc tree data=tree horizontal;
run;
米国主要都市間の飛行距離データ
Average Linkage Cluster Analysis
Average Distance Between Clusters
1.4 1.2 1 0.8 0.6 0.4 0.2 0
+-------+-------+-------+-------+-------+-------+-------+
N ATLANTA XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX...............
a XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
m CHICAGO XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX...............
e XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
NEWYORK XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX.....
o XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
f WASHINGTO DC XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX.....
XXXXXXXXXXXXXXXXXXXXXXXXXXXX
O MIAMI XXXXXXXXXXXXXXXXXXXXXXXXXXXX.........................
b XXXXXXXXXXXXXXXXXXXXX
s DENVER XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX......................
e XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
r HOUSTON XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX......................
v X
a LOSANGELES XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX.........
t XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
i SANFRANSISCO XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX.........
o XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
n SEATTLE XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX.....................
[回答]この場合のクラスター間距離は、平均平方を1に標準化しています。 標準化しない距離を求めるにはNONORMオプションを指定してください。
proc cluster data=city method=avrage
outtree=tree nonorm;
var atlanta--washdc;
id city;
run;
|
|