群平均法によるクラスター間の距離の値について

[OS]ALL
[リリース] 6.07, 6.08, 6.09, 6.10
[キーワード] stat, cluster, method, average, var, id, outtree, nonorm, tree

[質問]

クラスター分析(群平均法)によるクラスター間距離が入力データよりもかなり小さくなるのはなぜでしょうか。 たとえば次の入力データ(飛行距離)の範囲は200から2800なのに、クラスター間距離の範囲は、0.1から1.3になっています。

  data city(type=distance);
    title '米国主要都市間の飛行距離データ';
    input (atlanta chicago denver houston
           losangel maimi) (5.) /
          (newyork sanfran seattle washdc)
          (5.)
          @21 city $15.;
  cards;
     0
                      atlanta
   587    0
                      chicago
  1212  920    0
                      denver
   701  940  879    0
                      houston
  1936 1745  831 1374    0
                      los angeles
   604 1188 1726  968 2339    0
                      miami
   748  713 1631 1420 2451 1092
     0                newyork
  2139 1858  949 1645  347 2594
  2571    0           san fransisco
  2182 1737 1021 1891  959 2734
  2408  678    0      seattle
   543  597 1494 1220 2300  923
   205 2442 2329    0 washington dc
  ;
  run;
  proc cluster data=city method=average
               outtree=tree;
    var atlanta--washdc;
    id city;
  run;
  proc tree data=tree horizontal;
  run;

                     米国主要都市間の飛行距離データ

                     Average Linkage Cluster Analysis

                             Average Distance Between Clusters

                 1.4    1.2      1      0.8     0.6     0.4     0.2      0
                 +-------+-------+-------+-------+-------+-------+-------+
 N       ATLANTA     XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX...............
 a                   XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
 m       CHICAGO     XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX...............
 e                   XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
         NEWYORK     XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX.....
 o                   XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
 f  WASHINGTO DC     XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX.....
                     XXXXXXXXXXXXXXXXXXXXXXXXXXXX
 O         MIAMI     XXXXXXXXXXXXXXXXXXXXXXXXXXXX.........................
 b                   XXXXXXXXXXXXXXXXXXXXX
 s        DENVER     XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX......................
 e                   XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
 r       HOUSTON     XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX......................
 v                   X
 a    LOSANGELES     XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX.........
 t                   XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
 i  SANFRANSISCO     XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX.........
 o                   XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
 n       SEATTLE     XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX.....................

[回答]

この場合のクラスター間距離は、平均平方を1に標準化しています。 標準化しない距離を求めるにはNONORMオプションを指定してください。

  proc cluster data=city method=avrage
       outtree=tree nonorm;
    var atlanta--washdc;
    id city;
  run;