例2.2 変数の2つの組み合わせの相関を計算

次のステートメントは、データセットSetosaを作成します。このデータセットには、Fisher’s iris data (1936)からの4種類のデータ(萼片長、萼片幅、花弁長、花弁幅)が含まれます。このデータセットは、複数の欠損値を含むように変更されています。

*------------------- Data on Iris Setosa --------------------*
| The data set contains 50 iris specimens from the species   |
| Iris Setosa with the following four measurements:          |
| SepalLength (sepal length)                                 |
| SepalWidth  (sepal width)                                  |
| PetalLength (petal length)                                 |
| PetalWidth  (petal width)                                  |
| Certain values were changed to missing for the analysis.   |
*------------------------------------------------------------*;
data Setosa;
  input SepalLength SepalWidth PetalLength PetalWidth @@;
  label sepallength='Sepal Length in mm.'
        sepalwidth='Sepal Width in mm.'
        petallength='Petal Length in mm.'
        petalwidth='Petal Width in mm.';
  datalines;
50 33 14 02  46 34 14 03  46 36 .  02
51 33 17 05  55 35 13 02  48 31 16 02
52 34 14 02  49 36 14 01  44 32 13 02
50 35 16 06  44 30 13 02  47 32 16 02
48 30 14 03  51 38 16 02  48 34 19 02
50 30 16 02  50 32 12 02  43 30 11 .
58 40 12 02  51 38 19 04  49 30 14 02
51 35 14 02  50 34 16 04  46 32 14 02
57 44 15 04  50 36 14 02  54 34 15 04
52 41 15 .   55 42 14 02  49 31 15 02
54 39 17 04  50 34 15 02  44 29 14 02
47 32 13 02  46 31 15 02  51 34 15 02
50 35 13 03  49 31 15 01  54 37 15 02
54 39 13 04  51 35 14 03  48 34 16 02
48 30 14 01  45 23 13 03  57 38 17 03
51 38 15 03  54 34 17 02  51 37 15 04
52 35 15 02  53 37 15 02
;

次のステートメントは、萼片の測定値(長さと幅)と花弁の測定値(長さと幅)という2種類の変数の組み合わせ間の相関分析を要求します。

ods graphics on;
title 'Fisher (1936) Iris Setosa Data';
proc corr data=Setosa sscp cov plots=matrix;
   var  sepallength sepalwidth;
   with petallength petalwidth;
run;
ods graphics off;

出力2.2.1の表"Simple Statistics"に、VARステートメントとWITHステートメントで指定した変数に関する、分析変数の1変量統計量を示します。

出力2.2.1 Simple Statistics
Fisher (1936) Iris Setosa Data

The CORR Procedure

2 With Variables: PetalLength PetalWidth
2 Variables: SepalLength SepalWidth

Simple Statistics
variable N Mean Std Dev Sum Minimum Maximum Label
PetalLength 49 14.71429 1.62019 721.00000 11.00000 19.00000 Petal Length in mm.
PetalWidth 48 2.52083 1.03121 121.00000 1.00000 6.00000 Petal Width in mm.
SepalLength 50 50.06000 3.52490 2503 43.00000 58.00000 Sepal Length in mm.
SepalWidth 50 34.28000 3.79064 1714 23.00000 44.00000 Sepal Width in mm.

WITHステートメントとVARステートメントを組み合わせて指定すると、CORRプロシジャは、共分散や相関などの統計量を表す矩形行列を作成します。この行列の行はWITH変数(PetalLengthPetalWidth)に、この行列の列はVAR変数(SepalLengthSepalWidth)にそれぞれ対応しています。CORRプロシジャは、WITH変数のラベルを使用して、この行列の列をラベル付けします。

SSCPオプションを指定すると、無修正平方和と交差積行列の表が作成されます。COVオプションを指定すると、共分散行列の表が作成されます。SSCPオプションおよびCOVオプションを指定すると、Pearson相関の表も作成されます。

各変数ペアに関する平方和と交差積統計量は、欠損値でない行と列の変数値を持つオブザベーションを使用して計算されます。出力2.2.2の表"Sums of Squares and Crossproducts"には、各変数ペアに関する交差積、行変数の平方和、列変数の平方和が示されています。

出力2.2.2 Sums of Squares and Crossproducts
Sums of Squares and Crossproducts
SSCP / Row Var SS / Col Var SS
  SepalLength SepalWidth
PetalLength
Petal Length in mm.
36214.00000
10735.00000
123793.0000
24756.00000
10735.00000
58164.0000
PetalWidth
Petal Width in mm.
6113.00000
355.00000
121356.0000
4191.00000
355.00000
56879.0000

分散は、欠損値でない行および列変数値を持つオブザベーションを使用して計算されます。出力2.2.3の表"Variances and Covariances"には、各変数ペアに関する共分散、行変数の分散、列変数の分散、関連付けられている自由度が示されています。

出力2.2.3 Variances and Covariances
Variances and Covariances
Covariance / Row Var Variance / Col Var Variance / DF
  SepalLength SepalWidth
PetalLength
Petal Length in mm.
1.270833333
2.625000000
12.33333333
48
1.363095238
2.625000000
14.60544218
48
PetalWidth
Petal Width in mm.
0.911347518
1.063386525
11.80141844
47
1.048315603
1.063386525
13.62721631
47

出力2.2.4の表"Pearson Correlation Coefficients"には、相関がゼロの帰無仮説の下の値と、各変数ペアのオブザベーションの数が表示されています。PetalWidthSepalLength間の相関と、PetalWidthSepalWidth間の相関のみがわずかに正となります。

出力2.2.4 Pearson Correlation Coefficients
Pearson Correlation Coefficients
Prob > |r| under H0: Rho=0
Number of Observations
  SepalLength SepalWidth
PetalLength
Petal Length in mm.
0.22335
0.1229
49
0.22014
0.1285
49
PetalWidth
Petal Width in mm.
0.25726
0.0775
48
0.27539
0.0582
48

ODS Graphicsを有効にしている場合、PLOTS=オプションを指定するとデフォルトで散布図行列が表示されます。出力2.2.5には、2つの変数の組み合わせの矩形散布図行列が表示されています。VAR変数であるSepalLengthSepalWidthが行列の最上位行に表示され、WITH変数であるPetalLengthPetalWidthが行列の左端列に表示されます。 出力2.2.4では、PetalWidthSepalLengthの散布図と、PetalWidthSepalWidthの散布図によっても、わずかに正の相関が存在することが示されています。

出力2.2.5 Rectangular Matrix Plot
Rectangular Matrix Plot

このグラフ画面を要求するには、ODS Graphicsを有効にし、PLOTS=オプションを指定します。ODS Graphicsの詳細は、Chapter 21, Statistical Graphics Using ODS (SAS/STAT User's Guide)を参照してください。