例2.1 4種類の連関性の統計量を計算

この例では、記述統計量と4種類の連関性の統計量を含む相関分析を実施します。これには、Pearsonの積率相関、Spearmanの順位相関、Kendallのtau-b係数、Hoeffdingの従属統計量が含まれます。

Fitnessデータセットは入門ガイド: CORRプロシジャのセクションで作成されたものであり、これには31名の参加者の体力調査から得られた測定値が含まれています。次のステートメントは、変数WeightOxygenRuntimeに関する4種類の連関性の統計量すべてを計算します。

ods graphics on;
title 'Measures of Association for a Physical Fitness Study';
proc corr data=Fitness pearson spearman kendall hoeffding
          plots=matrix(histogram);
   var Weight Oxygen RunTime;
run;
ods graphics off;

3つのノンパラメトリック相関(SPEARMAN、KENDALL、HOEFFDING)がどれも指定されない場合、デフォルトでPearsonの相関が計算されます。それ以外の場合、Pearsonの相関を計算するには、PEARSONオプションを明示的に指定する必要があります。

出力2.1.1の表"Simple Statistics"に、分析変数の1変量統計量を示します。デフォルトでは、変数の値が欠損値以外であるオブザベーションを使用して、その変数の1変数統計量が導出されます。連関性のノンパラメトリック統計量を指定した場合、追加の記述統計量として、合計ではなく中央値が表示されます。

出力2.1.1 Simple Statistics
Measures of Association for a Physical Fitness Study

The CORR Procedure

3 Variables: Weight Oxygen RunTime

Simple Statistics
variable N Mean Std Dev Median Minimum Maximum
Weight 31 77.44452 8.32857 77.45000 59.08000 91.63000
Oxygen 29 47.22721 5.47718 46.67200 37.38800 60.05500
RunTime 29 10.67414 1.39194 10.50000 8.17000 14.03000

出力 2.1.2の表"Pearson Correlation Coefficients"に、分析変数ペアに関するPearsonの相関統計量を示します。Pearsonの相関は、2つの連続ランダム変数の連関性についてのパラメトリックな統計量です。欠損データが存在する場合、相関の計算に使用されるオブザベーション数が異なることがあります。

出力2.1.2 Pearson Correlation Coefficients
Pearson Correlation Coefficients
Prob > |r| under H0: Rho=0
Number of Observations
  Weight Oxygen RunTime
Weight
1.00000
 
31
-0.15358
0.4264
29
0.20072
0.2965
29
Oxygen
-0.15358
0.4264
29
1.00000
 
29
-0.86843
<.0001
28
RunTime
0.20072
0.2965
29
-0.86843
<.0001
28
1.00000
 
29

上記の表では、RuntimeOxygen間の相関が0.86843であり、これは値が0.0001未満で有意であることが示されています。これは2変数間に強い負の線形相関があることを意味します。Runtimeが増加すると、Oxygenは直線的に減少します。


Spearmanの順位相関は、データ値の順位に基づいて計算される連関性についてのノンパラメトリックな統計量です。出力2.1.3の表"Spearman Correlation Coefficients"の内容は、出力2.1.2の表"Pearson Correlation Coefficients"の内容と同様になります。

出力2.1.3 Spearman Correlation Coefficients
Spearman Correlation Coefficients
Prob > |r| under H0: Rho=0
Number of Observations
  Weight Oxygen RunTime
Weight
1.00000
 
31
-0.06824
0.7250
29
0.13749
0.4769
29
Oxygen
-0.06824
0.7250
29
1.00000
 
29
-0.80131
<.0001
28
RunTime
0.13749
0.4769
29
-0.80131
<.0001
28
1.00000
 
29

KendallのTau-bは、1対のオブザベーション内の一致と不一致の数に基づく連関性についてのノンパラメトリックな統計量です。The "Kendall Tau b Correlation Coefficients" table in 出力2.1.4の表"Kendall Tau b Correlation Coefficients"の内容は、出力2.1.2の表"Pearson Correlation Coefficients"の内容と同様になります。

出力2.1.4 Kendall’s Tau-b Correlation Coefficients
Kendall Tau b Correlation Coefficients
Prob > |tau| under H0: Tau=0
Number of Observations
  Weight Oxygen RunTime
Weight
1.00000
 
31
-0.00988
0.9402
29
0.06675
0.6123
29
Oxygen
-0.00988
0.9402
29
1.00000
 
29
-0.62434
<.0001
28
RunTime
0.06675
0.6123
29
-0.62434
<.0001
28
1.00000
 
29


Hoeffdingの従属統計量は、より一般的な独立性からのずれを測る、連関性についてのノンパラメトリックな統計量です。変数にタイが存在しない場合、統計量はの間で変化します。ここで、は完全従属を意味します。それ以外の場合、統計量はより小さな値となります。出力2.1.5の表"Hoeffding Dependence Coefficients"に、Hoeffdingの従属統計量を示します。変数Weightにタイが存在するため、変数Weight統計量は未満になります。

出力2.1.5 Hoeffding’s Dependence Coefficients
Hoeffding Dependence Coefficients
Prob > D under H0: D=0
Number of Observations
  Weight Oxygen RunTime
Weight
0.97690
<.0001
31
-0.00497
0.5101
29
-0.02355
1.0000
29
Oxygen
-0.00497
0.5101
29
1.00000
 
29
0.23449
<.0001
28
RunTime
-0.02355
1.0000
29
0.23449
<.0001
28
1.00000
 
29

PLOTS=MATRIX(HISTOGRAM)オプションを指定すると、CORRプロシジャは、VARステートメントに指定された分析変数に関する対称行列プロット(出力2.1.6)を表示します。

出力2.1.6 対称散布図行列
対称散布図行列

OxygenRuntime間に強い負の線形相関があることが、出力2.1.6から明らかです。

このグラフィック画面を要求するには、ODS Graphicsを有効にし、PLOTS=オプションを指定します。ODS Graphicsの詳細は、Chapter 21, Statistical Graphics Using ODS (SAS/STAT User's Guide)を参照してください。