出力形式(フォーマット)を利用したときのFREQプロシジャにおけるテーブルスコアの値について

[OS] ALL
[リリース] ALL
[キーワード] FREQ , CMH, p-value, Table Score, format

[質問]

数値変数をグループ化するために、FORMATステートメントを使用して出力形式(フォーマット)を与えた場合と、DATAステップを用いた場合では、Cochran-Mantel-Haenszel検定の結果が異なります。これはなぜでしょうか。

● 実行プログラム例


   proc format;
      value agefmt low-49 = "1"
                    50-59 = "2"
                    60-69 = "3"
                   70-high= "4";
   run;

   data a;
      input dose age @@;
   cards;
   1 74 2 69 1 51 2 78 2 60
   1 59 2 59 2 56 1 67 2 53
   2 68 1 71 1 77 2 65 1 59
   2 56 1 50 2 66 1 57 2 56
   1 67 2 64 2 59 1 63 1 45
   2 79 2 58
   ;
   run;

/* FORMATステートメントを利用してグループ化した場合 */
   proc freq data=a;
      tables dose*age / cmh;
      format age agefmt.;
   run;

   data b;
      set a;
      if age <= 49 then _age=1;
      else if age <= 59 then _age=2;
      else if age <= 69 then _age=3;
      else  _age=4;
   run;

   /* DATAステップを利用してグループ化した場合 */
   proc freq data=b;
      tables dose*_age / cmh;
   run;

● 結果/出力形式(フォーマット)を使用した場合


                    dose と age の要約統計量

    Cochran-Mantel-Haenszel 統計量( テーブルスコアに基づく )

統計量    対立仮説                  自由度          値      p 値
----------------------------------------------------------------
  1       相関統計量                     1      0.0275    0.8683
  2       ANOVA 統計量                   1      0.0275    0.8683
  3       一般連関統計量                 3      2.1450    0.5429


                   サンプルサイズの合計 = 27

● 結果/DATAステップを利用してグループ化した場合


                      dose と _age の要約統計量

       Cochran-Mantel-Haenszel 統計量( テーブルスコアに基づく )

   統計量    対立仮説                  自由度          値      p 値
   ----------------------------------------------------------------
     1       相関統計量                     1      0.0000    1.0000
     2       ANOVA 統計量                   1      0.0000    1.0000
     3       一般連関統計量                 3      2.1450    0.5429


                      サンプルサイズの合計 = 27 

[回答]

連続変数に出力形式(フォーマット)を与えたとき、テーブルスコアは各グループの数値の中で一番小さな値に設定されます。このため、Cochran-Mantel-Haenszel検定だけではなく、Cochran-mantelのカイ2乗検定、Cochran-Armitageの傾向検定、および重み付きカッパ統計量の計算などにも影響があります。

上記の例については、最初のFREQプロシジャでは次のようにテーブルスコアが与えられるため、DATAステップによるグループ化に基づく結果とは異なります。また、この内容は、TABLESステートメントでSCOROUTオプションを指定することによって確認できます。


       age            Table Score
    ---------------------------------
       -49                45
     50-59                50
     60-69                60
        70-               71

なお、SASデータセットbを作成するDATAステップで、変数_ageに45,50,60,71という数値を与えてからFREQプロシジャを実行すれば、出力形式を使用したときと検定の結果は一致します。