出力形式(フォーマット)を利用したときのFREQプロシジャにおけるテーブルスコアの値について
[OS] ALL
[リリース] ALL
[キーワード] FREQ , CMH, p-value, Table Score, format
[質問]数値変数をグループ化するために、FORMATステートメントを使用して出力形式(フォーマット)を与えた場合と、DATAステップを用いた場合では、Cochran-Mantel-Haenszel検定の結果が異なります。これはなぜでしょうか。 ● 実行プログラム例
proc format;
value agefmt low-49 = "1"
50-59 = "2"
60-69 = "3"
70-high= "4";
run;
data a;
input dose age @@;
cards;
1 74 2 69 1 51 2 78 2 60
1 59 2 59 2 56 1 67 2 53
2 68 1 71 1 77 2 65 1 59
2 56 1 50 2 66 1 57 2 56
1 67 2 64 2 59 1 63 1 45
2 79 2 58
;
run;
/* FORMATステートメントを利用してグループ化した場合 */
proc freq data=a;
tables dose*age / cmh;
format age agefmt.;
run;
data b;
set a;
if age <= 49 then _age=1;
else if age <= 59 then _age=2;
else if age <= 69 then _age=3;
else _age=4;
run;
/* DATAステップを利用してグループ化した場合 */
proc freq data=b;
tables dose*_age / cmh;
run;
● 結果/出力形式(フォーマット)を使用した場合
dose と age の要約統計量
Cochran-Mantel-Haenszel 統計量( テーブルスコアに基づく )
統計量 対立仮説 自由度 値 p 値
----------------------------------------------------------------
1 相関統計量 1 0.0275 0.8683
2 ANOVA 統計量 1 0.0275 0.8683
3 一般連関統計量 3 2.1450 0.5429
サンプルサイズの合計 = 27
● 結果/DATAステップを利用してグループ化した場合
dose と _age の要約統計量
Cochran-Mantel-Haenszel 統計量( テーブルスコアに基づく )
統計量 対立仮説 自由度 値 p 値
----------------------------------------------------------------
1 相関統計量 1 0.0000 1.0000
2 ANOVA 統計量 1 0.0000 1.0000
3 一般連関統計量 3 2.1450 0.5429
サンプルサイズの合計 = 27
[回答]連続変数に出力形式(フォーマット)を与えたとき、テーブルスコアは各グループの数値の中で一番小さな値に設定されます。このため、Cochran-Mantel-Haenszel検定だけではなく、Cochran-mantelのカイ2乗検定、Cochran-Armitageの傾向検定、および重み付きカッパ統計量の計算などにも影響があります。 上記の例については、最初のFREQプロシジャでは次のようにテーブルスコアが与えられるため、DATAステップによるグループ化に基づく結果とは異なります。また、この内容は、TABLESステートメントでSCOROUTオプションを指定することによって確認できます。
age Table Score
---------------------------------
-49 45
50-59 50
60-69 60
70- 71
なお、SASデータセットbを作成するDATAステップで、変数_ageに45,50,60,71という数値を与えてからFREQプロシジャを実行すれば、出力形式を使用したときと検定の結果は一致します。
|
|