UNIVARIATEプロシジャ

位置の検定

UNIVARIATEプロシジャでは、スチューデントのt検定、符号検定およびWilcoxonの符号付き順位検定の3つの位置の検定を行うことができます。3つの検定はすべて、平均値または中央値が指定の値$\mu _0$に等しいという帰無仮説の下で検定統計量を作成します。使用される両側対立仮説は、平均値または中央値が$\mu _0$に等しくないこととなります。デフォルトでは、UNIVARIATEプロシジャは$\mu _0$の値を0に設定します。$\mu _0$の値を指定するには、PROC UNIVARIATEステートメントのMU0=オプションを使用します。スチューデントのt検定は、母集団が正規分布に近いデータの場合に適しています。それ以外の場合は、 符号検定や符号付き順位検定などのノンパラメトリックな検定を使用します。 母集団が大きい場合、t検定は漸近的にz検定と同等になります。WEIGHTステートメントを使用すると、UNIVARIATEプロシジャは位置の重み付き検定であるt検定を1つのみ計算します。PROCステートメントのVARDEF=オプションのデフォルト値(VARDEF=DF)を使用する必要があります。例4.12を参照してください。

また、これらの検定を使用して、ペアのデータの平均値または中央値を比較できます。同じ年齢と性別を持つサブジェクトなど、一対のサブジェクトやユニットが1つ以上の変数を基準に一致している場合、データは対応していると言います。ペアのデータは、各サブジェクトまたはユニットが2回測定される場合や、2つの条件で測定される場合にも出現します。2回の平均値または中央値を比較するには、2つの統計量の間の差である分析変数を作成します。変数の差の平均値または中央値が0に等しいことの検定は、2つの元の変数の平均値または中央値が等しいことの検定に相当します。これらの検定は、TTESTプロシジャのPAIREDステートメントを使用して実行することもできます。詳細は、SAS/STAT 13.2 User's GuideChapter 106: The TTEST Procedureを参照してください。また、例4.13も参照してください。

スチューデントのt検定

UNIVARIATEプロシジャは、t統計量を次のように計算します。

\[  t=\frac{\bar{x}-\mu _0}{s/\sqrt {n}}  \]

ここで、$\bar{x}$は標本平均、nは変数の値が非欠損値であるオブザベーション数、sは標本標準偏差です。帰無仮説は、母集団平均が$\mu _0$に等しいことです。データ値が正規分布に近似している場合、帰無仮説の下でt統計量が観測値より極値、またはさらに極値となる確率(p値)は、自由度が$n-1$t分布から取得されます。nが大きい場合、t統計量は漸近的に z検定と同等になります。WEIGHTステートメントとVARDEF=のデフォルト値(DF)を使用するとき、t統計量は次のように計算されます。

\[  t_ w =\frac{\bar{x}_ w -\mu _0 }{s_ w / \sqrt {\sum _{i=1}^{n}w_ i} }  \]

ここで、$\bar{x}_ w$ は重み付き平均、$s_ w$は重み付き標準偏差、$w_ i$i番目のオブザベーションの重みです。$t_ w$統計量は、自由度が$n-1$であるスチューデントのt分布として扱われます。PROCステートメントにEXCLNPWGTオプションを指定する場合、nはWEIGHT変数が正の値であるときの非欠損オブザベーションの数になります。デフォルトでは、nはWEIGHT変数の非欠損オブザベーションの数です。

符号検定

UNIVARIATEプロシジャは、符号検定統計量を次のように計算します。

\[  M=(n^+ -n^- )/2  \]

ここで、$n^+$$\mu _0$より大きい値の数、$n^-$$\mu _0$より小さい値の数です。$\mu _0$に等しい値は破棄されます。母集団中央値が$\mu _0$に等しいという帰無仮説の下で、観測された統計量$M_{obs}$p値は次のようになります。

\[  \mr{Pr}(|M_{obs}| \geq |M|)=0.5^{(n_ t -1)} \sum _{j=0}^{min(n^+ ,n^-)} \left(\begin{array}{c} n_ t \cr i \end{array}\right)  \]

ここで、$n_ t=n^+ +n^-$は、$\mu _0$に等しくない$x_ i$値の数です。

: $n^+$$n^-$が等しい場合、p値は1になります。

Wilcoxonの符号付き順位検定

符号付き順位統計量Sは次のように計算されます。

\[  S =\sum _{i:x_ i > \mu _0} r_ i^+ - \frac{n_ t (n_ t+1)}{4}  \]

ここで、$r_ i^+$$x_ i = \mu _0$の値を破棄した後の$|x_ i-\mu _0|$の順位、$n_ t$$\mu _0$に等しくない$x_ i$値の数です。結合された値には平均順位が使用されます。

$n_ t \leq 20$の場合、Sの有意性は、Sの正確な分布から計算されます。この分布は調整された二項分布の畳み込みです。$n_ t > 20$の場合、Sの有意性を計算するには、次の式

\[  S \sqrt { \frac{n_ t - 1}{n_ tV -S^2} }  \]

を自由度が$n_ t - 1$であるスチューデントのt変量として扱います。Vは次のように計算されます。

\[  V = \frac{1}{24} n_ t(n_ t+1)(2n_ t+1) - \frac{1}{48} \sum t_ i(t_ i+1)(t_ i-1)  \]

ここで、合計は絶対値がタイのグループの合計であり、$t_ i$i番目のグループの値の数です(Iman, 1974; Conover, 1980)。分布が対称であると仮定して、平均値(または中央値)が$\mu _0$であるという帰無仮説が検定されます。詳細は、Lehmann and D’Abrera (1975)を参照してください。