UNIVARIATEプロシジャ

PROC UNIVARIATEステートメント

PROC UNIVARIATE <options> ;

UNIVARIATEプロシジャを呼び出すには、PROC UNIVARIATEステートメントを使用する必要があります。PROC UNIVARIATEステートメント自体を使用してさまざまな統計量を要求し、各分析変数のデータ分布を要約することができます。

標本積率
位置とばらつきに関する基本統計量
平均、標準偏差、分散に対する信頼区間
位置の検定
正規性の検定
トリム平均とウィンザー化平均
尺度のロバスト推定
分位点と関連信頼区間
極値のオブザベーションと極値
オブザベーションの度数
欠損値

さらに、PROC UNIVARIATEステートメントのオプションを使用して、次のことができます。

分析する入力データセットを指定
グラフカタログを指定して、従来的なグラフ出力を保存
変数値の丸め単位を指定
パーセント点の計算に使用する定義を指定
分散および標準偏差の計算に使用する分母を指定
ラインプリンタでプロットが作成されるように要求し、機能に使用する特殊な印刷文字を定義
テーブルを抑制
出力データセットの統計量を保存

PROC UNIVARIATEステートメントで使用できるオプションは次のとおりです。

ALL

FREQ、MODES、NEXTRVAL=5、PLOT、CIBASICオプションによって生成されたすべての統計量とテーブルを要求します。分析変数に重みが与えられていない場合は、CIPCTLDF、CIPCTLNORMAL、LOCCOUNT、NORMAL、ROBUSTCALE、TRIMMED=.25、WINSORIZED=.25オプションで生成された統計量とテーブルも要求します。出力するときは、ALPHA=、MU0=、NEXTRVAL=、CIBASIC、CIPCTLDF、CIPCTLNORMAL、TRIMMED=、WINSORIZED=に値を指定します。

ALPHA= $\text{[math]}$

有意水準 $\text{[math]}$ ( $\text{[math]}$ 信頼区間)を指定します。値 $\text{[math]}$ は、0～1の間でなければなりません。デフォルト値は0.05であり、これは95%の信頼区間を生成します。

いくつかの信頼区間オプションで、特殊なALPHA=オプションが使用できます。たとえば、CIBASIC(ALPHA=0.10)を指定して、90%レベルの基本信頼限界のテーブルを要求できます。これらのオプションのデフォルト値は、PROCステートメントのALPHA=オプションの値です。

ANNOTATE=SAS-data-set

ANNO=SAS-data-set

SAS/GRAPH: Referenceで説明されているように、注釈変数を含む入力データセットを指定します。従来的なグラフに機能を追加するには、このデータセットを使用します。プロシジャで作成されたすべてのグラフに対して、このデータセットの機能が追加されます。プロットステートメントで従来的なグラフを作成しない場合、ANNOTATE=データセットは使用されません。このオプションは、ODS Graphics出力には適用されません。ステートメントで作成された特定のグラフに対して機能を追加する場合は、プロットステートメントのANNOTATE=オプションを使用します。

CIBASIC <(<TYPE=keyword> <ALPHA= $\text{[math]}$ >)>

データが正規分布であることを前提にして、平均値、標準偏差および分散の信頼限界を要求します。CIBASICオプションを使用する場合は、VARDEF=のデフォルト値(DF)を使用する必要があります。

TYPE=keyword: 信頼限界のタイプを指定します。keywordには、LOWER、UPPER、TWOSIDEDのいずれかを指定できます。デフォルト値はTWOSIDEDです。
ALPHA= $\text{[math]}$: 有意水準 $\text{[math]}$ ( $\text{[math]}$ 信頼区間)を指定します。値 $\text{[math]}$ は、0～1の間でなければなりません。デフォルト値は0.05であり、これは95%の信頼区間を生成します。デフォルト値は、PROCステートメントで指定されたALPHA=の値になります。

CIPCTLDF <(<TYPE=keyword> <ALPHA= $\text{[math]}$ >)>

CIQUANTDF <(<TYPE=keyword> <ALPHA= $\text{[math]}$ >)>

分布によらない手法に基づく分位点の信頼限界を要求します。つまり、正規分布などのパラメトリックな分布データを前提としません。PROC UNIVARIATEは、Hahn and Meeker (1991)の説明に基づき、順序統計量(順位)を使用して信頼限界を計算します。このオプションは、WEIGHTステートメントを使用する場合には適用されません。

TYPE=keyword: 信頼限界のタイプを指定します。keywordには、LOWER、UPPER、SYMMETRIC、ASYMMETRICのいずれかを指定できます。デフォルト値はSYMMETRICです。
ALPHA= $\text{[math]}$: 有意水準 $\text{[math]}$ ( $\text{[math]}$ 信頼区間)を指定します。値 $\text{[math]}$ は、0～1の間でなければなりません。デフォルト値は0.05であり、これは95%の信頼区間を生成します。デフォルト値は、PROCステートメントで指定されたALPHA=の値になります。

CIPCTLNORMAL <(<TYPE=keyword> <ALPHA= $\text{[math]}$ >)>

CIQUANTNORMAL <(<TYPE=keyword> <ALPHA= $\text{[math]}$ >)>

データが正規分布であることを前提にして、パーセント点の信頼限界を要求します。計算方法はHahn and Meeker (1991)のセクション4.4.1で説明されており、Odeh and Owen (1980)によって与えられた非心 $\text{[math]}$ 分布を使用します。このオプションは、WEIGHTステートメントを使用する場合には適用されません。

TYPE=keyword: 信頼限界のタイプを指定します。keywordには、LOWER、UPPER、TWOSIDEDのいずれかを指定できます。デフォルト値はTWOSIDEDです。
ALPHA= $\text{[math]}$: 有意水準 $\text{[math]}$ ( $\text{[math]}$ 信頼区間)を指定します。値 $\text{[math]}$ は、0～1の間でなければなりません。デフォルト値は0.05であり、これは95%の信頼区間を生成します。デフォルト値は、PROCステートメントで指定されたALPHA=の値になります。

DATA=SAS-data-set

分析する入力SASデータセットを指定します。DATA=オプションを省略すると、最後に作成されたSASデータセットが使用されます。

EXCLNPWGT

EXCLNPWGTS

重み値が非正数(0または負数)のオブザベーションを分析から除外します。デフォルトでは、重みが負または0のオブザベーションがオブザベーションの合計数にカウントされます。このオプションは、WEIGHTステートメントを使用する場合のみ適用されます。

FREQ

変数値、度数、パーセンテージ、累積パーセンテージで構成される度数表を要求します。

WEIGHTステートメントを指定すると、PROC UNIVARIATEでは、重み付きの度数が度数表に含まれ、この値を使用してパーセンテージが計算されます。

GOUT=graphics-catalog

PROC UNIVARIATEが従来的なグラフ出力の保存に使用するSASカタログを指定します。graphics-catalogの名前のライブラリ参照名を省略すると、PROC UNIVARIATEでは、WORKと呼ばれる一時ライブラリからカタログが検索されます。存在しない場合はカタログが作成されます。このオプションは、ODS Graphics出力には適用されません。

IDOUT

OUTPUTステートメントで作成される出力データセットに、ID変数を含めます。出力データセットのID変数の値は、入力データセットまたはBYグループの最初の値です。デフォルトでは、ID変数はOUTPUTステートメントのデータセットに含まれません。

LOCCOUNT

MU0=の値より大きい、等しくない、小さいオブザベーション数が表示されたテーブルを要求します。PROC UNIVARIATEでは、符号検定および符号付き順位検定にこれらの値を使用します。このオプションは、WEIGHTステートメントを使用する場合には適用されません。

MODES|MODE

あらゆるモードのテーブルを要求します。デフォルトでは、データに複数のモードが含まれるときは、すべての基本統計量解析のうちで最も低レベルのモードが表示されます。すべての値が一意の場合は、モードのテーブルは作成されません。

MU0=values

LOCATION=values

"Tests for Location: Mu0=value"というラベルのテーブルに要約された位置検定に対する帰無仮説に、平均値または位置パラメータ( $\text{[math]}$ )を指定します。1つの値を指定すると、すべての分析変数に対して同じ帰無仮説が検定されます。複数の値を指定すると、VARステートメントが要求され、2つのリストの順序で分析変数、マッチング変数および位置の値ごとに異なる帰無仮説が検定されます。デフォルト値は0です。

次のステートメントは、最初の変数に対して仮定 $\text{[math]}$ 、2番目の変数に対して仮定 $\text{[math]}$ を検定します。

proc univariate mu0=0 0.5;

NEXTROBS=n

極値オブザベーションテーブルに表示される極値オブザベーションの数を指定します。このテーブルには、最小値のオブザベーションが $\text{[math]}$ 個、最大値のオブザベーションが $\text{[math]}$ 個表示されます。デフォルト値は5です。NEXTROBS=0を指定すると、極値オブザベーションテーブルを抑制できます。

NEXTRVAL=n

極値テーブルに表示される極値の数を指定します。このテーブルには、一意な最小値が $\text{[math]}$ 個、一意な最大値が $\text{[math]}$ 個表示されます。デフォルトは $\text{[math]}$ で、テーブルは表示されません。

NOBYPLOT

BYステートメントを使用した場合と、PROCステートメントでALLオプションまたはPLOTオプションを使用した場合にデフォルトで作成される、横に並べたラインプリンタ箱ひげ図を抑制します。

NOPRINT

PROC UNIVARIATEステートメントで作成される記述統計量のテーブルをすべて抑制します。NOPRINTを指定しても、HISTOGRAMステートメントで作成されるテーブルは抑制されません。HISTOGRAMステートメントのテーブルの作成を抑制するには、HISTOGRAMステートメントのNOPRINTオプションを使用します。OUT=またはOUTTABLE=出力データセットのみを作成する場合は、NOPRINTを使用します。

NORMAL

NORMALTEST

経験分布関数に基づいて、適合度検定などの正規性の検定を要求します。Shapiro-Wilk検定(指定された標本サイズが2000以下)、Kolmogorov-Smirnov検定、Anderson-Darling検定、Cramér-von Mises検定の検定統計量と $\text{[math]}$ 値がテーブルに示されます。このオプションは、WEIGHTステートメントを使用する場合には適用されません。

NOTABCONTENTS

PROC UNIVARIATEステートメントで作成される要約統計量テーブルの目次エントリテーブルを抑制します。

NOVARCONTENTS

目次の分析変数に関連付けられたグループエントリを抑制します。デフォルトでは、目次には、変数名を持つグループの分析変数に関連付けられた結果が表示されます。

OUTTABLE=SAS-data-set

分析変数ごとに1つのオブザベーションの表形式にまとめられた、1変量統計量を含む出力データセットを作成します。詳細は、OUTTABLE=出力データセットのセクションを参照してください。

PCTLDEF=value

DEF=value

パーセント点を計算するときに使用される定義を指定します。デフォルト値は5です。値は1、2、3、4、5のいずれかです。重み付き分位数を計算する場合、PCTLDEF=は使用できません。分位数の定義の詳細は、パーセント点の計算のセクションを参照してください。

PLOTS | PLOT

ラインプリンタ出力の幹葉プロット(横棒グラフ)、箱ひげ図および正規確率プロットを作成します。BYステートメントを使用すると、最後のBYグループの1変量分析の後に、"Schematic Plots"というラベルの付いた横に並べた箱ひげ図が表示されます。

PLOTSIZE=n

PLOTSオプションで要求したラインプリンタプロットに使用される大体の行数を指定します。 $\text{[math]}$ がSASシステムオプションのPAGESIZE=の値より大きい場合は、PAGESIZE=の値が使用されます。 $\text{[math]}$ が8未満の場合は、8行にプロットが描画されます。

ROBUSTSCALE

ロバスト(頑健)な尺度推定値でテーブルを作成します。統計量には、四分位範囲、Giniの平均差、中央絶対偏差(MAD)、RousseeuwとCroux (1993)が提唱した2つの統計量 $\text{[math]}$ および $\text{[math]}$ が含まれます。詳細は、尺度のロバスト推定のセクションを参照してください。このオプションは、WEIGHTステートメントを使用する場合には適用されません。

ROUND=units

統計計算を実行する前に、分析変数を丸める単位を指定します。1つの単位を指定すると、その単位ですべての分析変数が丸められます。複数の単位を指定すると、VARステートメントが要求され、それぞれの単位により対応する分析変数値が丸められます。ROUND=0の場合は、丸められません。ROUND=オプションを指定すると、一意な変数値の数が減少するため、プロシジャのメモリの消費量も減少します。たとえば、最初の分析変数の丸め単位を1にし、2番目の分析変数の丸め単位を0.5にするには、次のステートメントをサブミットします。

proc univariate round=1 0.5;
   var Yieldstrength tenstren;
run;

変数値が、2つの最も近い丸められたポイントの中間にある場合、値は丸め値の最も近い偶数の倍数に丸められます。たとえば、丸め値が1の場合、変数値 $\text{[math]}$ 2.5、 $\text{[math]}$ 2.2および $\text{[math]}$ 1.5は $\text{[math]}$ 2に丸められます。同様に、値 $\text{[math]}$ 0.5、0.2および0.5は0に、値0.6、1.2および1.4は1に丸められます。

SUMMARYCONTENTS=’string’

PROC UNIVARIATEステートメントで作成される要約統計量のグループ化に使用する目次エントリテーブルを指定します。グループエントリを抑制するには、SUMMARYCONTENTS=''を指定します。

TRIMMED=values <(<TYPE=keyword> <ALPHA= $\text{[math]}$ >)>

TRIM=values <(<TYPE=keyword> <ALPHA= $\text{[math]}$ >)>

トリム平均のテーブルを要求します。valueには、トリムするオブザベーションの数または割合を指定します。valueがトリムするオブザベーションの数 $\text{[math]}$ である場合、 $\text{[math]}$ は0～非欠損値のオブザベーション数の半数である必要があります。valueが0～1/2の割合 $\text{[math]}$ である場合、トリムするオブザベーションの数は $\text{[math]}$ 以上の最小の整数値になります。 $\text{[math]}$ はオブザベーション数です。平均値の信頼限界およびスチューデントの $\text{[math]}$ 検定をテーブルに含めるには、VARDEF=のデフォルト値(DF)を使用する必要があります。トリム平均の計算の詳細は、トリム平均のセクションを参照してください。TRIMMED=オプションは、WEIGHTステートメントを使用する場合には適用されません。

TYPE=keyword: 平均値の信頼限界のタイプを指定します。keywordには、LOWER、UPPER、TWOSIDEDのいずれかを指定できます。デフォルト値はTWOSIDEDです。
ALPHA= $\text{[math]}$: 有意水準 $\text{[math]}$ ( $\text{[math]}$ 信頼区間)を指定します。値 $\text{[math]}$ は、0～1の間でなければなりません。デフォルト値は0.05であり、これは95%の信頼区間を生成します。

VARDEF=divisor

分散および標準偏差の計算に使用する分母を指定します。デフォルトでは、VARDEF=DFです。表4.1は、divisorに使用できる値と関連する分母を示します。

表4.1 VARDEF=に使用できる値
値	分母	分母の式
DF	自由度	$\text{[math]}$
N	オブザベーションの数	$\text{[math]}$
WDF	重みの合計から1を差し引いた値	$\text{[math]}$
WEIGHT \| WGT	重みの合計	$\text{[math]}$

分散は、 $\text{[math]}$ で計算されます。 $\text{[math]}$ は修正済平方和で、 $\text{[math]}$ に等しくなります。分析変数に重みを付加する場合は、 $\text{[math]}$ になります。 $\text{[math]}$ は重み付き平均です。

デフォルト値はDFです。平均値、信頼限界およびスチューデントの $\text{[math]}$ 検定の標準誤差を計算するには、VARDEF=のデフォルト値を使用します。

WEIGHTステートメントとVARDEF=DFを使用するとき、分散は、 $\text{[math]}$ の推定値になります。 $\text{[math]}$ 番目のオブザベーションの分散は $\text{[math]}$ で、 $\text{[math]}$ は $\text{[math]}$ 番目のオブザベーションの重みです。この結果は、ユニットの重みが与えられたオブザベーションの分散の推定値になります。

WEIGHTステートメントとVARDEF=WGTを使用するとき、計算される分散は、漸近的に( $\text{[math]}$ が大きい場合) $\text{[math]}$ の推定値になります。 $\text{[math]}$ は平均の重みです。この結果は、平均の重みが与えられたオブザベーションの分散の漸近推定値になります。

WINSORIZED=values <(<TYPE=keyword> <ALPHA= $\text{[math]}$ >)>

WINSOR=values <(<TYPE=keyword> <ALPHA= $\text{[math]}$ >)>

ウィンザー化平均のテーブルを要求します。valueには、ウィンザー化平均の計算に使用されるオブザベーションの数または割合を指定します。valueがウィンザー化平均するオブザベーションの数 $\text{[math]}$ である場合、 $\text{[math]}$ は0～非欠損値のオブザベーション数の半数である必要があります。valueが0～1/2の割合 $\text{[math]}$ である場合、使用されるオブザベーションの数は $\text{[math]}$ 以上の最小の整数値になります。 $\text{[math]}$ はオブザベーション数です。平均値の信頼限界およびスチューデントの $\text{[math]}$ 検定をテーブルに含めるには、VARDEF=のデフォルト値(DF)を使用する必要があります。ウィンザー化平均の計算の詳細は、ウィンザー化平均のセクションを参照してください。WINSORIZED=オプションは、WEIGHTステートメントを使用する場合には適用されません。

TYPE=keyword: 平均値の信頼限界のタイプを指定します。keywordには、LOWER、UPPER、TWOSIDEDのいずれかを指定できます。デフォルト値はTWOSIDEDです。
ALPHA= $\text{[math]}$: 有意水準 $\text{[math]}$ ( $\text{[math]}$ 信頼区間)を指定します。値 $\text{[math]}$ は、0～1の間でなければなりません。デフォルト値は0.05であり、これは95%の信頼区間を生成します。