UNIVARIATEプロシジャ

データ分布の活用

図4.2はLTV比率のヒストグラムを示します。ヒストグラムは、前の例のテーブルでははっきりしない、歪度や最大値が0.175であることなど、比率分布の特徴を明らかにします。次のステートメントはヒストグラムを作成します。

title 'Home Loan Analysis';
ods graphics on;
proc univariate data=HomeLoans noprint;
   histogram LoanToValueRatio / odstitle = title;
   inset n = 'Number of Homes' / position=ne;
run;

ODS GRAPHICS ONステートメントはODS Graphicsを有効化し、UNIVARIATEプロシジャでODS Graphics出力を生成できるようにします。(従来のグラフおよびODS Graphicsの詳細は、グラフを作成する別の方法のセクションを参照してください。)

NOPRINTオプションは要約統計量を非表示にし、ODSTITLE=オプションではSAS TITLEステートメントに指定されたタイトルをグラフのタイトルに使用します。INSETステートメントは、プロットの上辺右端(北東)に分析対象の住宅ローンの合計数を挿入します。

図4.2: LTV比率のヒストグラム

LTV比率のヒストグラム


データセットHomeLoansは、ローンを2種類(GoldおよびPlatinum)に分類するLoanTypeという名前の変数を含んでいます。2種類のLoanToValueRatioの分布を比較するのは有効です。次のステートメントは、図4.3および図4.4に示す、各分布の分位点と比較ヒストグラムを要求します。

title 'Comparison of Loan Types';
ods select Histogram Quantiles;
proc univariate data=HomeLoans;
   var LoanToValueRatio;
   class LoanType;
   histogram LoanToValueRatio / kernel
                                odstitle = title;
   inset n='Number of Homes' median='Median Ratio' (5.3) / position=ne;
   label LoanType = 'Type of Loan';
run;
options gstyle;

ODS SELECTステートメントは、デフォルトの出力を、分位点のテーブルとHISTOGRAMステートメントで作成されるグラフに制限します。CLASSステートメントは、分位点の計算と比較ヒストグラムで使用する分類変数として、LoanTypeを指定します。KERNELオプションは、比率密度の平滑でノンパラメトリックな推定を各ヒストグラムに追加します。INSETステートメントは、要約統計量をグラフに直接表示するときに指定します。

図4.3: LTV比率の分位点

Comparison of Loan Types

The UNIVARIATE Procedure
Variable: LoanToValueRatio (Loan to Value Ratio)
LoanType = Gold

Quantiles (Definition 5)
Level Quantile
100% Max 1.0617647
99% 0.8974576
95% 0.6385908
90% 0.4471369
75% Q3 0.2985099
50% Median 0.2217033
25% Q1 0.1734568
10% 0.1411130
5% 0.1213079
1% 0.0942167
0% Min 0.0651786

Comparison of Loan Types

The UNIVARIATE Procedure
Variable: LoanToValueRatio (Loan to Value Ratio)
LoanType = Platinum

Quantiles (Definition 5)
Level Quantile
100% Max 1.312981
99% 1.050000
95% 0.691803
90% 0.549273
75% Q3 0.430160
50% Median 0.366168
25% Q1 0.314452
10% 0.273670
5% 0.253124
1% 0.231114
0% Min 0.215504



図4.3の出力は、Platinumローンの中央比率(0.366)がGoldローンの中央比率(0.222)よりも大きいことを示しています。図4.4の比較ヒストグラムでは、より簡単に2つの分布を比較できます。このヒストグラムは、比率分布が約0.14シフトしていることを除いて似ていることを示しています。

図4.4: LTV比率の比較ヒストグラム

LTV比率の比較ヒストグラム


この例のサンプルプログラムunivar1.sasは、Base SASソフトウェアのSASサンプルライブラリに含まれています。