| データ分布の活用 |
図4.2はLTV比率のヒストグラムを示します。ヒストグラムは、前の例のテーブルでははっきりしない、歪度や最大値が0.175であることなど、比率分布の特徴を明らかにします。次のステートメントはヒストグラムを作成します。
ods graphics off; title 'Home Loan Analysis'; proc univariate data=HomeLoans noprint; histogram LoanToValueRatio; inset n = 'Number of Homes' / position=ne; run;
デフォルトでは、PROC UNIVARIATEは従来的なグラフ出力を作成し、ヒストグラムの基本的な外観は、制御するODSスタイルによって決まります。要約統計量の表示を抑制するには、NOPRINTオプションを指定します。INSETステートメントは、プロットの上辺右端(北東)に分析対象の住宅ローンの合計数を挿入します。

データセットHomeLoansは、ローンを2種類(GoldおよびPlatinum)に分類するLoanTypeという名前の変数を含んでいます。2種類のLoanToValueRatioの分布を比較すると便利です。次のステートメントは、図4.3および図4.4に示す、各分布の分位点と比較ヒストグラムを要求します。
title 'Comparison of Loan Types';
options nogstyle;
ods select Quantiles MyHist;
proc univariate data=HomeLoans;
var LoanToValueRatio;
class LoanType;
histogram LoanToValueRatio / kernel(color=red)
cfill=ltgray
name='MyHist';
inset n='Number of Homes' median='Median Ratio' (5.3) / position=ne;
label LoanType = 'Type of Loan';
run;
options gstyle;
ODS SELECTステートメントは、分位点のテーブルとHISTOGRAMステートメントで作成されるグラフに、デフォルトの出力を制限します。このグラフは、NAME=オプションで指定された値で識別されます。CLASSステートメントは、分位点の計算と比較ヒストグラムで使用する分類変数として、LoanTypeを指定します。KERNELオプションは、比率密度の平滑でノンパラメトリックな推定を各ヒストグラムに追加します。INSETステートメントは、要約統計量をグラフに直接表示するときに指定します。
NOGSTYLEシステムオプションを指定すると、ODSスタイルはヒストグラムの外観に影響しません。その代わりに、CFILL=オプションがヒストグラムの棒の色を決定し、COLOR=オプションが核密度曲線の色を指定します。
| Comparison of Loan Types |
| Quantiles (Definition 5) | |
|---|---|
| Quantile | Estimate |
| 100% Max | 1.0617647 |
| 99% | 0.8974576 |
| 95% | 0.6385908 |
| 90% | 0.4471369 |
| 75% Q3 | 0.2985099 |
| 50% Median | 0.2217033 |
| 25% Q1 | 0.1734568 |
| 10% | 0.1411130 |
| 5% | 0.1213079 |
| 1% | 0.0942167 |
| 0% Min | 0.0651786 |
| Comparison of Loan Types |
| Quantiles (Definition 5) | |
|---|---|
| Quantile | Estimate |
| 100% Max | 1.312981 |
| 99% | 1.050000 |
| 95% | 0.691803 |
| 90% | 0.549273 |
| 75% Q3 | 0.430160 |
| 50% Median | 0.366168 |
| 25% Q1 | 0.314452 |
| 10% | 0.273670 |
| 5% | 0.253124 |
| 1% | 0.231114 |
| 0% Min | 0.215504 |
図4.3の出力は、Platinumローンの中央比率(0.366)がGoldローンの中央比率(0.222)よりも大きいことを示しています。図4.4の比較ヒストグラムでは、より簡単に2つの分布を比較できます。このヒストグラムは、比率分布が約0.14シフトしていることを除いて似ていることを示しています。

この例のサンプルプログラムunivar1.sasは、Base SASソフトウェアのSASサンプルライブラリに含まれています。