集落抽出法(クラスターサンプリング)

[OS] ALL
[リリース] 全リリース
[キーワード] surveyselect ,cluster sampling

[質問]

各クラスタ―(cluster)ごとに多くのオブザベーションを含むデータセットがあります。データセット全体に対するランダムサンプリングではなく、クラスターレベルでのランダムサンプリングはできますか。

[回答]

集落抽出法、クラスターサンプリングと言及される手法に関してですが、SAS 9.2 TS2M3 以降では、SURVEYSELECTプロシジャのSAMPLINGUNIT、CLUSTERステートメントにて、クラスターを示す変数を指定します。

例)

                        /* SAMPLINGUNITステートメントを指定 */
PROC SURVEYSELECT DATA=indata OUT=outdata 
                               METHOD=SRS SAMPSIZE=3 SEED=123;
  SAMPLINGUNIT cluster;
RUN;

SAS 9.2 TS2M3より以前のリリースでは、クラスターの水準リストに基づく無作為抽出を行い、入力データと結合することで、行うことができます。

例)

                      /* グループ変数CLUSTERの水準リストを作成 */
PROC FREQ DATA=indata NOPRINT;
  TABLES cluster / OUT=temp1(KEEP=cluster);
RUN;
                  /* グループ変数の水準に対し、無作為抽出を実行 */
PROC SURVEYSELECT DATA=temp1 OUT=temp2 
                                METHOD=SRS SAMPSIZE=3 SEED=5678;
RUN;
                     /* 抽出した水準のみ、オブザベーションを保持 */
DATA outdata;
  MERGE indata temp2(IN=a);
  BY cluster;
  IF a;
RUN;

この点に関しては、以下のUsage Noteにて記載があります。

http://support.sas.com/kb/24/555.html