第7回Let'sデータ分析

SAS/JMPによる
ミクロデータ分析コンテスト

SASユーザー会世話人作成 「新擬似ミクロデータ」

ミクロデータ分析コンテストとは

SASユーザー総会では、2013年から「Let'sデータ分析」と題してデータ分析コンテストを行っています。
今年のユーザー総会でも、個票データを対象としたデータ分析コンテストを開催します。

当コンテストは、SAS/JMPの経験年数により以下に示す3部門からなり、応募の際は規定課題と自由課題が課せられます。
提出された課題を予備審査して予選通過者を選び、ユーザー総会当日または前日に開催される公開審査会でプレゼンテーションをしていただき、部門毎に最優秀賞(賞金8万円)1組、優秀賞(賞金1万円)1~2組を選出します。最優秀賞の受賞者にはユーザー総会当日の「Let'sデータ分析コンテスト」セッションにてプレゼンテーションをしていただきます。

SAS世話人会オリジナル「新擬似ミクロデータ」使用

このコンテストで用いる「新擬似ミクロデータ」は、公的統計のミクロデータの利用を促進するために、SASユーザー会世話人の有志が、全国消費実態調査の匿名データを基にして作成しました。その目的は、大学などの教育・研究機関における実習の際に、統計法の制約を受けずに、比較的大規模な公的ミクロデータが無料で利用できる環境を提供することです。このコンテストは2013年から毎年実施しており、2018年のコンペまでは2004年匿名データから作成した擬似ミクロデータを使用してきましたが、2019年のコンペからは、新たに1989年、1994年、1999年の匿名データからも擬似ミクロデータをそれぞれ作成した結果、データコンペで使用できるようになり、時系列による分析も可能となりました。
新擬似ミクロデータおよび符号表(メタデータ)などは、どなたでもデータコンペに参加の有無を問わず、下記STEP1 エントリー欄にあるURLから無料でダウンロード出来ます。

この新擬似ミクロデータは、SAS Institute Japan 株式会社が独立行政法人統計センターから有償で提供を受けた全国消費実態調査の匿名データに含まれる変数を使って高次元のクロス集計表および相関行列を作成した後、多変量対数正規乱数などを用いて人工的に作成しました。このデータの分布特性を元の匿名データと比較してみると、散らばりが幾分大きくなる場合もありますが、おおむね匿名データのそれに近似していることは確認済みであり、教育・訓練用のミクロデータとしての品質は確保しています。 

2019年から提供する新擬似ミクロデータは、過去4回分の擬似ミクロデータを調査年次順に一つのSASファイルにまとめた結果、全オブザベーション数が271,169件になりました。また、SAS/JMP以外のユーザーでも利用できるようCSVファイルとしても提供しています。

新擬似ミクロデータの収録変数について簡単に説明します。 変数は全部で222個あり、大きく分けて以下の5種類です。
① 調査年(1989、1994、1999、2004)
② ユニークなレコード一連番号(#1~271,169)
③ 世帯属性(16項目)
世帯人員、世帯の就業者数、世帯主の年齢、世帯主の勤め先の産業・職業区分などの世帯に関する情報
④ 収支項目(203項目)
年収の他に、収支項目ごとの世帯の1か月の収支金額
⑤ 集計用乗率(復元乗率)
全国消費実態調査は悉皆調査(全数調査)ではなくて標本調査なので、集計用(復元)乗率が収録されています。

応募部門

当コンテストには、年齢や所属する機関・組織の制限もなく、個人でもチームでも応募できます。
ただし、チームでの公募の場合には、全員が同一の参加部門の条件を満たしていることが必須になります。
どの部門に応募するかは、以下に示すSAS/JMPの使用歴で決まります。

Aクラス(パワーユーザー)

制限なしで使用経験年数を問わない

Bクラス(初級者)

使用歴3年未満

Cクラス(学生)

学部および大学院修士課程学生
(だだし、社会人大学院生は除く。その場合はAまたはBクラスで応募できます。)

※使用歴は自主申告です。※参加部門は応募時に明記して下さい。

賞金

各部門の最優秀賞、優秀賞の受賞チームに賞金を贈呈いたします。
ただし、該当者がない場合もあります。たくさんのご応募をお待ちしております。

最優秀賞

8万円

※各部門1組

優秀賞

1万円

※各部門2組まで

データコンペ実施日程表

STEP1

エントリー

STEP2

最終提出物の
メールによる送付

STEP3

予備審査

結果発表

STEP4

公開審査会 

STEP5

最優秀論文賞受賞者による
プレゼンテーションと表彰式
@ユーザー総会

STEP1 エントリー
受付期間: 5月7日(火)~7月8日(月)エントリー受付を1週間延長いたしました。但し最終提出物の締切7月10日には変更はございません

エントリーのお申し込み方法については、下記にある「データコンペ応募者用エントリーのお申し込み」の記述に従い、メール本文に必要項目をご記入し、メールにて事務局までお送りください。
※データのダウンロードだけではエントリーになりません

「新擬似ミクロデータ」は、下記のリンクから、ダウンロードしてください。(4月26日公開) 
なお、データコンペに参加しなくてもダウンロードすることができます。

ダウンロードしたzipファイルを解凍すると以下のファイルがあります。
1) giji4zensho.csv             新擬似ミクロデータ:CSVファイル
2) giji4zensho.sas7bdat     新擬似ミクロデータ:SASデータセット
3) giji4MetaData.xlsx       データ解説:変数名及び符号表

新擬似ミクロデータ
(ZIP形式:173MB)

※上記ファイルに関してアップデートがありましたら、当サイトにて告知しますので必要に応じ確認ください。
※上記ファイルに関してお問い合わせは、Let’sデータ分析コンテスト事務局にても承ります。

STEP2 最終提出物のメールによる送付
提出締切: 7月10日(水)

SAS/JMPでデータ分析して作成した規定課題と、自由課題を事務局宛にメールでお送りください。規定課題と自由課題は指定のフォーマットに従って作成してください。
※最終レポートの最終作成段階で、Excelなどの他のソフトを「図表の整形」に使うことは差し支えありませんが、計算処理は全てSAS/JMPでしなければなりません。
※SASソフトウェアを使用できない環境の方は、無償のSASソフトウェアをご利用ください。
SASの無償使用については以下のサイトをご覧ください。
https://www.sas.com/ja_jp/learn/academic-programs/software.html

STEP3 予備審査&結果発表
予備審査結果発表: 8月9日(金)

応募提出物の中から部門毎に上位3位までを予選通過とします。審査結果はエントリーしていただいた方に、事務局から直接ご連絡いたします。予選通過者の提出物はユーザー総会論文集に掲載されます。(ただし、部門によっては予選通過が3組未満の場合もあります。)

STEP4 公開審査会
9月4日(水)午後予定(予選通過者にメールで通知)

書類審査の予選を通過したグループにはSAS東京本社又はSASユーザー総会会場で開催される公開審査会でプレゼンテーションを行っていただきます。この中から部門毎に最優秀賞1組と優秀賞(高々2組)を決定します。
この審査会には、プレゼンテーション資料(20分程度のパワーポイントファイル)、および、SASプログラム一式、又はJMPのスクリプトファイル一式をご持参してください。当日、プログラムの実行をしていただく場合があります。

※遠方から公開審査会に参加の学生(社会人学生は除く)発表者の方については、以下の①②の補助が可能です。
① 旅費の補助(実費精算)
② 必要なら都内宿泊料(2泊まで:1泊当たり8千円)
なお、補助を受けるための事務的手続きについては事務局までお問い合わせください。

STEP5 最優秀論文賞受賞者によるプレゼンテーションと表彰式 @ユーザー総会
9月5日(木)または6日(金)

最優秀賞: SASユーザー総会の「Let'sデータ分析コンテスト」セッションにて口頭で論文発表、およびポスター展示会場にポスター展示
優秀賞: ポスター展示会場にポスター展示して、ポスターセッションでプレゼンテーション
※展示用ポスターのサイズはW900×H750程度。多少のサイズの大小は問いません。

課題

あらかじめ設定された規定課題、および自由課題とします。自由課題と規定課題が揃っていない場合は、審査対象外とします。
自由課題は「新擬似ミクロデータ」を使って、データ分析処理をしていただきますが、今年の自由課題ではテーマを指定します。

規定課題

規定課題はエントリー開始時期(5月7日)に合わせて公表します。以下のURLから規定課題をダウンロードいただき、新擬似ミクロデータを使って指定の図表を SAS または JMP で出力してください。(4月26日公表)

規定課題の作成結果

規定課題用に作成した全てのSASプログラム (SAS使用の場合)および、作成した規定課題の図表は、「自由課題」用の論文の末尾に、それぞれ「付録1 規定課題用SASプログラム」、「付録2 規定課題図表一覧」と題して収録してください。
なお、SASプログラムはそのままで実行できるスタイルで掲載してください。

自由課題

今年の自由課題は以下のようなテーマを設定しました。

「世帯の経済格差」、「経済的不平等」、「貧困世帯」、「家計のやりくり」等に関連するテーマならこれらの文言には拘りません。
論文の狙いがわかりやすいタイトルをつけてください。

  • 分析結果は、A4サイズで12ページ以内(規定課題の付録を含む)の論文にまとめること
  • 論文の体裁については、SASユーザー総会の一般発表の体裁に従うこと
  • 解析の対象とした変数の分布特性に適合した解析方法を選択すること
  • 分析方法の妥当性にも十分配慮すること
  • 分かりやすく、かつ説得力のある図表を使って結果を提示すること
  • 分析過程の主要部分のSASプログラムを「付録3 自由課題SASプログラム」として収録する

審査方法

下記の基準で、作品を評価します。

  • 規定課題 30%、自由課題 70%の割合で評価
  • 規定課題の図表は、見やすく、かつ、作成方法が洗練されているか
  • 自由課題用に作成された解析用データセットのデザインは適切か
  • 提出された論文の完成度、体裁
  • SASプログラムの構成やプログラミング技法

お申し込み

こちらからエントリーいただけます。

新擬似ミクロデータの利用について

SAS/JMPによるミクロデータ分析コンテストにエントリーするためには、ダウンロードした新擬似ミクロデータの使用に際し、下記の「新擬似ミクロデータ利用条件」に同意する必要があります。

新擬似ミクロデータ利用条件

  • この提供データはデータコンペ参加グループの代表者がダウンロードすれば、他の参加メンバーもそれを自由に利用できる。
    なお、そのグループ以外の者が新擬似ミクロデータを利用する場合には、この利用条件に同意した上で、自らダウンロードすれば、利用できる。
  • この提供データは、匿名データから作成した集計表から擬似的に作成したミクロデータであるので、学術的実証研究には適さないことを理解した上で利用する。
  • この提供データを利用するに当たっては、「利用上の注意」に従って利用する。
  • 提出レポートには、SASユーザー会世話人有志グループ作成「新擬似ミクロデータ」を利用したことを明示する。

個人情報

登録された応募者に関する情報は、個人情報保護方針にしたがって取り扱われます。

今後SAS Institute Inc.およびその子会社より製品やサービスに関する情報をEmailで送付させていただきますが、受け取ったEmailのopt-outリンクから、いつでもEmailの配信停止が可能です。

データコンペ応募者用エントリーのお申し込み
メール本文に以下の必要項目をご記入し事務局までお送りください。

チーム名:
チーム代表者氏名:
フリガナ:
ご所属団体(社名、または大学(院)名と学年):
電話番号:
勤務先または所属先のメールアドレス:
郵便番号:
都道府県:
住所:
送付先代表者名:
チーム責任者:
個人情報の取り扱いに関する同意:
本イベント以外の情報の希望について:希望する/希望しない

無料公開審査会の観覧お申し込み
メール本文に以下の必要項目をご記入し事務局までお送りください。

氏名:
フリガナ:
ご所属団体(社名、または大学(院)名と学年):
電話番号:
メールアドレス:
個人情報の取り扱いに関する同意:
SASからのイベントなどのご案内:希望する/希望しない
エントリー、または公開審査会観覧のお申し込み(メール)

FAQ

Q SASソフトウェアにつきまして、SASソフトウェアを持っていないのでお借りすることはできますか。

A SASソフトウェアをお持ちでない方は、無償のSASソフトウェアをご試用ください。SAS無償ソフトウェアについてはこちらをご覧ください。

Q 参加部門の申請はどのように行えばよいでしょうか。

A レポート提出時にお名前の下に記載ください。

Q ポスターのサイズを教えてください。

A ポスターのサイズはW900×H750程度でお考えください。多少のサイズの違いは構いません。

お問い合わせ先

Let'sデータ分析コンテスト事務局
E-mail:sas-user@eventoffice.jp
(受付時間:平日10:00-16:00、土・日・祝日を除く)