随想「マーケティングとデータ解析」

第3回 統計プログラムとのおつきあい

朝野熙彦
中央大学客員教授

因子分析はマーケティングの分野でポピュラーに利用されている分析法です。そこで今回は因子分析を一例にして統計プログラムとのかかわりについて随想を述べたいと思います。データ解析者として統計プログラムとどうつきあってきたか、という話しです。

INDEX

  1. 初めてのEG
  2. 受験生が気にする志望校の条件は
  3. 統計プログラムとの出会い
  4. 統計プログラムとのおつきあい

1.初めてのEG

私はプログラミングが苦手なので、メニューをクリックするだけでデータ解析ができてしまうソフトは重宝な道具です。そこで最近話題のSAS Enterprise Guide 5.1(以下EGと略称します)が、本当にGUIに優れたソフトなのかどうかを試してみましょう。

自分自身のPC操作がおぼつかないのですが、EGを起動すると次のような画面が出てきました。以下、ともかくマニュアルを何も見ずに操作してみたいと思います。

column-asano sample

EGの基本画面

プロセスフローという真っ白い画面が出てくるので一瞬とほうにくれますが、たぶん最初にデータを入力するのだろうと見当をつけて「ファイル」をクリックしますと「データのインポート」というメニューがありました。それを選んでエクセルのデータをインポートすることにしました。

今回の分析データは、2006年8月に私のゼミ生がインターネットで調査した「大学受験生へのアンケート」です。高校生500人が回答した調査で、第1志望校に選んだ大学を16個の変数についてそれぞれ、「5.とてもそう思う、4.そう思う、3.どちらでもない、2.そう思わない、1.全くそう思わない」の5段階尺度で評定してもらったデータから出来ています。

この調査は、18歳人口が減少するなかで定員割れの大学が出てきたという時代背景から、志願者の獲得がこれからの大学の重要なマーケティング課題になってくるだろう、という問題意識から企画されました。そこで大学のポテンシャルユーザーである大学受験生の志望理由を知って対策を検討しよう、という意図から自主調査したものです。

さて500行16列のデータ行列を変数名付きでSASに読み込みました。日本語の変数名がそのまま分析に利用できるのには驚きました。変数名が英数字でなければならないとしたら、二重手間の入力作業が必要になります。次に分析⇒多変量解析とメニューをたどると因子分析が見つかりました。

因子分析のメニュー画面

変数リストのウィンドウから、右のタスクの役割のウィンドウに16個の分析変数を移すのはごく自然な流れだといえましょう。さて次は何をすればよいのか迷いましたが、メニュー画面の左の白い枠の中に、因子抽出法などのメニューが並んでいるのが見つかりましたので、順に一つずつクリックして、オプションを選んで【実行】ボタンを押しますと、因子分析が実行できて一段落になりました。

因子の抽出法では主成分解、共通性の初期値としてはSMCを選び、因子の数は固有値が1以上で打ち切り、直交バリマックス回転、因子得点を出力するようにチェックしました(註)。起動してからここまでの所要時間が30分でした。慣れれば5分でできる作業でしょう。

初めてのEGはなかなか快適で、操作の流れが人間の思考のプロセスにそって出来ていることに感心しました。ただし、自分が選んだ因子の抽出法はprincipal factor methodのはずなので、主成分解ではなく主因子法と書くのが正しい。因子分析についてわが国で定評のある専門書を確かめますと、

 

1)柳井晴夫他「因子分析-その理論と方法」朝倉書店の51-53頁
2)芝 祐順「因子分析法」東京大学出版社の第3章(80-115頁)
3)芝・渡部・石塚編著「統計用語辞典」新曜社、107頁

 

1~3)いずれも因子と分析変数の共分散(因子負荷量)の平方和を最大にする因子抽出法を主因子法だと明記しています。芝先生、柳井先生はこの分野の日本の権威です。また因子分析の古典の1つである
Harman,H.H.”Modern Factor Analysis,Second Edition.”The University of Chicago Press.pp.137-143、においてもPrincipal- Factor Methodとprincipal component analysis(主成分分析)が異なることが書かれています。
因子も主成分も同じだ、というのは雑な翻訳だと思います。

2.受験生が気にする志望校の条件は

column-asano sample

図1 5段階尺度の平均値

EGでは入力データの平均と標準偏差、および相関行列にもチェックを入れておきました。そういう基礎的な情報も因子分析と一緒に出力されます。500人の受験生の第1志望校の該当度を平均値が大きい順に並べたのが図1です。有名校で就職実績がよいこと、キャンパスがきれいなことが上位に来ています。いかにも実利本位の理由です。なお私のゼミ生は「教育熱心な教授がいる」とか「4年間しっかり学べる」、というような変数を始めから質問項目に入れていませんでした。残念!

 

column-asano sample

図2 因子分析の結果

さて16の変数には相関がありますので、その背後には少数の潜在変数が働いているのかもしれません。その潜在変数を因子といいます。分析変数の因子負荷量を2因子の空間にプロットしたのが図2です。因子負荷量というのは、私が選んだオプションの場合ですと、分析変数と因子との相関係数を意味します。

第1因子は有利な制度に関する因子で、第2因子は他者の推奨の因子のように理解できます。一般の消費財でいう品質因子と口コミ因子に相当します。さて2次元空間を見ると先生の推奨がこの空間の原点から遠くに位置し、学費が原点に近く位置しています。これが何を意味するかといいますと、それは各分析変数が因子空間によって説明できる程度を表しています。因子空間で説明できる程度は「共通性」という指標で表わされます。共通性は0以上1以下の値をとります。この表でSMCというのは、この共通性を推定するための初期値であって、最終的な共通性とは一致しませんがそれで構いません(表1)。

EGを使ってみて凄いと思ったのは、以上の出力結果がそのままWindows上でコピー&ペーストできることです。特に表1のような数表をダイレクトにエクセルに貼り付けて大きい順に並び替えができるのはとても便利だと思いました。

3.統計プログラムとの出会い

前節で見てきたように、今日は生まれて初めてさわったソフトでもいきなり使えてしまう時代になりました。一昔し前ならまさに驚天動地のはずです。時代をさかのぼってみましょう。

【大型コンピュータを使っていた時代】
個人的な回想をさせてください。学生だった1960年代に私は授業で初めて汎用コンピュータに出会いました。電子計算機実習という科目でした。その時、実 習問題に出たのが分散と相関係数を計算する課題でした。利用したのはFORTRANというプログラム言語で、データとプログラムをそれぞれ次のような80桁のIBMカードに穿孔してコンピュータに読み込んでバッチで処理するシステムでした。カードに穴を空けることをパンチと呼びます。

当時のプログラムの入力には、プログラムを一行ごとにこのパンチカード専用機でキーボードから打ち込んでいました。1000行からなるプログラムでは、パンチカードを1000枚、打ち込みが必要な時代でした。

当時のパンチカード

当時のパンチカード

さて、分散と相関係数はわずか数十行で済む簡単なプログラミングなのですが、完成まで何日もかかりました。クーラーの効いた電子計算機室に自分がパンチしたカードを持ちこみますが、直ちに自分の番は回ってきません。自分のジョブの実行までぼんやりと順番を待ち、そのあげくエラーメッセージが出て、またプログラムを修正するためにパンチルームに引き返すという日々でした。
自分には根本的に注意深さが欠けているのでプログラミングには向いていないことを悟った授業でした。

理論面については因子分析の授業があって、そこではセントロイド法という今では消えてしまった歴史的計算法を習いました。この解法は重心法とも呼ばれ因子負荷量を手計算するための方法です。因子負荷量の絶対値の和を最大化することを狙ったアルゴリズムでしたが、数学的にその最大化が保証されないという欠点がありました。コンピュータで固有値・固有ベクトルを求めることが可能になったので利用者がいなくなったのです。

セントロイド法でも紙と鉛筆で計算するのは大変なので、「手回し計算機」を使って解いていたのです。私の先輩にあたる草創期の方々は何カ月も手回し計算機を回し続けて因子分析をしていたそうで、その努力には頭が下がります。EGなら1秒もかからない計算だったでしょう。

【外部のデータセンターに通った時代】
随想第1回で自己紹介しましたように、大学卒業後はマーケティング・リサーチの会社に就職してデータ解析まで自分でしなければならない羽目になりました。自分でプログラミングする能力はなく、また小さな会社ですから当然、社内には電子計算機はありません。そこで外部のデータセンターにデータを持ち込んで計算を依頼することになりました。1970年代はマーケティング・リサーチの世界で多変量解析が普及してきた時代です。特に因子分析とクラスター分析に人気がありました。

そのせいか、統計パッケージなるものが当時はコンピュータのメーカー単位で開発されていました。その後、SASをはじめ有力な汎用統計ソフトに収斂していくことになります。しかしいずれにしても大型コンピュータが設置してあるところにデータを持参してコンピュータの操作員に計算を依頼する、という意味では学生時代と同じことを会社でも繰り返していたことになります。依頼が済んだらただぼんやりと時間待ちをしていました。自分が働いている時間よりも待合室でぼんやりしていた時間の方が長かったように思います。

【ダウンサイジングの時代】
その後メインフレームから次第にデスクトップPCへと計算環境が変わり、もともと大型コンピュータ用に作られたプログラムが、かつての残滓を引きずりながらPC用のソフトに移植されていったことは皆さんもご存じでしょう。残滓の一例として、メモリの制約のために共用できるアルゴリズムを中心に分析プログラムを組み込んでしまったという弊害がありました。因子分析と主成分分析は分析モデルが異なるにもかかわらず、固有値を解くサブルーチンが共用できるという理由で、同じプログラム内で処理してしまうという大混乱のソフトもみられます。

さて、一人1台のPCの時代になり、またPCの演算速度が飛躍的にアップした結果何が起きたかというと、「ぼんやりした待ち時間」が無くなってしまいました。データ解析の生産性が上がってどんどん仕事ができるようになった、というプラス面はあります。しかし一方でぼんやりする時間がなくなったというマイナス面も出てきました。
人間はぼーっとしている時間に自分のデータ解析のミスに気づいたり、マーケティングの問題解決がひらめくことがあります。傍目からは無駄にみえる待ち時間にも創造的な意義があるのではないかと思います。

4.統計プログラムとのおつきあい

その後、某大学に移ってから情報処理教育を副科目で担当させられました。役目ですので、学生にはこれからの社会では情報処理が重要だとか、プログラミングも勉強したほうがいいなどと自分のことは棚にあげて指導しました。そうした情報処理教育にも意義はありましょうが、データ解析はPCやソフトウェアの操作を習得すれば済むものではないと思います。
ユーザーとプログラムのつきあい方は、大きくは次の3つのパターンに分けられるでしょう。

1)自分でCやBASICのような言語を使ってプログラミング
2)エンドユーザー言語を使ってプログラミング
3)完成品のパッケージプログラムを使う

 

1)は自分でゼロからコーディングするやり方です。今日のようにデータ解析の環境が豊かになっている時代では、一般のユーザーが①を選ぶのはあまりにも迂遠ではないかと思います。

2)はSAS/IMLのようなエンドユーザー言語を使ってコーディングする方法です。大きなサブルーチンが1つのコマンドに収まっているので、プログラミングが簡潔になります。たとえばFORTRANで数百行を要した固有ベクトルの計算がeigvec( ) のわずか一語で済みます。とても素晴らしいと歓迎する反面、学生時代にその数百行をパンチした自分としては内心忸怩たるものがあります。

3)はたとえばSASを使うというつきあいかたです。各分析に対応したプロシジャが用意されています。それでもSASの文法を覚えてコマンドを入力すること自体が面倒だという人はEGを使えばよいのです。EGとSASの関係は、前者が後者のユーザーインターフェースだと理解すればよいでしょう。つまりEGのバックグラウンドでは普通どおりにSASが動いていて、SASのプロシジャが何であるかを知りたければそれを見ることもできるのです。

私のようにプログラムが苦手であれば 3)のつきあい方が一番よいでしょう。できるだけ楽にデータ解析をすることは望ましいことだと思います。しかし、そうは言っても一つ注意があります。それは、統計プログラムを安易に信用してはならない、ということです。

世の中には多数の統計プログラムが存在します。SASのように信頼できるソフトばかりではなく、中には計算や出力のロジックに誤りがあるソフトもあります。また不適切なデフォルトを設定しているためにユーザーの誤用を促進しているソフトもあります。同じ名前の分析法ならばどれも同じだろう、と信じてはならないのです。つまりソフトの真贋を見分け、統計プログラムを正しく使いこなすには、多少は理論的な理解も必要になるのです。これはPC操作に習熟するだけの情報処理教育とは異なる、より本質的な問題です。

(註)マーケティング・リサーチの実務で発生する様々なトラブルについて対策を示した本をまとめました。今回述べた因子分析と主成分分析の概念の違いについても詳述しています。
朝野熙彦「マーケティング・リサーチ~プロになるための7つのヒント」講談社、2012年11月刊
この本については、下記の「新刊書籍のご案内」をご参照ください。

『マーケティング・リサーチ プロになるための7 つのヒント』

著者 : 朝野熙彦 ●出版社:講談社 ●サイズ : A5 判  ●ページ数 : 191 ページ
●価格 : ¥2,940 (税込) ●発売日: 2012 年11月20 日 ●ISBN : 978-4- 06-157303-1
●URL :
主な内容
目次より
第 1 章 マーケティング・リサーチ序説
第 2 章 消費者を理解する
第 3 章 コンセプトを作成する
第 4 章 製品をテストする
第 5 章 価格戦略を決める
第 6 章 稀少セグメントを発見する
第 7 章 時代のトレンドをとらえる
第 8 章 社内ノルムをアップデートする
まえがきより
リサーチとは枯れた技術の寄せ集めではありません。

近年産業界で関心を集めているインサイト、ビジネス・エスノグラフィー、ビッグデータ、そしてベイズ統計などもマーケティング・リサーチとかかわりがあります。そうした新しい概念や理論にも目配りしつつ、長年培ってきたマーケティング・リサーチの技法を今日的な視点で見直す、いわば棚卸のようなテキストが必要ではないかと考えて本書を上梓することにしました。