随想「マーケティングとデータ解析」

第7回 オッカムの剃刀

朝野熙彦
中央大学客員教授

真理の追究はアカデミズムの目標ですが、真理追及のあまり理論を精緻化するととても複雑で難解になることもあります。一方でマーケティングの実務では問題を単純化して処理を簡素化することが求められます。

マーケティングは実社会に貢献できてはじめて価値を認めてもらえる実学ですので精緻化と簡素化のバランスをとることが重要になります。もし同じ結論が導けるのであればよりシンプルな理論と手続きの方が良いでしょう。この選択原理を科学哲学ではオッカムの剃刀といいます。あるいは節約の原理(principle of parsimony)とかケチの原理とも呼ばれています。

INDEX

  1. 多変量解析は行列、言語はIML
  2. 行列の威力
  3. SAS/IMLの威力

1.多変量解析は行列、言語はIML

William of Ockhamは14世紀に活躍したイギリスの哲学者です。オッカムはある事象を説明できる方法が何通りもある場合は、より単純な説明を採用するべきだし、必然性もないのに新たな要素を導入してはならない、と主張しました。

オッカムの剃刀の意味が分かりやすいのが宇宙観の比較です。古代エジプト人やインド人の宇宙観には諸説ありますが、おおむね大地は円盤であって天空を4つの柱で支えているとか、大地自身は大きな象の背中に乗っているなどという説明をします。地震は象の身震いで説明できるのですが、その象自体は宇宙のどこにどうやって立っているのだろうか?とか象のエサはどこから来るのだろうか?などと新たな疑問が尽きません。さらに面倒なのが毎日夕方になると西の地平線に沈む太陽が、なぜ毎朝、東の空からまた昇ってくるのだろうか?という疑問でした。それは太陽が大地の下のパイプを通って、夜の間に大急ぎで東に戻るのだとか、そのほか神話と結びつけた複雑な説明がなされていました。

ギリシャの天文学者プトレマイオスは地球を中心にして惑星が回っているのだという、古代人よりもはるかにシンプルな宇宙を考えました。この天動説にも観測データとの矛盾は多々あり、月や太陽の動きの説明が複雑になりました。そうした矛盾を解消しつつ、よりシンプルな原理で説明したのがコペルニクスの地動説だったのです。

さて私の随想のテーマは天文学ではなくマーケティングとデータ解析です。
多変量解析を理解するには行列を使うのがシンプルだし、解析を実行するプログラム言語はSAS/IMLが簡単です。行列とIMLの2つは私にとってまさにオッカムの剃刀でした。次節以降で行列とIMLへの感謝の想い出話をしましょう。

2.行列の威力

■数量化理論に出会う
私がマーケティング・リサーチの会社に就職したのが1969年でした。そのころの調査業界は数量化理論のブームに沸いていました。数量化理論というのは、当時、統計数理研究所の研究第2部長だった林知己夫先生が開発された質的データを数量化する一連の方法群の名称です。

数量化理論については講習会あり、口伝えあり、企業内で作った解説マニュアルありで周りに様々な情報があふれていました。たとえば某大手自動車メーカーが1971年に作った解説書などは手書きで80ページ以上に及ぶ懇切を極めた労作でした。他にも日本を代表する新聞社や広告代理店が、ユーザー自身の手による解説書を競って作ったものです。

なぜ、そんなにユーザー自身が壮烈な努力をしなければならなかったのか、今から当時の状況を整理してみますと次のようになります。

①開発者の林先生ご自身は当然ながら学術論文を多数発表されていました。しかし専門家向けにコンパクトに書かれた学術論文を、読んで理解できた実務家はごく限られていたのではないかと思われます。それが1950年代の状況でした。

②そこで、ユーザー向けに詳しく解説した書籍が次々と出版されました。その代表作ともいえる1冊が、林知己夫・村山孝喜(1964)の「市場調査の計画と実際」日刊工業新聞社でした。この本は調査実務家のバイブルになりました。しかし数式部分を追うのは難しく、たいていの読者はついていけなかったのではないかと思います。たとえば同書312頁の次の一行で数式の難しさが分かるでしょう。

③そこで、統計数理研究所は一般ユーザーのために講習会を催すことになりました。講習会は大賑わいになりましたが、やはり専門家による解説は難しすぎて理解できなかった受講生が続出したそうです。これは私が身の回りのリサーチャーから聞いた話です。

④そこで、ついにユーザー自身が理解できるようなマニュアルを自作する必要性が生じたものと思われます。当時作られたマニュアルを今から読み直してみると、諸先輩方の真摯な努力に頭が下がります。

このような次第で、文系の人間が多かったリサーチ業界では多くの先輩が数量化理論の導入に苦心されました。しかも多変量解析を知らずに、真っ先に数量化理論を学ぶという変わった導入をたどることになるのです。大学で統計学を専攻する学生ならホテリングやアンダーソンから多変量解析の勉強を始めたことでしょう。

私は偉そうな目線で言っているわけではありません。自分自身が学生時代に何も勉強をしたことがなくて、就職して初めて数量化理論を勉強しなければならない羽目に陥った人間です。数量化理論の名前を知ったのが先で、主成分分析や正準判別の存在を知ったのが後でしたので、当時の一般的なリサーチャーと何も変わりがありません。

■行列とベクトルに出会う
リサーチ業界の諸先輩と同様に私も林の数量化理論Ⅰ類とⅡ類について解を書き下してみました。研究ノートという名目のたんなるメモ書きを1971年に書いています。Ⅱ類でいえば、最適化関数を書いて、それを未知の変数で偏微分して延々と展開していくと極値を求める方程式にたどりつく。解は行列の要素として表されるので、最終的な解を行列で表す、という流れでした。当然のように上記のような数式が何ページにもわたって続くことになりますし、シグマ記号Σが何重にもかかってくるので、数式を読み慣れも書き慣れもしていない自分にとって苦痛以外のなにものでもありませんでした。

なぜ数式展開が済んでから行列に書き換えるのだろうか、初めから行列とベクトルを使うことはできないのかと初心者ながら疑問に思ったものです。それから間もなくのこと、行列とベクトルに関心を持つ機会がありました。そのきっかけは、随想第1回でも書いた、大学入試センターの柳井先生の著書に触発されたからです。竹内啓・柳井晴夫(1972)「多変量解析の基礎」東洋経済新報社という珠玉の名著です。

自分のメモ書きを行列とベクトルで書き直してみると数量理論Ⅱ類の解が10行くらいでとても簡単に導けることが分かりました。数量化理論だけでなく重回帰分析や判別分析などの多変量解析もすべて行列で表現できるし、いずれも正規方程式か固有方程式を解く問題に帰着することが分かりました。自分なりの驚きを柳井先生に言ったら、そんなことは当たり前で、昔から誰でも知っていたことだと一蹴されたものです。

そういうわけで多変量解析においては行列とベクトルがオッカムの剃刀にあたります。さんざん苦労をさせられた実務家の立場からすれば、昔から誰でも知っていたのなら、何で初めからシンプルに教えてくれなかったのか、と言いたくなります。あえて行列を使わずに書くことで初心者向けに易しくしたつもりなのかもしれませんが、善意があだになってかえって理解を難しくしています。

3.SAS/IMLの威力

■行列の入門書を書く
1985年のことです。リサーチ業界には行列で苦労されている実務家が多いことに鑑み、「文系でもいきなりわかる行列・ベクトル入門」(同友館)という本を上梓いたしました。

自分が好きな行列についての本ですから、気持ちよく原稿を書くことができましたが、一つ気になったのがプログラムをどうするかです。自分なりにデータ解析の方法をカスタマイズしようとすれば、既存の統計パッケージでは対応できなくなります。では一からプログラミングするとなれば、それはそれで一苦労です。

同書の初版ではしかたがないのでFORTRANよりも手軽なBASICでプログラムを書きましたが、自分にプログラミングの才能がないので書くのが苦痛でした。1998年に改訂版を出版しましたが、そこではSAS/IMLを使う方針にして状況が一変しました。

なにしろ多変量解析の解を求める処理は、たいてい実質的に1行で書けてしまうからです。
行列Xの逆行列Yなら
  Y=inv(X)
で解けてしまいます。また行列Sの固有値valと固有ベクトルvecは
  call eigen(val,vec,S)
で終わりです。

行列とベクトルの数式は、ほぼそのまま記述すれば済みます。たとえば行列AとBの積なら
  C=A*B
ですので、マニュアルを見るまでもなく意味が通じるでしょう。

ちなみにBASICで同じ積について計算を書きますと、次の通り面倒です。
  FOR I=1 TO N
    FOR K=1 TO P
      FOR J=1 TO M
        C(I,K)=C(I,K)+A(I,J)*B(J,K)
      NEXT
      PRINT C(I,K)
    NEXT
  NEXT


■IMLの魅力
行列計算だけならEXCELでも行列関数を使えば実行できるのですが、私はそれは実務的ではないと思います。なぜなら長々とした操作を間違えずに実行することはどこかでエラーを起こす危険性があるからです。また行列計算のできるソフトは他にもありますが、演算の記述体系が一般的な線形数学の流儀にそっていないと、ローカルな記述法を一から習得しなければなりません。その点でIMLは実に素直な書き方をします。

文字をたくさんタイプしなければならないソフトも世にありますが、ユーザーにとってはハードルになります。日本人は英米人ほどタイピングに慣れていないからです。他人のことはともかく自分は苦手です。

以上の理由で行列計算のコンピュータ処理についてはIMLがオッカムの剃刀であると私は考えています。

■IMLの応用事例
2013年度のSASマーケティング研究部会ではコウホート分析についてSASユーザーの皆さんが自主的に研究をされました。コウホート分析というのは年齢別時系列で得られたデータの変動を年齢・時代・コウホートの3要因に分解する方法です。

この解法としては中村のベイズ型コウホート分析という昔から有名なモデルがあって評価が確立しています。理論的にも精緻なモデルですし、パラメータが漸進的に変化するという仮定は頑健といえます。ただしベイズ型コウホート分析のアルゴリズムはそれほど簡単ではありませんので、誰もが手軽に実行できるわけではありません。

そこで朝野(2012)はIMLの中のムーアペンローズの一般逆行列を使った簡便法を試してみました。マーケティング研究部会で推定値を比較したのが図1です。図1は同じデータを分析した結果なのですが、どちらの解法を使っても大きな違いはないことが分かります。

column-asano sample

図1 アルゴリズムの比較例

簡便法の計算の本体部分は
  Ginv(D)*y
という簡単なものです。2つの解はまったく同一になるわけではありませんから、簡便法がベイズ型コウホート分析の代用になるわけではありません。しかし、とても簡単な手続きなのに似たような結果が出せるという意味で、これはオッカムの剃刀もどきなのかもしれません。

 強み弱み
ベイズ型
コウホート分析
仮定が明確で理解しやすいアルゴリズムがやや複雑である
簡便法デザイン行列Dを用意すれば簡単に実行できるパラメータが漸進的に変化しない

表1 ベイズ型コウホート分析と簡便法の比較

なお2013年度の研究部会ではコウホート分析以外にもいろいろな研究をしていますので、いずれ研究成果をまとめてSASユーザー総会などの機会に報告させていただきたいと思います。

引用文献

朝野熙彦(1971)林の数量化理論Ⅰ・Ⅱ類について,消費研究,Vol.8,No.1,7-20.
朝野熙彦(2012)「マーケティング・リサーチ」講談社