コラム「SAS/JMPとの歩み」

第1回 SASとの出会い

成蹊大学 経済学部教授
新村秀一

 

1.就職難に負けるな

ここ数年厳しい就職難が続いています。今から思えば私の卒業年度も就職難でしたが、現在のような厳しさはありませんでした。就職は考えていませんでしたが、大学院の試験に落ちたので急遽就職することにしました。入学後に京都大学の教養学部の吉田キャンパスを歩いていて、水泳部の勧誘に誘われてそのまま入部したことを少し自戒しましたが、根が楽天家なので切り替えも早かったようです。

就職先を探すため数学科の事務ボードを見にいくと、前年の1970年10月に設立されたばかりの住商コンピューターサービス株式会社(以下、SCSと略)の期限切れの募集案内が残っていました。SCS社に電話をすると、もう採用が終わったが来て下さいということでした。大阪の地理にはあまり明るくないので、地下鉄の淀屋橋駅で降りて手前にある住友生命ビルに入っているCSK(SCS社は、その後住商情報システム株式会社になり、昨年にCSKと合併)の受付に行ったところ、SCS社は隣の住友本社ビルにあるということでした。

面接官は、NECから出向の専務と住友石炭から転籍された常務と住友商事の非常勤取締役他の4名でした。面接の際、専務から「優が少ない」と言われたので、「1年の時に地学の先生から就職する人はいい評価すると言われたが、就職するつもりはなかったので手を上げなかった。それで優が少ないのです」と強弁しました。すると非常勤取締役から「富山弁丸出しだね」といわれました。自分としては多少京都弁も身に付いていたと考えていたので納得がいかなかったのですが、たまたま大学のOBの専務と私と同郷の非常勤取締役の方に救われたのか、その場で内定しました。

しばらくして、NECからも内定通知をもらいました。そこで両親に相談すると、母親は「社員数20人以下のできたばかりのSCS社より、優良企業のNECに行くのが当たり前」といいます。父親は、富山薬業専門学校(富山大学薬学部の前身)を首席で卒業した男ですが、戦前の三井本社に自分から連絡し、富山の田舎の専門学校から初めて三井本社に採用され、飛ぶ鳥を落とす三井三池鉱で働いていました。戦後の石炭ブームで驚くほど給与をもらっていたそうですが、うまいコメを食べることができないということで、親戚の農家から簡単に米が手に入るという信じられない理由で富山市の製薬会社にUターンしていました。上昇志向が強いのか弱いのか訳がわからない父が何というか気がかりでした。しかし、「これからの日本は情報処理産業が伸びるので、面白いだろう。戦後の石炭産業は多くの秀才が就職したが、その後衰退した。就職は、卒業時に景気の良いところに行っても、産業構造の変化で人生を締めくくるまで分からない」といいます。しかし、母親のいうことも常識的なので、辞退のお詫びに断りに行きました。

ところが専務から「秀才きらめくNECに行くよりも、これから伸びていく情報処理産業の方が君に向いている。NECは断ってやるからいいな」と言われ、「優が少ない」と指摘されながらもこの言葉に悪い気はしませんでした。そこで思わず「はい。よろしくお願いします」と即答していました。専務みずから東京のNEC本社の人事担当の役員の方へ電話をし、「そちらはどれだけでも採用できるので、こちらでもらっておくけど、いいな」という声が聞こえてきました。

当時SCS社のオフィスは住友本社ビルの4階の鬼門(きもん)(北東(艮=うしとら:丑と寅の間)の方位のことで、陰陽道では鬼が出入りする方角であるとして、万事に忌むべき方角)にあるトイレと同じ入口にありました。案内板で探しても見当たらないので、住友電工の受付で聞いてたどりつくと、トイレの横の小さな一室でした。最近の学生を見ていると、私同様世間知らずですが、特に人気や人の意見に左右されすぎであると思うことがあります。自分の興味や将来の必要性でなく人気のある授業に我も我もと殺到する傾向にあります。私たち教員は、これを是正していく必要があるでしょう。一般的には恐らく、NECを辞退して、SCSという選択肢はなかなか考えられないだろうと思います。そこまでのリスクある選択をする必要はありませんが、人生は将来にかけてみて、努力し、自分の最後の人生をしめてみなければ分かりません。この点は、本来教師の責任でなく、家族の話し合いで行うべきでしょうが、教師としてもそれなりに指導したいところです。

入社したところ、関関同立の関西の私学の雄のみならず、東京の有名私大を含め梁山泊を思わせる32名の同期生が一期生でした。

2.大阪府立成人病センターで研究の物まねを始める

入社(1971年)後、半年間の予定で住友生命ビルにある住友情報教育研修センターで研修を受けていました。1-2ヵ月もたたないうち、当時のSCSの企画課長に呼び出され、住友本社ビルの地下から別館にあるNECの大阪支社に連れて行かれて出向することが決まりました。出向先は、森の宮にある大阪府立成人病センターでした。当時、NECと循環器医長の間で「心電図の自動診断解析システム」の開発プロジェクトの共同研究が開始していました。NECの課長から、「先生のアシスタントとして自由に使ってください」と紹介されました。しばらくして、先生から32個の心電図所見(少し正しくないが異常群と呼ぶ)と正常所見(正常群)の入った数千件のMT(マグネティック・テープ)を渡されました。先生から「すでに私は今までの研究を生かしたフィードバックのかかった枝分かれ論理(決定木分析で実現可能)による診断法を開発している。君は多変量解析を勉強し、新しい診断論理を考えなさい。もし成果が良ければ、君の成果も開発中のシステムに組み込んであげる」と言われました。このため、統計書を勉強し、NECのSTAT-EXという統計ソフトと、Fortranでプログラミングし、1973年に私の最初の研究成果を日本ME学会で発表しました[1]。

実は、4年間研究してもFisherの線形判別関数(LDF)は枝分かれ論理にかないませんでした。この4年間の研究成果をまとめると、正常群と異常群の2群判別は、圧倒的に人数の多い正常群のある計測値が連続的に大きくなる(小さくなる)ことで異常群に変異していきます。このため、正常と異常を多次元正規分布としてとらえ、その2群の平均が典型例であるとすることは特に異常群では間違いでないかと疑うようになりました。すなわち、正常群を地球と考え、数多くある異常群は地球の吹き出物のような山脈と考える「地球モデル」[4]が正しいと考えました。これであれば、異常群の典型例は、計測値が大きい状態(山頂)である現実と一致します。そして地平線である判別境界上に異常群のケースが一番多くなります。そこで各計測値の度数から「Bayesの定理」を拡張した「スペクトル診断」を提案したわけです。しかし今日この「スペクトル診断」は、名義ロジスティック回帰を考えればよく理解できます。計測値が大きく(あるいは小さく)なることで、異常群である確率は1に近づいていきます。このため、最近の医療診断では、ロジスティック回帰がLDFや2次判別関数(QDF)より、一般的に言って誤分類確率が小さい(判別成績が良い) ので多用されています。そして、私が感じた正常群と異常群の関係を良く説明できます。

田口玄一[5]さんも、品質管理の分野で正常状態(正常群)に対し、異常状態をFisher流の異常群としてとらえるのではなく、正常群の分散共分散行列で計算したマハラノビスの距離で判断すべきと言っておられます。ただ、品質管理では医学のように異常群の診断が体系化されていないので、異常群が定義されないことは指摘されていません。

判別分析は、1983年に統計学の泰斗Fisher卿が切り開きました。LDFは、2群が多次元正規分布し、分散共分散行列が等しいといういわゆる「Fisherの仮説」で簡単に導き出されます。しかし、この仮説が現実のデータに合わないことは統計の研究者や利用者にも知られており「正規性からの乖離」と呼ばれてきました。このため判別境界点をずらすことで、求められた誤分類数より少ない判別結果を探す研究は今も行われています。そして「Fisherの仮説」の2番目の分散共分散行列が等しくない場合に、QDFが提案されています。

自分の研究人生を振り返れば、かすかな疑問をもった判別分析を一生の研究テーマとして、もがき苦しんできたことになります。しかし、SASやJMPという強力で最強の統計の先生を個人家庭教師とすることで、統計が独学でき、私の研究や執筆を助けてくれたことに感謝しています。

3.20代の苦悩と統計勉強法の模索

1971年に大学を卒業しましたが、理学部数学科の教育は、ほんの一握りの研究者を養成することに特化しており、医学部や工学部のような社会で役に立つ技術を教えてくれるわけではありませんでした。たまたま、出向した大阪府立成人病センターで判別分析を独学で習得し、自分の人生の中核になりました。

(1)間違った統計の勉強法

私の場合、大学で正規の統計を学んでいませんでした。周りに分からないことがあっても教えてくれる先達もいませんでした。そこで、片っぱしから統計書を購入し勉強しました。最初に勉強したのは、判別分析や回帰分析や数量化理論といった統計手法でした。1変数の基本統計量や2変数の相関や分割表を勉強したのは、28歳(1976年)以降にSASを知ってからです。統計書の多くは、大学の統計関連学科を正規に卒業した研究者によって書かれていました。そして、彼らの研究テーマである、重回帰分析、分散分析、判別分析といった重要な統計手法が中心です。しかしながら、本来は統計学全体を体系的に関連づけて、総合的に学習すべきです。このため28歳以降にSASを知ってから私が考えたのは、表1と表2に示す統計手法の体系であり、順序を追って全て理解すべきということです。そして、全ての統計手法が等しく重要なのではなく、現実応用の立場から優先順位をつけて接することが重要です。

 連続尺度 名義尺度/順序尺度
1変数 基本統計量とヒストグラム度数表(クロス集計)
2変数 散布図、相関、単回帰分割表(クロス集計)
3変数以上 クラスター分析、主成分分析多重クロス集計

表1 データを調べる

 目的変数
連続尺度名義尺度/順序尺度
説明変数連続尺度重回帰判別分析、ロジスティック回帰
名義尺度/順序尺度分散分析カテゴリカル分析

表2 予測手法

実は、数多くの統計の研究成果のある国立大学の教官に、日本計算機統計学会でお会いした際に、『後で聞いてほしいことがあるので、昼でも一緒に食べませんか?』ということで、昼をご一緒しました。すると目をまん丸にして、『新村君、僕は今まで最頻値というものを勉強してこなかったが、法学部の非常勤講師をして、初めて区間の取り方によって違ってくることを知りました』ということでした。実に正直な先生です。似たようなことは幾らでもあります。理工系の統計の教官は、分割表やクロス集計そして独立性の検定といった基礎的な統計手法を学生時代に授業で教わらないまま卒業した人が多いので、無関心な方も多くいらっしゃいます。しかし、理系と文系にかかわらず、社会に出た学生が接するのは連続尺度のデータでなく、名義尺度や順序尺度などのデータが多いのです。たとえば、調査会社のアンケート集計、やコンビニなどの売れ筋商品の分析などに分割表は幅広く利用されています。また、2*2の分割表でFisherの直接確率を勉強すれば、帰無仮説のp値の仕組みが理解しやすく[6]、推測統計学の理解に適しています。

(2)実践的な高度なユーザー教育による問題解決学が求められている

そして38歳になって初めて、表1と表2の手法を総動員して、一つのデータで統計レポートを作成する勉強法を考えました。最近、産業界から「問題解決学」を教えることが要請されています。私はかねてより統計に限らず理数系の授業は、統計研究者を養成する理論研究か、高度で実践的なユーザー教育に分けて行うことを提案してきました。そして、「その道の専門家が満足する機能を備え、学生から専門家までが使いやすいソフトがあれば、高度なユーザー教育が容易に実現できる」と主張してきました。これは、今日社会が求める「問題解決学」だと思います。統計の場合は、厳選した一つのデータをあらゆる角度から分析し、小説を書くように統計レポートを作成することを教えることが効果的です。この場合、用いるデータの選択が重要です。入門用として、40人の学生データを用いてSASを使って解説書を書きました[7]。その後、このデータでJMPを用いて解説書を書き[8]、JMPの評価版と「学生の成績調査」というファイル名のデータを添付しています。中級編としては、184日間にわたって開催された筑波の「科学万博」の時系列データを用いてSASの解説書[9]とJMPの解説書[10]を書いています。そして本当に問題解決に生かせるかを確認するため、例えば総理府統計局のHPにあるデータを用いて、解説書を参考に統計レポートを書くことを学生の課題にすればよいと思います。私たちの学生時代、学生が統計ソフトを使って自分で決めたデータを分析し、統計レポートを作成することは想像もできませんでした。それが、できるようになったのです。産業界の要求を鵜呑みで取り入れる必要はありませんが、十年一日のような古色蒼然とした授業を続ける事は、少なくとも統計の分野では意味がないことを、周りの無関心な教員を説得していく必要があります。

(3)配置行列の生成法の理解がGLMの基本

大学卒業後、統計を自分の一生の技術にしようと思い書籍で勉強しましたが、いつまでたっても成果が出ません。書籍での勉強方法に迷いが出ていました。また、書籍は周りに指導者がいないと行間が読めないことを経験しました。例えば、H.L.Seal(1964)著の『多変量解析入門-生物学を題材として-』(共立出版)でカテゴリカルデータからいきなり配置行列を作る記述が出てきて、その意味が読み取れませんでした。それが後でSASを知ることで、GLMのマニュアルに書いてあり理解できました。すなわち、配置行列の生成法を知ることで、重回帰分析、分散分析、共分散分析、数量化理論などが統一的に理解できる点です。これらの個々の手法を別々に理解するより、データの生成法を知ることの方がはるかに簡単なことです。GLMのマニュアルで理解するか、[11]の配置行列に関する私の4頁の解説を読むだけで目からうろこが落ちるような爽快感が味わえます。

4.SASとの出会い

25歳ころ書籍による統計の勉強で成果が出せず、漠然とした不安に駆られていました。そして、大阪に本社のある多くの関西系企業が、東京への一極集中の通産省による産業政策もあり、東京と大阪の2本社制をとり、実質東京に活動の中心を移しました。それに合わせて、私も東京本社の企画部門に移りました。大阪では住友グループの一員であるNECの大型汎用機ACOSで稼働するSTAT-EXという統計ソフトを使っていました。東京本社で、IBMで稼働する統計ソフトが自分の個人的な研究(アンダーテーブル研究)に必要になりました。当時は、統計数理研究所の大隅先生が、SPSSなどの統計ソフト普及の啓蒙活動を、行っていました。私もSPSSを会社に入れてもらう予定でした。しかし、その前年に米国商務省が米国のベンチャー企業の紹介を主として日本の情報産業の企業に対して行っていました。企画部門の上司がSAS社から、『SAS76』(当時SASのバージョン名)という地が紺色でSASが赤字のマニュアルをもらい持ち帰っていました。米国SAS社が代理店を探しているということで、「SASも選択肢の一つとして検討したら」というので、500頁前後の今から思えば薄いマニュアルを読みだしました。

technews-shinmura sample

図1 PROCステップとDATAステップ

そして、SASが従来の統計ソフトと異なり、SAS Supervisorと呼ばれるSAS本体の中核モジュールのもとで、外部ファイルからデータを取り込み、必要であればSASのプログラミング言語で編集加工した後にSASデータセットへ取り込むDATAステップと、レポートや分析等を行うPROCステップに分かれていることを知り衝撃を受けました。統計手法からデータを分離し、DATAステップで種々のデータをSASデータベースとして管理できます。PROCステップでは、SASデータセットを連続的に種々の角度から統計処理が行えます(図1)。これは単なる統計ソフトでなく、ORACLEのような汎用DBMSには及ばないが、簡単なDBMS機能を備えた第4世代言語(エンドユーザー言語)でないかと考えました[2、3]。また、これによって煩わしいデータ操作が必要なくなり、煩わしいデータ管理から解放されたPROCステップで新規の手法の登録も容易になるに違いがないと確信したのです。多分、SPSSより機能の追加が容易になり、追い越すと思いました。

そこでSASを導入し、自分の統計の先生にしようと思いました。しかし、自分の勉強のためにSASを購入するには高価すぎて気が引けます。そこでSAS社の代理店になって、販売と計算センター利用による計算サービスで新規事業として立ち上げるという起案を上げました。しかし、役員から「確かにSASを君のために入れるのは高いが、代理店になって失敗するともっと金がかかるので、1年間調査してからにしなさい」ということでSAS社にその旨を伝えて、調査に入りました。そして、途中からアシスト社のビル・トッテン氏から一緒に事業展開しようと申し出を受けました。彼からその後、「どうも日商エレクトロニクス社が代理店として先行しているからSAS本社があるノースキャロライナ州ローリー市にいって交渉しよう」ということで現地へのり込み、Goodnight社長をはじめ数名の方と交渉に臨みました。しかし、代理店は日商エレクトロニクス社に決めたということで、帰国後の1976年にIBMでSASの受託計算サービスを行うことにしました。

次号は、SCS社にてSASを使用した計算サービスとシステムインテグレータとしての事業の本格始動についてお話させていただきます。

文献

[1]新村秀一、北川護、高木義人、野村裕(1973).二段階重みづけによるスペクタル診断、第12回日本ME学会大会論文集、107-108.
[2]新村秀一(1980).統計解析システムSASの紹介-SAS言語を中心として-、(社)情報処理学会医療情報学研究会資料6-4、1-7.
[3]新村秀一(1981).アメリカから吹き寄せる新しい高級言語の風-SASについて、第8回日本MUG学術大会講演報告集、1-6.
[4]新村秀一(1984a).医療データ解析、モデル主義、そしてOR、オペレーションズ・リサーチ、29-7、415-421.
[5]田口玄一(1999).タグチメソッドわが発想法、経済界.
[6]新村秀一(2009b).数学でできる問題解決法、成蹊大学一般研究報告、42/4、1-52.
[7]高森寛・新村秀一(1987). 統計処理エッセンシャル、丸善.
[8]新村秀一(2004).JMP活用統計学とっておき勉強法、講談社.
[9]新村秀一(1989).易しく実践データ解析の進め方、共立出版、 東京.
[10]新村秀一(2007d).JMPによる統計レポート作成法、丸善.
[11]森村英典・牧野都冶編(1984).統計・OR活用辞典、東京書籍.

Back to Top