コラム「SAS/JMPとの歩み」

第2回 SASの計算サービスとSASによる研究成果

成蹊大学 経済学部教授
新村秀一

5.大阪府立成人病センターとの個人研究(1975~1984)

大学卒業の1971年から4年間、NECから出向して行った私の社会人最初の判別分析の研究(2章参照)は、大阪府立成人病センター野村医師の開発した「フィードバックのかかった枝分れ法」にかないませんでした(2章参照)。枝分かれ論理は、その後の人生で決定木分析やAIとも深く関係してきます。

1975年にSCS社へ戻り大阪の社長直轄の企画部門に配属となりました。1976年の翌年から正式にSASを用いた計算サービスで初めて自立して、東京で仕事をすることになりました。東京に移っても、1984年までの10年間は、大阪府立成人病センターの先生方との稼ぎのない個人研究と統計の独学の苦しい模索の時代でした。当時研究職という職種がなかったので、私一人が仕事の制約のない気楽な身分としてエンジョイしていると同僚や後輩から見られていたようです。

5.1 野村先生との研究

野村先生からは、急性期心筋梗塞の予後予測の研究テーマを与えられ、重回帰分析と判別分析を使った幾つかの論文を出しました[12-13]。そして、1978年に初めてトロントで開かれた医療情報の国際会議で発表しました[14]。稼ぎのない自分をよく国際会議に出してくれたものと思います。実はこの国際会議の座長が、レーダー信号のノイズから敵機を検出するために開発されたROC曲線(Receiver Operating Characteristic Curve、受信者動作特性曲線)を計量診断学に取り入れた医者のLusted博士です。野村先生らが翻訳し、献本を受けていました[15]。発表前の打ち合わせで博士から「君は何分発表したいか」と聞かれ、舞い上がって15分と答えるところ50分といってしまったようです。同じセッションで東大医用電子の開原しげこと先生[16]も発表されていましたが、先生からが小声で間違いを指摘していただきました。国際会議初デビューの懐かしい思い出です。

5.2 疫学部との共同研究

成人病センターの疫学部には、がん検診などの大量の調査データが整備されており、これらのデータを使い疫学部の先生方と共同研究をしました。駆け出しの私には恵まれすぎた環境です。しかし、このことがその後自分でデータを集める習慣が身に付かなかった原因でもあります。

共同研究は沢山あります。その中の代表的な研究として、SASの豊饒な判別手法をROC曲線で比較評価したものがあります。[17-18]は、胃X線像の検査データを各種の判別手法で分析した結果と医師診断の結果を比較したものです。[19]は、乳がんに適用したものです。

ROC曲線を医学診断に持ち込んだのは医師でもあるLusted博士で、彼の本を野村先生が翻訳したものを献本されていました。各種の判別分析の判別成績の比較評価に利用したのは、恐らく私が世界で最初だと思います。判別成績は、Fisherの2群が同じ正規分布と考えた場合、2群のケース数が異なってもプールした分散共分散を用いて計算されます。ケース数に比例して考える場合、事前確率の指定で変更する必要があります。さらに医学診断等の統計ユーザーの要求を取り入れてリスクを導入することもあります。少なくとも3つの判別成績が異なります。最近でも、研究テーマがなくなってきたためか大学院生や若手研究者にFisherの線形判別関数(LDF)で得られた判別結果より、判別境界を動かすことでよりよい判別結果を探す研究が発表されています。私の研究[17-19]は、そのような研究は無駄であり、判別得点の範囲を20段階あるいは10段階で分割し、それを判別境界にしてROC曲線を描いて評価すれば良いというものです。また、LDF、2次判別関数、ロジスティック回帰、FUNCATといったSASの判別手法と数量化Ⅱ類や医師診断などの異なった判別結果の比較評価をROC曲線で行えば、異なった判別手法の評価も行えます。

今日ROC曲線はJMPのロジスティック回帰に取り入れられています。日本で判別分析の評価にいち早く私がとりいれたのは少し自慢です。また、スペクトル診断やROC曲線による判別結果の評価の論文がありますが、私の論文が引用されていないのはさびしい限りです。

5.3 清水先生との共同研究

清水先生との共同研究[20-21]は、大気汚染研究に発表したものが、米国環境保護庁(EPA)のデータベースに翻訳され登録されたのも、単に統計処理をお手伝いしただけですがうれしい限りです。

6.SASで統計の計算サービスを開始(1977年~)

SASで統計の受託計算サービスを開始して、自分の統計の勉強に役立つような高度な統計手法を使った仕事が舞い込むことを期待しました。ところが最初のころは、FREQプロシジャーによる単純集計や多重クロス集計の仕事ばかりです。

(1) クロス集計の思い出

初期のユーザーとして、某スーパーに段ボール数箱の多重クロス集計の出力を納品しました。1頁幾らという契約であり、また集計の出力頁が多かったため営業担当と2人で軽トラックに帳票を積んで納品に行くと、先方の担当者が1頁1頁検品し始めました。そして、多重クロス集計表の数を数え始めました。複数頁に出力されたものを1頁で精算したいということです。やりあっても埒が明かないので、請求書を書き直し提出することで合意して帰社した記憶は今も鮮明に残っています。それまでそのような単価の交渉でシビアな経験をしたことがなかったので、流通業の厳しさを身をもって実感しました。

(2) 思わぬ伏兵

また別のユーザーから大量のクロス集計の処理が持ち込まれました。私は、SAS社との販売に関する交渉のため渡米する予定が入っていたため、この仕事の全般を後輩に任せました。後輩が行う作業の中で一部の変数を書き換える必要があり、手作業でIBMの80カラムのカード修正が数千枚におよび、その作成作業が大変であったと後日当人からこぼされたことがありました。

今日、SASのエディターやSASのマクロ機能で簡単に処理できますが、当時はこの作業が思わぬ伏兵でした。数年後に彼は家業に転身しましたが、彼の同期生から半分冗談に「私が無理な仕事をさせたからやめることになった」とたびたび言われました。

(3)調査のプロの神業に驚く

また、当時コンピュータ設備を持たない数社の調査会社の研究員がコンピュータを処理時間精算で借りに来ていました。多くの場合、18時以降の夜間割引制度を利用して、24時ごろまでの夜間処理です。もっとも、夜間の方が依頼してから出力されるまでのスループットが良かったこともあります。

ある女性研究員が、3重か4重クロス集計表をチェックしているので、「結果が分かるのですか?」と聞きました。「これぐらいのクロス集計だと、頭の中で構成できます」といわれて驚きました。

(4) 某大手就職情報会社との継続作業

継続的に一番大きな仕事は某大手就職情報会社です。最初は情報部門からの仕事が多かったのですが、その内、企画部門や人事測定部門が主流になりました。

当時、同社は、就職する学生用に採用企業の分厚い情報誌を作成し、学生に配っていました。その中の記事に学生のアンケート等の分析レポートを作成するために、SASを使った仕事が複数の女性担当者から引っ切り無しに来ます。

何人かの担当者が、先方の作成したアンケート調査表を事前に見ないで、アンケート票を受け取りパンチ入力してIBMカードを作成し、分析して返すことを数日のサイクルでこなしていたのです。その中で女子学生のアンケート集計の分析で、担当者からどうすれば良いかと相談を受けました。質問項目の一つが「あなたの尊敬する女性の名前を自由記述してください」というものです。しばらく考えて、費用がかかるがそのままパンチし、「PROC FREQ;」で単純集計し、同じ女性をまとめたリストを作り、それを再度SASで一つのコードに変換してまとめ、無事難局を乗り切りました。例えばサッチャー首相は、5~6個のバリエーションがあったように記憶しています。

これ以外の仕事も十分な打ち合わせなしで、担当者が同社の女性担当者と主として電話でやり取りしてルーチンワークをこなしていました。稀に土日に私の自宅に処理が間違っているというクレームの連絡が入ったこともあり、東京女子大や横浜国大出といった才媛からのクレームも、今から振り返れば楽しんでいたように思います。

同社は、私が在職中にSASを導入しましたが、SASのプログラム作成の仕事で長く取引が継続しました。

(5)大学教育の拾いもの

大学にうつり統計教育を行って驚いたことは、多くの教員はクロス集計あるいは分割表に対する深い知識やその重要性を認めていないことです。確かに、研究のテーマとして魅力的ではないかもしれませんが、学生が社会に出て一番需要が多いのではないかと思います。統計教育は、自分の専門を教えるのではなく、統計学の手法全体を体系的に社会で必要とするものを教えるべきだと強く思います。

また、2*2の分割表の場合、Fisherの直接確率で独立性の検定のp値が簡単に計算できます。私は、成蹊大学の1年生の統計入門で、推測統計学の仕組みの説明に用いています。P値の計算が簡単に説明できるのはこれしかありません。しかし、実際の仕組みを教えれば推測統計学は文科系の学生にとってもなじみやすくなります。文献[6]では、Fisherの直接確率、ローンの計算、GoogleのPageRank技術を文科系の学生にもわかり易く解説していますので、定型外郵便物で切手を張った封筒を大学まで送っていただければ、金額の範囲内で[6]以外の各種資料を含めて送ります。

7.心に残るSASを使った統計の仕事

(1)気象予報システムに採用

重要顧客の一つは、東京気象協会、関西気象協会、東北気象協会といった気象協会グループの仕事です。特に東北気象協会の研究者とは相性が良く、各観測所のランダムな雨量の計測値から2重フーリエ変換を使って格子点の雨量を推計するプログラムをFortranで組んだり、SASのロジスティック回帰で降雨確率を予測したりしました。これはその後、「気象庁の予報システムに組み込まれましたよ」という彼の弾んだ電話での報告を受け、大きな達成感と喜びを感じました。

ロジスティック回帰の確率表現が、医学診断に続いて日本の公的な社会システムに取り入れられた先駆けと考えられます。

(2)某大手金属鉱山

大手金属鉱山会社がアフリカの多分ニジェールかどこかでウラン鉱の探索をやっていました。昔は金鉱山とか石油などの鉱脈を見つけるのは、山師(データマイニングのマイニング)といわれ家庭を顧みず僻地に分け入り調査をする大変な作業だったようです。しかし、その当時は衛星で地上からの電磁波などを検出するリモートセンシングが実用化されてきていました。既存のウラン鉱等のデータを標準パターンとして似た地区を、K-means法で見つけ、その後で確度の高い現地調査するということです。

実は2010年度の社会人の大学院生に東大理学部の修士を卒業し、あるエンジニアリング会社の技術者の方が私の統計の学生でした。わずか2単位の授業で20頁以上の統計レポートを出すことを課していましたが、この方は38頁の見事なレポートを提出してくれました。その中で、次のような主要な産油国の油田のクラスター分析をJMPのWard法でしています。私は授業では、最近隣法、最遠隣法、重心法、群平均法を説明した後、Ward法は説明がめんどうなので行っていません。またグラフはデフォルト主義なのですが、彼は私がウイーンで監修した解説書[24]やHelpで調べて分かりやすいグラフを多用したレポートを作成しました。授業で教えた以上の内容で、ただ脱帽です。今年から博士課程に進学することになりました。

technews-shinmura sample

図27 クラスター分析結果(デンドログラム)

(3)企業評価

判別分析の応用として、ニューヨーク州立大学のAltman准教授による優良企業と倒産企業の判別の研究があります。単に財務データを説明変数とした2群判別の研究ですが、この分野の先駆的な例として有名なものです。同氏は、現在はコンサルタントとして企業評価で活躍しており、一つのことをテーマにして一生の糧を得ることに才能のない私には、うらやましい限りです。

日本では、ある商社系のSCSと同業の情報システム企業が倒産判別システムを作っていました。私はこれまで親会社の商社とは縁がありませんでしが、業務部門から取引先の倒産判別をしたいということで手伝いました。100社程度の実際の取引先で、倒産した企業と優良企業のデータで2群判別を行いましたがあまり芳しい成果が出ませんでした。説明変数間に多重共線性があり判別係数の符号が常識と反対になっていることを説明したのですが、担当者に納得してもらえませんでした。あとで、日経新聞のCASMAのさきがけシステムの移行を手伝った際、親会社の限られた取引先であること、一人の担当者による調査研究であったことも上手くいかなかった理由と考えるようになりました。

日経新聞社がコンピューターシステムを米国のある企業からIBMへ移行するのに伴い、統計ソフトもSASに変えたいということで移行の手助けをしました。優良企業と不良企業の財務データをもらいSASへの移植方法の説明を兼ね、判別分析の分析レポートを作成しました。分析結果の説明を行いましたが、その後の会議は参加できませんでした。会議の内容を聞くと、企業担当の経済記者を交えて判別分析の結果を再評価するということです。それから暫くして、日経新聞に優良企業100社の紹介記事とそれらの企業の広告が載っていて、統計分析の結果に付加価値をつける商売のうまさにため息が出ました。

8.大学人の間で悪名が広がる

8.1 丹後先生との論争

丹後先生は、医療統計に大きな足跡を残した東京工業大学出身の統計家です。丹後先生が東京都の医療機関の研究員であった時代、独自の統計ソフトの開発を行い「医用電子と生体工学[22]」にその成果を発表しました。1980年代は、丹後先生に限らず心ある多くの統計家が独自の統計ソフトを開発し発表されていました。例えば九州大学の浅野先生を中心とするNISANシステムは、開発等に参加されている研究者も多く最大規模でした。また、小林龍一立教大学元教授や芳賀敏郎東京理科大学元教授のように個人で開発されている方も多かったようです。これらの統計ソフトウェア開発の目的は、自己の統計の知識をソフトウェアで実現したいという欲求であり、外国製の高価な統計ソフトに代わって安い価格で提供したいという欲求等がその開発の動機でした。

しかし私の考えは違っていました。統計に代表される理数系のソフトは、言語に影響されにくい世界的な商品であるべきです。最初は、IBMや日本の汎用機メーカーは統計や数理計画法ソフトを自社開発し、自社の高額なハードウエア・ユーザーに差別化して開発販売していました。例えば、一時日本のPC市場を5割以上押さえていたNECが、自社の理数系のパッケージを販売していましたが、その数理系パッケージソフトウェアをユーザー数が多いPCでも稼働させることは、その当時考えていないようでした。そこで、メーカーの機種に制約を受けない独立企業のパッケージがメーカーのパッケージを駆逐するのは、歴史的必然と考えていました。

また個人の研究家がパッケージを開発するには幾つかの弊害があると感じていたました。パッケージは最初のコンセプトが重要だと思います。特に、SASのようにデータからプロシジャーを独立させれば、新規の手法の登録(プロシジャーを置き換えるだけで分析手法を変更できる)が容易になります。 次に、大きな投資が伴うマニュアルなどの準備や変更・追加等の整備が定期的に必要となります。最後に、多くのユーザーを獲得することでソフトウェアの使用頻度が高まるため、バグの発見や新規機能のユーザーの要望が吸収できるためです。ここがソフト文化と書籍文化の異なる点であると思います。書籍は個人の力量が重要ですが、パッケージは創始者の構想力と、ユーザーによる要望を取り入れた継続的な発展が重要であると思います。そして、新規にパッケージを開発する場合、世界中の既存の同製品を調べ、それを超えていなければ開発すべきでない、というのが私の考えです。

以前にVAX版SASの展示をしている時、恐らく大学の先生と思われる方から、「自分で作らなくて米国の物を販売していて恥ずかしくないですか」と詰問されたことがあります。その問いに対し、私は「理数系のソフトは世界でNo.1になるかトップグループに入らなければ意味がありません。そこがハード製品との大きな違いです。機能がある水準を満たしていれば、ハードは価格が安ければセグメント化された顧客に売れますが、ソフトウェアは無償にしても使われないという傾向があります。また、既存の製品に後れを取った開発を行うことは、能力の無駄使いです」と答えました。

浅野長一郎先生から折に触れ、「君のおかげで、企業にNISANの説明に行っても、SASの話を持ち出されて往生した」とたびたび言われました。しかし、このグループの研究者からうとまれず一番親しくさせてもらったのは、私にとって非常に幸運であったと感じています。私の大学への転籍を強く働きかけてくれたのは、浅野門下生の渡辺美智子東洋大学教授と山口和範立教大学教授です。また博士号の取得を進めていただいたのは、垂水共之岡山大学教授、田中豊岡山大学元教授ですが、パソコン統計解析ハンドブック(共立出版)の著者です。統計ソフトの普及という面では、まったく異なる意見を持っていました。

惜しむらくは、数理計画法のORソフトで、日本における1980年代のような統計ソフト普及の熱気を感じる時期が一度もなかったことが、日本におけるORの低迷を象徴しているのではないかと思っています。

8.2 NLINとMATRIXプロシジャー

SALSは、東大の研究者が開発した非線形回帰ソフトです。[23]のSALSに関する論文の中にSASのNLINプロシジャーに関する比較がありました。私はその比較に関して、NLINプロシジャーに関して誤解があると思い、MATRIXプロシジャー(SAS/IMLの前身)でNLINプロシジャーの機能を再現し、収束域に関する質問論文を情報処理学会に投稿しました。

しばらくして、鈴木筑波大学教授(現副学長)が笑って、「大学人の中には、SASのことを批判的にいうと必ずあなたが登場してくるので、SAS坊やという人がいますよ」と忠告されたことがあります。私はそれほど好戦的な人間でもなく、単に向学心に燃え、違うものは違うのではないかといい、また疑問があればそれを議論したかっただけなのです。

文献

[6] 新村秀一(2009b).数学でできる問題解決法、成蹊大学一般研究報告、42/4、1-52.
[12]野村裕、宮川定吉、若杉茂俊、戸山靖一、新村秀一(1976).臨床時系列データの解析、医用電子と生体工学、14(3)、207-213.
[13] 野村裕、新村秀一(1979).急性心筋梗塞の予後、医学のあゆみ、110-13、871-878.
[14]Y.Nomura & S.Shinmura (1978). Computer assisted prognosis of acute myocardial infarction, MEDINFO 77, Shires / Wolf, editors IFIP 517-521, North Holland Publishing Company.
[15] L.B.ラステッド(野村裕/中村正彦 訳).(1976).臨床診断への新しい道 意思決定の理論と実際.コロナ社.
[16] 川村昇、新村秀一、開原成こと(1979).医学データ解析のための統計プログラムパッケージ.医学のあゆみ、109-11、620-626.
[17]新村秀一、鈴木隆一郎、中西克己(1981).胃X線像の各種判別分析、オペレーションズ・リサーチ、26-1、51-60.
[18]S.Shinmura, T. Suzuki, H. Koyama & K. Nakanishi (1983). Standardization of medical data analysis using various discriminant methods on a theme of breast diseases, MEDINFO 83, J.H. Van Bemmel, M.J, Ball and O. Wigertz editors, 349-352, North-Holland Publishing Company
[19]新村秀一、鈴木隆一郎、中西克己(1983).各種判別手法を用いた医療データ解析の標準化 ― マンモグラフィによる乳癌の診断 ― 医療情報学、3-2、38-50.
[20]清水忠彦、常俊義三、河野洋、新村秀一(1975).光化学スモッグによる自覚症状の分類、大気汚染研究、9-4、734-741.
[21]T.Shimizu, Y.Tsunetoshi, H.kono&S.Shinmura (1975). Classification of subjective symptoms of junior high school students effected by photochemical air pollution.Traslated for NERC-Library,EPA,from the original japanese by LEO KANCER Associates, P.O.Box 5187 Redwood City, California 94063, Nov,1975(TR 76-213)
[22]新村秀一(1980). 丹後論文に対する質問. 医用電子と生体工学、18-6、455-456.
[23]新村秀一(1984).中川、小柳「非線形最小二乗法のソフトウェア」についての討論 ― SASの評価について、情報処理、25-7、697-707.
[24] J.Sall他(2004).JMPを用いた統計およびデータ分析入門.SASジャパン.