コラム「SAS/JMPとの歩み」

第3回 SASのミニコン版代理店と
システムインテグレータとしての
事業展開

成蹊大学 経済学部教授
新村秀一

9.SASのミニコン版代理店(1985年~1989年)

9.1 ソフトウエアの価格

1984年頃に当時のSASジャパン社長の辻本氏の訪問を受けました.要件は、SASのミニコン版が汎用機版に比べ営業マンが販売に苦戦しており、SCS社に代理店になってほしいという依頼でした.私はかねてより予感していたので引き受けることにしました.ソフトウエアの価格は、稼働機種のハードウエア価格の制限を受けます。汎用機で成功したソフトウエアは、ミニコン版では価格をミニコンのハードウエア価格に合わせて汎用機と同じ機能でも価格を低く抑えなければなりません。それがPC版になると、汎用機版の価格体系を破壊的に創造する必要があります。

SASの創業者の一人のJohn Sall副社長がJMPを開発したことは理にかなっています。もしJMPが開発されなければ、私見ながら汎用機やミニコン市場を捨ててPCに特化したSPSS社の戦略に負けてPC市場を失っていたことでしょう。SASは企業向けのシステム開発として汎用機からWSまで、JMPは研究者や個人を主体としたPC市場と住み分けた方が全体としての販売戦略として良いと思います。その場合、大学教育にも工夫が要ります。理工学部や医学部を擁する大学へは、将来統計機能を含むシステム開発を見据え、PC版SASを提案し、文科系学部の優位な大学ではJMPを提案して住み分けるべきでしょう。その上で、SASとJMPの機能の互換性をさらにはかり、企業のSASユーザーが個人的にJMPのユーザーになり、大学でJMPの教育を受けた学生が社会人になりSASへ比較的移行しやすくすべきでしょう。

数値計算とグラフ機能を含む数学ソフトのSpeakeasy[24]は、早い時点で配列、行列、時系列、集合の4つのオブジェクトに対し各種演算機能をもっていて、数値計算ソフトのMatLabや数式処理ソフトのMathematicaの源流です。川崎製鉄所の水島製鉄所で開かれたOR学会の中国支部の研究会で、数理計画法ソフトLINDO[25]に関する発表の講師に呼ばれました。その後の見学会で、富士通汎用機で稼働する製鉄システムのアプリケーションの一つとして、Speakeasyが数値計算のシステムに使われている説明を受けた際、SAS/IMLを使用すれば、そのシステムに統計処理も組み込めるとコメントしたことがありました。私は、当時一部の大学の研究者からSAS坊と呼ばれていた所以でもあります。

Speakeasyは汎用機で成功していたためPCへの対応に乗り遅れ、MatLabやMathematicaに完全に負けていたソフトウエアでした。それにもかかわらず、1989年にSCSがSpeakeasyの代理店になったのはアルゴンヌ研究所の原子力研究者で、有馬元文部大臣の研究仲間であり、能などの日本文化にも造詣の深い創業者のStan博士の人柄にほれたことと、Mathematicaなどに比べ使いやすく価格が安いためでした。結局、PC市場戦略の遅れにより、Speakeasyの販売は不成功といわざるをえません。

9.2 販売体制

SASのミニコン版の代理店の件を上司の役員に相談すると、「君の趣味に使っていい社員は2人、いや4人まで、ただし東京ガスなどの重要顧客の課員を課長に無理を言って使わないこと」と釘を刺されました。内心私は「4人も使っていいのか」と安堵しました。また、ソフト販売に必要な資質はSEやプログラマーのそれとは違うと考えていました。そこで、ブラブラ部長の私と市川君の2人で立ち上げることとし、SASなどの受託営業をやっていた塗課長と事務職で事務処理を行う体制にしました。ただし、SASの膨大なテクニカル資料の翻訳を私がやっているわけにはいかなくなり、私の席の前に英語のできる女性2名を配置し、翻訳させることを2年ほど行いました。

SASのミニコン版は、DEC、DGとPrimeという米国のミニコン御三家の版がありました。これらの日本法人と打ち合わせをもち、デモ用のミニコンを各社のセンターで無償利用させてもらうことと、各社の営業部隊と共同で販促の営業を行いました。私が発表用のスライドの原稿を作成し、市川さんが完成スライドにリメイクしました。そして、彼が3社のミニコンを器用に操作し、私が説明を行うという全国行脚を行いました。また品質管理の学会誌[26]や数誌の商業誌への寄稿を行いました[27-33]。

しばらくして市川さんがDECのパフォーマンスが群を抜いているので、DECに絞りませんかと提案してきました。しかし、SAS社からは3社の販売を期待されているので、半年ほど悩んだ末、DECに営業を注力することにしました。そして、DECのミニコンとSASの販売を行うSIサービスを行うことにしました。DECと交渉すると、すでに住商エレクトロニクス㈱が代理店なのでここから仕入れてほしいということで、ミニコンのサポート要員を増やす必要がないので受け入れました。最初は業種を区別なく行っていましたが、製薬企業の臨床試験部門からの問い合わせが増えてきました。製薬企業向けの営業に注力しました。比較的早い時期のユーザーに科研製薬㈱があります。納品後、渡辺さんが面白いものを見せますということで、後でSASレーザーフォームという付加価値製品の切り札になったデモを見せてもらいました。SASの出力結果をお化粧直しし、厚生省へ申請するために、日本語と罫線をレーザープリンターに重ね書きする帳票システムです。科研製薬と契約し販売権を取りました。そして、価格を50万円の売りきりとし、SAS とVAXの購入企業のみに販売することにしました。これらの仕組みづくりとSAS社の製薬担当との共同作業がうまくいき、記憶違いがなければ32社の製薬企業にSAS /VAXを販売し、今日日本の統計ユーザーの中で一番強力な統計解析の専門家集団の誕生に貢献できたと考えています。

9.3 筆の力

SASを統計の個人家庭教師のごとく使用した成果として、単に統計書で勉強していた苦難の20代前半に比べ、学習成果を書籍や論文として発表できるようになりました。

[34]はSASのテクニカルレポートの翻訳を行っていて見つけたJ.Sall博士の回帰分析に関するレポートを本文とし、Goodnight社長の「掃き出し演算子と変数選択法」のテクニカルレポートを付録に付けた翻訳書です。回帰分析から非線形回帰分析、さらに線形計画法で実現できるL1ノルム回帰を重み付き回帰で解説するなど、既存の回帰分析の良書でこれまでに触れられていない広範な内容です。さらに掃き出し演算子の考え方は、それまで100冊以上の内外の統計書に目を通していた私に全く知らない新しい世界を教えてくれました。これはぜひ日本に紹介すべきと意気込み強い意志で朝倉書店と交渉し出版にこぎつけました。[35-36]は、これらに刺激を受けて回帰分析を行列表現で紹介したものです。[37-38]は、掃き出し演算子と変数選択法の解説です。[39]は「オペレーションズ・リサーチ」の編集委員をしていた時、編集長の柳井浩慶応大学元教授から「だれか、筑波で開催された科学万博のデータを入手したので、寄稿しませんか?」といわれ、私が引き受けました。恥ずかしい話、もらった原票の注釈を読まず、来場者数をシャトルバス、団体バス、自家用車で回帰すると、自家用車の回帰係数が8になり、不思議だと指摘しました。後になって、ミニバンを含むことが分かりました。[9]はこのデータを用いて、SASの主要な統計手法を春号の3章で紹介したデータを調べる手法と予測手法にまとめて紹介しています。

私はグラフに関しては詳細に勉強するのが時間の無駄と考えてデフォルト主義を貫いています。ですから[40]は、SASのグラフの基本的な機能でも有用であることを説明しています。

10.太閤殿下の愚行を繰り返す

いま振り返ればSASミニコン版の販売の成功で、少し調子に乗りすぎたようです。曲がりなりにも営業成果が出てきていたので、新規事業部の部長になり、新規事業を行う1年生の新人の部下も増え、彼らに仕事を確保する必要がありました。豊臣秀吉が、日本制定後、朝鮮出兵という愚行の歴史的事実を理解していたのに、それを繰り返してしまいました。

100人くらいのシステム開発の課員(派遣を含む)がいたシステム担当の海野課長から、部長の新規事業を行うにはあと100人の部員がいるといわれていました。彼の判断は正しかったようです。とりあえずは技術者の増員はかなわないので、販売主体で先行し、仮に大きく育てば技術者を後で割り振る予定でした。

しかし私の一生を顧みれば、自分の研究や教育に役立ち現在も手元に残ったソフトウエアは、統計のSAS、数理計画法のLINGO、数学のSpeakeasyに関するものだけです。

11.三宅先生間違いで誤分類数最小化(MNM)基準による最適線形判別関数の研究を行う

東大医学部の開原先生が主催する統計研究会で、他の研究者から三宅さんと呼ばれている先生と知り合いました。研究会終了後、「SPSS普及の旗振り役の三宅先生ですか?」ということで名刺交換すると日本医科大学の数学科の三宅章彦教授でした。その後、彼の研究中を手伝うことになりました。

最初の研究は、判別分析の標本誤分類確率と母誤分類確率の関係に関する研究です。データ数が少ないほど、説明変数が多いほど、標本誤分類確率は母誤分類確率に比べ過小評価されることを、母誤分類確率を0.5から0の間で変えて標本誤分類確率の5%点から95%点をグラフで分かり易く説明した論文を三宅先生がDijonの学会で発表されました[41]。

ここで母誤分類確率を0.5から0の間でとっていることは、判別分析を正しく知る上で重要です。線形判別分析は、2群が正規分布し分散共分散が等しいというFisherの仮説から出発します。この場合、2群の平均がm1とm2で分散共分散がσであるとすれば、2群は正規分布f1(m1,σ)とf2(m2,σ)で表わされます。そして,判別境界はf1(m1, σ)= f2(m2,σ)であり、群1を群2に間違う誤分類確率e12と、群2を群1に間違う誤分類確率e21とすれば、e12= e21になり、誤分類確率はe= e12+ e21になります。そしてFisherの線形判別関数の誤分類確率eは、判別境界を動かして得られる誤分類確率の中で最小になります(e=MNM)。しかし、現実のデータはFisherの仮説をほどんと満たさないので、この前提が崩れてしまいます。SASに限らず統計ソフトはこの前提から出発しているので、分析に用いた2群のケース数が等しくなくても等確率と考えて計算することをデフォルトとしています。ケース数に比例して考える場合は、事前確率をp1とp2として、事前確率のオプションを指定することで使い分けています。この場合、判別境界はp1*f1(m1, σ)= p2 *f2(m2,σ)になります。さらに医学診断からの影響と考えていますが、正常群を群1とし、異常群を群2とすれば圧倒的に正常群が多いことになります(p1>p2)。しかし異常群を間違って誤分類するリスクが高くなるので、その程度をリスク(r1<r2)として、判別境界をr1*p1*f1(m1, σ)= r2* p2 *f2(m2,σ)で考えます。最初の段階だけが確率分布の議論で、事前確率やリスクを導入したものは、恣意的に正規確率分布を何倍かして変形していることを忘れている人が多いようです。私の誤分類数最小化基準は事前確率を考えた分析で、試験の合否判定を実証研究しました。合否判定は自明な誤分類数が0の判別問題です。得点分布の10%未満を不合格、10%点以上を合格とした合否判定で、LDFで誤分類確率が0.3、2次判別関数が0.9という驚くべき結果が出ました。その時、旧知の統計の教官が誤分類確率は0.5を超えないのではといったのに驚きました。この結果から、少なくとも3つの異なった誤分類確率が得られることと、データはFisherの仮説を満たさないので判別境界を動かすと統計ソフトの出力結果より良い判別結果が得られることを理解すべきです。また、判別結果をROCで描いて評価すれば、判別境界の変化に対応した判別結果の評価と、異なった判別手法の評価にも利用できます。

最近、若手研究者で判別境界をどう選択すれば、誤分類確率を最小化できるかの研究を行っている例も見られますが無駄な試みであることを理解すべきです。

12.CPDの3群判別と多重共線性[42]

鈴村産婦人科教授の自然分娩、かんし分娩、帝王切開という分娩法を予測する研究では、主として帝王切開するか自然分娩にするかの簡便法を鈴村教授が考案しました。これを出産の前に得られる計測値から判別し予測に役立てようという研究です。このデータは多重共線性があり、3個の計測値を省けば多重共線性が解消されることが分かりました。これはSASの誇る全ての説明変数の組み合わせで回帰モデルを検証できるRSQUAREプロシジャで分析しました。19個の説明変数があるので、自然分娩群と帝王切開群を1/-1のダミ変数として分析すると、(219-1)≒ 220/2=10242/2=524288個のモデルが検証できます。IBMの汎用機で日中処理依頼をしました。しばらくして、計算センターから親会社の経理処理の業務に多大な影響を及ぼすのでキャンセルし夜間処理に回してほしいということです。私の趣味で会社の高価なIBM機を使用したので、本来であれば始末書を出すべき内容です。しかしこのデータはその後、私の判別分析の研究に大いに貢献しています。

13.丸山ワクチンと大阪府立成人病センターとの別れ[45-48]

丸山ワクチンの分析を、三宅先生から依頼されました。三宅先生は高校の同窓である東大医学部教授の開原先生に相談したが色々議論した結果、私を推薦したとのことでした。私はすでに大阪府立成人病センターの疫学部の鈴木隆一郎先生、中西克己先生らと、がんの疫学調査の分析を継続し厚生省の梅垣班で数年報告していました。当時大阪府立成人病センターから依頼された研究も行っていました。両先生に状況を説明し、丸山ワクチンの統計分析に特化することにしました。

仕事が終わってから日本医科大学で、夜間に丸山先生の門下生の数名のボランティアの医師と三宅先生らと検討会をもちました。ある薬の薬効を検証するためには、その薬を投与した群と投与しない群を、医者も患者もどちらに割りつけられたかを知らさずに、投与しない群には偽薬を投与して行う2重盲検法が行われています。しかし、丸山ワクチン研究施設にあるデータは、32万件の患者さん全てに丸山ワクチンが投与されています。ある晩、丸山先生が慰労のため参加され、「丸山ワクチンは副作用がないが、水のように効果がない」と批判された悔しさを淡々と説明されました。しばらくして、閃きました。「丸山ワクチンは副作用のない水のようなものであると認めましょう。そして、手術後1年以内に投与開始した患者さんを、3ヶ月単位で4群に分け、それらの生存時間の平均値に差があるか否かを調べましょう。もし水であれば差がなく、早く投与した患者群の生存期間が長ければ、水であるという帰無仮説を棄却できます」ということで研究を始めました。そして術後3カ月以内に投与した群の生存時間が9か月以降1年以内に投与した患者群の平均余命より平均が長いことが分かりました。医療情報学会での発表数日前に、人生で、最初で最後の新聞記者のインタビューを受けました。発表当日は多くのマスコミがくるので事前のインタビューとのことです。ところが多分前日に、認可見送りで有償治験薬の継続が決まってマスコミの騒ぎが収まりました。丸山ワクチンに関しては、その後長期生存例の患者像の特定を試みましたが、どうしても多くの人が納得する成果は得られませんでした。その後、東京大学の大橋先生らがゼリア新薬との共同研究で、PhaseⅡの研究成果を報告されていました[49]。

14.決定木分析と介護保険

決定木分析は、私の人生に深くかかわっています。私の一生の研究テーマである判別分析は、野村医師の作った枝分かれ論理にかなわなかった点です。野村医師は、医学診断の知識に基づいて枝分かれ論理を作成しましたが、統計手法として「決定木分析(パーティション)」で実現できます。そして次が、統計手法が日本の社会的インフラに使われた介護保険です。ただし、私自身がもっと積極的に関与していればよかったのですが、当初混乱を生みました。一つは、分析に用いていない在宅の介護対象にも適用したことです。言ってみれば、対象外の母集団に適用したことです。次に、順序尺度を名義尺度として扱ったことです。最後は、まだ正式には検証していませんが、多分岐のCHAIDが必ずしも2分岐に比べて良いわけではない点です。これは、野村医師から聞かされた「分岐の上位水準で分岐されたものであっても、下位で他の可能性が出てくれば、上位の他の別の分岐にフィードバックする」という経験知が思い出されます。多分岐が必ずしも良くないことと、小標本の場合に回帰木は一元配置の分散分析、分類木の場合は分割表の独立性の検定で行うことは、息子の卒業研究のテーマとして与えました。私の人生で、最初で最後の数時間勉強の面倒を見たのですが、もう少し教育に関与しておけばと反省しています。

文献

[9]新村秀一(1989).易しく実践 データ解析の進め方.共立出版.
[24]新村秀一(1999).パソコン楽々数学.講談社ブルーバックス.
[25]新村秀一(1992).実践数理計画法.朝倉書店.
[26]新村秀一(1987).体験に基づく汎用統計パッケージの紹介.品質、17-3、261-268.
[27]新村秀一(1985).アメリカから吹き寄せる新しい高級言語の風SAS、ソフトウエア流通、28、54-58.
[28]新村秀一(1987).新しい高級言語の風SAS・1-SAS開発の背景-.ビジネスコミュニケーション、24-1、122-125.
[29]新村秀一(1987).新しい高級言語の風SAS・2--.ビジネスコミュニケーション、24-2、
[30]新村秀一(1987).新しい高級言語の風SAS・3-簡単なSASジョブ-.ビジネスコミュニケーション、24-3、133-136.
[31]新村秀一(1987).新しい高級言語の風SAS・4-データ解析について-.ビジネスコミュニケーション、24-4、140-143.
[32]新村秀一(1987).新しい高級言語の風SAS・5-SAS言語の重層構造-.ビジネスコミュニケーション、24-5、135-139.
[33]新村秀一(1987).新しい高級言語の風SAS・6-SAS/本体のプロセジャーについて-.ビジネスコミュニケーション、24-6、108-112.
[34]J. Sall (新村訳)(1986).SASによる回帰分析の実践、朝倉書店、東京.
[35]新村秀一(1983).行列表現による重回帰分析(1)、オペレーションズ・リサーチ、28-9、439-445.
[36]新村秀一(1983).行列表現による重回帰分析(2)、オペレーションズ・リサーチ、28-10、506-512.
[37]新村秀一(1983).重回帰分析における掃出し演算子、オペレーションズ・リサーチ、28-11、565-569.
[38]新村秀一(1983).重回帰分析におけるモデル決定、オペレーションズ・リサーチ、28-12、620-626.
[39]新村秀一(1986).科学万博データの解析、オペレーションズ・リサーチ、30-12、754-766.
[40]新村秀一(1988).データ解析に見るグラフ、オペレーションズ・リサーチ、38-4、172-177.
[41]A.Miyake & S.Shinmura (1976). Error rate of linear discriminant function, F.T. de Dombal & F.Gremy , editors 435-445, North- Holland Publishing Cmpany
[42]新村秀一、三宅章彦(1983).重回帰分析と判別解析のモデル決定(1)― 19変数をもつC.P.Dデータの多重共線性の解消 ― 、医療情報学、3-3、107-124.
[45]新村秀一、飯田和美、丸山千里(1987h).SSM(人型結核菌鯛抽出物質、丸山ワクチン)の癌治療における帰無仮説モデルによる評価.医療情報学、7-3、263-276.
[46]新村秀一、飯田和美、岩城弘子、丸山千里、三宅章彦(1984).SSM(丸山ワクチン)の癌治療における統計的評価、第4回医療情報連合大会論文集、614-619.
[47]飯田和美、丸山千里、新村秀一(1985).SSM(丸山ワクチン)の癌治療における統計的評価の追跡調査、第5回医療情報連合大会論文集、619-622.
[48]新村秀一、飯田和美、三宅章彦、岩城弘子、丸山千里(1985).SSM(丸山ワクチン)の癌治療における統計的評価(2)、第5回医療情報連合大会論文集、623-626.
[49]K.Noda,Y.Ohashi,etal. (2006). Randomized PhaseⅡ Sturdy of Immunomodulator Z-100 in Patients with Stage ⅢB Cervical Cancer with Radiation Therapy. Jpn J Clin Oncol 2006,36(9),570-578.