機械学習入門:よくある5つの誤解

執筆:キンバリー・ネバラ(Kimberly Nevala)、SASベストプラクティス部門

新しいデータソースが豊富に利用されるようになり、大規模なリアルタイム処理に対応したアナリティクス・プラットフォームも登場していることから、機械学習が表舞台に躍り出てきました(機械学習そのものは新しい概念ではなく、1950年代から研究が始まっています)。それとともに、勘違いや誤解、さらには恐怖心までもが巷に溢れるようになっています。

1本の記事でこの問題全体を考察し、機械学習(マシン・ラーニング)の包括的な入門をお届けするのは無理ですが、統計分析の専門家ではない人々にありがちな5つの誤解について真実をお伝えすることはできます。

機械学習に適している課題とデータには特徴があります。簡単に言うと、(分析対象の)解釈よりも(分析結果の)精度の方が重視されるような課題と、従来の分析手法では問題が生じるようなデータです。

1. 誰にとってもブラックボックス

従来のほとんどの統計モデルの場合とは異なり、機械学習アルゴリズムで作成するモデルは非線形のものが多く、モデルを定義するルールやパラメータの数は数千(場合によっては数十億)にも達します。つまり、「A+B=C」が常に成り立つとは限りません。

実のところ、具体的にどのような処理経路をたどるのかは、データ・サイエンティストにとってもブラックボックスなのです。これは、相手の思考プロセスや論理の組み立て方を理解していなくても、関係が親密であれば、たとえ動機や思考プロセスに全く捉えどころがない(または少なくとも、そのように見える)としても、その行動を予測できる場合が多いことと似ています。実際、突飛に思える行動の裏に緻密な計算がある場合でも、即座に理解できる明快なものとは限りません。例えば、ニューラル・ネットワークの厳密な処理経路を追跡するのは容易ではありません。それよりも重要な疑問は、「目下の課題に対してアルゴリズムや手法が適切に適用されているのか?」ということです。そして、これは次の誤解につながります……

2. 論より証拠(または「信じよ、されど検認せよ」)

ブラックボックスの処理を受け入れることと妄信することを混同してはなりません。アナリティクスのメカニズム(おそらく、より正確には処理経路)が明確ではなく、再現も容易でないとすれば、結果をどのように検証すればよいのでしょうか?機械学習に関しては、その答えは拍子抜けするほど単純です。そのアルゴリズムは、将来の事象を正確に予測するでしょうか、あるいは、望ましい結果を導くでしょうか?その出力は役に立つでしょうか?

これが全てであり、それ以上でも以下でもありません。機械学習が適切に実行されたかどうかの判断は、「複雑な手法、使える結果」というキャッチフレーズに象徴されると言えます。ここでもう1つ重要なポイントは、機械学習は補助的な活動としてではなく、アナリティクスにもとづく発見に不可欠な要素として取り組む必要がある、ということです。

Patrick Hall Data Scientist

機械学習の専門家でもあるデータ・サイエンティストのパトリック・ホール(Patrick Hall)が、Webキャストで機械学習の基本を説明しています:Machine Learning: Principles and Practice(機械学習:原則と実践)(英語)

3. 金づちは釘だけに使え(万能のツールはない)

機械学習はアナリティクスのツールボックスに入っているツールの1つにすぎません。どのようなツールでもそうですが、よく考えて使わないと、「ハンマーしか持たない人には、全てが釘に見える」という格言どおりの罠にはまってしまいます。機械学習は学術界から生まれてきたため、早期の導入者たちは、従来の統計アルゴリズムなら容易に解決できる課題に対し、膨大な時間と手間を投じる結果に甘んじることも珍しくありませんでした。

機械学習に適している課題とデータには特徴があります。簡単に言うと、(分析対象の)解釈よりも(分析結果の)精度の方が重視されるような課題と、従来の分析手法では問題が生じるようなデータです。例えば、画像内の物体を認識する課題を考えてみましょう。この場合に重要なのは、あなたがモデルの動作原理を理解できるかどうかではなく、モデルが新しい画像の中にある特定の文字や物体を認識できるかどうかでしょう。画像のデータセットは「深さ」よりも「広さ」が相当に大きい場合があり(高解像度画像ではピクセル数が多いため)、また、多くの相関変数を含んでいる可能性があります(近くにあるピクセル同士は値も近似している場合が多いため)。幅が広いデータや相関度が高いデータは、従来の回帰分析では問題が生じる恐れがあります。

4. 過ぎたるは往々にして及ばざるが如し

機械学習では、単純なアルゴリズムでデータが多い場合の方が、複雑なアルゴリズムでデータが少ない場合よりも、データセットが大きくなるとダーティー率がいくぶん高まることを考慮しても、優れた結果につながるケースが少なくありません(機械学習アルゴリズムにかけるデータに前処理が不要だと言っているわけではありません)。とにかく、この点に関しては注意が必要です。

経験の浅いデータ・サイエンティストの目には、複雑なものほど優れていると映るかもしれません。あるいは、正確性が高いほど優れていると。しかし、現実の用途の多くでは、モデルの正確性をわずかに改善ところで、運用結果の改善に直結するわけではありません。データや特徴を増やしてもアルゴリズムが必要以上に複雑になるだけ、という場合もあります。データ・サイエンティストの「競いの場」として有名なKaggleのコンテストと現実世界との間には大きな違いがあるのです。複雑性と実用性の間でうまくバランスを取る必要があります。落としどころの見極めについては、上の「2. 論より証拠」をご覧ください。

(さて、おそらく統計分析の専門家は、次の5つめの点を一般の人々には知られたくないと思っているでしょうが、私は重要なことだと思いますので続けます)

機械学習を活用してビッグデータから有益な情報を導き出す方法とは?

5. 人間は応用を歓迎する

確かに、機械学習という手法は捉えどころがなく、謎めいて見えることも多いでしょう。しかし、機械学習のアルゴリズムがブラックボックスであるとは言っても、機械学習を実践する際には、人間が科学的な手法と人間のコミュニケーション・スキルの両方を適用・応用しなければなりません。これは「データを加え、かき混ぜましょう」といった簡単なレシピではありません。人間には、アルゴリズムをプログラミングするデータ・サイエンティスト以上に、次のような質問に答えを出すことが求められます。

  • 何を予測しようとしているのか?これは特徴エンジニアリングに影響します。つまり、取り込んで分析するデータが何かを決めなければなりません。
  • 結果はどのように応用できるのか?機械学習は、何をすべきかを判断するのは得意ですが、どのように行うべきかを定義するのは必ずしも得意ではありません(初期のロボット工学を悩ませた課題です)。
  • 適切な反応は何か?例えば、世界規模の健康や政治に悪影響を及ぼすようなパターンが出現した場合、次に取るべき適切なステップは何でしょうか?
  • 結果は期待に添ったものか?対処すべき例外はあるか?スタンフォード大学とGoogleによるコンピューター・ビジョンの共同研究を考えてみてください。驚くほど優れたものでしたが、完璧ではありませんでした。ヤギをイヌ、一面のチューリップを無数の熱気球と誤認したこともありました。これらはその後に公表された(認識精度が向上したモデルでの)識別ミスに比べれば見当違いすぎる失態ではありますが、ミスの理由が腑に落ちないこともないでしょう。
  • モデルを現実の用途に適用する際に大規模なチューニングが必要になるか?

最後に結論です。本稿は機械学習のごく簡単な紹介にすぎませんが、1つだけ確かなことがあります。それは、現在の機械学習はまだ、人間と「機械」のコラボレーションの産物の域を脱していない、ということです。


Kimberly Nevala

キンバリー・ネバラ(Kimberly Nevala)は、SASベストプラクティス部門のビジネス戦略担当ディレクター。ビジネス・インテリジェンスおよびアナリティクス、データ・ガバナンス、マスターデータ管理の領域で、業種別の教育、主要顧客向けの戦略、市場分析を統括しています。戦略的な顧客およびデータ管理プログラムの開発・導入に関する顧客への助言、およびミッションクリティカルなプロジェクトの管理に関して15年以上の経験があります。

Back to Top