Teal abstract honeycomb background with white line art overlay

機械学習

機械学習とは、データから反復的に学習し、そこに潜むパターンを見つけ出すことです。そして学習した結果を新たなデータにあてはめることで、パターンにしたがって将来を予測することができます。これは予測分析におけるモデル構築の自動化につながり、データサイエンティストの人材不足を補うものになると、大きく期待されています。

機械学習では、さまざまなアルゴリズムを用いてデータから反復的に「学習」するため、人間が探すべき場所を明示的にプログラムしなくても、コンピューターが自律的にデータから洞察を導き出せるようになります。

機械学習の進化

新しいコンピューティング・テクノロジーの登場により、今日の機械学習は昔の機械学習とは様変わりしています。機械学習は元々、パターン認識と、特定のタスクを実行するようにプログラミングされなくてもコンピューターは学習できるという理論、この2つからから誕生しました。人工知能に興味を持った研究者たちは、コンピューターがデータから「学習」できるのではないかと考えるようになったのです。機械学習の「反復的」という側面は重要です。なぜなら、新しいデータを処理させるたびに、モデルが自律的に適応していくからです。

モデルが学習した結果を使用して、信頼性・再現性のある意思決定およびその結果をもたらします。

この科学はそれほど新しいものではありませんが、まさに今、新たな勢いを見せています。

機械学習のアルゴリズムは長年にわたり数多く存在してきましたが、ビッグデータに対して複雑な数値計算を自動的に、超高速で、何度も繰り返して適用できるようになったのは、近年のテクノロジーの発展のおかげです。以下に、広く公表されている機械学習の適用事例をいくつか挙げます。すでにご存知のものもあるでしょう。

  • 大々的に宣伝されているGoogleのロボットカー(自動運転車両)。機械学習の本質がそこにあります。
  • AmazonやNetflixなど、オンラインショップのレコメンド機能。日常生活に応用された機械学習の例です。
  • 顧客が自社についてTwitterで何をつぶやいているかの把握。機械学習と言語ルールを組み合わせて判定します。
  • 不正検知。今日の社会における明白かつ重要な機械学習の用途のひとつです。

 

 

機械学習の基本

機械学習とは何であり、なぜこれほど注目されているのでしょうか?この簡潔なビデオでは、SASが提供する機械学習テクノロジーに関する基本中の基本として、実現できる機能、動作の仕組み、ビジネス運営に及ぼす影響をご紹介します。

機械学習が重要な理由

機械学習への関心が再び高まっているのは、データマイニングやベイズ分析が以前よりも一般的になったのと、同じ理由によるものです。利用可能なデータは増え続け、その形態も多様化しています。また、コンピューターの処理能力も安価になっており、データ・ストレージも低コスト化が進んでいます。

こうした要因の総合的な結果として、「大量の複雑なデータを分析し、より正確な結果をより速やかに提供できるモデル」を自動的に短時間で生成できるようになり、超大規模なデータも扱えるようになったのです。また、正確なモデルを構築することで、企業や組織にとっては収益実現の機会を特定したり、未知のリスクを回避したりできるチャンスが広がります。

 

優れた機械学習システムを作るために必要な要素

  • データ準備機能
  • アルゴリズム(基本的なものと高度なもの)
  • 自動化プロセスと反復プロセス
  • 拡張性
  • アンサンブル・モデル
Machine learning infographic

ご存知ですか?

  • 機械学習では、対象は「ラベル」と呼ばれます。
  • 統計学では、対象は「従属変数」と呼ばれます。
  • 統計学で変数と呼ばれているものは、機械学習では「特徴」と呼ばれます。
  • 統計学で変換と呼ばれているものは、機械学習では「特徴抽出」と呼ばれます。
Teal Abstract Honeycomb Background Art,Backgrounds 84A1005

今日の世界における機械学習

アルゴリズムを活用してモデルを構築し、データ間のつながりを明らかにできれば、人間が介入しなくても意思決定の的確性を高めることができます。ここに示す資料では、私たちが暮らすこの世界の最新動向に機械学習が役立っている事例をご確認いただけます。

White Paper

統計と機械学習

このホワイトペーパーは「Analytics 2014」カンファレンスでのプレゼンテーションを元に、機械学習の主な概念を解説した上で、データ・サイエンティストが大規模な機械学習を実行する方法を紹介しています。

要旨を読む

Summary Report

機械学習 + ウェアラブル医療機器

この2つのテクノロジーの連携は、患者にどのようなメリットをもたらすのでしょうか?機械学習とウェアラブル機器の組み合わせによって診断を迅速化し、的確な医療を低コストで提供しようとする取り組みをご紹介します。

要旨を読む

Webinar icon

機械学習とディープ・ラーニング

このオンデマンドWebセミナーでは、これまで多くの人工知能アプローチが失敗を喫してきた領域で驚異的な成功を収めているディープ・ラーニングについて、SASのデータ・サイエンティストであるパトリック・ホール(Patrick Hall)が解説します。

Webセミナーを視聴

Article icon

機械学習のIoTへの適用

機械学習は高度な効率化のために活用できますが、特に効果を発揮するのがモノのインターネット(IoT)に適用する場合です。「SAS Insights」の記事で詳細をご確認ください。

要旨を読む

業種別用途

今や、大量のデータを扱う業種のほとんどにおいて、機械学習テクノロジーの価値が認識されています。こうしたデータから(多くの場合はリアルタイムで)洞察を導き出すことにより、業務効率の向上や競争優位性の獲得に結びつけることができます。

金融

銀行をはじめとする金融業界の企業は、機械学習テクノロジーを2つの大きな目的、すなわち「データに潜む重要な洞察の特定」と「不正の防止」のために活用しています。データから得られる洞察は、投資機会の特定や、投資家による取引タイミングの判断に役立ちます。データマイニングを用いてハイリスクな顧客を特定する場合や、サイバー監視機能を用いて不正の兆候をピンポイントで警告する場合にも、機械学習は効果を発揮します。

官公庁

公安・治安や公益事業などの政府機関は、複数のデータソースから洞察を導き出す必要があることから、機械学習のニーズが特に高くなっています。例えば、センサーデータを分析すれば、効率向上とコスト削減の方法を特定できます。機械学習は、不正の検知や、ID窃盗被害の最小化にも役立ちます。

医療

医療業界でも機械学習は急成長中のトレンドです。ウェアラブル機器やセンサーの普及により、データを活用して患者の健康状態をリアルタイムで把握できるようになっているおかげです。機械学習は、医療専門家がデータ分析を通じて診断や治療の改善につながる傾向やレッドフラッグ(赤信号)を特定する取り組みにも効果を発揮します。

マーケティングと販売

購入履歴にもとづいて顧客が好むと思われる品目をお勧めするWebサイトでは、機械学習を活用して購入履歴を分析した上で、顧客が関心を持つであろう品目を予測しています。データを収集して分析し、ショッピング体験のパーソナライズ(またはマーケティング・キャンペーンの実施)に活用できる機能は、かつて想定されていた「小売業の未来」そのものです。

石油・ガス

新たなエネルギー資源の発見。地中深く眠る鉱物資源の分析。精製所におけるセンサー故障の予測。石油流通の合理化による効率と費用対効果の改善。この業界における機械学習の用途は膨大な数に達しており、まだまだ広がり続けています。

交通運輸

今日の交通運輸業界にとって、データを分析してパターンや傾向を特定する機能は極めて重要です。収益性を向上できるかどうかは、経路指定を効率化したり、予測にもとづいて問題を防止したりできるかにかかっています。機械学習の中でも、特にデータ分析およびモデリングの側面は、運送会社、公共交通機関、その他の交通運輸関連組織にとって重要なツールとなります。

Teal abstract honeycomb background with white line art overlay

 

パターン認識の活用

機械学習は、さまざまな種類の画像を認識できるため、現在ではパターン認識に広く使われています。例えば米国郵便公社では、機械学習を手書き文字の認識に利用しています。この簡潔なビデオでは、あらかじめMNISTデータ(60,000件の手書き文字)を使って学習させたSASに対して、パターン認識をさせています。機械学習の結果を応用したプログラミングがいかに簡単かをご紹介します。
 

一般的な機械学習の手法

最も広く採用されている機械学習手法は、教師あり学習と教師なし学習の2つです。しかし、機械学習にはこれら以外の手法もあります。ここでは最も一般的な手法の概要を説明します。

教師あり学習アルゴリズムでは、ラベル付きの手本(既知の望ましい出力が決まっている入力など)を使ってトレーニングを実行します。例えば、ある装置に「F」(故障中)または「R」(稼動中)というラベルの付いたデータポイントがあるとします。この学習アルゴリズムは、一連の入力とそれらに対応する正しい出力を受け取り、自分(アルゴリズム)の出力と正しい出力を比較してエラーを検出します。これが学習です。そして、自力でモデルに適切な改良を加えます。教師あり学習では、分類、回帰、予測、勾配ブースティングなどの手法により、ラベルの付いていないデータのラベル値をいくつかのパターンを使って予測します。教師あり学習は一般に、過去のデータから将来起こりそうな事象を予測する用途に使われます。例えば、クレジットカード取引に不正の疑いがあるケースや、保険金請求を行いそうな保険契約者を特定することが可能です。

教師なし学習は、履歴ラベルが存在しないデータに対して使われます。この手法では、学習アルゴリズムに「正しい答え」が与えられません。アルゴリズム自身が、データの意味を突き止めなくてはなりません。この手法の目的は、データを探索してその内部に何らかの構造を見つけ出すことです。教師なし学習は、トランザクション・データに対して有効です。例えば、よく似た属性値(の組み合わせ)を持つ顧客のセグメントを特定すれば、マーケティング・キャンペーンでそのセグメントに特化した活動を展開できます。また、顧客セグメントを区別する主要な属性値(の組み合わせ)を明らかにすることもできます。一般に使われる手法には、自己組織化マップ(SOM)、近傍法マッピング、k平均法クラスタリング、特異値分解などがあります。これらのアルゴリズムは、テキストトピックのセグメンテーション、商品のレコメンド、データの外れ値の特定などにも利用されています。

半教師あり学習は、教師あり学習と同じ用途に使われます。ただしこの手法では、ラベル付きデータとラベルなしデータの両方を使ってトレーングを行います。典型的なのは、少量のラベル付きデータと大量のラベルなしデータを使うケースです(ラベルなしデータの方が入手にかかる費用も労力も少なくて済むため)。この学習手法は、分類、回帰、予測などの手法と組み合わせて利用できます。半教師あり学習は、ラベル付きデータのみでトレーニングを行おうとするとコストが高くなりすぎる場合に有用です。この学習の初期の応用例としては、Webカメラの顔認識が挙げられます。

強化学習は、ロボット工学、ゲーミング、ナビゲーションでよく使われます。強化学習のアルゴリズムは、どの行動が最大の報酬を生み出すかを、試行錯誤を通して突き止めます。この学習手法には、エージェント(学習者または意思決定者)、環境(エージェントと相互作用する全てのもの)、アクション(エージェントが行える行動)という3つの主な構成要素があります。エージェントにとっての達成目標は、限られた一定の期間で見込まれる報酬が最大になるような行動を選ぶことです。エージェントは、より適切な方針(ポリシー)に従うほど、より速やかに目標を達成できます。つまり、強化学習の目的は、最良の方針(ポリシー)を学習することです。

人間は1週間に1つか2つのモデルを作ることができますが、機械学習なら数千個です

トーマス・H・ダベンポート(Thomas H. Davenport)、アナリティクス分野のソートリーダー
「ウォール・ストリート・ジャーナル」寄稿記事からの引用

データマイニング、機械学習、ディープ・ラーニングの違い

これら3つの手法は、「意思決定に役立つ洞察、パターン、関係を導き出す」という目標こそ同じですが、アプローチと機能はそれぞれ異なります。
 

Data mining infographic

データマイニング

データマイニングは、データから洞察を導き出すために使われる多くの異なる手法の上位集合と考えることができます。従来の統計手法と機械学習も含まれると考えてよいでしょう。データマイニングでは、多くの異なる領域で培われてきた手法を適用することにより、以前は知りえなかったパターンをデータから浮き彫りにします。具体的な手法としては、統計アルゴリズム、機械学習、テキスト分析、時系列分析、他の領域のアナリティクスなどが考えられます。データマイニングの領域には、データ・ストレージやデータ操作に関する研究と実践も含まれます。

Machine learning infographic

機械学習

機械学習の目的は、十分に理解されているデータに理論分布を当てはめる統計モデルと同様に、データの構造を理解することですが、両者には大きな違いがあります。統計モデルの場合は、数理的に実証済みの理論がモデルの背後に存在していることから、データが特定の強固な前提条件を満たしていることが必須となります。一方、機械学習では、「たとえデータの構造に関する理論が明らかではない場合でも、コンピューターを使ってデータを精査すれば、その構造を探ることができる」という概念にもとづいてモデルを構築します。機械学習モデルにおけるテスト(検定)とは、新たなデータに関する検証エラーを見つけることであり、帰無仮説を証明する理論的検定ではありません。【※訳注:帰無仮説とは、主張したい仮説の逆、つまり最終的には誤りであると想定して立てる仮説のこと。これを棄却(否定)することによって、本来意図した仮説を証明することができる。】機械学習では反復アプローチを用いてデータから学習する場合が多いため、学習プロセスの自動化が容易です。確固としたパターンが見つかるまで、何度でもデータ処理を繰り返すことができます。

 

Deep learning infographic

ディープ・ラーニング

ディープ・ラーニングは、高度なコンピューティング性能と特別なタイプのニューラル・ネットワークを組み合わせ、大量データの中に潜んでいる複雑なパターンを学習します。画像内のモノや音声内の単語を識別する用途に関しては、ディープ・ラーニングが現時点で最先端の技法です。研究者たちは今、パターン認識におけるこれらの成功を、自動翻訳や医療診断、その他の重要な社会問題やビジネス課題といった、より複雑なタスクに適用する方法を探っています。

仕組み

機械学習の価値を最大限に引き出すためには、最良のアルゴリズムを適切なツールやプロセスと組み合わせる方法を知る必要があります。SASは、統計とデータマイニングの分野で積み上げてきた豊富で洗練された自社の資産を、最新のアーキテクチャと組み合わせることで、どのような規模の企業のどのようなモデルも十分に高速に処理される環境を提供することができます。

 

アルゴリズム:機械学習モデルの構築と反復的な機械学習プロセスの導入を、SASならではのグラフィカルな操作画面で行うことができます。統計の高度な知識は必要ありません。SASが提供する包括的な機械学習アルゴリズム群は、ビッグデータから価値を素早く引き出すために役立ちます。これらのアルゴリズムは多くのSAS製品に含まれています。SASの機械学習アルゴリズム群には、以下が含まれます。

ニューラル・ネットワーク
 
決定木
 
ランダムフォレスト
 
アソシエーションとシーケンスの発見
 
勾配ブースティングとバギング
 
サポート・ベクター・マシン(SVM)
 
近傍法マッピング
 
k平均法クラスタリング
 
自己組織化マップ(SOM)
 
 
局所探索最適化手法(遺伝的アルゴリズムなど)

期待値最大化法

多変量適応型回帰スプライン法

ベイジアン・ネットワーク
 
カーネル密度推定
 
主成分分析(PCA)
 
特異値分解
 
ガウス混合モデル
 
逐次的カバーリング・ルールの構築

 

ツールとプロセス:機械学習はアルゴリズムだけの問題ではありません。ビッグデータから最大の価値を引き出すための秘訣は、対象となる作業に最も適したアルゴリズム群を、以下の要素と組み合わせることにあります。

包括的なデータ品質とデータ管理

 
モデル構築とプロセスフローのためのGUI

 
対話操作型のデータ探索機能と、モデルの結果を視覚化するデータ・ビジュアライゼーション機能
 
異なる機械学習モデルを比較し、最適なモデルを速やかに特定できる機能  
 
 
自動化されたアンサンブル・モデル評価を用いて最も優れたモデルを特定できる機能

容易なモデル展開を通じて、再現可能で客観的な成果を確実かつ迅速に実現できる機能

データから意思決定までのプロセスを一貫して自動化することができる、総合的な統合型プラットフォーム

Back to Top