データサイエンス

概要と重要性

データサイエンスとは、データを活用してインサイトを生み出すことを目的とした学際的な分野です。データマイニングやデータエンジニアリングといったデータに特化した分野とは異なり、データサイエンスは生データを利用可能な情報に変換して、さまざまな用途で生産的に利用するというライフサイクル全体をカバーします。

データサイエンスの発展

データサイエンスの起源をたどるとき、多くの人は1962年に数学者のジョン・テューキー(John Tukey)が自身の代表的な論文「The Future of Data Analysis」の中でこの分野での研究を示唆していたことを思い浮かべるでしょう。その中で彼は、データからの学習を行う「認識されていない科学(unrecognized science)」の存在について述べています。

しかし、データサイエンスは過去よりも現代の世界で考察する方が有益です。処理能力と保存能力の飛躍的な向上によって実現したビッグデータの出現により、企業はデータに隠されたパターンを明らかにし、そのインサイトを意思決定の改善に役立てるという、これまでにない機会を手にすることができました。しかしこれを実現するには、まずデータを収集、処理、分析、共有しなければなりません。このようなデータのライフサイクルを管理することが、データサイエンスの本質です。

今日のデータサイエンスは、ビジネスの世界ではもちろん、それ以外の世界でもいたるところで使われています。ハーバードビジネスレビュー誌では、データサイエンティストを21世紀の最先端の仕事と称しているほどです。データサイエンティストが実践者であるならば、データサイエンスは技術とテクノロジーと言えるでしょう。

製造

最適なモデルを本番環境に導入

建設資材のグローバルメーカーであるUSG社は、高品質の製品を手頃な価格で生産することが求められています。こちらのシートロックメーカーはSAS® Model Managerを導入したことで、最適な原材料の配合を特定し、目標達成のためほぼリアルタイムで生産プロセスを調整できるようになりました。

今日の世界におけるデータサイエンス

現代におけるデータサイエンスの世界を覗いてみましょう。

データサイエンスのエクスペリエンス

ビデオや記事、シチズンデータサイエンティストによるオンデマンドのウェビナーで、データサイエンスの実例を検討できます。

SAS®とオープンソースの統合による分析イノベーションの推進

この電子書籍は、データサイエンスにおいてオープンソースソフトウェアとSASを統合することで、現代の組織に革新をもたらすための指針を記載したものです。

データサイエンスと説得の技術

このハーバードビジネスレビューによるウェビナーの要約では、データサイエンスチームがより大きな成功を収めるためには何をすべきか、データサイエンティストが全体的な効果を高めるために身につけるべきスキルは何かについて説明しています。

データサイエンスのリソースハブ

このリソースセンターには、ビデオ、記事、ウェビナー、その他の学習資料など、データサイエンティストとしてのトレーニングを補足する教材が豊富に用意されています。実践的なトピックとしては、データストーリーテリング、科学的調査、データサイエンスの面接の受け方などがあります。

Gartner社のMagic Quadrant for Data Science

さまざまなデータサイエンスプラットフォームがどのように位置づけられるのか興味がありませんか?Gartner社のMagic Quadrant for Data Science and Machine Learning Platformsでは、上位20製品の比較を行っています。

データサイエンスの利用者

重要なビジネスの機能にデータサイエンスを導入していない業界を探す方が難しいでしょう。ここでは、非常に興味深い事例をいくつかご紹介します。

医療

価値ある医療の実現と創薬サイクルの短縮化を求める声の高まりにより、医療分野におけるデータサイエンスの導入は加速しています。医用画像の分野だけでも、AIとアナリティクスは今や診断精度の向上、医師や放射線技師の増強、患者への治療提供の改善に役立てられています。

小売

小売業者が世界のAmazonに対抗するには、予測分析などのデータサイエンス技術を用いて顧客のニーズを迅速に満たすことが必要です。予測分析を行うことが、需要レベルの予測、需要変動の管理、サプライチェーン全体の傾向と関係性の相関の把握に繋がります。

官公庁/公共機関

政府機関における意思決定の量と複雑さが増すにつれ、政府機関は意思決定の正確性、公平性、スピードを向上させるためにデータサイエンスを活用するようになっています。世界各国の政府機関が、毎日何百万件もの重要な意思決定にアナリティクスを活用している様子をご覧ください。

銀行・金融

銀行にとって、データサイエンスは単なるトレンドではなく、ビジネスの進め方に関わるものです。不正行為の検出、顧客情報の収集、リスク管理など、さまざまなケースでデータサイエンスは重要なビジネス上の意思決定の原動力となっており、混沌とした金融情勢の中で競争上の差別化要因となっています。

データサイエンスのアウトプット

データサイエンスが組織に与えるさまざまな影響を理解するためには、一般的なデータサイエンスの目標と成果物を検討することが有益です。

  • 予測(資産の破綻時期予測)
  • 分類(新規または既存顧客)
  • 提案(必要に応じた提案)
  • 異常検出(不正購入)
  • 認識(画像、テキスト、音声、動画など)
  • 実用的なインサイト(ダッシュボード、レポート、ビジュアル)
  • プロセスと意思決定の自動化(クレジットカードの承認)
  • スコアリングとランキング(信用度)
  • セグメンテーション(ターゲットマーケティング)
  • 最適化(製造の改善)
  • 予測(売上や収益の予測)

モデルの選択、展開、管理について理解を深め、データサイエンス業務を強化したいと考えている方には、AIや機械学習のトレーニングを増やすことが理想的でしょう。 Ronald van Loon Principal Analyst CEO of Intelligent World

複合的AI

現在、ほとんどのAIプロジェクトが複数のデータサイエンス技術を使用しています。Gartner社によれば、さまざまなAI技術を組み合わせて最善の結果を実現することを「複合的AI」と呼びます。

複合的AIではまず問題から着手し、適切なデータやツールを適用してこれを解決していきます。しばしば、これは、機械学習、統計、高度な分析、データマイニング、予測、最適化、自然言語処理、コンピュータビジョンなどのデータサイエンス技術などの組み合わせになります。

複合的AIは、データサイエンスと同義語になりつつあります。それは、適切なAIテクノロジーを使用することが必ずしも一筋縄ではいかないからです。適切なAIテクノロジーを選定するには、解決しようとしているビジネス上の問題と、それを解決するために利用できるデータを深く理解する必要があります。このビジネスとテクノロジーの専門知識の組み合わせこそが、データサイエンスの本質なのです。

データサイエンスの仕組み

データサイエンスでは、構造化/非構造化データから意味のある情報を導き出すために、複数のツールやテクノロジーを使用します。ここでは、生の情報をビジネスの変革に繋がるインサイトに変えるために、データサイエンティストが使用する一般的な手法を紹介します。

データ管理とは、データを管理して組織の潜在能力を引き出すことです。データを効果的に管理するには、データ戦略と、データアクセス、統合、クレンジング、管理、保存、分析のための準備を行う信頼性の高い方法が必要です。

機械学習は、分析モデルの構築を自動化します。教師なし機械学習では、テクノロジーがどこを見て何を結論づけるかを明示的にプログラムされていなくても、ニューラルネットワーク、統計学、オペレーションズリサーチ、物理学などの手法を用いて、データに隠されたインサイトを見出します。

ニューラルネットワークは、人間の脳の働きにヒントを得た機械学習の一種です。ニューロンのように相互に接続されたユニットで構成されるコンピューティングシステムで、外部からの入力に反応して情報を処理し、各ユニット間で情報を中継します。

深層学習は、処理ユニットを何層にも重ねた巨大なニューラルネットワークを使用し、計算能力の進歩と学習技術の向上を利用して、大量のデータから複雑なパターンを学習します。一般的な用途としては、画像認識や音声認識などがあります。

コンピュータビジョンは、パターン認識と深層学習を利用して、画像やビデオの中にあるものを認識します。機械が画像を処理、分析、理解できるようになると、画像や動画をリアルタイムで撮影し、周囲の状況を解釈することができるようになります。

自然言語処理とは、コンピュータが音声を含む人間の言語を分析、理解、生成する能力のことです。自然言語処理(NLP)の次の段階は自然言語対話処理であり、人間が日常言語を使ってコンピュータと通信し、タスクを実行することができるようになります。

データのビジュアル化とは、データを分析しやすいように絵やグラフ形式で表示することです。これは、組織がデータサイエンスの成果に基づいてビジネス上の意思決定を行う上で特に重要です。

データサイエンスで人気のプログラミング言語

人間が使う言語は多種多様です、このことは、データサイエンティストにも当てはまります。現在、プログラミング言語は何百とありますが、何を達成しようとしているかによって適切な言語は異なります。ここでは、データサイエンスで人気のプログラミング言語をいくつか紹介します。

Pythonは動的セマンティクスを持つ、インタプリタ型でオブジェクト指向な高レベルのプログラミング言語です。その高レベルな内部データ構造を動的タイピングや動的バインディングと組み合わせることで、アプリケーションの迅速な開発だけでなく、スクリプト作成や既存コンポーネントを接続するグルー言語にも非常に魅力的な言語となっています。

Rは、The R Foundation for Statistical Computingが支援する、統計計算およびグラフィック用の無料ソフトウェア環境です。R言語は、統計学者やデータマイナーによって統計ソフトの開発やデータ分析に広く使用しています。

SQLは、リレーショナルデータベース管理システム(RDBMS)に保存したデータの管理やリレーショナルデータストリーム管理システム(RDSMS)におけるストリーム処理を行うために設計された、プログラミング用のドメイン固有言語です。構造化データ、つまりエンティティや変数の関係を組み込んだデータの処理で特に威力を発揮します。

SASは、世界で何十万人ものデータサイエンティストに信頼されているプログラミング言語です。SAS Viyaプラットフォームでは、あらゆるテクノロジーシステムのメリットとお使いのプログラミング言語を組み合わせ、より優れた分析モデルの開発および展開を実現します。SAS Viyaが、モデリングのるつぼをよりスマートな意思決定へと変える方法をご確認ください。

次のステップ

データサイエンスを学びたいのであれば、SASがおすすめです。

データサイエンスソリューション

SAS Viyaのデータサイエンス製品には、堅牢なデータ管理、可視化、高度な分析、モデル管理機能が搭載されており、あらゆる組織のデータサイエンスを加速します。

SAS Visual Data Mining and Machine Learningは、単一かつ統合型の共同ソリューションで非常に複雑な分析問題を解決します。今回は独自の自動モデリングAPIが搭載されました。

SAS Visual Analyticsは、対話式でレポートを素早く作成したり、視覚的な表示でデータを確認したり、セルフサービスで分析を行ったりするための手段を提供します。

これらのソリューションやその他のソリューションは、最新のスケーラブルなクラウド対応アーキテクチャ上で動作するSASの市場をリードするデータサイエンスプラットフォームであるSAS Viyaによって提供されます。