データサイエンス

概要と重要性

データサイエンスとは、データを活用してインサイトを生み出すことを目的とした学際的な分野です。データマイニングやデータエンジニアリングといったデータに特化した分野とは異なり、データサイエンスは生データを利用可能な情報に変換して、さまざまな用途で生産的に利用するというライフサイクル全体をカバーします。

データサイエンスの発展

データサイエンスの起源をたどるとき、多くの人は1962年に数学者のジョン・テューキー(John Tukey)が自身の代表的な論文「The Future of Data Analysis」の中でこの分野での研究を示唆していたことを思い浮かべるでしょう。その中で彼は、データからの学習を行う「認識されていない科学(unrecognized science)」の存在について述べています。

しかし、データサイエンスは過去よりも現代の世界で考察する方が有益です。処理能力と保存能力の飛躍的な向上によって実現したビッグデータの出現により、企業はデータに隠されたパターンを明らかにし、そのインサイトを意思決定の改善に役立てるという、これまでにない機会を手にすることができました。しかしこれを実現するには、まずデータを収集、処理、分析、共有しなければなりません。このようなデータのライフサイクルを管理することが、データサイエンスの本質です。

今日、データサイエンスは、ビジネスの世界ではもちろん、それ以外の世界でも広く利用されています。ハーバード・ビジネス・レビュー誌では、データサイエンティストを21世紀で最もセクシーな職業と呼んでいます。データサイエンティストが実践者であるならば、データサイエンスは技術とテクノロジーです。

製造

最適なモデルを本番環境に導入

建設資材のグローバルメーカーであるUSG社は、高品質の製品を手頃な価格で生産することが求められています。こちらのシートロックメーカーはSAS® Model Managerを導入したことで、最適な原材料の配合を特定し、目標達成のためほぼリアルタイムで生産プロセスを調整できるようになりました。

今日の世界におけるデータサイエンス

現代におけるデータサイエンスの世界を覗いてみましょう。

データサイエンスのエクスペリエンス

ビデオや記事、シチズンデータサイエンティストによるオンデマンドのウェビナーで、データサイエンスの実例を検討できます。

SAS®とオープンソースの統合による分析イノベーションの推進

この電子書籍は、データサイエンスにおいてオープンソースソフトウェアとSASを統合することで、現代の組織に革新をもたらすための指針を記載したものです。

データサイエンスと説得の技術

このハーバードビジネスレビューによるウェビナーの要約では、データサイエンスチームがより大きな成功を収めるためには何をすべきか、データサイエンティストが全体的な効果を高めるために身につけるべきスキルは何かについて説明しています。

データサイエンスのリソースハブ

このリソースセンターには、ビデオ、記事、ウェビナー、その他の学習資料など、データサイエンティストとしてのトレーニングを補足する教材が豊富に用意されています。実践的なトピックとしては、データストーリーテリング、科学的調査、データサイエンスの面接の受け方などがあります。

Gartner社のMagic Quadrant for Data Science

さまざまなデータサイエンスプラットフォームがどのように位置づけられるのか興味がありませんか?Gartner社のMagic Quadrant for Data Science and Machine Learning Platformsでは、上位20製品の比較を行っています。

データサイエンスの利用者

重要なビジネスの機能にデータサイエンスを導入していない業界を探す方が難しいでしょう。ここでは、非常に興味深い事例をいくつかご紹介します。

医療

バリューベースのケアや創薬サイクル短縮化への要求の高まりにより、ヘルスケア分野へのデータサイエンスの導入は加速しています。医用画像の分野だけでも、今ではAIとアナリティクスが、診断精度の向上、医師や放射線技師の補強、患者ケアの改善に役立っています。

小売

世界のアマゾンに対抗するためには、小売業界は予測分析などのデータサイエンス技術を用いて、顧客のニーズを迅速に満たすことができなければなりません。予測分析を行うことで、需要レベルの予測、需要の変動の管理、サプライチェーン全体の傾向と関係性の相関関係を把握することができます。

官公庁/公共機関

政府機関における意思決定の量と複雑さが増すにつれ、政府機関は意思決定の正確性、公平性、スピードを向上させるためにデータサイエンスを活用するようになっています。世界各国の政府機関が、毎日何百万件もの重要な意思決定にアナリティクスを活用している様子をご覧ください。

銀行・金融

銀行にとって、データサイエンスは単なるトレンドではなく、ビジネスの進め方に関わるものです。不正行為の検出、顧客情報の収集、リスク管理など、さまざまなケースでデータサイエンスは重要なビジネス上の意思決定の原動力となっており、混沌とした金融情勢の中で競争上の差別化要因となっています。

データサイエンスのアウトプット

データサイエンスが組織に与えるさまざまな影響を理解するためには、一般的なデータサイエンスの目標と成果物を検討することが有益です。

  • 予測(資産の破綻時期予測)
  • 分類(新規または既存顧客)
  • 提案(必要に応じた提案)
  • 異常検出(不正購入)
  • 認識(画像、テキスト、音声、動画など)
  • 実用的なインサイト(ダッシュボード、レポート、視覚化)。
  • プロセスと意思決定の自動化(クレジットカードの承認)
  • スコアリングとランキング(信用度)
  • セグメンテーション(ターゲットマーケティング)
  • 最適化(製造の改善)
  • 予測(売上や収益の予測)

モデルの選択、展開、管理について理解を深め、データサイエンス業務を強化したいと考えている方には、AIや機械学習のトレーニングを増やすことが理想的でしょう。 Ronald van Loon Principal Analyst CEO of Intelligent World

複合的AI

現在、ほとんどのAIプロジェクトが複数のデータサイエンス技術を使用しています。Gartner社によれば、さまざまなAI技術を組み合わせて最善の結果を実現することを「複合的AI」と呼びます。

複合型AIでは、まず問題を解決するために、適切なデータとツールを適用します。多くの場合、ML、統計、高度な分析、データマイニング、予測、最適化、自然言語処理、コンピュータビジョンなどのデータサイエンス技術を組み合わせて使用します。  

複合的AIは、データサイエンスと同義語になりつつあります。それは、適切なAIテクノロジーを使用することが必ずしも一筋縄ではいかないからです。適切なAIテクノロジーを選定するには、解決しようとしているビジネス上の問題と、それを解決するために利用できるデータを深く理解する必要があります。このビジネスとテクノロジーの専門知識の組み合わせこそが、データサイエンスの本質なのです。

データサイエンスの仕組み

データサイエンスでは、構造化データや非構造化データから意味のある情報を導き出すために、複数のツールや技術を使用します。ここでは、生の情報をビジネス変革のインサイトに変えるために、データサイエンティストが使用する一般的な手法をご紹介します。

データ管理 は、データを管理して組織の潜在能力を引き出すことです。データを効果的に管理するには、データ戦略とデータへのアクセス、統合、クレンジング、管理、保存、分析のための準備を行う信頼性の高い方法が必要です。 

機械学習は、分析モデルの構築を自動化します。教師なし機械学習は、どこを見て何を結論づけるかが明示的にプログラムされていなくても、ニューラルネットワーク、統計学、オペレーションズリサーチ、物理学などの手法を用いてデータに隠されたインサイトを見つけ出す技術です。

ニューラルネットワーク は、人間の脳の働きにヒントを得た機械学習の一種です。ニューロンのように相互に接続されたユニットで構成されるコンピューティングシステムで、外部からの入力に反応して情報を処理し、各ユニット間で情報を中継します。

深層学習(ディープ・ラーニング) は、処理ユニットを何層にも重ねた巨大なニューラルネットワークを利用し、コンピューティングパワーの進歩と学習技術の向上を活かしながら大量のデータから複雑なパターンを学習します。一般的な用途としては、画像認識や音声認識などがあります。

コンピュータビジョン は、パターン認識と深層学習で画像やビデオの内容を認識します。機械が画像を処理、分析、理解できるようになると、画像や動画をリアルタイムで取り込み、周囲の状況を解釈できるようになります。

自然言語処理 とは、コンピュータが音声をはじめとする人間の言語を分析、理解、生成する能力です。NLPの次の段階は自然言語対話処理で、人間が日常的な言語を使ってコンピュータと交信し、タスクを実行することができます。

データのビジュアル化は、分析しやすいように絵やグラフの形式でデータを提示することです。これは、組織がデータサイエンスの取り組み結果に基づいてビジネス上の意思決定を行う上で特に重要です。 

データサイエンスで人気のプログラミング言語

人間が使う言語は多種多様です、このことは、データサイエンティストにも当てはまります。現在、プログラミング言語は何百とありますが、何を達成しようとしているかによって適切な言語は異なります。ここでは、データサイエンスで人気のプログラミング言語をいくつか紹介します。

Pythonは動的セマンティクスを持つ、インタプリタ型でオブジェクト指向な高レベルのプログラミング言語です。その高レベルな内部データ構造を動的タイピングや動的バインディングと組み合わせることで、アプリケーションの迅速な開発だけでなく、スクリプト作成や既存コンポーネントを接続するグルー言語にも非常に魅力的な言語となっています。

Rは、R Foundation for Statistical Computingによってサポートされている、統計計算とグラフィックスのためのフリーソフトウェア環境です。R言語は、統計ソフトの開発やデータ分析のために、統計学者やデータマイナーの間で広く利用されています。

SQLは、プログラミングに使用されるドメイン固有言語で、リレーショナルデータベース管理システム(RDBMS)で保持されるデータの管理や、リレーショナルデータストリーム管理システム(RDSMS)でのストリーム処理向けに設計されています。特に、構造化データ、すなわち、エンティティや変数間の関係が組み込まれたデータを処理するのに有用な言語です。<br>

SASは、世界中の何十万人ものデータサイエンティストに信頼されているプログラミング言語です。SAS Viyaプラットフォームでは、組織内のあらゆるテクノロジーシステムとプログラミング言語の利点を組み合わせて、より優れた分析モデルの開発と展開を行うことができます。SAS Viyaでモデリングのるつぼがよりスマートなビジネス意思決定へと変わる様子をご覧ください。

次のステップ

データサイエンスを学びたいのであれば、SASがおすすめです。

データサイエンスソリューション

SAS Viyaデータサイエンス製品は、堅固なデータ管理、ビジュアル化、高度分析、モデル管理機能を備え、あらゆる組織のデータサイエンスを促進します。

SAS Visual Data Mining and Machine Learning は、統合され協調的な1つのソリューションで最も複雑な分析問題を解決することを可能にするもので、今や独自の自動モデリングAPIを備えています。

SAS Visual Analytics は、対話式でレポートを素早く作成したり、視覚的な表示でデータを確認したり、セルフサービスで分析を行ったりする手段を提供します。

これらのソリューションやその他のソリューションは、最新のスケーラブルなクラウド対応アーキテクチャ上で動作するSASの市場をリードするデータサイエンスプラットフォームであるSAS Viyaによって提供されます。