ビッグデータ

概要と重要性

「ビッグデータ」という言葉は、構造化/非構造化を問わず、データの総量と可用性の爆発的な拡大を表す用語として広く使われるようになっています。ビッグデータは、ビジネス(と社会)にとってインターネットと同様の重要性をもつようになる可能性があります。なぜなら、データが多いほど分析の精度が高まるからです。

分析の精度が高まれば、より確信に満ちた意思決定が可能になります。そして、意思決定の質が高まれば、業務効率の向上、コストの削減、リスクの軽減が実現するのです。

ビッグデータの定義

2001年に遡りますが、業界アナリストのダグ・レイニー(Doug Laney)氏(現在はGartner社に所属)が、現在主流となっているビッグデータの定義を示しました。それは、量(volume)、速度(velocity)、多様性(variety)という、ビッグデータの3つのVです。1.

  • 量(volume): データ量の増大には多くの要因が関係しています。取引関連のデータは何年にもわたって保管されます。ソーシャルメディアからは非構造化データが流れ込んできます。センサーの数も、収集されるマシン間(M2M)データも増える一方です。以前は、過剰なデータ量はストレージ容量の問題を引き起こしました。しかし、ストレージ・コストの低下に伴い、別の課題が浮上してきました。例えば、大量のデータ内で関連性を判断したり、分析を活用してデータから価値を生み出したりするには、どうすればよいかという問題です。
  • 速度(velocity): データは以前なら想像もできなかった速度で流れており、適切なタイミングで取り扱わなければなりません。RFIDタグ、センサー、スマートメーターなどの普及を受け、怒濤のように押し寄せるデータをほぼリアルタイムで処理する必要性が高まっています。データの速度に見合った迅速さで対応することは、ほとんどの企業・組織にとって大きな課題です。
  • 多様性(variety): 今日のデータは形式も多岐にわたります。伝統的なデータベースでは、構造化された数値データが主体です。こうした情報は主に業務アプリケーションで作成されます。非構造化データとしては、テキスト文書、電子メール、ビデオ、株価チッカーデータ、金融取引などがあります。多種多様なデータを管理、マージ、統制することは、以前から多くの企業・組織が取り組み続けている課題です。

ビッグデータの性質について考える場合、SASでは次に示す2つの次元を加えます。

  • 変動性(variability): データの速度と多様性が増大していることに加え、データフローの安定性が失われ、周期的なピークを伴って変動するケースが増えています。ソーシャルメディア内のトレンドが原因の場合もあるでしょう。日替わり、季節単位、あるいはイベントの影響などでピーク負荷が変動すると、データを管理するのは難しくなります。そこに非構造化データが含まれる場合、状況はさらに悪化します。
  • 複雑性(complexity): 今日、データは複数のソースから収集されるのが普通になっています。それでも、複数のシステムを横断してデータのリンク、照合、クレンジング、変換を行う必要がある点は、従来どおりです。しかし、ビッグデータを活用するためには、関係、階層構造、複数のデータ系統を結びつけて相関させる必要があり、さもないと、すぐに膨大なデータをコントロールできなくなってしまいます。

1 出典: META Group.「3D Data Management: Controlling Data Volume, Velocity, and Variety(3Dデータ管理: データの量、速度、多様性のコントロール)」、2001年2月

Big Data Insights

ビッグデータ

記事、調査、その他の注目トピックなどで、ビッグデータに関する洞察を深めていただけます。

ビッグデータが重要な理由

問題の本質は、大量のデータを集めることではありません。そのデータを使って何をするかが重要なのです。望ましい展望として考えられるのは、あらゆるソースからデータを取得し、関連データも加えて分析することで、目標の達成につながる答えを見つけることです。主な目標としては、1) コスト削減、2) 時間の節約、3) 新製品の開発と市場投入の最適化、4) ビジネスにおける意思決定の強化、などが挙げられます。例えば、ビッグデータと強力な分析機能を組み合わせると、以下のことが可能になります。

  • 障害、問題、欠陥の根本原因をほぼリアルタイムで特定し、年間数十億ドル規模とも期待される節約を実現
  • 膨大な数の荷物の配送ルートを配達車両の移動中に最適化
  • 数百万種類のSKU(最小在庫管理単位)を分析して価格を決めることで、利益の最大化と在庫の一掃を両立
  • 販売時点で顧客の当日の購入内容と過去の購入履歴にもとづいて割引クーポンなどを発行
  • 顧客がオファーを利用できる適切なエリアにいるうちに、カスタマイズしたレコメンド(お勧め商品)をモバイルデバイスに送信
  • 総合的なリスク・ポートフォリオをごく短時間で再計算
  • 最も重要な顧客を迅速に特定
  • クリックストリーム分析とデータマイニングを活用して不正な行動を検出

検討すべき課題

多くの企業は、収集するデータの量が多くなりすぎ、利用価値の高い情報を見つけ出すのが難しくなっていることを懸念しています。

  • データ量が膨大になり、多様性も広がっているのに、その扱い方法が分からなかったらどうなるでしょうか?
  • すべてのデータを保管するべきでしょうか?
  • すべてのデータを分析するべきでしょうか?
  • どのデータポイントが重要なのかは、どのように特定できるのでしょうか?
  • どうすればデータを最も効果的に活用できるのでしょうか?

最近まで、ほとんどの企業・組織はデータの一部のみを使った分析か、単純な分析のどちらかしか実行できませんでした。データ量がプラットフォームの処理能力を超えていたからです。しかし、完全なコンテキストのもとで分析ができなかったり、結果が出るまで何時間あるいは何日も待たなければならないとしたら、テラバイト規模のデータを収集して保管する意味はどこにあるのでしょうか? その一方で、データ量が増えただけで、すべてのビジネス上の疑問に対する答えの質が向上するわけではありません。そこで、2つの選択肢が見えてきます。

大量のデータを分析に組み込む:すべてのデータを分析することで、求める答えの質が高まるのであれば、そうすべきです。今では、大量のデータから価値を引き出すハイパフォーマンス・テクノロジーが利用できるようになっています。つまり、1つ目のアプローチは、グリッド・コンピューティング、In-Database処理、インメモリ・アナリティクスなどのテクノロジーを用いたハイパフォーマンス・アナリティクスを導入して、大量のデータを分析することです。

分析に使うデータを事前に決める:これまで主流だった手法は、あらゆるデータをともかく保管(これを「データの囲い込み」と呼ぶ人もいます)しておき、データを照会する段階になって初めて関連データを見つけ出す、というものでした。現在では、業務の現場でアナリティクスを適用し、そのときどきの状況(コンテキスト)にもとづいて重要性を判断することが可能になっています。このタイプの分析では、分析プロセスに含める必要があるデータと、必要に応じて後で使用できるように低コストのストレージに置いてもかまわないデータを判別できます。

活用を促進するテクノロジー

近年のさまざまなテクノロジーの進歩により、企業・組織はビッグデータとビッグデータ・アナリティクスを最大限に活用できるようになりました。

  • 安価で大容量のストレージ
  • より高速なプロセッサー
  • オープンソースでリーズナブルな価格の分散ビッグデータ・プラットフォーム(例: Hadoop)
  • 並列処理、クラスタリング、MPP(超並列処理)、仮想化、大規模グリッド環境、高度な接続性、高スループット
  • クラウド・コンピューティングやその他の柔軟なリソース配分調整手法

ビッグデータの活用事例

UPSの観点

UPS社はビッグデータに関する経験が豊富で、1980年代には早くも、多種多様な荷物の移動と取引に関するデータの収集と追跡を開始していました。現在では、1日あたり880万人の顧客、1,630万個の荷物に関するデータを追跡しており、顧客から1日に寄せられる荷物追跡要求は平均3,950万件に達します。同社のデータ保管量は16ペタバイトを超えています。

ただし最近は、収集するビッグデータの大半は、4万6,000台を超える配達車両に搭載されたテレマティックス・センサーからもたらされます。例えば、同社のトラックから送信されるデータには、車速、進行方向、ブレーキの使用状況、駆動系のパフォーマンスなどが含まれます。このデータは、日常の運行パフォーマンスを監視するためだけでなく、ドライバーの配送ルート体系を大刷新する目的でも使われています。ORION (On-Road Integration Optimization and Navigation) と呼ばれるこの構想はおそらく、世界最大の車両運用調査研究プロジェクトといっても過言ではありません。この取り組みはオンライン地図データにも大きく依存しています。最終的には、ドライバーの集荷や配達のスケジュールをリアルタイムで再調整できるようになるでしょう。

節約効果

このプロジェクトにより、2011年には1日の配送ルートが約1億3,600万キロメートルも短縮され、約3,200万リットル以上の燃料を節約しています。UPS社では、1日にドライバー1名あたり1マイル(約1.6キロメートル)を短縮するだけで経費を3,000万ドル節約できると見積もっており、節約の総額は相当な規模になります。また同社では、このデータと分析機能を活用して、1日に2,000便の航空輸送の効率を最適化することも計画しています。2

2 出典: Thomas H. Davenport and Jill Dyche「Big Data in Big Companies(大企業におけるビッグデータ)」2013年5月


SASのビッグデータ・ソリューション

他のインサイトはこちら

Analytics Insights

アナリティクス

関連する記事や調査に目を通して、アナリティクスに関する最新の洞察に触れることができます。

Fraud & Risk Insights

リスク管理と不正防止

記事、調査、その他の注目トピックなどで、リスク管理と不正防止に関する洞察を深めていただけます。

Marketing Insights

マーケティング

マーケティング分野の著名な専門家が、バラエティに富んだタイムリーなトピックについて洞察を紹介します。

Back to Top