yellow and orange abstract art

データマイニング

概要と重要性

データマイニングとは、未知の結果を予測するために、大量のデータセットに含まれている異常値、
パターン、相関を発見するプロセスです。幅広い手法を駆使することで、こうした情報を収益の増大、
コストの削減、顧客関係の改善、リスクの軽減などに役立てることができます。

データマイニングの歴史と最先端の状況

データを掘り起こして隠れたつながりを発見したり将来を予測したりするプロセスには長い歴史があります。こうしたプロセスは「データベースからの知識発見」(knowledge discovery in databases, KDD)とも呼ばれますが、「データマイニング」という用語が登場したのは1990年代になってからのことです。とはいえ、その基盤を形成しているのは密接に関連する3つの科学分野です:統計(データ間の関係の数理的研究)、人工知能(ソフトウェアおよび/または機械で実現する人間のような知性)、機械学習(データから自律的に学習して予測を実行できるアルゴリズム)。古くからある取り組みが今、最先端の取り組みとして再び脚光を浴びているのは、ビッグデータや低コストのコンピューティング・パワーがもたらす無限の可能性が拡大するのと同じペースで、データマイニング・テクノロジーが進化を続けているからです。

ここ10年間における処理能力と処理速度の飛躍的な向上により、私たちは手間と時間がかかる手作業の取り組みから脱却し、迅速かつ容易で自動化されたデータ分析を利用できるようになりました。収集するデータセットが複雑であるほど、的確な洞察(インサイト)を明らかにできる可能性が高まります。小売、銀行、製造、通信、保険といった業界では特に、価格設定、プロモーション、デモグラフィックデータ(家族構成や年収等)から、経済/リスク/競争/ソーシャルメディアがビジネスモデル/収益/オペレーション/顧客関係に及ぼす影響まで、あらゆる対象の間に潜む関係性を明らかにする目的でデータマイニングを活用しています。

Dataing Mining Foundation Blocks

データマイニングが重要な理由

では、データマイニングはどうして重要なのでしょうか?この世界で生み出されるデータ量は2年ごとに倍増しているという、驚くべき数字をご存知の方も多いでしょう。また、非構造化データだけでデジタル・ユニバースの90%を占めているという推定もあります。しかし、情報量が増えるからといって必ずしも知識が増えるわけでありません。

データマイニングを活用すると以下のことが可能になります。

  • データから混乱の元になるノイズや繰り返し現れるノイズをすべて取り除く
  • 目的に関連するデータは何かを理解し、この情報を適切に活用して、想定される結果を評価する
  • 確かな情報にもとづいた意思決定の頻度と速度を加速する

データマイニング手法の詳細については、データマイニング A to Zをご覧ください。このホワイトペーパーでは、企業や組織が予測分析とデータマイニングを活用してデータから新たな洞察を導き出す方法について解説しています。

今日の世界におけるデータマイニング

データマイニングはアナリティクスの土台となる領域であり、数百万件、数十億件ものレコードに潜む「つながり」さえも明らかにできるモデルの開発に役立ちます。ここに示す資料では、私たちが暮らすこの世界の形成にデータマイニングがどう役立っているかをご確認いただけます。

IAG logo

IAG社、保険データの分析で競争力を維持

このオーストラリアの保険会社では、データマイニングを活用して2,000万件のレコードを186個の変数に関して分析していますが、ハイパフォーマンス・ツールによってわずか1分で処理が完了します。

事例を読む(英語)

Book

データマイニング A to Z

データマイニングのメリットを効果的かつ持続的にビジネスに利用するための最新の方法を詳しく解説します。

ダウンロードする

gartner-logo

SAS、2015年版Gartner Magic Quadrantでリーダーと評価

Gartner社は「高度なアナリティクス・プラットフォームに関するMagic Quadrant」(英語版)でSASをリーダーと位置付け、特に「実行能力」軸では最高の評価を与えました。


レポート全文を読む(英語)

White Paper

Heavy Reading社のレポート:高度な予測ネットワーク分析

通信サービス・プロバイダーは予測分析を活用してネットワーク・パフォーマンスを評価することで、ネットワークの最適化、キャパシティの調整、よりターゲットを絞り込んだマーケティングを実現できます。

レポート全文を読む(英語)

業種別用途

データマイニングは幅広い業種や分野におけるアナリティクスの取り組みで中核的な役割を担っています

通信

飽和気味で競争の厳しい市場では、ビジネス課題の答えが消費者データの中に潜んでいることが少なくありません。マルチメディア会社や通信会社では、分析モデルを利用して膨大な顧客データに秘められた意味を明らかにすることにより、顧客の行動を予測し、高度にターゲットを絞った的確なキャンペーンを提供することが可能になります。

保険

保険会社で分析のノウハウを活用すると、不正行為、コンプライアンス、リスク管理、顧客維持などに関する複雑な課題を解決することができます。すでに数々の保険会社がデータマイニング手法を駆使し、多くの事業部門/保険分野を横断して効果的な保険料設定を行ったり、競争力のある商品を既存の顧客ベースに提供する新しい方法を見出したりしています。

教育

学業の進捗状況をデータ主導型で統一的に把握することにより、教員は教壇に立つ前から学生の成績を予測し、学習課程の内容を適切に消化できるように指導戦略を練ることができます。データマイニングは、学生データの有効活用、学習達成度の予測、特別な注意を要する学生や学生グループの特定に役立ちます。

製造

需要予測と供給計画の連携性を高めることは、問題の早期検出、品質保証、ブランド資産価値への投資と同様、不可欠な取り組みです。製造企業でデータマイニングを活用すると、生産設備の老朽化や望ましい保守整備の時期を予測できるようになるため、稼動時間の最大化や生産ラインのスケジュール順守に役立ちます。

銀行

自動化された分析アルゴリズムは、銀行経営において顧客ベースはもちろん、金融システムの核心をなす数十億件のトランザクションについて理解を深めるために役立ちます。データマイニングは、市場リスクの的確な把握、不正検知の迅速化、法規制コンプライアンス義務の管理、マーケティング活動のROI(投資対効果)の最適化に役立ちます。

小売

大規模な顧客データベースには、顧客との関係の改善、マーケティング・キャンペーンの最適化、販売予測の精度向上に役立つ洞察が埋もれています。小売企業はデータモデルの精度を高めることで、よりターゲットを絞り込んだキャンペーンを実施したり、特定の顧客への訴求効果が絶大なオファーを創出したりできるようになります。

HP Data Mining Infographic

ビッグデータ・マイニング:HP(ヒューレット・パッカード)社

HP社では、電話対応、Web閲覧、電子メール、チャット・セッション、さらには小売パートナー経由の幅広い接点を通じて年間約25億件の顧客対応を行っています。その結果、3億6,000万件の顧客レコードを記録する900TBのデータウェアハウスには、毎月数百万件のレコードが新たに追加されています。同社の目標は明確でした。それは、そうしたデータのすべてから有意義な価値を見出し、顧客について360度の視野を確立することで、即応力と競争力を高めることです。

節減効果:強力なデータマイニングの導入により、HP社では1億人を超える顧客の正確なスコアリングを数秒で実行して、マーケティングやサービスの対象者を絞り込めるようになりました。その結果、キャンペーンの平均ROIが20%向上しました。また、出荷件数が3年間で50%増えたことに加え、オンライン店舗であるHPDirect.comの営業総利益も50%以上という大幅な伸びを達成しています。

HP社の事例の全文を読む

[データマイニングと]予測分析を適切に実行すれば、分析は予測結果を得るための手段ではなくなります。望ましい予測結果は、分析にもとづく洞察と発見を獲得するための手段となります。本当に分析する必要があることを分析する作業や、本当に予測したいことを予測する作業を、より適切に実行できるようになるのです。
マイケル・シュレーグ(Michael Schrage)氏の論文Predictive Analytics in Practice(予測分析の実践より)、 Harvard Business Review Insight Center Report所収

仕組み

データマイニングは学際的な分野です。さまざま分析機能で用いられる幅広い方法論や手法を組み合わせることにより、企業や組織のあらゆるニーズへの対応、さまざまなタイプの疑問の探究、人間による幅広いレベルのインプットまたはルールを利用した意思決定支援などに活用することができます。

記述的モデリング:履歴データ内で共有される類似性やグループ化を明らかにして、成功や失敗の背後にある原因を特定することができます。例えば、製品に対する好みやセンチメント(感想・感情)を基準として顧客をカテゴリーに分類します。代表的な手法には次のようなものがあります。

クラスタリング
類似したレコードをグループ化します。
異常検出
多次元の外れ値を特定します。
アソシエーション・ルール学習
レコード間の関係を検出します。
主成分分析
変数間の関係を検出します。
アフィニティ・グループ化
共通の利益や類似の目標がある人々をグループ化します(例:Xを購入する人々は、Yもよく購入し、おそらくZも購入する)。

予測的モデリング:このモデリングは、将来のイベントの分類や未知の結果の評価を深く探究します。例えば、信用スコアリングを用いて個人のローン返済可能性を判断します。予測モデリングは、顧客離反、キャンペーン反応率、債務不履行などに関する洞察を導き出すためにも役立ちます。代表的な手法には次のようなものがあります。

回帰
1つの従属変数と一連の独立変数との間に見られる関係の強さを測定します。
ニューラル・ネットワーク
パターン検出、予測、学習を行うコンピューター・プログラムです。
決定木
ツリー状のダイアグラムです。分岐した枝のそれぞれが、発生する可能性のある出来事を表します。
サポート・ベクター・マシン(SVM)
関連する学習アルゴリズムを伴う教師付き学習モデルです。

指示的モデリング:Web、コメント欄、書籍、電子メール、PDF、オーディオ、その他のテキストソースから収集される非構造化データの増大を受け、データマイニングの関連分野としてテキストマイニングを導入する取り組みも急速に広がっています。非構造化データを予測モデルに取り入れて予測精度を改善するためには、適切な解析、フィルタリング、変換を実行できる必要があります。

結局のところ、データマイニングは独立したスタンドアロンの技法と考えるべきではありません。なぜなら、前処理(データ準備、データ探索)と後処理(モデル検証、スコアリング、モデル・パフォーマンス・モニタリング)も、同様に不可欠な工程だからです。指示的モデリングは、内部/外部の変数と制約条件を検討して、推奨される1つまたは複数の行動方針を提示します。例えば、個々の顧客に送信する最良のマーケティング・オファーの判断に関するレコメンデーションを提示します。代表的な手法には次のようなものがあります。

予測分析とルールの組み合わせ
パターンからif/thenルールを作成し、それらを用いて結果を予測します。
マーケティング最適化
最大限の投資対効果(ROI)を実現するために、最も利用価値の高いメディアミックスをリアルタイムでシミュレートします。

このトピックに関する他のインサイト

Back to Top