データマイニング
概要と重要性
データマイニングとは、未知の結果を予測するために、大量のデータセットに含まれている異常値、
パターン、相関を発見するプロセスです。幅広い手法を駆使することで、こうした情報を収益の増大、
コストの削減、顧客関係の改善、リスクの軽減などに役立てることができます。
データマイニングの歴史と最先端の状況
データを掘り起こして隠れたつながりを発見したり将来を予測したりするプロセスには長い歴史があります。こうしたプロセスは「データベースからの知識発見」(knowledge discovery in databases, KDD)とも呼ばれますが、「データマイニング」という用語が登場したのは1990年代になってからのことです。とはいえ、その基盤を形成しているのは密接に関連する3つの科学分野です:統計(データ間の関係の数理的研究)、人工知能(ソフトウェアおよび/または機械で実現する人間のような知性)、機械学習(データから自律的に学習して予測を実行できるアルゴリズム)。古くからある取り組みが今、最先端の取り組みとして再び脚光を浴びているのは、ビッグデータや低コストのコンピューティング・パワーがもたらす無限の可能性が拡大するのと同じペースで、データマイニング・テクノロジーが進化を続けているからです。
ここ10年間における処理能力と処理速度の飛躍的な向上により、私たちは手間と時間がかかる手作業の取り組みから脱却し、迅速かつ容易で自動化されたデータ分析を利用できるようになりました。収集するデータセットが複雑であるほど、的確な洞察(インサイト)を明らかにできる可能性が高まります。小売、銀行、製造、通信、保険といった業界では特に、価格設定、プロモーション、デモグラフィックデータ(家族構成や年収等)から、経済/リスク/競争/ソーシャルメディアがビジネスモデル/収益/オペレーション/顧客関係に及ぼす影響まで、あらゆる対象の間に潜む関係性を明らかにする目的でデータマイニングを活用しています。
データマイニングが重要な理由
では、データマイニングはどうして重要なのでしょうか?この世界で生み出されるデータ量は2年ごとに倍増しているという、驚くべき数字をご存知の方も多いでしょう。また、非構造化データだけでデジタル・ユニバースの90%を占めているという推定もあります。しかし、情報量が増えるからといって必ずしも知識が増えるわけでありません。
データマイニングを活用すると以下のことが可能になります。
- データから混乱の元になるノイズや繰り返し現れるノイズをすべて取り除く
- 目的に関連するデータは何かを理解し、この情報を適切に活用して、想定される結果を評価する
- 確かな情報にもとづいた意思決定の頻度と速度を加速する
データマイニング手法の詳細については、データマイニングのすべてをご覧ください。このホワイトペーパーでは、企業や組織が予測分析とデータマイニングを活用してデータから新たな洞察を導き出す方法について解説しています。
今日の世界におけるデータマイニング
データマイニングはアナリティクスの土台となる領域であり、数百万件、数十億件ものレコードに潜む「つながり」さえも明らかにできるモデルの開発に役立ちます。ここに示す資料では、私たちが暮らすこの世界の形成にデータマイニングがどう役立っているかをご確認いただけます。
IAG社、保険データの分析で競争力を維持
このオーストラリアの保険会社では、データマイニングを活用して2,000万件のレコードを186個の変数に関して分析していますが、ハイパフォーマンス・ツールによってわずか1分で処理が完了します。
ビッグデータとデータマイニングの交差点
データマイニング専門家のジャレッド・ディーン(Jared Dean)氏がデータマイニングについて執筆した著書をご紹介します。ハイパフォーマンス・コンピューティングと高度なアナリティクスを活用して、アナリティクス・プログラムの効果を最大限に高めるにはどうすればよいかが論じられています。
SAS、2015年版Gartner Magic Quadrantでリーダーと評価
Gartner社は「高度なアナリティクス・プラットフォームに関するMagic Quadrant」(英語版)でSASをリーダーと位置付け、特に「実行能力」軸では最高の評価を与えました。
Heavy Reading社のレポート:高度な予測ネットワーク分析
通信サービス・プロバイダーは予測分析を活用してネットワーク・パフォーマンスを評価することで、ネットワークの最適化、キャパシティの調整、よりターゲットを絞り込んだマーケティングを実現できます。
業種別用途
データマイニングは幅広い業種や分野におけるアナリティクスの取り組みで中核的な役割を担っています
通信
飽和気味で競争の厳しい市場では、ビジネス課題の答えが消費者データの中に潜んでいることが少なくありません。マルチメディア会社や通信会社では、分析モデルを利用して膨大な顧客データに秘められた意味を明らかにすることにより、顧客の行動を予測し、高度にターゲットを絞った的確なキャンペーンを提供することが可能になります。
保険
保険会社で分析のノウハウを活用すると、不正行為、コンプライアンス、リスク管理、顧客維持などに関する複雑な課題を解決することができます。すでに数々の保険会社がデータマイニング手法を駆使し、多くの事業部門/保険分野を横断して効果的な保険料設定を行ったり、競争力のある商品を既存の顧客ベースに提供する新しい方法を見出したりしています。
教育
学業の進捗状況をデータ主導型で統一的に把握することにより、教員は教壇に立つ前から学生の成績を予測し、学習課程の内容を適切に消化できるように指導戦略を練ることができます。データマイニングは、学生データの有効活用、学習達成度の予測、特別な注意を要する学生や学生グループの特定に役立ちます。
製造
需要予測と供給計画の連携性を高めることは、問題の早期検出、品質保証、ブランド資産価値への投資と同様、不可欠な取り組みです。製造企業でデータマイニングを活用すると、生産設備の老朽化や望ましい保守整備の時期を予測できるようになるため、稼動時間の最大化や生産ラインのスケジュール順守に役立ちます。
銀行・金融
自動化された分析アルゴリズムは、銀行経営において顧客ベースはもちろん、金融システムの核心をなす数十億件のトランザクションについて理解を深めるために役立ちます。データマイニングは、市場リスクの的確な把握、不正検知の迅速化、法規制コンプライアンス義務の管理、マーケティング活動のROI(投資対効果)の最適化に役立ちます。
小売
大規模な顧客データベースには、顧客との関係の改善、マーケティング・キャンペーンの最適化、販売予測の精度向上に役立つカスタマー・インサイト(顧客に対する洞察)が埋もれています。小売企業はデータモデルの精度を高めることで、よりターゲットを絞り込んだキャンペーンを実施したり、特定の顧客への訴求効果が絶大なオファーを創出したりできるようになります。
データマイニング・ソフトウェア
SASのデータマイニング・ソフトウェアは、有効性が実証済みの最先端のアルゴリズムを採用しており、極めて難しい課題の解決も支援できるように設計されています。
仕組み
データマイニングは学際的な分野です。さまざま分析機能で用いられる幅広い方法論や手法を組み合わせることにより、企業や組織のあらゆるニーズへの対応、さまざまなタイプの疑問の探究、人間による幅広いレベルのインプットまたはルールを利用した意思決定支援などに活用することができます。
記述的モデリング:履歴データ内で共有される類似性やグループ化を明らかにして、成功や失敗の背後にある原因を特定することができます。例えば、製品に対する好みやセンチメント(感想・感情)を基準として顧客をカテゴリーに分類します。代表的な手法には次のようなものがあります。
クラスタリング | 類似したレコードをグループ化します。 |
異常検出
| 多次元の外れ値を特定します。
|
アソシエーション・ルール学習
| レコード間の関係を検出します。
|
主成分分析
| 変数間の関係を検出します。
|
アフィニティ・グループ化
| 共通の利益や類似の目標がある人々をグループ化します(例:Xを購入する人々は、Yもよく購入し、おそらくZも購入する)。
|
予測的モデリング:このモデリングは、将来のイベントの分類や未知の結果の評価を深く探究します。例えば、信用スコアリングを用いて個人のローン返済可能性を判断します。予測モデリングは、顧客離反、キャンペーン反応率、債務不履行などに関する洞察を導き出すためにも役立ちます。代表的な手法には次のようなものがあります。
回帰
| 1つの従属変数と一連の独立変数との間に見られる関係の強さを測定します。
|
ニューラル・ネットワーク
| パターン検出、予測、学習を行うコンピューター・プログラムです。
|
決定木
| ツリー状のダイアグラムです。分岐した枝のそれぞれが、発生する可能性のある出来事を表します。
|
サポート・ベクター・マシン(SVM)
| 関連する学習アルゴリズムを伴う教師付き学習モデルです。
|
指示的モデリング:Web、コメント欄、書籍、電子メール、PDF、オーディオ、その他のテキストソースから収集される非構造化データの増大を受け、データマイニングの関連分野としてテキストマイニングを導入する取り組みも急速に広がっています。非構造化データを予測モデルに取り入れて予測精度を改善するためには、適切な解析、フィルタリング、変換を実行できる必要があります。
結局のところ、データマイニングは独立したスタンドアロンの技法と考えるべきではありません。なぜなら、前処理(データ準備、データ探索)と後処理(モデル検証、スコアリング、モデル・パフォーマンス・モニタリング)も、同様に不可欠な工程だからです。指示的モデリングは、内部/外部の変数と制約条件を検討して、推奨される1つまたは複数の行動方針を提示します。例えば、個々の顧客に送信する最良のマーケティング・オファーの判断に関するレコメンデーションを提示します。代表的な手法には次のようなものがあります。
予測分析とルールの組み合わせ
| パターンからif/thenルールを作成し、それらを用いて結果を予測します。
|
マーケティング最適化
| 最大限の投資対効果(ROI)を実現するために、最も利用価値の高いメディアミックスをリアルタイムでシミュレートします。
|
このトピックに関する他のインサイト
- 公衆衛生分野におけるSASの活用SAS® Viya®は、一つの環境でアナリティクスに必要な機能を全て実現したクラウド対応のプラットフォームです。アジャイルなIT環境に欠かせない高い信頼性、スケーラビリティ、セキュリティを備えたアナリティクス環境とガバナンスを提供することにより、 データ・サイエンティストからビジネス・アナリスト、アプリケーション開発者、そして経営幹部まで、あらゆる人々のニーズに対応します。
- SASでデジタルトランスフォーメーションを加速し、迅速な意思決定を実現
- ModelOps: モデル・ライフサイクルを業務運用化する方法ModelOpsとは、分析モデルがデータサイエンス・チームからIT本稼働チームへと所定のサイクルに沿って受け渡され、一定のリズムでデプロイ(業務実装)および更新されるようにするための手法です。ModelOpsは、AIモデルから価値を創出する競争において、ごく少数の企業だけが利用している勝利要因です。
- チャットボットとは?チャットボットとは、人間とコンピューターのやり取りを簡素化するために設計された会話型AIの一種です。この記事では、チャットボットがビジネスでどのように利用されているか、また、チャットボットをアナリティクス・アプリケーションにどのように組み込めるかを説明します。
- 消費者信用業界におけるDX成功の鍵クレジットカード・信販・消費者金融業界の課題を解決するSASの包括的なソリューションをご紹介します。
- 5大AIテクノロジー人工知能(AI)と機械学習の違いをご存知でしょうか?また、コンピューター・ビジョンがAIテクノロジーの下位分野である理由を説明できるでしょうか?その答えは、この簡潔な説明の中で見つかります。
- 和歌山県データ利活用コンペティション次世代の日本を担うデータサイエンティストを育成すべく全国の高校生及び大学生等を対象として開催される「第2回和歌山県データ利活用コンペティション」では、SASと伊藤忠テクノソリューションズ株式会社が共同で協賛し、コンペティションの参加者に「データサイエンス教育プラットフォーム」を提供します。
- 特集:データサイエンティストのキャリアデータサイエンティストはどのようなスキル・能力を持って、どのように組織の中で活躍するのでしょうか。SAS Forum Japna2018 データサイエンティスト・キャリア・トラックでは、データサイエンティストを活用する組織や、データサイエンティストとして活躍する個人、また、人材育成に取り組む大学や企業の方に、仕事例やキャリア、学生時代に習得すべきスキルなどについて、学生の皆様に向けて講演いただきました。データサイエンティストにも、さまざまな活躍の形、それぞれの役割に応じて求められる能力があります。ここでは、各講演の内容をご紹介します。
データマイニング・ソフトウェア
SASのデータマイニング・ソフトウェアは、有効性が実証済みの最先端のアルゴリズムを採用しており、極めて難しい課題の解決も支援できるように設計されています。