予測分析
概要と重要性
予測分析(予測的アナリティクス)とは、データ、統計アルゴリズム、機械学習(マシン・ラーニング)手法を活用し、将来の結果が生じる可能性を履歴データに基づいて特定する分析手法です。その目標は、過去の事象を知るという範囲を超えており、将来にどのような事象が発生するかの確率を最高の精度で評価することにあります。
予測分析の歴史と最新動向
予測分析には数十年の歴史がありますが、今まさに旬のテクノロジーと言えます。このところ、利益や競争優位性を向上させるために予測分析の導入に踏み切る企業や組織が増え続けています。なぜ今なのでしょうか?
- データの量と種類が増え続けており、データを活用して有意義な洞察を生み出す取り組みへの関心が高まっている
- より高速、より低コストのコンピューターが登場している
- 使いやすいソフトウェアが登場している
- 経済状況の厳しさが増すなか、競合他社との差別化が求められている
対話操作型の使いやすいソフトウェアの普及が進んできたことから、予測分析はもはや、数学者や統計担当者だけが取り組める領域ではなくなっています。今ではビジネス分析担当者や業務部門の専門家も、これらのテクノロジーを活用し始めています。
予測分析が重要な理由
企業や組織は今、難しい課題の解決や新たな機会の発見に役立てる目的で予測分析を導入しつつあります。一般的な用途としては、次のようなものが挙げられます。
不正検知:複数のアナリティクス手法を組み合わせることで、パターン検出を改善し、犯罪行動を特定し、不正を防止することができます。昨今はサイバーセキュリティに対する懸念が高まっていますが、ハイパフォーマンス・アナリティクスによる行動分析を活用してネットワーク上の全ての挙動をリアルタイムで精査すれば、「不正行為/ゼロデイ脆弱性/APT(advanced persistent threat:高度かつ持続的な脅威)などが疑われるような異常」を特定することが可能です。
マーケティング・キャンペーンの最適化:予測分析は、顧客の反応や購買状況を把握したり、クロスセルの機会を促進したりする目的で活用されています。予測モデルを使うと、最も収益性の高い顧客を獲得・維持し、顧客ベースを成長させることが可能になります。
オペレーションの改善:多くの企業が、在庫の予測や工場のリソース管理に予測モデルを活用しています。例えば、航空会社はチケットの価格設定に予測分析を利用しています。ホテルは、客室稼働率を最大化して収益増を図るため、どの日付に何人の宿泊客が訪れるかを予測しようとしています。予測分析を活用すると、企業や組織はより効率的に機能できるようになります。
リスクの削減:クレジット・スコアは購買者が債務不履行に陥るリスクを評価する指標として広く利用されており、予測分析の活用例としてよく知られています。クレジット・スコアとは、与信評価にかかわるデータ項目を全て組み込んだ予測モデルに対して購買者のデータを入力することで得られる数値です。リスク管理に関連した用途としては、保険金請求対応や債権回収もあります。
今日の世界における予測分析
予測分析を活用すると、過去に発生した事象とその理由を知るという範囲を超え、将来の動きを見通すことができます。ここに示す資料では、私たちが暮らすこの世界の形成に予測分析がどう役立っているかをご確認いただけます。
予測分析のスキルギャップとは?
生データを貴重な洞察に変えるには、AI、機械学習、データアナリティクスのスキルを有する専門家の助けが必要です。しかし、人材が不足しています。このジレンマに対処する戦略をご紹介します。
予測的アナリティクスを有効活用するために
組織のデータを使用して傾向を調査し、予測することでどんなことが分かるのでしょうか?アナリティクスを利用してカスタマー・インサイトを獲得し、より適切な意思決定を行い、ビジネスを成長させている7つの組織についての話をお読みください。
制御不能な事態をどう予測するか
自然災害はこれからも発生し続けます。しかし、洪水のような災害を予測し、それに備えることで、その被害を最小限に抑えることはできます。組織がどのようにしてAIと予測的アナリティクスを使用して世界をより安全な場所にしているのかをご確認ください。
アナリティクスでアップタイムを向上させる
検査室は医師、臨床医、研究員に結果を送る際にダウンタイムを待っている余裕はありません。Siemens Healthineers社が、 SASを使用して予測メンテナンスのソリューションを開発し、システムのアップタイムを36%改善した方法をご覧ください。
業種別用途
どのような業種でも、リスクの削減、オペレーションの最適化、収益の拡大に予測分析を活用することができます。ここでは業種別に実例を紹介します。
銀行・金融
大量のデータと資金を取り扱う金融業界では、かなり以前から、不正の検知と削減、信用リスクの測定、クロスセス/アップセルの機会の最大化、価値が高い顧客の維持といった幅広い目的のために、予測分析を活用してきました。例えばCommonwealth Bankではアナリティクスを活用することで、トランザクションの開始から40ミリ秒以内に、不正行為の可能性を予測した上でトランザクションの実行を承認/拒否しています。
小売
今では悪名高いエピソードとして知られている「おむつを買う男性はビールも買う」という調査結果が1990年代前半に示されて以降、多くの小売企業がマーチャンダイジング計画や価格最適化のために、あるいは、販促活動の実効性を分析したり、消費者への訴求効果が最も高いオファーを判断したりするために、予測分析を利用しています。Staples社では、消費者行動を分析してカスタマー・インサイト(顧客に対する洞察)を得ることにより、顧客の全体像を把握し、137%というROIを実現しました。
石油・ガス、公益事業(電力・水道など)
エネルギー業界では、設備の故障や将来の資源ニーズの予測、安全性と信頼性に関するリスクの削減、総合的なパフォーマンスの改善など、幅広い用途で予測分析を積極的に活用しています。例えば、米国第2位の公営電力会社であり、水道事業者としてもアリゾナ州最大手の一角を占めるSalt River Project社では、マシンセンサーから収集されるデータを分析することにより、発電用タービンの保守が必要になる時期を予測しています。
官公庁・公共機関
コンピューター技術の発展の歴史において、行政機関は常にキープレイヤーとなってきました。例えば米国の国勢調査局は、人口増減動向を数十年のスパンで把握するために、データを分析し続けています。そして今日では他の業界と同様、多くの行政機関が、行政サービスとその効果の改善、不正の検知と防止、あるいは、消費者行動の理解の向上といった目的のために、予測分析を活用しています。また、サイバーセキュリティ対策を強化するために予測分析を活用する行政機関も増えつつあります。
医療
不正請求の検知に加え、医療業界では、慢性疾患のリスクが最も高い患者を特定し、どのような介入が最善かを見つけるための措置を講じています。米国の薬剤給付管理大手のExpress Scripts社は、処方箋を守らない患者を特定するためにアナリティクスを活用し、患者1人あたり1,500~9,000ドルのコスト削減を達成しています。
製造
製造企業では、品質の低下や生産上の欠陥につながる要因を特定することや、部品/サービスリソース/流通を最適化することが非常に重要です。Lenovo社では、保証請求の実態に対する理解を深めるために予測分析を活用した結果、10~15%のワランティ・コスト(保証対応コスト)削減が実現しましたが、これは製造業界における同様の取り組みの一例にすぎません。
オーランド・マジックに ”魔法” をかけたアナリティクス
スポーツ・アナリティクスは、統計学者ネイト・シルバー(Nate Silver)氏によるトーナメント予測サイトのおかげもあり、大きな盛り上がりを見せています。米NBAチームのオーランド・マジックでは、収益の改善とスターティング・メンバーの決定にSASの予測分析を活用しています。組織全体のビジネスユーザーが、必要な情報に即座にアクセスすることができ、今では、試合結果や観客席の販売状況など、最新のデータをビジュアルに探索できるようになっています。
予測的テキスト・アナリティクス
データの90%は非構造化データだと言われます。貴社では、この種のデータから洞察を得るために予測分析を活用していますか?
仕組み
予測モデリングでは、既知のデータとその結果を用いて、「別のデータや新しいデータに秘められた価値を予測するために利用できるモデル」(=予測モデル)の開発(または学習/トレーニング)を行います。予測モデルをデータに適用することで得られる結果は、一連の入力変数から推定される有意性に基づいて算出された「ターゲット変数(例えば収益)の発生確率」という形で返されます。
この点が、過去の事象の理解に役立つ「記述モデル」や、重要な関係の理解と事象の発生理由の特定に役立つ「診断モデル」との大きな違いです。分析の手法やテクニックは、1冊の書籍を書き上げることができるほどの広大なテーマであり、大学には、このテーマを深く掘り下げるカリキュラムも設置されています。ここでは初心者の皆さんのために、基本事項をいくつか説明します。
予測モデルには2種類のタイプがあります。分類モデルはクラスのメンバーシップを予測します。これを使うのは、例えば、特定の人物が離職しそうかどうか、離職しそうな場合は慰留に応じるかどうか、その人物の信用リスクは良好かどうか、といった分類を試みる場合です。通常、分類モデルの結果は0または1で返され、1がターゲット事象の発生を表します。回帰モデルは数値を予測します。これを使うのは、例えば、次の年度に顧客が生み出す収益額や、機械のコンポーネントが故障するまでの月数などを予測したい場合です。
最も広く利用されている予測モデリング手法は、決定木、回帰、ニューラル・ネットワークの3つです。
回帰(線形またはロジスティック)は、統計解析で最も広く利用されている手法の1つです。回帰分析では変数間の関係を推定します。回帰分析は「正規分布に従うと想定される連続データ」に適用することを意図した手法であり、大規模なデータセットに埋もれている重要なパターンを発見することができます。特定の要因(例:価格)が商品の売れ行きに及ぼす影響の大きさを判断する場合などに多く利用されています。回帰分析で予測対象となる数値は、応答変数またはY変数と呼ばれます。線形回帰では、1つの独立変数を用いて、Y変数の結果を説明または予測、あるいは説明および予測します。重回帰の場合は、2つ以上の独立変数を用いて結果を予測します。ロジスティック回帰では、離散変数である未知の変数値を、他の変数の既知の値に基づいて予測します。応答変数はカテゴリー変数です。つまり、想定しうる値は、限定数の値のうちのいずれかのみとなります。二項ロジスティック回帰の場合、応答変数は0または1など、2つの値のいずれか一方のみを取ります。多重ロジスティック回帰の場合、応答変数は複数のレベル(例:低/中/高、1/2/3)を取ることができます。
決定木(デシジョンツリー)は、入力変数のカテゴリーに基づきデータをサブセットに分割する分類モデルです。これは人間の意思決定経路を理解するために役立ちます。決定木は樹木に似た形状を取り、個々のブランチ(枝)が代替選択肢のいずれを選択するかを表現し、個々のリーフ(葉)が分類すなわち意思決定を表現します。このモデルはデータを調べ、個々の分岐ポイントにおいて、最も大きな相違を示す論理グループ群にデータを分割するような1個の変数を発見しようとします。決定木が広く利用されているのは、理解と解釈が容易だからです。また、欠損値をうまく扱うことができ、準備処理の一環としての変数選択にも役立ちます。そのため、欠損値が多い場合や、迅速かつ容易に解釈できる答えを得たい場合は、決定木から開始するのが得策です。
ニューラルネットワークは、極めて複雑な関係をモデル化することができる高度な手法です。これが広く利用されている理由は、そのパワフルさと柔軟さです。このパワーが効果を発揮するのは、データ内の非線形の関係を処理する場合であり、より大量のデータを扱うようになった今日では、こうした処理がますます一般的になりつつあります。しばしば、回帰や決定木などのシンプルな手法で得られた知見を確認する目的で使われます。ニューラルネットワークは、パターン認識や、パラメータを視覚的に「モデル化」する何らかのAI(人工知能)プロセスに基づいてアナリティクス処理を行います。入力を出力に関連付ける既知の数式が存在しない場合や、説明よりも予測が重要とされる場合、あるいは、トレーニングデータが大量にある場合に、効果を発揮します。人工ニューラルネットワークは、元々、人間の脳の神経生理機能を模倣することに挑んだ研究者たちによって開発されたものです。
よく使用されるその他の手法
ベイズ分析:ベイズ手法はパラメータをランダムな変数として取り扱い、確率を「確信の度合い」として定義します(つまり、ある事象の発生確率とは、その事象が真であるとユーザーが確信する度合を示します。これは「主観確率」と呼ばれます)。ベイズ分析を実行するときは、未知のパラメータの確率分布に関する事前の確信を開始点とします(これは「事前確率」と呼ばれます)。そして、利用できるデータから情報を学んだら、その情報を用いて、その未知のパラメータに関する確信を変更または更新します(これは「事後確率」と呼ばれます)。
アンサンブル・モデル:アンサンブル・モデルは、精度の向上、バイアスの低減、変動の低減、新しいデータに適用する最良モデルの特定などを目的として、複数の類似モデルを学習させ、それらの結果を組み合わせることで作成します。
勾配ブースティング:これはブースティング・アプローチの1種であり、データセットのリサンプルを何度も繰り返し、その加重平均を取って結果を生成します。決定木と同様、ブースティングはデータの分布に関して何の想定も行いません。単一の決定木に比べ、ブースティングはデータの過学習/過剰適合に陥る可能性が低く、決定木がデータにうまく当てはまる場合には、ブースティングによって、その当てはまり具合がさらに改善されることが少なくありません(データの過学習/過剰適合とは、使用する変数が多すぎ、モデルが複雑すぎる状態を意味します。学習不足/適合不足はその逆であり、変数の数が不十分で、モデルが単純すぎる状態を意味します。過剰と不足、どちらの場合も予測精度は低下します)。
増分応答(正味リフトモデル、アップリフト・モデルとも呼ばれます):これは行動によって引き起される確率の変化をモデル化する手法です。顧客離反の低減や、さまざまなマーケティング・プログラムの影響評価などの目的で広く利用されています。
k近傍法 (KNN) これは、k最近傍法(k-closest)の学習サンプルに基づきオブジェクトの値やクラスのメンバーシップを予測するノンパラメトリックの手法です。分類と回帰分析、どちらにも使用できます。
記憶ベース推論(MBR):記憶ベース推論は、k近傍法を用いてオブザベーションを分類または予測する手法です。
部分最小二乗法(PLS):この柔軟な統計手法は、どのような状態のデータにも適用することができます。部分最小二乗法は、複数の入力の間に相関関係がある場合や、入力にノイズが多い場合、複数の出力がある場合、オブザベーション数より入力数が多い場合などでも、入力と出力の関係をモデル化することができます。この手法は、応答変数と予測変数の両方を説明する要因を探します。
主成分分析(PCA):主成分分析の目的は、分析対象とする元の多数の変数に含まれる情報をできるだけ多く保持するような形で、一連の変数からなる少数の独立した線形結合(主成分)を導き出すことです。
サポート・ベクター・マシン(SVM):これは、教師あり機械学習手法の一種であり、関連する学習アルゴリズムを用いてデータ分析とパターン認識を行います。分類と回帰、どちらにも使用できます。
時系列データマイニング:時系列データとは、時間の経過に沿って特定の間隔で収集されるタイムスタンプ付きのデータです(例:1ヶ月の売上高、1日のコール数、1時間あたりのWeb閲覧数など)。時系列データマイニングでは、データマイニングと予測の両方に関して従来型の手法を組み合わせます。予測精度の改善を目標として、時系列に沿って収集されたデータに対し、サンプリング、クラスタリング、決定木などのデータマイニング手法を適用します。
予測分析の活用を始めるには何が必要か?
予測分析の活用を始めるにあたって最初に必要なことは、解決すべき課題を特定することです。過去のデータに基づき将来について何を知りたいのでしょうか? 何を理解し予測したいのでしょうか? また、予測結果を使って何を実現したいのかも検討する必要があります。予測結果から得られる洞察を、どのような意思決定に役立てたいのでしょうか? 取るべき行動にはどのような選択肢があるのでしょうか?
次に必要になるのはデータです。今日の世界では、実に多くの場所からデータを収集できます。例えば、トランザクション・システム、センサーが収集するデータ、サードパーティが公開/販売する情報、コールセンターの記録、Webログなどがあります。また、データの世話人(data wrangler)、すなわち「データ管理業務の経験があり、分析用データのクレンジングや準備を支援してくれる担当者」も必要になります。予測モデリングの素材となるデータを準備するためには、データとビジネス課題の両方を理解している人物の協力も欠かせません。予測対象をどのように定義するかによって、結果を解釈するために利用できる方法が変わってくるからです(データ準備は分析プロセスの中でも最も時間がかかる工程の1つと考えられています。それを前提として取り組むことが重要です)。
データの準備が済んだら、予測モデルの構築を開始します。最近では使いやすいソフトウェアの普及が進み、より幅広い人々が分析モデルの構築に取り組むことができます。しかし、それでもやはり、モデルの改良や最も有効性の高いモデルの発見を支援してくれるデータ分析担当者を、何らかの形で確保する必要があるでしょう。また、モデルのデプロイ(業務実装/現場展開)を手伝ってくれるIT部門の担当者が必要になる可能性もあります。適切なデータにモデルを適用できる業務環境を整えないかぎり、求める結果は得られません。
予測モデリングにはチームによるアプローチが不可欠であり、幅広い人々に参加してもらう必要があります。解決すべきビジネス課題を理解している人物、分析用データの準備方法を把握している人物、モデルの構築や改良を実行できる人物、モデルの構築とデプロイに必要となる適切なアナリティクス基盤を確保できるIT部門のスタッフなどです。また、分析に関するさまざまな希望を叶えていくためには、スポンサーとして活動してくれる経営幹部クラスの人物の存在も重要です。
このトピックに関する他のインサイト
- すばらしい新世界における機械学習と人工知能What is the interplay between man and machine in a brave new world with AI?
- ジカウイルスの阻止: ビッグデータとアナリティクスの可能性アナリティクスの専門家、現地の医療機関、米疾病対策予防センター(CDC)の学術研究コミュニティ、ワクチンメーカーが一致団結すれば、ジカウイルスの蔓延を阻止できるはずです。
- 機械学習入門:よくある5つの誤解(英語)データセットの巨大化と複雑化が進むなか、機械学習(マシン・ラーニング)への注目度が高まっています。これはどのような仕組みなのでしょうか? キンバリー・ネバラが、5つのよくある誤解を解きながら機械学習とは何かを説明します。
- 公共機関、公共セクターによるHigh-Performance Analyticsの活用政府機関や公共機関の持つビッグデータは、内部の不正や機関へのリスクだけでなく、市民生活などさまざまな要素に影響を与えます。では公共セクターは、どうすればビッグデータを有効に活用できるでしょうか。