情報管理戦略の構成要素

新しいプロセスを導入する際は、データ管理を構成するさまざまな要素について事前に理解しておくことが重要

執筆:デイビッド・ローシン(David Loshin)

企業全体に情報管理のベストプラクティスを展開する上で重要となる推進要因には、2つの枠組みがあります。まず1つ目は、多くの業種に共通するものです。これには例えば、収益拡大や安定した顧客関係を追求するために顧客や製品について実用的な知識や理解を得る必要性などが挙げられます。2つ目は、特定の業種に関連した業務ニーズと分析ニーズの特性です。

これらの推進要因が指し示すものは、包括的な情報管理フレームワークを構成するテクノロジーにもとづいて綿密に定義した情報管理体制のもとで、俊敏性と成熟度を高める必要性です。

データ統合は、既に企業にとって欠かせないものとなっています。

データ統合

データ統合は、既に企業にとって欠かせないものとなっています。ほとんどの企業・組織は、業務部門を横断したデータ共有の重要性が高まっていることを認識しており、これに対応するためには、データ統合の信頼性、パフォーマンス、アクセス速度を継続的に向上させる必要があります。特に重要なのは、以下の基本的な機能です。

  • データのアクセス性: 多くの企業・組織は旧式のデータシステムの広大な環境を捨て去ることができません。特に、履歴データを分析してビジネス価値を発掘したい場合はこれが必須です。データ統合の重要な側面のひとつに、アクセス性が挙げられます。これからの情報管理フレームワークには、ファイル単位のツリー構造データセットから、リレーショナル・データベース、ストリーミングされるデータソースまで、多種多様なデータソースへの接続機能(コネクター)を提供することが求められます。
  • データの変換、交換、配信: データソースへのアクセスが可能になったら、データ統合フレームワークは次に、データをソースからターゲットへと効率的に移動させなくてはなりません。この工程では、データをもとの形式からターゲットに合った形式へと変換する機能が必要になります。また、データセットのパッケージ化と配信が適切に行われているかを検証する手段も必要です。
  • データ複製と変更データ捕捉: データが増え続ける状況でも、一定時間内でのアクセスと配信を維持する必要がありますが、その障害となるのが、データ配信のボトルネックです。これは特に、周期的に実行されるソースシステムからのデータ抽出やデータウェアハウスへのロードに関して問題になります。大規模なデータセットの高速な大量転送を可能にするのが、データ複製(レプリケーション)と呼ばれる技術です。この技術では、「変更データ捕捉」という手法で変更の差分を供給(トリクルフィード)することでソースとターゲットを同期化します。この手法ではシステムログをモニタし、ソースの変更が生じたときにターゲットシステムを更新します。

データ・ビジュアライゼーション(データ視覚化)

効率的なデータ統合を行うと、構造も形式も多岐にわたる無数のデータソースへのアクセス要求が増大した場合に生じる課題にも、ある程度は対処できるようになります。ただし、データウェアハウスにデータを格納する際に、データを利用する側のシステムのパフォーマンス要件に見合うようなタイムリー性と一貫性を確保することに関して、複雑な課題がいくつか残ります。前述の障害(配信のボトルネック)と、同期プロセスにおける抽出・変換の複雑性が重なると、タイミングと同期に不備が生じるリスクがあり、その結果、データを利用する側のシステムとソースシステムとの間で不整合が発生するおそれがあります。

これに対処する1つの方法は、問題となるデータ遅延と非同期性をできるだけ減らすことです。こうした懸念の解消に取り組む中で進化・成熟してきたのが、データ・ビジュアライゼーション技術です。データ・ビジュアライゼーションのツールと技術は、次の3つに大別されます。

  • 連携: 標準化(正規化)されたデータモデルを、連携モデルに含まれる多様なソースへのアクセス手法にマッピングすることで、異種混在のソースを連携させます。
  • キャッシュ: データのアクセスおよび集計を仮想環境(キャッシングされた環境)内で管理することにより、データ・ビジュアライゼーションにおける遅延を減らし、システムのパフォーマンスを向上させます。
  • 一貫性: 連携機能とビジュアライゼーション機能は協調してアクセス手法を抽象化した上で、データの検証/クレンジング/統一化を行うプロセスにそれらの手法を結合させます。

仮想化されたデータ環境では、利用する側がソースデータの場所、データ統合、ビジネスルールの適用を意識する必要がないため、エンドユーザーのアプリケーションやビジネスデータの分析担当者によるデータアクセスが簡素化されます。

イベント・ストリーム処理

従来のビジネス・インテリジェンス・システムの多くは、リアルタイムのイベント情報を積極的にモニタ/収集/分析して実用的な知識を導き出す目的には、必ずしも十分であるとは言えません。この問題を解消するのが、イベント・ストリーム処理(ESP)という技術です。ESPによって、情報ストリームの中で次々と流れ込んでくるイベント群について、そのパターンや順序をリアルタイムでモニタリングすることが可能になりました。

ESPシステムを活用すると、複数の情報ストリームを組み合わせてリアルタイムで分析し、新たな改善機会やビジネスチャンスを特定し、速やかに対応することができます。例えば、情報管理担当者はESPシステムを用いて、多くの異なるデータ入力ストリームが業務環境の利用者に与える影響をモデル化し、望ましい結果をもたらすパターンを分析することができます。ESPシステムは、影響力を秘めた全てのイベント・ストリームを継続的に(リアルタイムで)モニタリングして既知のパターンと照合するだけでなく、定義済みの時間枠におけるイベントの結合と処理における遅延を減らすことができます。期待値や新たな機会の同定にばらつきがある場合、システムはアラートを生成し、適切な担当者に送信することもできます。これにより、担当者は従来のデータ分析シナリオよりも、はるかに迅速に行動を起こすことができます。

ESPネットワークでは、複数の入力データソースの大量のデータをモニタリングすることができ、イベント処理の遅延はほとんどありません。さまざまなストリーミング入力を拡張性の高い方式で継続的にモニタリングできるため、分析の待ち時間と応答時間が短縮され、新たな動きをいち早く察知・認識して速やかに対応することが可能です。つまり、静的なデータに対して動的なクエリを実行する代わりに、膨大な量の動的なデータをイベントの発生と同時進行で検索し、定義済みのさまざまなパターンと照合するための手段として、ESPを活用できるのです。

メタデータ管理

部門横断のデータ共有とデータ交換を実現する試みの中で、データの不整合に関する本質的な課題が明らかになりました。それは、データシステムが部門毎に個別に設計・開発・導入されているという点です。また、初期のメタデータ管理手法が、データモデルの構造的および技術的な側面にのみ焦点を当てたものであり、ビジネス面での意味やセマンティクスが含まれていなかったことから、メタデータ管理プロジェクトは困難に満ちたものになりがちでした。こうした経緯を踏まえ、今日的な企業情報管理環境では、ビジネス指向のメタデータ管理が必須要件となっています。こうした環境では、以下のためのツールや手法が提供されます。

  • ビジネス用語集: よく使われるビジネス用語と、その正式な定義
  • データ標準: 名前付け規則、定義済みの参照データセット、保管と交換に関する標準など
  • データ要素の定義: データ要素とビジネス用語とのつながりを規定するための定義。ビジネスアプリケーションに対し、状況に即した定義を提供するために使われる
  • データ系統: データ要素の概念と表現との関係を、異なるモデルおよびアプリケーションにまたがって示すために使われる情報
  • データガバナンスとの統合: データの検証、コンプライアンス、統制に関するポリシーと、メタデータ管理を統合するための仕組み

データ品質管理

データ品質管理に関する最新のベストプラクティスは、データの欠陥やエラーを特定する際の精度を改善するだけでなく、欠陥の根本原因を分析および是正するプロセスを簡素化することも目指して構築されています。また、現在のデータ品質関連のツールと技術に求められる必須要件としては、データを標準化する機能、可能な場合はエラーを訂正する機能、特定した課題にフラグを立てる機能、適切なデータ管理責任者に課題を通知する機能、そして、潜在的なデータ問題をソースデータの提供者に伝えるコミュニケーションを促進する機能などがあります。これらの要件を満たすためには、次のような技術が組み込まれたデータ品質管理フレームワークを全社規模で正式に運用する必要があります。

  • データの解析と標準化: データをスキャンして一つひとつの値を検証し、標準的でない表現を標準的な形式に変換します。
  • データの訂正とクレンジング: データ品質ルールを適用し、認識されたデータエラーを訂正します。これにより、データのクレンジングが行われ、不整合が排除されます。
  • データ品質ルール管理: データ品質の要件とルールを一元的に管理し、データに求められる要件の遵守状況を検証および確認します。
  • データ品質の測定とレポーティング: データをデータルールに照らして検証し、異常値やデータの欠陥を報告する機能を、サービスとして呼び出して実行するためのフレームワークを提供します。
  • 標準化されたデータ統合の検証: 現行のデータ統合プロセスに対する継続的な検証を行うほか、新たに開発するデータ統合プロセスに検証機能を組み込みます。
  • データ品質評価: データ・プロファイリングやその他の統計ツールを使って、ソースデータの評価とデータ問題の評価を行い、新たなデータ品質ルールの必要性を明らかにします。
  • インシデント管理: データ品質インシデント管理(レポーティング、分析/評価、優先順位付け、是正、追跡)に対するアプローチを標準化します。

データガバナンス

最後になりますが、今日的な企業情報管理環境は、データルールの検証とデータポリシーの遵守にかかわる技術がなければ決して成立しません。最低限でも、データポリシーのライフサイクルを管理するツールによる支援が必要です。これには、ポリシーの起草、データガバナンス委員会に対するポリシーの提案、審査と改訂、承認の促進、本番環境へのルールの適用が含まれます。

これらの作業は、組織内のシステム開発ライフサイクルにおける設計・開発の作業と足並みを揃えて進められなければなりません。その適用範囲は、データ利用者が求める要件の分析と取りまとめから、概念モデリング、論理/物理設計、その後の実装まで、情報管理ライフサイクルの全体に及びます。


デイビッド・ローシン(David Loshin)氏は、Knowledge Integrity社の社長です。データ品質、マスターデータ管理、ビジネス・インテリジェンスの領域におけるソートリーダーおよび熟練したコンサルタントとして知られています。

article-analytics-dm

Back to Top