Data Warehouse

Présentation et atouts

Un data warehouse (ou data warehouse d'entreprise) stocke de grandes quantités de données qui ont été collectées et intégrées à partir de diverses sources. Les organisations dépendant de ces données pour l'analytique et le reporting, les données doivent être formatées de manière cohérente et facilement accessibles – deux caractéristiques qui définissent l'entreposage de données et le rendent essentiel aux entreprises d'aujourd'hui.

Histoire du data warehouse


Alors que les données commençaient à proliférer dans les années 1970 et 1980, les entreprises ont ressenti le besoin d'un moyen de stocker toutes leurs informations et d'y accéder. L'informaticien Bill Inmon, le père des data warehouses, a commencé à définir le concept dans les années 1970 et c'est à lui que l'on doit le terme "data warehouse". En 1992, il a publié Building the Data Warehouse, un ouvrage considéré comme une source fondamentale sur la technologie des data warehouses. Inmon définit le data warehouse en adoptant une approche "descendante" selon laquelle un référentiel centralisé est d'abord établi. Ensuite, des magasins de données – qui contiennent des sous-ensembles spécifiques de données – sont créées dans ce référentiel.

Ralph Kimball, un autre expert en technologie qui a publié  The Data Warehouse Toolkit au milieu des années 90, voyait le concept du data warehouse de façon légèrement différente. Dans son approche "ascendante", les magasins de données individuels sont d'abord développés, puis intégrés ensemble pour créer un data warehouse.

Les data warehouses restent pertinents aujourd'hui – mais ils continuent d'évoluer à mesure que les industries changent pour mieux s'adapter au  cloud computing et à l'analyse des données en temps réel. Le data lake est un référentiel de stockage de données similaire à un data warehouse. Les data lakes ont vu le jour avec des technologies innovantes et peu coûteuses comme Apache Hadoop. Aujourd'hui, les data lakes sont souvent utilisés pour les big data qui prolifèrent et sont stockées sans traitement ni élaboration de schémas.

Un détaillant e-commerce améliore l'engagement de ses clients grâce à l'analytique et à l'IA basées sur le cloud.

Avec une activité en pleine croissance et un personnel de plus en plus dispersé, 1-800-FLOWERS.COM s'est tourné vers SAS® Viya® hébergé sur Azure pour obtenir une infrastructure plus souple et plus évolutive. Pour que les données soient prêtes pour l'analytique, l'entreprise consolide d'abord ses bases de données et les alimente dans Snowflake, un data warehouse basé sur le cloud.

Les Data Warehouses dans le monde d’aujourd’hui

Un data warehouse, c'est souvent ce qui fait la différence entre des décisions éclairées et le chaos des données. Découvrez comment et pourquoi les data warehouses et les technologies connexes sont utilisés dans le monde aujourd'hui.

Plus d'informations plus rapidement

Pour certains processus, la meilleure approche pour obtenir des informations à partir des données se compose d'un data warehouse et d'un processus ETL. De nombreuses entreprises utilisent aujourd'hui cette méthode, souvent en combinaison avec des technologies plus récentes – comme les flux de données temps réel, la virtualisation et les catalogues de données.

Qu'est-ce qu'une plate-forme de données clients ?

Les plate-formes de données clients (CDP) sont apparentées aux data warehouses. Elles rassemblent des données clients provenant de diverses sources telles que des bases de données transactionnelles, des centres d'appels, etc. Découvrez comment elles fonctionnent et pourquoi elles sont importantes.

Data lake :
Quoi, pourquoi et comment

Un data lake ingère rapidement des données et offre aux décideurs un accès, une exploration et une visualisation en libre-service. Parfaits pour stocker des big data non structurées telles que des tweets, des images, des voix et des flux de données, les data lakes sont une source de données courante pour les applications de machine learning.

Qu'est-ce qu'un catalogue de données ?

La recherche de big data dans l'ensemble de l'entreprise peut faire perdre un temps précieux. Un catalogue de données utilise des métadonnées pour aider les utilisateurs à faire rapidement une recherche dans l'ensemble des données d'une entreprise.

Qui utilise les data warehouses ?

Banque

Les banques utilisent des data warehouses à des fins de gouvernance et pour s'assurer qu'elles respectent les réglementations. Dans le domaine bancaire, les différentes entités métier créent de multiples systèmes opérationnels qui conduisent à des données éparpillées et incohérentes. Les fusions et les acquisitions compliquent le problème. Grâce aux data warehouses, les banques peuvent accéder à des données fiables et les utiliser pour le reporting et l'analytique.

Manufacturing

Le Manufacturing utilise des data warehouses pour accéder à des données provenant de diverses sources et les intégrer. Par exemple, le data warehouse stocke souvent des données de fabrication liées à la qualité des produits, collectées à partir de diverses sources – centres d'appels, sites d'information, forums de réseaux sociaux ou appels clients.

Santé

Les organismes de soins de santé ont besoin d'un accès sécurisé à des données normalisées qui sont regroupées à partir de diverses applications, tels que les systèmes d'information clinique, financier, employés et patients. Après avoir analysé ces données fiables, ils sont mieux armés pour optimiser les opérations et les ressources, fournir des soins coordonnés et garantir de bons résultats en matière de santé pour tous.

Secteur public

Les pouvoirs publics gèrent et stockent tous les types de données essentielles – souvent sensibles – du secteur public. Ces données proviennent de particuliers, de communautés, d'agences locales, régionales et nationales, d'organismes gouvernementaux et autres. Un data warehouse stocke en toute sécurité toutes ces informations afin qu'elles soient prêtes à être utilisées pour élaborer des politiques et prendre des décisions structurantes.

Nous avons maintenant des milliers d'éléments de données dans le data warehouse SAS. Nous pouvons analyser les liens entre eux pour déterminer si un certain parcours de soins a pu réduire les visites aux urgences ou la réincarcération. Judi Nightingale Director of Population Health Riverside County

Comment fonctionne un data warehouse

Un data warehouse commence par les données elles-mêmes qui sont collectées et intégrées à partir de sources internes et externes. Les utilisateurs métier accèdent à ces données standardisées dans un entrepôt. Ils peuvent ainsi les utiliser pour l'analyse et la création de rapports. Les outils de Business Intelligence les aident à explorer les données pour prendre des décisions métier plus éclairées.

Les données sont généralement stockées dans un data warehouse via un processus d'extraction, de transformation et de chargement (ETL). Les informations sont extraites de la source, transformées en données de haute qualité puis chargées dans l'entrepôt. Les entreprises effectuent ce processus régulièrement pour maintenir les données à jour et se préparer pour l'étape suivante.

Lorsqu'une organisation est prête à utiliser ses données pour  l'analytique ou la création de rapports, l'attention se déplace du data warehouse vers les outils de Business Intelligence (BI). Les technologies de BI telles que la Data Visualisation et l'exploration de données aident les organisations à tirer des informations importantes de leurs données commerciales. En back-end, il est important de comprendre comment l'architecture du data warehouse organise les données et comment le modèle de la base de données optimise les requêtes – afin que les développeurs puissent écrire des applications aux performances raisonnablement élevées.

En plus du data warehouse traditionnel et du processus ETL, de nombreuses organisations utilisent divers autres outils, méthodes et techniques pour leurs charges de travail. Par exemple :

  • Les pipelines de données peuvent être utilisés pour remplir des data warehouses sur le cloud, qui peuvent être entièrement gérés par l'organisation ou par le fournisseur de cloud.
  • Les flux de données en continu peuvent être stockés dans un data warehouse sur le cloud.
  • Un catalogue de données centralisé est utile pour unifier les métadonnées, ce qui facilite la recherche de données et le suivi de leur lignage.
  • Les outils d'automatisation des data warehouses permettent d'intégrer plus rapidement les nouvelles données dans les data warehouses.
  • Les solutions de virtualisation des données créent un data warehouse logique pour que les utilisateurs puissent visualiser les données à partir de leurs outils préférés.
  • Le traitement analytique en ligne (OLAP) est un moyen de représenter des données qui se résume en des vues et des hiérarchies multidimensionnelles. Lorsqu'il est utilisé avec un processus ETL intégré, il permet aux utilisateurs métier d'obtenir des rapports sans assistance informatique.
  • Un magasin de données opérationnelles (ODS) contient un sous-ensemble de données en temps quasi réel utilisées pour les rapports opérationnels ou les notifications.

Pourquoi les data warehouses sont-ils importants ?

Les data warehouses d'entreprise sont essentiels car ils intègrent et stockent – dans une base de données centrale et un format standard – toutes les données que les organisations utilisent pour prendre leurs décisions. En retour, les organisations peuvent s'éviter les résultats imprévisibles d'une approche ad hoc de l'accès et de l'intégration des données. Un data warehouse :

  • Conserve des enregistrements de données historiques – en stockant des mois, voire des années d'informations.
  • Assure la sécurité des données en les stockant dans un endroit unique où seules les personnes ayant besoin de données spécifiques peuvent accéder.
  • Fournit un accès facile à des données de haute qualité, ce qui permet de prendre des décisions commerciales plus rapides et plus éclairées.
  • Met les big data à disposition pour les rapports de base ainsi que pour les analytses avancées, comme le machine learning et le traitement automatique du langage naturel.

Comparaison : Data warehouse, magasin de données et data lake

Data Warehouse

  • Objectif : Stocke une grande quantité de données d'entreprise englobant plusieurs domaines de l'entreprise.
  • Avantages : Grande capacité ; contient de grandes quantités de données.
  • Inconvénients : Peut être difficile à construire.
  • Résultat : Les données sont structurées et prêtes à être utilisées pour des analyses ou des rapports.

Data mart

  • Objectif : Stocke une plus petite quantité de données, couvrant généralement un seul domaine utilisé par un seul département (comme le marketing ou les ventes).
  • Avantages : Plus rapide et plus facile à construire qu'un data warehouse.
  • Inconvénients : Sa mémoire est limitée – il ne peut donc pas stocker autant d'informations qu'un data warehouse.
  • Résultat : Les données sont structurées et prêtes à être extraites pour des analyses ou des rapports.

Data lake

  • Objectif : Stocke une grande quantité de données brutes dans leur format natif – idéal pour les big data non structurées comme les tweets, les images, la voix et les flux de données.
  • Avantages : Ingère rapidement des données et offre aux utilisateurs métier un accès rapide et en libre-service, ainsi que des capacités d'exploration et de visualisation.
  • Inconvénients : Fournit des données qui ne sont ni normalisées, ni non dupliquées, ni contrôlées en termes de qualité, ni transformées.
  • Résultat : Les données restent dans leur format brut et peuvent être réutilisées – plusieurs métadonnées peuvent être attribuées aux mêmes données.

SAS® Data Management

Les données stockées dans un data warehouse n'ont de valeur que si elles sont bien gérées. Avec la technologie de gestion des données de SAS, vous pouvez transformer les big data en véritables opportunités grâce aux technologies d'intégration, de gouvernance, de traitement des flux et de qualité des données.

Contactez SAS et découvrez comment nous pouvons vous aider