Livre blanc gratuit

Qu'est-ce que le profilage des données et comment facilite-t-il le big data ?

John Bauman, rédacteur en chef de SAS Insights

Le profilage des données, qui consiste à contrôler et à nettoyer les données, est un outil important que les organisations peuvent utiliser pour prendre de meilleures décisions en matière de données. Découvrez comment il aide à résoudre les problèmes liés aux données, qu'ils soient petits ou grands.

Dans notre monde plus en plus connecté, la quantité de données - et les sources de ces données - ne cesse d'augmenter. Le profilage des données est une évaluation souvent visuelle qui utilise une boîte à outils de règles commerciales et d'algorithmes analytiques pour découvrir, comprendre et éventuellement exposer les incohérences de vos données. Ces connaissances sont ensuite utilisées pour améliorer la qualité des données, ce qui constitue une part importante du contrôle et de l'amélioration de la santé de ces ensembles de données plus récents et plus volumineux.

Le besoin de profilage des données ne fera que croître. Les entrepôts de données des entreprises doivent interagir avec des ensembles de données de plus en plus diversifiés et intimidants provenant de différentes sources telles que les blogs, les médias sociaux et les technologies émergentes de big data comme Hadoop. Dans le monde industriel, l'internet des objets introduit une multitude d'appareils générant des données, tandis que les organisations peuvent accéder à des données biométriques et à des sources générées par l'homme, comme le courrier électronique et les dossiers médicaux électroniques.

La quantité de données n'est qu'un aspect de l'équation - la qualité des données est également importante. Les données qui ne sont pas correctement formatées, normalisées ou intégrées au reste de la base de données peuvent entraîner des retards et des problèmes qui se traduisent par des occasions manquées, des clients confus et de mauvaises décisions.

Le profilage des données vous permet d'anticiper ces questions. En effectuant un diagnostic et en examinant les données dont vous disposez, vous pouvez créer de manière proactive un plan pour résoudre un grand nombre de vos problèmes de données et nettoyer votre entrepôt de données avant qu'ils n'affectent votre organisation.

Découvrez comment une plateforme de gestion des données résout les problèmes liés au big data

La plupart des organisations ont passé la dernière décennie à acquérir des outils d'intégration de données pour profiler, gérer, gouverner et utiliser les données. Cet ebook décrit l'évolution des outils d'intégration de données et les avantages que l'on peut tirer d'une plateforme complète de gestion des données.

Télécharger l'ebook

Pourquoi avez-vous besoin du profilage des données ?

Le profilage des données vous aide à découvrir, comprendre et organiser vos données. Il devrait être un élément essentiel de la manière dont votre organisation traite ses données, et ce pour plusieurs raisons.

Tout d'abord, le profilage des données permet de couvrir l'essentiel de vos données, en vérifiant que les informations contenues dans vos tableaux correspondent aux descriptions. Il peut ensuite vous aider à mieux comprendre vos données en révélant les relations qui existent entre différentes bases de données, applications sources ou tables.

Au-delà de la découverte de pépites d'informations cachées dans vos propres données, le profilage des données vous aide à vous assurer que vos données sont conformes aux mesures statistiques standard, ainsi qu'aux règles d'entreprise spécifiques à votre société. Par exemple, la colonne d'un État peut utiliser une combinaison de codes à deux lettres et du nom de l'État en toutes lettres (parfois de manière incorrecte). L'établissement de profils de données permettrait de mettre au jour cette incohérence et d'élaborer une règle de normalisation qui les rendrait tous cohérents, avec des codes à deux lettres.

Quels sont les différents types de profilage des données ?

La plupart des techniques ou processus de profilage des données utilisés aujourd'hui se répartissent en trois grandes catégories : la découverte de la structure, la découverte du contenu et la découverte des relations. Les objectifs sont cependant les mêmes : améliorer la qualité des données et mieux les comprendre.

La découverte de la structure, également connue sous le nom d'analyse de la structure, permet de valider que les données dont vous disposez sont cohérentes et formatées correctement. Pour ce faire, vous pouvez utiliser différents procédés, tels que la recherche de motifs. Par exemple, si vous disposez d'un ensemble de données de numéros de téléphone, la recherche de modèles vous aide à trouver les ensembles de formats valides dans l'ensemble de données. La recherche de motifs vous permet également de savoir si un champ est basé sur du texte ou des nombres, ainsi que d'autres informations spécifiques au format.

La découverte de structures permet également d'examiner des statistiques de base simples dans les données. En utilisant des statistiques telles que les valeurs minimales et maximales, les moyennes, les médianes, les modes et les écarts types, vous pouvez vous faire une idée de la validité des données.

La découverte de contenu est le processus qui consiste à examiner de plus près les éléments individuels de la base de données afin de vérifier la qualité des données. Cela peut vous aider à trouver des domaines qui contiennent des valeurs nulles ou des valeurs incorrectes ou ambiguës.

De nombreuses tâches de gestion des données commencent par la comptabilisation de toutes les entrées incohérentes et ambiguës dans vos ensembles de données. Le processus de normalisation de la découverte de contenu joue un rôle majeur dans la résolution de ces petits problèmes. Par exemple, la recherche et la correction de vos données pour adapter les adresses de rue au bon format constituent une partie essentielle de cette étape. Les problèmes qui pourraient découler de données non standard, comme l'impossibilité de joindre les clients par courrier parce que l'ensemble des données contient des adresses mal formatées, sont coûteux et peuvent être traités dès le début du processus de gestion des données.

Enfin, la recherche de relations consiste à découvrir les données utilisées et à essayer de mieux comprendre les liens entre les ensembles de données. Ce processus commence par l'analyse des métadonnées afin de déterminer les relations clés entre les données et d'affiner les liens entre des champs spécifiques, en particulier lorsque les données se chevauchent. Ce processus peut contribuer à réduire certains des problèmes qui surviennent dans votre entrepôt de données ou dans d'autres ensembles de données lorsque les données ne sont pas alignées.

Le profilage des données peut être utilisé pour résoudre des problèmes, même dans les plus grands ensembles de données.

Quelles sont les techniques de profilage des données ?

Les outils de profilage des données permettent d'améliorer la qualité des données grâce à quatre méthodes générales : le profilage des colonnes, le profilage croisé des colonnes, le profilage croisé des tables et la validation des règles de données.

Le profilage des colonnes parcourt un tableau et compte le nombre de fois où chaque valeur apparaît dans chaque colonne. Cette méthode peut être utile pour trouver des distributions de fréquence et des modèles dans une colonne de données.

Le profilage transversal se compose de deux processus : l'analyse des clés et l'analyse des dépendances. L'analyse des clés examine les collections de valeurs d'attributs en recherchant une éventuelle clé primaire. L'analyse des dépendances est un processus plus complexe qui permet de déterminer s'il existe des relations ou des structures dans un ensemble de données. Ces deux techniques permettent d'analyser les dépendances entre les attributs de données d'une même table.

L'analyse croisée des tables utilise l'analyse des clés étrangères, c'est-à-dire l'identification des enregistrements orphelins et la détermination des différences sémantiques et syntaxiques, pour examiner les relations entre les ensembles de colonnes dans différentes tables. Cela permet de réduire la redondance, mais aussi d'identifier les ensembles de valeurs de données qui pourraient être mis en correspondance.

Enfin, la validation des règles de données utilise le profilage des données de manière proactive pour vérifier que les instances et les ensembles de données sont conformes aux règles prédéfinies. Ce processus permet de trouver des moyens d'améliorer la qualité des données et peut être réalisé soit par une validation par lots, soit par un service de validation continue.

Quels sont les exemples de profilage de données utilisés aujourd'hui ?

Le profilage des données peut être utilisé pour résoudre des problèmes, même dans les plus grands ensembles de données, en examinant d'abord les métadonnées. Par exemple, en utilisant les métadonnées SAS et les outils de profilage des données avec Hadoop, vous pouvez résoudre les problèmes dans les données pour trouver les types de données qui peuvent le mieux contribuer à de nouvelles idées commerciales.

Le profilage des données est un élément essentiel de la mise en œuvre d'une stratégie de données. Il permet de créer des règles de qualité des données qui peuvent être utilisées pour contrôler et nettoyer vos données. Les organisations peuvent prendre de meilleures décisions grâce à des données fiables, et le profilage des données est une première étape essentielle de ce parcours.