Dataprofilering, dvs. overvågning og rensning af data, er et vigtigt værktøj, som organisationer kan bruge til at træffe bedre databeslutninger. Lær, hvordan det hjælper med dataproblemer - store som små.
I vores stadig mere forbundne verden fortsætter mængden af data - og kilderne til disse data - med at stige. Dataprofilering er en ofte visuel vurdering, der bruger en værktøjskasse med forretningsregler og analytiske algoritmer til at opdage, forstå og potentielt afsløre uoverensstemmelser i dine data. Denne viden bruges derefter til at forbedre datakvaliteten som en vigtig del af overvågningen og forbedringen af disse nyere, større datasæt.
Behovet for dataprofilering vil kun vokse. Virksomhedernes datalagre skal interagere med stadig mere forskelligartede og skræmmende store datasæt fra forskellige kilder som blogs, sociale medier og nye big data-teknologier som Hadoop. I den industrielle verden introducerer Internet of Things et væld af enheder, der genererer data, mens organisationer kan få adgang til data fra biometri og menneskeskabte kilder som e-mail og elektroniske lægejournaler.
Mængden af data er kun den ene side af ligningen - datakvaliteten er også vigtig. Data, der ikke er formateret rigtigt, standardiseret eller korrekt integreret med resten af databasen, kan forårsage forsinkelser og problemer, der fører til forpassede muligheder, forvirrede kunder og dårlige beslutninger.
Dataprofilering hjælper dig med at komme disse problemer i forkøbet. Ved at sikre, at du stiller en diagnose og undersøger de data, du har, kan du proaktivt lave en plan for at løse mange af dine dataproblemer og rydde op i dit datalager, før de kan påvirke din organisation.
Datahåndtering til kunstig intelligens
Maskinlæringssystemer uddrager ikke bare indsigter fra de data, de bliver fodret med, som traditionelle analyser gør. De ændrer faktisk den underliggende algoritme baseret på, hvad de lærer af dataene. Nu er det tid for ledere, især den dataansvarlige, til at beslutte sig for data managementstrategi, teknologi og bedste praksis, som vil være afgørende for fortsat succes.
Hvorfor har du brug for dataprofilering?
Dataprofilering hjælper dig med at opdage, forstå og organisere dine data. Det bør være en vigtig del af, hvordan din organisation håndterer sine data af flere grunde.
For det første hjælper dataprofilering med at dække det grundlæggende i dine data ved at kontrollere, at oplysningerne i dine tabeller stemmer overens med beskrivelserne. Derefter kan den hjælpe dig med at forstå dine data bedre ved at afsløre de relationer, der går på tværs af forskellige databaser, kildeprogrammer eller tabeller.
Ud over at afdække skjulte informationer i dine egne data hjælper dataprofilering dig med at sikre, at dine data lever op til statistiske standardmål samt forretningsregler, der er specifikke for din virksomhed. For eksempel kan en kolonne med delstater bruge en kombination af både koder på to bogstaver og det fuldt ud stavede (nogle gange forkerte) navn på delstaten. Dataprofilering ville afsløre denne inkonsekvens og informere om oprettelsen af en standardiseringsregel, der kunne gøre dem alle til konsekvente koder på to bogstaver.
Hvad er de forskellige former for dataprofilering?
Mange af de dataprofileringsteknikker eller -processer, der anvendes i dag, falder ind under tre hovedkategorier: strukturafdækning, indholdsafdækning og relationsafdækning. Målene er dog de samme - at forbedre datakvaliteten og få en bedre forståelse af dataene.
Strukturafdækning, også kendt som strukturanalyse, validerer, at de data, du har, er konsistente og korrekt formaterede. Der er flere forskellige processer, du kan bruge til dette, f.eks. mønstermatchning. Hvis du f.eks. har et datasæt med telefonnumre, hjælper mønstermatchning dig med at finde de gyldige sæt af formater i datasættet. Mønstermatchning hjælper dig også med at forstå, om et felt er tekst- eller talbaseret sammen med andre formatspecifikke oplysninger.
Strukturafdækning undersøger også enkle grundlæggende statistikker i dataene. Ved at bruge statistikker som minimums- og maksimumsværdier, gennemsnit, medianer, tilstande og standardafvigelser kan du få indsigt i dataenes validitet.
Indholdsafdækning er den proces, hvor man ser nærmere på de enkelte elementer i databasen for at kontrollere datakvaliteten. Det kan hjælpe dig med at finde områder, der indeholder null-værdier eller værdier, der er forkerte eller tvetydige.
Mange datastyringsopgaver starter med en redegørelse for alle de inkonsekvente og tvetydige poster i dine datasæt. Standardiseringsprocessen i indholdsafdækning spiller en stor rolle i at løse disse små problemer. For eksempel er det en vigtig del af dette trin at finde og korrigere dine data, så de passer til gadeadresser i det korrekte format. De potentielle problemer, der kan opstå som følge af ikke-standardiserede data, som f.eks. at man ikke kan nå ud til kunder via mail, fordi datasættet indeholder forkert formaterede adresser, er dyre og kan løses tidligt i datahåndteringsprocessen.
Endelig handler relationsafdækning om at finde ud af, hvilke data der er i brug, og forsøge at få en bedre forståelse af forbindelserne mellem datasættene. Denne proces starter med metadataanalyse for at bestemme nøglerelationer mellem dataene og indsnævrer forbindelserne mellem specifikke felter, især hvor dataene overlapper hinanden. Denne proces kan hjælpe med at skære ned på nogle af de problemer, der opstår i dit datalager eller andre datasæt, når data ikke er afstemt.
Dataprofilering kan bruges til at løse problemer i selv de største datasæt.
Hvilke dataprofileringsteknikker findes der?
Der er fire generelle metoder, hvormed dataprofileringsværktøjer hjælper med at opnå bedre datakvalitet: kolonneprofilering, profilering på tværs af kolonner, profilering på tværs af tabeller og validering af dataregler.
Kolonneprofilering scanner gennem en tabel og tæller antallet af gange, hver værdi optræder i hver kolonne. Denne metode kan være nyttig til at finde frekvensfordeling og mønstre i en datakolonne.
Profilering på tværs af kolonner består af to processer: nøgleanalyse og afhængighedsanalyse. Nøgleanalyse undersøger samlinger af attributværdier ved at lede efter en mulig primærnøgle. Afhængighedsanalyse er en mere kompleks proces, der afgør, om der er relationer eller strukturer indlejret i et datasæt. Begge teknikker hjælper med at analysere afhængigheder mellem dataattributter i den samme tabel.
Profilering på tværs af tabeller bruger analyse af fremmednøgler, som er identifikation af forældreløse poster og bestemmelse af semantiske og syntaktiske forskelle, til at undersøge relationerne mellem kolonnesæt i forskellige tabeller. Det kan hjælpe med at skære ned på redundans, men også identificere dataværdisæt, der kan knyttes sammen.
Endelig bruger validering af dataregler dataprofilering på en proaktiv måde til at verificere, at dataforekomster og datasæt er i overensstemmelse med foruddefinerede regler. Denne proces hjælper med at finde måder at forbedre datakvaliteten på og kan opnås enten gennem batch-validering eller en løbende valideringstjeneste.
Hvilke eksempler er der på dataprofilering i dag?
Dataprofilering kan bruges til at løse problemer i selv de største datasæt ved først at undersøge metadata. Ved at bruge SAS' metadata- og dataprofileringsværktøjer sammen med Hadoop kan du f.eks. foretage fejlfinding og løse problemer i dataene for at finde de typer data, der bedst kan bidrage til nye forretningsidéer.
Dataprofilering er en kritisk komponent i implementeringen af en datastrategi og informerer om oprettelsen af datakvalitetsregler, der kan bruges til at overvåge og rense dine data. Organisationer kan træffe bedre beslutninger med data, de kan stole på, og dataprofilering er et vigtigt første skridt på denne rejse.
Anbefalet læsning
- Article Big data in government: How data and analytics power public programsBig data in government is vital when analyzed and used to improve the outcomes of both public and private sector programs – from emergency response to workforce effectiveness. The vast volumes of data created every day are the foundation of insightful changes for government agencies across the globe.
- Article Unlocking a strategic approach to data and AIAI is only as good as the data that powers it – this is a fundamental truth about data and AI that defines the limits of what’s possible with artificial intelligence. It may seem surprising, but it's rarely a bad algorithm or a bad learning model that causes AI failures. It's not the math or the science. More often, it's the quality of the data being used to answer the question.
- Article Data quality management: What you need to knowData quality isn’t simply good or bad. Data quality management puts quality in context to improve fitness of the data you use for analysis and decision-making.
- Article Key questions to kick off your data analytics projectsThere’s no single blueprint for starting a data analytics project. Technology expert Phil Simon suggests these 10 questions as a guide.
Er du klar til at abonnere på Insights nu?