Dataprofilering, dvs. overvågning og rensning af data, er et vigtigt værktøj, som organisationer kan bruge til at træffe bedre databeslutninger. Lær, hvordan det hjælper med dataproblemer - store som små.
I vores stadig mere forbundne verden fortsætter mængden af data - og kilderne til disse data - med at stige. Dataprofilering er en ofte visuel vurdering, der bruger en værktøjskasse med forretningsregler og analytiske algoritmer til at opdage, forstå og potentielt afsløre uoverensstemmelser i dine data. Denne viden bruges derefter til at forbedre datakvaliteten som en vigtig del af overvågningen og forbedringen af disse nyere, større datasæt.
Behovet for dataprofilering vil kun vokse. Virksomhedernes datalagre skal interagere med stadig mere forskelligartede og skræmmende store datasæt fra forskellige kilder som blogs, sociale medier og nye big data-teknologier som Hadoop. I den industrielle verden introducerer Internet of Things et væld af enheder, der genererer data, mens organisationer kan få adgang til data fra biometri og menneskeskabte kilder som e-mail og elektroniske lægejournaler.
Mængden af data er kun den ene side af ligningen - datakvaliteten er også vigtig. Data, der ikke er formateret rigtigt, standardiseret eller korrekt integreret med resten af databasen, kan forårsage forsinkelser og problemer, der fører til forpassede muligheder, forvirrede kunder og dårlige beslutninger.
Dataprofilering hjælper dig med at komme disse problemer i forkøbet. Ved at sikre, at du stiller en diagnose og undersøger de data, du har, kan du proaktivt lave en plan for at løse mange af dine dataproblemer og rydde op i dit datalager, før de kan påvirke din organisation.
Datahåndtering til kunstig intelligens
Maskinlæringssystemer uddrager ikke bare indsigter fra de data, de bliver fodret med, som traditionelle analyser gør. De ændrer faktisk den underliggende algoritme baseret på, hvad de lærer af dataene. Nu er det tid for ledere, især den dataansvarlige, til at beslutte sig for data managementstrategi, teknologi og bedste praksis, som vil være afgørende for fortsat succes.
Hvorfor har du brug for dataprofilering?
Dataprofilering hjælper dig med at opdage, forstå og organisere dine data. Det bør være en vigtig del af, hvordan din organisation håndterer sine data af flere grunde.
For det første hjælper dataprofilering med at dække det grundlæggende i dine data ved at kontrollere, at oplysningerne i dine tabeller stemmer overens med beskrivelserne. Derefter kan den hjælpe dig med at forstå dine data bedre ved at afsløre de relationer, der går på tværs af forskellige databaser, kildeprogrammer eller tabeller.
Ud over at afdække skjulte informationer i dine egne data hjælper dataprofilering dig med at sikre, at dine data lever op til statistiske standardmål samt forretningsregler, der er specifikke for din virksomhed. For eksempel kan en kolonne med delstater bruge en kombination af både koder på to bogstaver og det fuldt ud stavede (nogle gange forkerte) navn på delstaten. Dataprofilering ville afsløre denne inkonsekvens og informere om oprettelsen af en standardiseringsregel, der kunne gøre dem alle til konsekvente koder på to bogstaver.
Hvad er de forskellige former for dataprofilering?
Mange af de dataprofileringsteknikker eller -processer, der anvendes i dag, falder ind under tre hovedkategorier: strukturafdækning, indholdsafdækning og relationsafdækning. Målene er dog de samme - at forbedre datakvaliteten og få en bedre forståelse af dataene.
Strukturafdækning, også kendt som strukturanalyse, validerer, at de data, du har, er konsistente og korrekt formaterede. Der er flere forskellige processer, du kan bruge til dette, f.eks. mønstermatchning. Hvis du f.eks. har et datasæt med telefonnumre, hjælper mønstermatchning dig med at finde de gyldige sæt af formater i datasættet. Mønstermatchning hjælper dig også med at forstå, om et felt er tekst- eller talbaseret sammen med andre formatspecifikke oplysninger.
Strukturafdækning undersøger også enkle grundlæggende statistikker i dataene. Ved at bruge statistikker som minimums- og maksimumsværdier, gennemsnit, medianer, tilstande og standardafvigelser kan du få indsigt i dataenes validitet.
Indholdsafdækning er den proces, hvor man ser nærmere på de enkelte elementer i databasen for at kontrollere datakvaliteten. Det kan hjælpe dig med at finde områder, der indeholder null-værdier eller værdier, der er forkerte eller tvetydige.
Mange datastyringsopgaver starter med en redegørelse for alle de inkonsekvente og tvetydige poster i dine datasæt. Standardiseringsprocessen i indholdsafdækning spiller en stor rolle i at løse disse små problemer. For eksempel er det en vigtig del af dette trin at finde og korrigere dine data, så de passer til gadeadresser i det korrekte format. De potentielle problemer, der kan opstå som følge af ikke-standardiserede data, som f.eks. at man ikke kan nå ud til kunder via mail, fordi datasættet indeholder forkert formaterede adresser, er dyre og kan løses tidligt i datahåndteringsprocessen.
Endelig handler relationsafdækning om at finde ud af, hvilke data der er i brug, og forsøge at få en bedre forståelse af forbindelserne mellem datasættene. Denne proces starter med metadataanalyse for at bestemme nøglerelationer mellem dataene og indsnævrer forbindelserne mellem specifikke felter, især hvor dataene overlapper hinanden. Denne proces kan hjælpe med at skære ned på nogle af de problemer, der opstår i dit datalager eller andre datasæt, når data ikke er afstemt.
Dataprofilering kan bruges til at løse problemer i selv de største datasæt.
Hvilke dataprofileringsteknikker findes der?
Der er fire generelle metoder, hvormed dataprofileringsværktøjer hjælper med at opnå bedre datakvalitet: kolonneprofilering, profilering på tværs af kolonner, profilering på tværs af tabeller og validering af dataregler.
Kolonneprofilering scanner gennem en tabel og tæller antallet af gange, hver værdi optræder i hver kolonne. Denne metode kan være nyttig til at finde frekvensfordeling og mønstre i en datakolonne.
Profilering på tværs af kolonner består af to processer: nøgleanalyse og afhængighedsanalyse. Nøgleanalyse undersøger samlinger af attributværdier ved at lede efter en mulig primærnøgle. Afhængighedsanalyse er en mere kompleks proces, der afgør, om der er relationer eller strukturer indlejret i et datasæt. Begge teknikker hjælper med at analysere afhængigheder mellem dataattributter i den samme tabel.
Profilering på tværs af tabeller bruger analyse af fremmednøgler, som er identifikation af forældreløse poster og bestemmelse af semantiske og syntaktiske forskelle, til at undersøge relationerne mellem kolonnesæt i forskellige tabeller. Det kan hjælpe med at skære ned på redundans, men også identificere dataværdisæt, der kan knyttes sammen.
Endelig bruger validering af dataregler dataprofilering på en proaktiv måde til at verificere, at dataforekomster og datasæt er i overensstemmelse med foruddefinerede regler. Denne proces hjælper med at finde måder at forbedre datakvaliteten på og kan opnås enten gennem batch-validering eller en løbende valideringstjeneste.
Hvilke eksempler er der på dataprofilering i dag?
Dataprofilering kan bruges til at løse problemer i selv de største datasæt ved først at undersøge metadata. Ved at bruge SAS' metadata- og dataprofileringsværktøjer sammen med Hadoop kan du f.eks. foretage fejlfinding og løse problemer i dataene for at finde de typer data, der bedst kan bidrage til nye forretningsidéer.
Dataprofilering er en kritisk komponent i implementeringen af en datastrategi og informerer om oprettelsen af datakvalitetsregler, der kan bruges til at overvåge og rense dine data. Organisationer kan træffe bedre beslutninger med data, de kan stole på, og dataprofilering er et vigtigt første skridt på denne rejse.
Anbefalet læsning
- Article Data lake and data warehouse – know the differenceIs a data lake just marketing hype, or a new name for a data warehouse? Find out what a data lake is, how it works and when you might need one.
- Article Key questions to kick off your data analytics projectsThere’s no single blueprint for starting a data analytics project. Technology expert Phil Simon suggests these 10 questions as a guide.
- Article The transformational power of evidence-based decision making in health policyState health agencies are under pressure to deliver better health outcomes while minimizing costs. Read how data and analytics are being used to confront our biggest health care challenges head on.
- Article Data lineage: Making artificial intelligence smarterLear how data lineage plays a vital role in understanding data, making it a foundational principle of AI.
Er du klar til at abonnere på Insights nu?