Free ebook

Vad innebär dataprofilering och hur gör det arbetet med big data enklare?

John Bauman, redaktör för SAS Insights

Dataprofilering, granskning och rensning av data, är ett viktigt verktyg verksamheter kan använda för att fatta bättre databeslut. Lär dig hur det hjälper till med dataproblem – stora som små.

I vårt allt mer uppkopplade samhälle fortsätter mängden data – och källorna till denna data – att växa. Dataprofilering är en ofta visuell bedömning som använder en verktygslåda med verksamhetsregler och analytiska algoritmer för att upptäckta, förstå och potentiellt avslöja motsägelser i din data. Denna kunskap används sedan för att förbättra datakvalitet som en viktig del av att granska och förbättra hälsan för de nya och större datamängderna.

Behovet av dataprofilering kommer att fortsätta växa. Företags datalager måste interagera med allt mer mångfaldiga och avskräckande stora datamängder från olika källor som bloggar, sociala medier och framväxande datatekniker som Hadoop. I den industriella världen introducerar Internet of Things (sakernas internet) en mängd enheter som genererar data, medan organisationer kan komma åt data från biometri och mänskligt genererade källor som e-post och elektroniska patientjournaler.

Mängden data är bara en del av ekvationen – även datakvalitet är viktigt. Data som inte är rätt formaterad, standardiserad eller korrekt integrerad med resten av databasen kan orsaka förseningar och problem som leder till missade möjligheter, förvirrade kunder och dåliga beslut.

Dataprofilering hjälper dig att undvika sådana problem. Genom att försäkra att du gör en felsökning och undersöker datan du har kan du proaktivt skapa en plan för att lösa många av dina dataproblem och städa ditt datalager innan det kan påverka din organisation.

Datahantering för artificiell intelligens

Till skillnad från traditionell analys så extraherar maskininlärningssystem inte bara insikter från datan de matas med, utan de ändrar även den underliggande algoritmen baserat på vad de lär sig av datan. Det är nu hög tid för företagsledare, särskilt Chief Data Officer, att välja strategi, teknik och bästa metod för datahantering vilket kommer att vara oumbärligt för fortsatt framgång.

Ladda ner e-boken

Varför behöver man dataprofilering?

Dataprofilering hjälper dig att upptäcka, förstå och organisera din data. Det borde av flera anledningar vara en grundläggande del av hur din organisation hanterar sin data.

För det första hjälper dataprofilering till med att täcka grunderna med din data, som att verifiera att informationen i dina tabeller matchar sina beskrivningar. Sen kan det hjälpa dig att bättre förstå din data genom att avslöja förhållanden som sträcker sig över olika databaser, källapplikationer eller tabeller.

Utöver att bara identifiera dolda insikter i din egen data, hjälper dataprofilering till med att försäkra att din data lever upp till standardiserade statistiska mått, samt verksamhetsregler som är specifika för ditt företag. Till exempel: en kolumn över länder kan använda en kombination av landskoder bestående av två bokstäver och fullständigt angivna (ibland felstavade) landsnamn. Dataprofilering skulle avslöja motsägelserna och informera om skapandet av en standardiseringsregel som skulle kunna konvertera alla inmatningar till konsekventa koder bestående av två bokstäver.

Vilka är de olika sorternas dataprofilering?

Många av de dataprofileringstekniker och processer som används idag går att dela in i tre huvudkategorier: strukturupptäckt, innehållsupptäckt och relationsupptäckt. Målen är dock densamma – att förbättra datakvalitet och få bättre förståelse för datan.

Strukturupptäckt, vilket även kallas strukturell analys, bekräftar att datan du har är konsekvent och korrekt formaterad. Det finns flera olika processer du kan använda för detta, däribland mönstermatchning. Till exempel: om du har en datamängd med telefonnummer hjälper mönstermatchning dig att hitta de giltiga formatseten inom datamängden. Mönstermatchning hjälper dig även att förstå om ett fält är text- eller nummerbaserat tillsammans med annan formateringsspecifik information.

Strukturupptäckt undersöker även enkel grundläggande statistik i datan. Genom att använda statistik som minimi- och maximivärden, medelvärde, median, typvärde och standardavvikelse kan du få insikt i datans validitet.

Innehållsupptäckt är processen av att titta närmare på varje individuell del av datamängden för att kontrollera datakvaliteten. Det underlättar upptäckten av fält som innehåller tomma, felaktiga eller oklara värden.

Många datahanteringsuppgifter börjar med att redovisa för alla inkonsekventa och tvetydiga inmatningar i dina datamängder. Standardiseringsprocessen av innehållsupptäckt spelar en viktig roll i att fixa de här små problemen. Att till exempel hitta och rätta din data för att få gatuadresser att passa det rätta formatet är en grundläggande del av det här steget. Det potentiella problemet som kan uppstå från icke-standardiserad data, som att inte kunna nå kunder via post på grund av att datamängden innehåller inkorrekt formaterade adresser är kostsamt och kan åtgärdas tidigt i datahanteringsprocessen.

Sist men inte minst är relationsupptäckt, vilket handlar om att upptäcka vilken data som används och försöka få en bättre förståelse för kopplingen mellan datamängder. Denna process börjar med en metadataanalys för att avgöra de viktigaste förhållandena mellan datan och avgränsar kopplingarna mellan specifika områden, särskilt där datan överlappar varandra. Denna process kan hjälpa till att minska några av de problem som uppstår i ditt datalager eller andra datamängder när data inte samstämmer.

Dataprofilering kan användas för att felsöka problem inom även de allra största datamängder.

Vad är några olika dataprofileringstekniker?

Det finns fyra allmänna metoder genom vilka dataprofileringsverktyg hjälper till att åstadkomma bättre datakvalitet: kolumnprofilering, kolumnöverskridande profilering, tabellöverskridande profilering och valideringsregler.

Kolumnprofilering skannar en tabell och räknar hur många gånger varje värde dyker upp i varje kolumn. Denna metod kan vara användbar för att hitta frekvensdistribution och mönster inom en datakolumn.

Kolumnöverskridande profilering består av två processer: key analysis och dependency analysis. Key analysis undersöker samlingar av attribut genom att leta efter en möjlig primärnyckel. Dependency analysis är en mer komplex process som avgör huruvida det finns några förhållanden eller strukturer inbäddade i en datamängd. Båda teknikerna hjälper till att analysera beroenden bland dataattributen inom samma tabell.

Tabellöverskridande profilering använder foreign key analysis, vilket är identifieringen av övergivna poster och fastställande av semantiska och syntaktiska skillnader, för att undersöka förhållandet mellan kolumnuppsättningar i olika tabeller. Det kan även hjälpa till att minska överflöd, men även identifiera uppsättningar av datavärde som kan passas ihop.

Slutligen, valideringsregler använder dataprofilering på ett proaktivt sätt för att bekräfta att datainstanser och datamängder rättar sig efter tidigare fastställda regler. Denna process hjälper till att hitta sätt att förbättra datakvalitet och kan uppnås genom antingen batchvalidering eller en fortgående valideringsservice.

Vad är några exempel på hur dataprofilering används idag?

Dataprofilering kan användas för att felsöka problem inom även de allra största datamängderna genom att först undersöka metadata. Genom att använda SAS verktyg för metadata och dataprofilering med Hadoop kan du till exempel felsöka och lösa problem inom datan för att hitta de sorters data som bäst kan bidra till nya affärsidéer.

Dataprofilering är en viktig del i implementeringen av en datastrategi och upplyser om skapandet av regler för datakvalitet som kan användas för att granska och rensa din data. Organisationer kan fatta bättre beslut med data de kan lita på, och dataprofilering är ett viktigt första steg på den resan.

Rekommenderad läsning

Subscribe to Insights newsletter

Vad innebär dataprofilering och hur gör det arbetet med big data enklare?

Datahantering för artificiell intelligens

Follow Us

What is...