Mål datakvaliteten
Hvis man ønsker at faktabasere sine beslutninger, så strømmer data heldigvis konstant ind i virksomheden. Men jeg har et godt råd til ledere på alle niveauer. Det bygger på mange års erfaring med at hjælpe virksomheder med deres data. Test kvaliteten af de data, du præsenteres for. Foretag en stikprøve og mål datakvaliteten.
Garbage in – garbage out
Der plejer at være styr på datakvaliteten i regnskabsdata, men hvordan ser det ud i de kunderettede aktiviteter? Kundedatabasen, produktkataloget og ordremodtagelsen? Ordsproget: ”garbage in – garbage out” er i den grad sandt i forhold til datakvalitet. ”Garbage in” betyder ikke bare data med f.eks stavefejl i kundenavne, som kan være pinlige nok. Det er langt værre. Dubletter i kundedatabasen og i produktkataloget betyder ikke så meget for den enkelte transaktion, men de har fuldstændig afgørende betydning, når man kigger på tværs af data.
En fjerdedel af de kritiske data har fejl
For eksempel hvis man skal afgøre, hvor mange kunder der findes i et segment. Eller hvis man ønsker at fastslå kundens samlede engagement før en samtale med kunden. Dirty data is a business problem – not an IT problem. Det siger en datakvalitets-ekspert fra analysefirmaet Gartner Group, som estimerer, at i 2007 er 25 pct. af de kritiske data fejlbehæftede i verdens største virksomheder. Der findes ikke en virksomhed på denne planet uden et problem med datakvalitet. Selv hos de virksomheder, som anerkender at have et problem, har de fleste en tendens til at undervurdere problemet.
Datakvalitet er ikke et statisk problem, og derfor kan man ikke løse problemet en gang for alle. Datakvalitet er et løbende indsatsområde – et program – som kræver fokus – og nogen gange et kulturelt skift.
Datakvalitet er et løbende indsatsområde
Jeg er helt enig med Gartner Group, som står for disse synspunkter, og jeg foreslår at man bygger et ”rensningsanlæg” til sine data.
Det er nærliggende og intuitivt rigtigt at sige: Vi vil have nul fejl. Vi må rense vores data én gang for alle. Det skal være nu, og det skal ske dér, hvor fejlene opstår. Men det er faktisk en dyr og ineffektiv måde. Rensningsanlægget bygger i stedet på den nøgterne erkendelse, at man ikke kan forhindre, at snavsede data kommer ind i virksomheden. Årsagen er, at data kommer ind fra flere og flere kanaler: Internet, mails, automatiserede ordresystemer og fra de regneark, som vi selv producerer.
Skift tankegang og spar tid og penge
Med en anden tankegang kan man effektivt og billigt bekæmpe de snavsede data. Virksomheden etablerer en proces, hvor data regelmæssigt bliver ”profileret”. Det vil sige, at man undersøger og måler sin datakvalitet. Man anvender et dedikeret software-værktøj, som er sprog-intelligent og data-intelligent. Denne software bryder data op i små delelementer så som fornavn, efternavn, adresse, titel, produktkode og produktnavn også selv om ordene er behæftede med stavefejl. Kombinationen af alle disse oplysninger betyder, at softwaren selv og helt automatisk finder næsten alle dubletter i virksomhedens data ved hjælp af en sandsynlighedsberegning.
Erfaring viser, at sådan et rensningsanlæg automatisk identificerer mellem 50 og 75 pct. af fejlene i data. De resterende fejl på vej op mod de 100 pct. finder man ved at opbygge regler i et datakvalitetsværktøj. På den måde kan rensningsanlægget finde både de konkrete fejl, virksomheden allerede har identificeret, og fremtidige fejl af samme type. 100 pct. når man aldrig, men rensningsanlægget er den sikreste vej at gå.
Hvorfor vaske de beskidte underbukser med knofedt og vaskebalje, når vaskemaskinen er opfundet?
Denne klumme blev bragt i Jyllands-Posten den 25. juni 2007.