Informationsbrugerne har behov for ny databaseteknologi. I dag koster det mange ressourcer - CPU-tid og mennesketid – at sammenstille informationer om kunder, produkter, salg m.m., og det tager lang tid at få informationen frem til beslutningstagerne. Det er et forretningsmæssigt problem, fordi virksomheder har brug for, at vi reagerer hurtigt på ændringer i markedet. Men problemet har sine rødder i teknologi, for vi gemmer stadig alle vores data i databasestrukturer, som har mange årtier på bagen.
Overforbrug af hardware
Virksomhederne benytter relationsdatabaser - også kaldet RDBMS – til at håndtere transaktioner og små mængder af simple forespørgsler. De er optimeret til store mængder af små, hurtige opdateringer og sikring af dataintegriteten. De bruger ekstra diskplads til at håndtere two-phase commit-opdatering og eventuel roll-back, hvis opdateringen ikke er lykkedes korrekt. Benytter man disse RDBMS’er til f. eks. business intelligence, vil overforbruget af diskplads ligge på en faktor to til fire i forhold til det nødvendige.
Mange virksomheder har arbejdet på at bygge et data warehouse. De fleste har anvendt den RDBMS, de alligevel havde til rådighed. Visionen var at skabe ”one version of the truth”, men desværre har mange virksomheder oplevet, at man ikke kan slippe brugerne løs i det nye data warehouse. RDBMS’en går i stå, hvis de for alvor går i gang med at analysere direkte på data. RDBMS’en kan ikke håndtere mange samtidige, store forespørgsler. Og det er netop, hvad tunge informationsbrugere og analytikere har brug for.
Nogle opbygger i stedet en masse kopier af data til de forskellige grupper af informationsbrugere, så svartiden bliver til at holde ud. Denne eksplosion af data resulterer nogle steder i et data mart-kaos, som er dyrt at udvikle og vedligeholde, som spilder diskplads, kræver ekstra hardware og tilfører ekstra kompleksitet.
Ny database innovation er påkrævet
Markedet for RDBMS’er er konsolideret og standardiseret over de sidste 10 år, så det nu domineres af IBM, Oracle og Microsoft. Produktet er helt standardiseret, og konkurrencen er groft sagt udelukkende et spørgsmål om pris. Fremtiden er online og 24 gange 7. Derfor skal vi holde op med at bruge den traditionelle RDBMS til business intelligence. RDBMS’en er perfekt i de transaktionstunge online-miljøer, hvor transaktioner skabes og lagres, men den giver ikke brugerne et optimalt informationsmiljø.
Man kan jo passende indlede eftersøgningen med et portræt af den ønskede database. Vi vil gerne have, at databasen distribuerer data henover de disksystemer, der er til rådighed. Også gerne på tværs af platforme og operativsystemer. Vi vil gerne have en cluster-database, som tilbyder skalerbarhed gennem parallel processering og partitionering af data. Grid-funktionaliteten er tænkt ind i designet, så vi opnår optimal udnyttelse af den tilgængelige hardware (CPU, memory, I/O, disksystemer m.m.).
Målet er at undgå flaskehalse og at tilbyde konstant svartid – uanset datamængde og antal brugere. Det handler om en database, som er designet til at levere information ud af databasen, og som derfor halverer diskforbruget (eller mere end det) og forbedrer svartiden på komplekse forespørgsler med en flercifret faktor (altså 10-50 gange).
Fremtidens database til business intelligence har – helt på linje med Google – avanceret indeksteknologi, som lynhurtigt og parallelt finder frem til de klumper af data, der skal sammenstilles til brugeren. Og disse indeks kan vedligeholdes og udvides, mens der er brugere på systemet. Databasen kan ”google”.