- Jeg har lavet en komplet uvidenskabelig beregning, som viser, at med et redesign af ETL-processerne og overflytningen af data til en Unix-boks er det omkring ti gange billigere at lave analyseopgaven på intelligence-databasen fra SAS på en Unix-boks end på en DB2 på mainframe, siger projektleder Michael Rosairus fra PBS. Han understreger, at det kun er et fingerpeg, for analysen bygger på CPU-tider, CPU-priser og transaktioner fra en tilfældig uge i 2006.
Besparelsen var nu heller ikke det afgørende for PBS, som fik en række andre fordele ved at aflaste mainframen. Det nye databasemiljø – som består af SAS Intelligence-databasen på en stor Unix-boks med fire CPU’er – får da også hele tiden nye opgaver og flere data. PBS kalder sit analysemiljø for ”sandpit”, fordi miljøets 1,6 milliarder lagrede transaktioner udgør en ”sandkasse” for 50 analytikere hos PBS. Det er historiske data om transaktionerne gennem PBS, og de bruges til kundeservice, politimæssig efterforskning, risk management og rapportering. Nu kan PBS-folkene lege mere frit i ”sandkassen”.
- DB2 er en uovertruffen database til online-transaktionsmiljøet, hvor den enkelte transaktion skal være stensikker. Intelligence-databasen egner sig til analyser af mange data, hvor man ikke behøver al den driftsmæssige styring, som vi har i DB2-miljøet, siger Michael Rosairus.
24-timers åbent
Fordelene ligger i måden, man loader data, evnen til at søge i data og selve ”åbningstiden” for hele miljøet. Hvor det tidligere tog fem-otte timer at loade med friske data, så er tiden nu nede på tre minutter. Det betyder helt konkret, at ”åbningstiden” for brugerne er 24 timer i døgnet minus tre minutter. Hver morgen kl. 7.45 er databasen ikke tilgængelig i tre minutter, men så er den også klar igen med friske data. Forklaringen finder man i en forbedret ETL-proces:
- Vi har redesignet hele processen fra de kørende transaktionssystemer og ind i sandpit. Besparelserne og fordelene ligger i, at vores databasesoftware nu løser de opgaver, de hver især er bedst til. Det giver fordele både i DB2-miljøet og SAS®-miljøet, siger Michael Rosairus, som forklarer, at ETL-processen foregår skjult og i baggrunden som en løbende klargøring af data, og derfor kan selve load-tiden holdes nede på tre minutter.
Intelligence-databasen får data i ”clustre”, som er en samling af data for hver uge. Når data skal flyttes ind i miljøet, så består det i at omdefinere et cluster, som via metadata peger på de fysiske tabeller. Dermed undgår PBS en komplet og meget ressourcekrævende samlet opdatering af databasen. Dette cluster-princip giver også store fordele i forhold til backup. Intelligence-databasen har ikke 2-phase-commit og andre driftsfunktioner, som giver maksimal sikkerhed for korrekte data. I det hele taget er miljøet designet til analyse, og netop analysebrugerne prioriteres højt.