SAS Slovakia Newsletter / Business Analytics

Dátový sklad pre každý deň

 

Ako zariadiť, aby náš sklad nebol nedobytnou informačnou pevnosťou, ale aby sa na druhej strane neskladal z množstva izolovaných informačných ostrovov? Akú novú dimenziu musíme do našich úvah vniesť, aby sme oba koncepty spojili, eliminovali ich slabiny a využili ich výhody? Ak porovnáme oba predchádzajúce modely, je zrejmé, že hlavnou prednosťou centralistickej koncepcie je kontrola nad konzistentnosťou informačného obsahu, zatiaľ čo u nezávislých datamartov je to predovšetkým flexibilita uloženia dát a prístup k ním. Snahu o spojenie výhod oboch prezentuje zbernicová architektúra.

Zbernica

Zvodnosť myšlienky nezávislých datamartov v praxi ešte umocňuje fakt, že ich implementácia je z pravidla na počiatku veľmi úspešná. Vzápätí po svojom rýchlom uvedení do života sú schopné poskytovať užitočné informácie. Sprievodným rysom ich popularity je ich rýchle šírenie. Tak sa stane, že v istom okamihu, bez toho, že by sme to najskôr postrehli, je zrazu systém taký zložitý a rôznorodý, že je ťažké ho riadiť a udržiavať. Pôvodne plánovaná flexibilita a ľahká prístupnosť sú preč.

Cesta k riešeniu predstavuje „bus architecture“ – zbernicová architektúra dátového skladu. V podstate sa jedná o koordinovane vytvárané datamarty, ktorých obsah je riadený spoločnou infraštruktúrou naplňovania jednotne riadenými procesmi (agreed processes) a určovaný jednou sadou definícií objektov, ich štruktúr a významov, teda tým, čomu sa hovorí metadáta. A práve toto „hľadanie obsahu“ je novým prvkom v architektúre a zmieňovanou pridanou dimenziou.

Takéto riešenie je v mnohých ohľadoch „ľudsky prívetivé“. Môže kopírovať organizačnú štruktúru, umožňuje ľahko určovať kto zodpovedať za konkrétne informačné oblasti, členiť informácie, ale i nástroje a metódy pre ich sprístupnenie podľa potrieb konkrétnych ľudí a činností. Môže byť vytvárané postupne s rýchlou spätnou väzbou od užívateľov.

Živý dátový sklad

Zdalo by sa, že teraz nám už skutočne nič nebráni ťažiť strategické informácie z našich dát a neriskovať pritom blamáž príliš predimenzovaným ťažkopádnym projektom alebo naopak chaoticky rastúcou sieťou náhodne vytváraných útržkov. Stačí navrhnúť optimálnu architektúru z celej škály možností. Ale: to by v tom nebol čert, aby si zase niečo nevymyslel.

Keď už teda máme vyvinuté chytré metódy spracovania konsolidovaných dát, ktoré nám umožňujú s nadhľadom a odstupom sledovať, ako sa nášmu podnikaniu darí, mohli by sme ich uplatniť na „živé dáta“ a analyzovať chovanie nášho biznisu v každom okamihu. Mať možnosť reagovať bezprostredne na udalosti, teda robiť datawarehousing ako keby v reálnom čase! A naviac by s takto získanými informáciami mohli pracovať primárne operatívne systémy a využívať ich priamo vo svojich transakciách! Je to vôbec možné? Veď predsa jedným z hlavných dôvodov pre budovanie dátového skladu je odtienenie analytického spracovania od operatívneho. Konceptom, ktorý ide za hranice tradičných vzorcov, je operatívne dátové úložisko (Operational Data Store). Pre ODS je typické, že stojí mimo dátového skladu i mimo operatívneho systému, ale využíva infraštruktúry oboch svetov. Z dátového skladu si berie integráciu – teda procesy a nástroje pre konsolidáciu dát (cesta k jednej verzii pravdy), z primárnych systémov potom mechanizmus transakcií, potrebný pre prácu v reálnom čase. Je zameraný na určitý subjekt (napríklad dáta o zákazníkoch, dáta o produktoch) a nestará sa o históriu. Bežným príkladom je napríklad operatívne úložisko klientskych dát, obsahujúce konsolidované informácie o všetkých klientoch, obohatené o ďalšie informácie ako rozšírený profil, zapojenie do kampaní, výsledky skórovania, segmentácia, rating atď.). Tieto informácie sú aktualizované v reálnom čase a v reálnom čase sú tiež dostupné pre monitorovanie podnikových činností, ale i ako ďalší vstup pre on-line transakcie primárnych systémov. Vznik operatívnych úložísk je príkladom a nástrojom trendu zbližovania primárneho a sekundárneho spracovania dát, ktorého sme svedkami v dnešnej dobe.

Život je pestrý

V praxi sa málokedy stretneme s príkladom architektonicky čistého riešenia. Možné sú kombinácie historického centrálneho dátového skladu s nezávislými či koordinovanými datamartami, dokonca sa môžeme stretnúť i s viacej „centrálnymi“ dátovými skladmi v dôsledku vývoja, zlučovania firiem, zložitých organizačných štruktúr atď. Vytvárajú sa operatívne úložiská zamerané na konkrétne záujmové oblasti. Naša plánovaná verzia jednej pravdy nadobúda rôznych podôb a je stále náročnejšie ju udržať. Stále viac ľudí má prístup k pokročilým informáciám a stále viac ľudí a útvarov je schopných pre svoje potreby vytvárať vlastné dátové sklady, datamarty, operatívne úložiská; dnešné technológie im to umožnia. O to viac je potrebné sa starať o informačnú politiku podniku a cieľavedome sa venovať starostlivosti o podnikové dáta a informácie ako celok. Teda vedieť, čo vlastne robíme, prečo to robíme, za čo to robíme a čo nám to prinesie. Týmito otázkami sa zaoberajú podnikové programy Information Governance, Data Governance, BI Governance. Ale o tom zase niekedy nabudúce.

Vladimír Kyjonka
BI Business Advisor, SAS
Článok je prevzatý z Computerworldu