SAS Slovakia Newsletter / Business Analytics

Ako získať jednu verziu pravdy

Dátové sklady a Business Intelligence sú často charakterizované ako riešenia, od ktorých sa očakáva, že svojim používateľom poskytnú jednu verziu pravdy. V prostredí primárnych systémov sú dáta rozprestreté v priestore a čase v rôznych systémoch, v rôznej štruktúre i forme. Vznikajú v rôznych dobách a rôznym spôsobom. A takisto rôzne, nezriedka dokonca protichodne, vypovedajú o skutočnostiach, ktoré zachytávajú. Dostať sa k jednému vierohodnému, univerzálnemu a použiteľnému výsledku reportu, štatistiky a analýzy preto nie je jednoduché. Je to však základný predpoklad, dávajúci celému riešeniu zmysel. No ako zariadiť, aby sme integrovanú a konzistentnú informáciu získali?

Zaťať do živého
Prvý nápad, ktorý sa ponúka, je vytiahnuť dáta priamo z primárnych systémov a pomocou inteligentných algoritmov ich prepojiť a vypočítať z nich žiadané výsledky. Prečo nie? Nakoniec nás to v podstate „nič nestojí“, informácie sú skutočne čerstvé, nemusíme kupovať alebo vytvárať ďalšie špecializované systémy a zamestnávať ďalších špecializovaných pracovníkov. Ale čoskoro zistíme, že táto jednoduchosť je zdanlivá. Ako sa požiadavky na report a analýzy množia, je čoraz náročnejšie udržovať množstvo kódu, zaistiť konzistenciu výstupov, udržať jednotný a spoľahlivý obraz. Získanie proklamovanej jednej verzie pravdy je zrazu nesplniteľná úloha. K tomu sa pripájajú ďalšie problémy: načítanie veľkého objemu dát narušuje transakčné spracovanie v primárnych systémoch. Zaťažuje ich úplne iným druhom požiadaviek, než na aké boli stavané. Brzdí alebo i znemožňuje spracovanie ich agend s neblahým dosahom na fungovanie podnikových činností. 

 

 


Ďalší problém pramení z faktu, že dáta sa v primárnych systémoch ukladajú spôsobom a v štruktúre, ktorá najlepšie zodpovedá požiadavkám jednotlivých aplikácií. Na analytické spracovanie je to však nešikovné. Získanie potrebnej informácie si vyžaduje neraz komplikovanú logiku, ktorá ďalej zväčšuje nároky na výkon výpočtového systému.

A napokon niektoré potrebné informácie v primárnych systémoch vôbec nie sú. Veď jednou zo základných požiadaviek na ne vždy bolo, aby obsahovali len dáta, ktoré nevyhnutne potrebujú na svoju prevádzku. Ich obsah je riadený „prevádzkovými potrebami", takže napríklad historické dáta, opisné atribúty, ale ani agregácia a rôzne iné redundantné informácie v nich nemajú čo hľadať. Preto je zrejmé, že bude treba užitočné dáta z primárnych systémov jednorazovo vytiahnuť, pretvoriť ich do podoby vyhovujúcej nášmu cieľu, uložiť ich mimo primárneho systému a tam ich potom ľubovoľne používať.

Informačná pevnosť
Tak sa narodila prvá architektúra, ktorá dala celému softvérovému odvetviu meno – architektúra centrálneho dátového skladu (niekedy sa používajú aj pojmy podnikový čiže enterprise dátový sklad, monolitický dátový sklad atď.). Jeho myšlienka je jednoduchá: nazbierať všetky dáta a uložiť ich na jedno miesto, do jednej štruktúry, v jednom formáte a jedným spôsobom. Od tejto chvíle potom každý používateľ či aplikácia nájdu požadovanú informáciu vždy v rovnakom priečinku. Takže jedna verzia pravdy bude raz a navždy zaistená. Do skladu sa môžu ukladať i historické informácie a dopĺňať o ďalšie „zvonku", takže ich obsah je naozaj riadený informačnými potrebami. Stačí navrhnúť optimálnu univerzálnu štruktúru, do ktorej sa všetky dáta uložia. Potom už nebude otázka, na ktorú by systém nedokázal odpovedať. Nastane informačná nirvána.

 

 


Je tu však opäť celý rad „ale"
Takto ponímané riešenie predstavuje spravidla široký, „všeobjímajúci" koncept, vyžadujúci detailný a veľmi náročný návrh. Potreba informácií a vlastný zámer sú časovo vzdialené od chvíle, keď poskytuje skutočné výsledky. Ide o zložitý a rozsiahly IT projekt, do ktorého „bežný smrteľník" nevidí, nieto že by ho bol schopný aj ovplyvniť. A ak je dokončený, je natoľko robustný, komplexný a mohutný, že získať z neho informáciu nie je paradoxne vôbec jednoduché. Takýto systém pripomína skôr informačnú pevnosť, v ktorej je naša jedna verzia pravdy dobre uzavretá. Pri konfrontovaní s veľkými očakávaniami to vedie k rozčarovaniu a faktickému neúspechu.

V praxi je to s centrálnymi dátovými skladmi obdobné ako so všetkými rozsiahlymi a komplikovanými systémami. Investície do nich sa vyplácajú v situáciách, keď jednoduchšie, menšie a flexibilnejšie riešenie nie je schopné efektívne pokryť veľmi zložité a variabilné požiadavky a kapacitne zvládnuť naozaj veľké objemy dát.

Informácia na trhu
„Čo sa vlastne chcete z vášho dátového skladu dozvedieť?" Tak znie zvyčajná legitímna otázka tvorcov takého systému. A rovnako legitímna odpoveď môže byť: „No, vlastne to nevieme. Očakávame, že nám ten skvelý dátový sklad odhalí nové skutočnosti, ktoré nám pomôžu spoznať, ako náš biznis vlastne funguje."

Typické je, že po tom, čo skutoční živí ľudia začnú informácie z dátového skladu využívať pri svojej práci, zistia, čo všetko v ňom môžu nájsť. A potom sú schopní čoraz lepšie formulovať konkrétne požiadavky a otázky. Inšpirujú sa a učia sa vyhľadávať ďalšie. Kryštalizuje sa ich informačná potreba. Paradoxné však je, že táto informačná potreba je to, na základe čoho by sa mal obsah dátového skladu vytvárať. Ako teda zaistiť, aby sa jeho nákladné budovanie nedostalo do slepej uličky? Je zrejmé, že kľúčová je skutočnosť, ako skoro z neho dokážu používatelia získavať informácie a na základe svojej skúsenosti korigovať požiadavky na jeho obsah. Aby to bolo možné, musia mať k požadovaným informáciám ľahký prístup, musia im dobre rozumieť a musia ich mať k dispozícii včas. To možno zariadiť, ak sa zameriame na určitú informačnú oblasť, skupinu používateľov, odbor atď. Dát bude asi menej, budú menej zložité, ich spracovanie nebude vyžadovať veľmi robustnú infraštruktúru. Skrátka budú viac „poruke". Toto sa nazýva Data Mart, dátová tržnica. Aj na trhu každý hneď vidí prehľadne celú ponuku a vyberie si z nej, čo práve potrebuje. Cesta vytvárania sa skutočne zdá flexibilnejšia, rýchlejšia, efektívnejšia, bezpečnejšia.

No sú tu opäť tie „ale"
Vznikajú akési informačné ostrovy. Kto zaistí ich informačnú konzistentnosť? Kto zaistí, aby sa dáta opakovane neextrahovali z primárnych systémov? Kde zostala naša jedna verzia pravdy?

Čo s tým?
Medzi načrtnutými variantmi, žiaľ, neexistuje rozumný kompromis. Pokusy oň spravidla vedú k rôznym hybridom, ktoré majú negatíva oboch prístupov. Musíme si teda vybrať menšie zlo – voliť medzi komplikovaným a nákladným variantom jednej robustnej, no rigidnej verzie pravdy a flexibilitou, ktorá je však vykúpená stratou kontroly nad celkom.

Tušíme, že na spojenie predností oboch architektúr musíme k nášmu modelu pridať ešte nejakú ďalšiu dimenziu. Ako to urobiť, o tom v ďalšej časti.

Vladimír Kyjonka
BI Business Advisor, SAS
Článok je prevzatý z Computerworldu