SAS Slovakia Newsletter / Business Analytics

Ako sa rodia informácie

 

Niekedy je riešenie dátových skladov a Business Intelligence charakterizované ako proces, počas ktorého sa „dáta menia na informácie". Tu je dôležité práve slovo proces – na jeho začiatku je surovina, vyťažená z operatívnych informačných systémov, na jeho konci zušľachtený produkt s mnohými novými vlastnosťami, vhodný na nový spôsob použitia. Je zrejmé, že práve tento proces bude rozhodujúci pre konečnú podobu produktu – informácie. Pretože spája na svojich koncoch dva výrazne odlišné svety (operatívne transakčné spracovanie s jeho obmedzeniami a prioritami a analytické spracovanie s jeho komplexnosťou a variabilitou), musia počas neho aj príslušné dáta prejsť zodpovedajúcou premenou. Pozrime sa teda, čo sa s dátami v priebehu ich „premeny na informácie" stane a aké podoby budú postupne naberať.

Vrstvená logická architektúra 
V predošlých častiach bola architektúra dátového skladu rozoberaná z „vonkajšieho" pohľadu: riešili sme, aké sú hlavné stavebné kamene a spôsob fyzického uloženia dát.Otázkami, aký je obsah uložených dát, akú majú štruktúru a podoby a ako sú uchovávané počas naznačeného procesu premeny na informácie, sa zaoberá logická architektúra dátového skladu.

Z jej pohľadu sú vlastné dáta uložené v troch základných vrstvách, zodpovedajúcich ich rôznym vývojovým fázam. Bežne sa tieto vrstvy označujú ako L0 až L2. Na čo je to dobré, to sa pokúsime ukázať tým, čo sa v týchto vrstvách rieši, čím sú charakteristické a ako v praxi vyzerajú.

 

Takto vyzerá (skoro) celý obrázok. Znázornený príklad ukazuje, aké majú jednotlivé technologické komponenty postavenie v logických vrstvách architektúry dátového skladu. Všimnime si, že ich začlenenie nemusí byť vždy jednoznačné, sú tu aj presahy medzi vrstvami, prinášajúce možnosť ďalších rozmanitých kombinácií a prístupov k riešeniu. Veľmi však záleží aj na tom, „čo je vnútri". Tým, ako sú jednotlivé stavebné kamene utvárané, sa budeme podrobnejšie zaoberať v nasledujúcich pokračovaniach.

Nárazník a čakáreň
Prvá úloha celého procesu je zachytiť potrebné dáta v primárnych operatívnych systémoch. Vzhľadom na to, že hlavnou úlohou týchto systémov je spravidla niečo úplne iné ako poskytovanie dát pre dátový sklad, musíme sa pri ich získavaní prispôsobiť možnostiam a rytmu zdrojových systémov (napríklad zaťažovať ich extrakciou relatívne veľkých objemov dát mimo špičky transakčnej prevádzky alebo dokonca v čase, keď sú mimo aktívnej služby – v noci, cez víkend a pod.). Nie vždy je to úplne možné, a tak najmä v týchto prípadoch je žiaduce, aby sme obmedzili aj množstvá a zložitosť operácií potrebných na ich získanie, aby sme ich „nebrzdili" v ich hlavnej činnosti. Ale súčasne si na ne musíme siahnuť, kým existujú, a zachytiť ich skôr, než sa zmenia alebo zmiznú. To preto, aby poskytovali úplnú výpoveď o skutočnostiach, ktoré nás zajímajú. Na to je tu nultá vrstva – L0, nazývaná aj Staging Area. 
Dáta sa zo zdrojov extrahujú v čase a podobe, ktorú nám umožnia primárne systémy, a takto sa i bezprostredne ukladajú do dátového skladu, teda do jeho vrstvy L0. Tá potom tvorí skutočný „nárazník" medzi dvoma rozdielnymi svetmi. Cieľom je však vstupné informácie integrovať, aby sme v ďalších krokoch mohli pracovať s ich konsolidovaným obsahom. Na to slúžia procedúry a rutiny, ktoré ich transformujú a prepoja, doplnia a opravia. Je to však možné až vo chvíli, keď máme extrahované všetky potrebné dáta – zo všetkých zdrojov, s patričnými logickými väzbami, platné k rovnakému okamihu. Skrátka tie, ktoré tvoria konzistentný a obsahovo správny základ pre analýzy, prezentáciu a následné rozhodovanie. Takže vrstva L0 predstavuje súčasne aj zhromaždisko, kam dáta postupne prichádzajú a čakajú na ďalšie spoločné vybavenie. Hlavná požiadavka na spôsob uloženia dát v L0 je jednoduchosť.
Nie je účelné komplikovať ju integritnými obmedzeniami a kontrolami. Skutočne ide o veľmi hrubú, práve vydolovanú surovinu, ktorá ešte len čaká na svoje zušľachtenie, ktorého prvá fáza sa odohrá hneď v ďalšom kroku – presune do vrstvy L1.

Integrovaná pravda
Zatiaľ čo sme zmierení s tým, že v L0 máme útržkovité, nejednoznačné a nekonzistentné informácie, v prvej vrstve (L1) je to už iná káva. Hovorí sa jej aj integrovaná vrstva a tu už v podstate „ide o všetko". Tu sídli želaná jedna verzia pravdy. Čo to však znamená prakticky? Snahou je mať tu informácie v podobe, ktorá čo najlepšie odráža štruktúru a fungovanie organizácie ako celku – so všetkými súvislosťami a väzbami, zahŕňajúce históriu a reflektujúce objektívne podmienky vonkajšieho sveta. Kľúčové požiadavky sú univerzálnosť, objektivita, úplnosť, jednoznačnosť a správnosť. Ide o to, aby bola zaistená konzistencia všetkých výstupných informácií, získaných prostredníctvom rôznych prístupových metód, pohľadov a nástrojov a prezentovaných v najrôznejších súvislostiach. Dátové štruktúry sú navrhnuté tak, aby čo najvernejšie opisovali štruktúru a povahu business subjektov, čomu najlepšie zodpovedá ukladanie v tretej alebo aspoň v druhej normálnej forme. A to nám napovedá, prečo sa tejto vrstve dátového skladu hovorí aj relačná vrstva.

Rôznosť v jednote
A už máme jednu verziu pravdy. Je tu však ešte iný problém – málokto sa v nej vyzná. Presnejšie len ten, kto je v relačnom modelovaní ako doma. Informácie sú totiž v L1 uložené konzistentne, v integrovanej a univerzálnej podobe. Môžeme povedať, že predstavujú vysoko zušľachtenú surovinu, ale stále je to len materiál, ktorý na konečné spracovanie do podoby užitočného produktu ešte len čaká. Cieľom riešenia dátového skladu totiž nie je informáciu len vytvoriť, ale ju aj v zrozumiteľnej podobe a prijateľným spôsobom doručiť tým, ktorí ju potrebujú. A na to slúži vrstva L2 – prezentačná. Tu sú informácie transformované do podoby, ktorá najlepšie zodpovedá spôsobu práce, znalostiam a konkrétnym potrebám tých, ktorí s nimi potom pracujú.

Prakticky to znamená, že sú štruktúrované tak, aby bolo možné si ich prezerať, analyzovať, reportovať. Že sú k nim pridané doplňujúce vysvetľujúce informácie, využívajúce „normálne" pojmy z biznisu; že sú patrične interpretované a graficky znázorňované; že sú v nich zvýrazňované dôležité skutočnosti a pod. Prezentačná vrstva poskytuje rozmanitosť pre rôzne pohľady. A rovnako rozmanité sú aj možnosti jej realizácie – od vytvárania špeciálnych dátových štruktúr cez dimenzionálne modelovanie až po využívanie špeciálnych nástrojov, technológií i riešení.

Vladimír Kyjonka
BI Business Advisor, SAS
Článok je prevzatý z Computerworldu