SAS Slovakia Newsletter / Biznis analytika

Naše drahé ETL 

  

Rôzne techniky modelovania a optimalizácie dátových skladov a sofistikované analytické nástroje a metódy si iste vyžadujú nasadenie značného intelektuálneho úsilia, čo v spojení s príslušným pokročilým a patrične drahým softvérom generuje nemalé náklady. Samotné ukladanie veľkých objemov dát tiež nie je zadarmo. Napriek tomu však ani jedna z týchto položiek nie je tou najdrahšou.

Uvádza sa, že 60 až 70% nákladov je vynaložených na to, aby sa do dátových skladov vôbec dostali nejaké dáta. Aby vôbec bolo z čoho tú novú zušľachtenú informáciu vytvoriť. Ako najnákladnejšie sa teda v praxi ukazuje vytváranie, prevádzkovanie a údržba „plniacich procesov“.  Dôvodov je hneď niekoľko.

Surovina
Pri hľadaní správnych zdrojov informácií si mnohokrát môžeme pripadať ako zlatokopi pátrajúci po zlatej žile. Okrem toho, že nemusí byť zďaleka vždy jasné, kde vlastne príslušné dáta hľadať, sa musíme vyrovnať s rôznymi formátmi, platformami, databázami, rôznymi fyzickými i logickými štruktúrami. Navyše sú často rovnaké položky na rôznych miestach, zatiaľ čo tie, ktoré sú v skutočnosti rôzne, vyzerajú na pohľad rovnako. A tiež nie je možné si na všetky potrebné dáta kedykoľvek „len tak siahnuť“;  totiž prevádzkové systémy, v ktorých sú uložené, majú svoj rytmus a priority, ktoré je potrebné zohľadniť na prvom mieste. Vyznať sa v rôznych zdrojových systémoch a technológiách vyžaduje mať o všetkých z nich dosť hlboké znalosti. Nájsť a v správnej štruktúre a v obmedzenom čase vyextrahovať patričné dáta tak, aby sme ich mali k dispozícii, keď treba, a navyše konzistentné a jednoznačné, to je častokrát nadľudská úloha.

Zložitosť
Prenesenie dát z prevádzkových systémov do dátového skladu nie je nikdy len obyčajným pumpovaním, aj keď sa tak tomu niekedy hovorí. Stačí si len uvedomiť, koľkými logickými a fyzickými vrstvami dáta prechádzajú pri svojom prerode na cenné informácie a čo sa s nimi deje. Všetky normalizácie, denormalizácie a optimalizácie znamenajú väčšinou podstatnú zmenu štruktúry a podoby dát.  Ak vezmeme do úvahy, že dáta môžu nakoniec pristáť na mnohých rôznych miestach, predstavovaných závislými a nezávislými datamartami, ódéeskami a špecializovanými aplikáciami, dokážeme si predstaviť, že ich rôznorodosť môže byť naozaj veľká. A pritom je potrebné za všetkých okolností zaistiť, aby výsledné informácie boli konzistentné – aby sme naozaj získali jednu verziu našej Jednej verzie pravdy.

Množstvo
Čím bohatšie je spektrum informácii spracovávaných počítačovými systémami a čím pokročilejšie je súčasne ich vyťažovanie nástrojmi a riešeniami  Business Analytics, tým väčšie objemy dát sa sťahujú. K tomu sú navyše vyžadované analýzy stále čerstvejšie a pritom komplexnejšie. Zvládnuť manipuláciu s obrovskými objemami dát vo vymedzenom čase vyžaduje špecializované softvérové nástroje, často s podporou výkonného hardvéru.

Nestálosť
Nastaviť „pumpovacie“ procesy pri zložitosti transformačných procesov, variabilite zdrojových informácií a veľkých objemoch prenášaných dát, je skutočne úloha vyžadujúca si mnoho úsilia a prostriedkov. Mohlo by sa zdať, že pokiaľ sa všetko „správne“ urobí hneď na začiatku, máme o všetko postarané a ďalej už môže isť všetko hladko. Život a na neho naviazaný (často neviazaný) rozvoj informačných systémov sa samozrejme odráža aj v našom dátovom sklade. Pretože život je zmena a zmena je život; a každú zmenu sprevádza nutnosť vyrovnať sa znova a znova s rovnakými nástrahami, popísanými vyššie. Takže úsilie a náklady v tejto oblasti sa nijak výrazne nezmenšia ani v ďalších fázach života nášho dátového skladu.

Prečo o tom hovoríme
Pri budovaní a prevádzkovaní riešení Business Analytics býva v centre pozornosti to, čo je vidieť – teda analytické aplikácie a nástroje, reporty, grafy, tabuľky, vizualizácie a prípadne vlastné dátové úložisko – ide predsa o dátový sklad a vyzerá dobre, ak sa môžeme pochváliť, aké gigabajty a terabajty sme schopní uskladniť… Fakt, že k tomu všetkému potrebujeme procesy a nástroje, ktoré, s prepáčením, „niekam pumpujú nejaké dáta“, zostáva často trochu v tieni toho „hlavného“.  Neprávom, pretože ide často o veľké peniaze a v skutočnosti sa touto problematikou zaoberá celkom rozsiahly odbor a odvetvie IT, zvané najčastejšie ETL.

ETL pod kontrolou
Skratka troch slov – Extrakcia, Transformácia, Load – vystihuje skoro všetko. Ide o to, nájsť a vyextrahovať dáta zo zdrojových systémov, pretvoriť ich do mnohých možných podôb, v ktorých sú uložené a využívané pre analýzy, reporty a ďalšie informačné produkty a naplniť nimi zodpovedajúce vrstvy dátového skladu, datamarty a aplikácie. Jednu veľmi podstatnú vec však ani táto dokonalá skratka neodráža. Je totiž úplne zásadné udržať agendu ETL pod kontrolou. Aby sme zaistili za všetkých okolností konzistenciu (t.j. udržali jednu verziu pravdy). Aby sme nemuseli pri každej zmene „znovu vynachádzať koleso". Aby sme dokázali povedať, čo tieto zmeny znamenajú a čo prinesú, nielen pre IT systémy a nástroje, ale hlavne pre biznis používateľov informácií.

Keď to zhrnieme, ide opäť o jednu z klasických úloh, pri ktorých riešení by sme sa nemali obmedzovať len na využitie nášho zdravého sedliackeho rozumu. V praxi to znamená, že už pri úvahách a návrhu nášho riešenia je potrebné venovať príslušnú porciu pozornosti (a počítať s príslušnou časťou investície) špecializovanému riešeniu, či nástroju, ktorý sa k tejto úlohe dokáže postaviť profesionálnym spôsobom. Profesionalita v tomto prípade znamená využitie skúseností iných – s mapovaním zdrojových dát z najprapodivnejších prostredí, využití špeciálnych transformačných metód, technológií a techník pre optimalizáciu dátových tokov. Podstatné totiž je, aby sa ľudia, ktorých úlohou je celý proces spravovať, mohli sústrediť na informačnú hodnotu, ktorá pod ich rukami prúdi. Aby boli odbremenení od technických detailov primárnych systémov a čiastkových (aj keď zaujímavých) techník, ale aby na druhej strane mali priestor dohliadať na konzistenciu, úplnosť a relevanciu poskytovaných informácií z hľadiska potrieb biznisu.

Inak povedané, ETL procesy si zaslúžia samostatnú kapitolu a samostatné špecializované prostredie v projektoch Business Analytics, ktoré zaistí, že „naše drahé ETL” nebude ešte drahšie.

Vladimír Kyjonka, BI Advisor