SAS Slovakia Newsletter / Business Analytics

Business Intelligence z nadhľadu

Už 2000 rokov pred naším letopočtom používali keltskí druidovia na území dnešnej Veľkej Británie číre kryštály na predpovedanie budúcnosti. Toto umenie zdokonalil v 16. storočí John Dee, poradca kráľovnej Alžbety, pomocou krištáľovej gule. Nám sa dnes podarilo obdobnú činnosť doviesť k dokonalosti s iným geometrickým tvarom – kockou. Reč bude o Business Intelligence (BI), dátových skladoch, hĺbkovej analýze dát a ďalších pozoruhodných disciplínach, ktoré s tým súvisia.

A pretože ide o inteligenciu biznisu, pokúsime sa tentoraz osviežiť tradične striktný pohľad o praktické súvislosti, pozrieť sa na vec tak trochu z nadhľadu. Ale čo to vlastne je a ako to všetko skutočne súvisí?

Čo je a čo nie je BI - nejde o špionáž
Predpokladajme, že čitateľom je jasné, že Business Intelligence nie je obchodná špionáž, ako by sa mohlo zdať pri jednoduchom preklade, vychádzajúc z prítomnosti slova Intelligence v názve významných výzvedných agentúr.

Prvá písomná zmienka
Trochu menej zreteľné to však je v prípade úvahy výskumníka Hansa Petera Luhna, publikovanej už v októbri 1958 vo firemnom časopise IBM Journal. Definuje Business Intelligence ako „schopnosť vnímať vzájomné vzťahy medzi prezentovanými faktami takým spôsobom, ktorý umožňuje smerovať naše akcie k žiaducemu cieľu," a predstavuje si ju ako automatizovaný počítačový systém, ktorý bude vytvárať abstrakty dokumentov, kódovať ich do štruktúrovanej informácie a tú (opäť automaticky) zasielať na miesta schopné realizovať zodpovedajúcu akciu.

Zasvätení vedia, že dnešné „oficiálne" vnímanie Business Intelligence je trochu odlišné, hoci by sme v tom našli štipku pravdy. Je totiž pozoruhodné, ako sa nám dnes naznačená problematika „vracia oknom" v podobe analýzy neštruktúrovaných informácií, aktívneho warehousing a ďalších odborov, ktoré v súčasnosti hýbu trendmi Business Intelligence, resp. Business Analytics (ale o tom viac nabudúce).

Ako poznáme BI dnes 
V roku 1989 opísal Howard Bresner Business Intelligence ako „koncepty a metódy na zlepšenie rozhodovania s podporou systémov spracúvajúcich fakty“. A na tejto definícii je založené dnešné vnímanie tohto odboru. Postupne sa vykryštalizovali pojmy ako dátové sklady, reporting, analytické spracovanie on-line (OLAP), exekutívne informačné systémy (EIS), manažérske informačné systémy (MIS), dolovanie dát a veľa ďalších. Pre všetky je charakteristické, že sa snažia získať nové informácie z existujúcich dát a použiť ich na podporu rozhodovania pri riadení podniku. Používajú na to rôzne metódy, nástroje, architektúru, prezentujú výsledky v rôznych podobách, ale jedno majú spoločné – pracujú s dátami, ktoré vznikli na iných miestach, na iné účely, v rôznych časoch a systémoch. Orientujú sa na druhotné spracovanie dát.

Prvotné a druhotné spracovanie
Čo znamená druhotné spracovanie dát? Asi by bolo dobré najskôr uviesť, čo sa myslí pod pojmom prvotné spracovanie dát. Vrátime sa ešte na chvíľku do histórie počítačového spracovania. Počítačové systémy boli od začiatku rozšírenia v komerčnej sfére nasadené na priamu podporu podnikových činností (účtovanie, skladovanie, výroba, predaj). A v tomto zmysle bolo vnímané aj ich fungovanie: v centre pozornosti boli hlavne programy a nimi riadené operácie. Aby tieto systémy mohli fungovať, produkovali (a stále produkujú) dáta.
S týmito dátami sa dlhý čas zachádzalo ako s vedľajším produktom programov, s akýmsi nutným zlom, bez ktorého by však programy nemali zmysel. V podstate sú s nimi len starosti. Veď ich treba ukladať na pamäťové médiá, zálohovať, chrániť pred poškodením, brániť pred nežiaducim prístupom, atď. Ako by tie krásne programy výborne fungovali bez nich! A pritom sú tieto dáta vlastne takmer len na jedno použitie. Len čo sa príslušná transakcia zaúčtuje, položka vyskladní, suma vyplatí, prestáva mať ich spracovanie ďalší zmysel.

Musia sa už len archivovať, zabezpečovať atď. To je charakteristické pre spôsob, pri ktorom sa s dátami zachádza len tak, ako vyžadoval prvotný účel ich vzniku – ide teda o primárne spracovanie dát. Používatelia automatizovaných systémov však pomerne skoro zaregistrovali, že ako sa spracované agendy rozširujú a ako súčasne dáta pribúdajú, rastie v nich niečo, čo možno nazvať informačným potenciálom. Myšlienka použitia dát iným spôsobom, než na aký boli vytvorené, prepojiť informácie vzniknuté pri rôznych činnostiach a v rôznych dobách a analyzovať ich s následným použitím na optimalizáciu, riadenie a rozhodovanie bola tu. Otázne ostalo len ako. Objemy dát rástli naozaj rýchlo a ich komplexné spracovanie nebola žiadna zábava. Koncom 80. a začiatkom 90. rokov došlo k akcelerácii rozvoja informačných technológií a dramatickému rastu ich výkonu. Svedkami toho sme napokon dodnes. A vtedy nastalachvíľa, keď sa preťali dva trendy: rast veľkosti dát dosiahol úroveň, keď nahromadený informačný potenciál už bol dostatočný, aby jeho extenzívna analýza začala dávať podstatný zmysel.

Informačné technológie súčasne dosiahli výkon, ktorý sa s týmito objemami dokázal efektívne vyrovnať. Začala sa éra dátových skladov, zrodili sa nové odbory, medzi nimi aj Business Intelligence. Peniaze a úsilie sa začali investovať do druhotného spracovania dát. Dáta, ako vysoko hodnotná „druhotná surovina", sú „recyklované" a zušľachtené do podoby nových, neraz strategických informácií, použitých na nové účely.

BI má charakter
Ale aký? Čo je pre systémy Business Intelligence charakteristické? Definovaním nového odboru sa všetko neskončilo. Naopak, bol to začiatok jeho prevratného rozvoja. Ukázalo sa totiž, že tradičné vzory a postupy, uplatňované pri „klasickom" primárnom spracovaní dát, majú celý rad obmedzení. V konečnom dôsledku ich na nové vzory nemožno použiť. Ide o dva rôzne svety využívajúce rozdielne architektúry, nástroje, metódy a metodiky. Pracujú s nimi rôznym spôsobom rozličné skupiny používateľov. Majú odlišné požiadavky na výkon, dostupnosť, bezpečnosť, aktuálnosť.

V čom sa tieto dva svety líšia?
Pre primárne spracovanie sú charakteristické zmeny dát – vykonávanie transakcií. Typické operácie sú zápis, zmazanie, zmena. Dôležité je, aby systém v každom okamihu zaistil konzistenciu operácií, často vykonávaných viacerými používateľmi súčasne, s požiadavkami na okamžitú reakciu, maximálnu bezpečnosť a dostupnosť.

Tento režim práce sa nazýva spracovanie transakcií on-line (OLTP). Zodpovedajú mu príslušným spôsobom zamerané a optimalizované technológie, modely, metodiky. Typická je práca s malým množstvom dát (len položky spracované v danej chvíli príslušnou transakciou), ale „náročným spôsobom". Vyžadujú extenzívne zamykanie, logovanie a ďalšie operácie spojené s transakčným spracovaním. Výpadok systému v tomto prípade znamená výpadok fungovania časti alebo celej organizácie.

Naproti tomu druhotné systémy dáta prevažne čítajú. No robia to vo veľkých objemoch, iným „náročným spôsobom" s využitím analytických metód, agregáciou, štatistickými výpočtami atď. Požiadavky na zamykanie, logovanie, dostupnosť a pod. nepredstavujú kritické faktory. Na druhej strane na to, aby bolo možné prácne získanú „strategickú informáciu" efektívne využiť, musí byť k dispozícii včas. Pri obrovských objemoch dát a zložitosti ich spracovania si dokážeme predstaviť, že nároky na výkon, optimalizovaný inak než pri primárnych systémoch, sú obrovské.

Druhý dôležitý aspekt je vlastný obsah dát. Zatiaľ čo v primárnych systémoch sú zamerané a rozčlenené podľa jednotlivých výkonných aplikácií (obchod, financie, životné poistenie), v systémoch sekundárneho spracovania sú v centre pozornosti analyzované subjekty (zákazník, produkt, poistná udalosť) zahŕňajúce dáta vzniknuté v rôznych dobách v rôznych systémoch.

A ako je to s tou kockou?
Z týchto dvoch hlavných odlišností vyplýva celý rad rozdielov v architektúre, návrhu, prevádzke i vo využívaní primárnych a sekundárnych systémov. O týchto a ďalších oblastiach budeme premýšľať v nasledujúcich častiach nášho seriálu. A nezabudneme ani na magickú kocku.

Vladimír Kyjonka
BI Business Advisor, SAS
Článok je prevzatý z Computerworldu