SAS Slovakia Newsletter / Biznis analytika

Magická kocka

Kockovaný pohľad na svet

Základnou úlohou analýz, reportovania a biznis analytiky vôbec, je sprostredkovať určitý pohľad na svet. Ide v ňom pritom v zásade o dve veci: aby nám umožnil sledovať, ako je na tom náš biznis - a to v kontexte rôznych okolností a prezentovať ho v prehľadnej a zrozumiteľnej podobe, zodpovedajúcej príslušnému účelu a prispôsobenej potrebám konkrétnych ľudí. Inak povedané - merať celý rad ukazovateľov v závislosti na rôznych parametroch (napr. čas, organizačná jednotka, typ produktu, región, typ zákazníka, predajcu, atď.) a výsledok vyjadriť v pojmoch a kategóriách blízkych biznisovému chápaniu. V prípade, že toto všetko formalizujeme, môžeme si predstaviť priestor, v ktorom sú k dispozícii hodnoty všetkých požadovaných ukazovateľov pre všetky kombinácie hodnôt všetkých atribútov. Tak vyzerá známy koncept multidimenzionálnej matice, tiež populárne označovanej Kocka. A sme pri nej. Hrany, tvorené jednotlivými kategóriami (atribútmi) sa nazývajú dimenzie a v jej bunkách sú príslušné ukazovatele, obvykle nazývané metriky alebo tiež fakty (viď obr. 1.)


Obr. 1: základný koncept multidimenzionálnej kocky

Nie je to obyčajná kocka

V skutočnosti nebýva kocka tak jednoduchá ako na obrázku. Máva viac rozmerov (čo už sa ťažko zobrazuje) a okrem toho majú aj samotné dimenzie zložitejšiu štruktúru.
Samozrejme nás zaujíma, ako sa vyvíjal napríklad predaj jednotlivých konkrétnych výrobkov, ale určite budeme chcieť sledovať aj súhrnné ukazovatele pre ich skupiny, prípadne celé produktové rady; alebo podľa predajní, oblastí a regiónov, atď. Vnútri dimenzií sa nám tak rysujú hierarchie, do ktorých sú ich prvky usporiadané. Znamená to však, že kocka musí obsahovať hodnoty metrík pre všetky úrovne hierarchií – teda aj agregácie pre väčšie regióny, skupiny, triedy, či rady výrobkov, organizačné zložky i časové periódy. Hovorí sa tomu, že pracujeme s rôznou granularitou informácií (od anglického „grain“ – „zrno“; čím väčšie zrná, tým menšia granularita a naopak…). A navyše, ak to domyslíme do konca, potrebujeme hodnoty metrík aj pre všetky kombinácie granularít medzi dimenziami…

Multihierarchické dimenzie

Hierarchia v rámci dimenzie predstavuje náš pohľad na to, v akej štruktúre a s akou granularitou chceme požadované informácie sledovať. Ľahko zistíme, že aj tu sa však ponúka viac možností. Veľmi jednoducho si dokážeme predstaviť, že časovú os môžeme rozdeliť na roky, štvrťroky, mesiace a jednotlivé dni v mesiaci. Ale tiež nás môže zaujímať rozpad na roky, týždne a dni v týždni. To už sú dve rôzne hierarchie, ktoré sa nekryjú a vyžadujú zvláštne sady hodnôt metrík. A môžeme pracovať s dekádami, sezónami, rôznymi špeciálnymi cyklami, môžeme ísť do väčšieho detailu, napr. sledovaním transakcií po hodinách, minútach i sekundách… a ešte to všetko kombinovať. A korunu tomu všetkému nasadíme, keď hierarchiu otočíme „hore nohami“ (otázkou len zostáva, na čo ju v tom prípade nasadíme).


Obr. 2: príklady hierarchií v dimenziách

Koruna nasadená na nohy

Predstavme si, že chceme získať odpoveď napríklad na otázky: „Aké je rozloženie predaja v jednotlivých dňoch v týždni?“ „Ako sa predaj za dni v týždni líšili v ročných obdobiach?“, atď.  A prídeme  k hierarchii, v ktorej sa dni „rozpadajú“ na ročné obdobia a ročné obdobia na roky…
Že je to nezmysel? Dôležité je uvedomiť si, že celá Kocka, jej dimenzie a hierarchie sú tu len preto, aby nám sprostredkovali pohľad na svet, ktorý je pre nás užitočný. A teda aj „hierarchia postavená na hlavu“ môže dávať a často skutočne aj dáva zmysel…


Obr. 3: hierarchia postavená na hlavu

Ako sa granulujú metriky

Je zjavné, že pre vyššiu úroveň hierarchie je hodnota metriky súčtom hodnôt pre prvky nižšej úrovne (napríklad predaje za okresy dávajú dokopy predaj za kraj). Inak povedané, menšia granularita znamená väčšiu agregáciu. Ale aj tu musíme byť obozretní. Čo ak je metrikou počet výrobkov na sklade? Sčítať ich môžeme za jednotlivé sklady, regióny, atď., ale zrejme nie v čase, pretože by sme získali nezmysel! Alebo také metriky, ako je vek, percento spokojnosti, atď… Preto je potrebné rozlíšiť ukazovatele, ktoré môžeme bez obáv vo všetkých hierarchiách a dimenziách sčítať (aditívne), ktoré môžeme sčítať len pre niektoré dimenzie a hierarchie (semiaditívne) a tie, pre ktoré to nedáva zmysel vôbec (neaditívne). U dvoch posledných je potom potrebné zvoliť  inú metódu agregácie pre vyššiu úroveň hierarchie (napríklad priemer, maximum, minimum, medián, najčastejšie sa vyskytujúca hodnota). Použijeme tú, ktorá je najvhodnejšia, aby sme získali užitočný pohľad.

Trochu sa nám to zamotalo

Na začiatku sme sa chválili, že náš cieľ je prezentovať informácie v prehľadnej a zrozumiteľnej podobe, a teraz tu máme multidimenzionálnu maticu s mnohými rôznymi hierarchiami, niektorými postavenými na hlavu, do toho rôzne typy agregácie metrík, všetko dokonale prepletené a skombinované… Čo s tým?
To, čo bolo popísané, predstavuje ideálny koncept, v ktorom každá jednotka informácie je presne adresovateľná a dohľadateľná tak, že nás k nej naviguje systém dimenzií a ich prvkov. V skutočnom svete však existuje rada obmedzení: napríklad limitovaný priestor pre uloženie obrovských multidimenzionálnych matíc, veľkosť pamäti, výkon počítačov, a v neposlednej rade počet dimenzií, ktoré môžeme použiť pre zobrazenie (na dvojrozmerný dokument alebo obrazovku dokážeme ako-tak prehľadne namaľovať trojrozmerný graf…).
Chce to nástroj, ktorý by nám pomohol Kocku rozrezávať na užitočné pohľady, rozkladať na menšie kocky, zobrazovať vo vybraných úrovniach hierarchií, prechádzať medzi nimi, atď.). Súčasne musí byť schopný takto štruktúrované informácie previazať so zmysluplnými pojmami (metadátami), ktoré dávajú biznis užívateľom zmysel. A keď to takýto nástroj dokáže všetko robiť v reálnom čase a on-line, potom ho  môžme zaradiť do kategórie OLAP (On-line Analytical Processing), ktorá predstavuje osvedčenú paradigmu pre analytické spracovanie informácií. Je zrejmé, že najväčšou výzvou pre takéto riešenie je prevedenie konceptu virtuálnej multidimenzionálnej matice do zhmotnenej podoby konkrétne ukladaných dát, a potom ich náležite prezentovať. O tom, aké možnosti sú v tejto oblasti si povieme nabudúce.

Vladimír Kyjonka
BI Business Advisor, SAS
Článok je prevzatý z Computerworldu