More nápadov, more Hadoopov

V deväťdesiatych rokoch som spolupracoval s jedným slovenským manažérom. Raz ma prekvapil nápadom, že uvažuje o vytvorení služby, ktorá by sledovala profesionálnu dráhu a aktuálne zamestnanie významnejších manažérov a odborníkov. Asi som vtedy nevyzeral veľmi nadšene, keď som si predstavil náročnosť manuálnej aktualizácie bázy údajov. Dnes sa táto služba volá LinkedIn, Viadeo či Xing a registrovaní členovia si dobrovoľne aktualizujú svoje profily a poskytujú si navzájom zaujímavé informácie.

Mám takú „položartom – polovážne“ myslenú teóriu, že okolo nás je more nápadov. Z času na čas prenikne niektorý z nich komusi do hlavy. Nápad sa ale nedočká vždy hneď zmysluplnej realizácie. Napríklad preto, že treba novým spôsobom uchopiť a zvládnuť informačné toky. Čo toky, priam veľtoky dát – objemy dát rastú čoraz viac a ich efektívna premena na užitočné informácie zďaleka nie je pravidlom.

Pred pár rokmi som vo chvíli krajného zúfalstva z neporiadku v domácnosti vymyslel nový druh skrine. Bol to taký ten „celkom žartom“ nápad. Klasická skriňa sa otvára spredu a má všelijaké šuflíčky, poličky a vešiačiky. Nový druh skrine má dvierka iba na hornej strane – dvierka sa nadvihnú a šup dovnútra s vecami, ktoré nechceme vyhodiť, ale momentálne nám prerastajú cez hlavu. A keď načerpáme morálnu silu na upratovanie, tak obsah skrine vyklopíme a pretriedime.

A teraz zisťujem, že s novými technológiami to je „celkom vážne“ dobrý nápad. Tá prvá skriňa je klasický Data warehouse – relačné databázové prostredie, ktorého štruktúru je potrebné najprv starostlivo naplánovať a navrhnúť a až potom ho môžeme plniť dátami („schema on write“). Nová skriňa je Hadoop, pozoruhodná technológia meniaca paradigmu ukladania a spracovania rozsiahlych dát. Dáta uložíme do súborového systému HDFS rozdistribuovaného na veľa počítačoch a až pri samotnom spracovaní interpretujeme štruktúru dát a ich prepojenie s inými dátami („schema on read“).

Možno to vyzerá na ťažkú bitku medzi Data warehousom a Hadoopom, ale myslím si, že zdanie klame. Data warehouse a Hadoop budú nejaký čas spolunažívať vedľa seba pre odlišné typy úloh a pre čiastočne odlišné typy analytikov a používateľov. Zároveň ale už jestvujú iniciatívy, ktoré budú Hadoop postupne obohacovať o vlastnosti overené v Data warehousoch ako sú vyspelá správa prostredia, data manažment, bezpečnosť, výkonnostné charakteristiky pre interaktívnu odozvu a podobne. Dokonca sa uvažuje o podpore transakčného spracovania.

Hadoop už teraz môže zohrať úlohu ekonomicky efektívneho akcelerátora spracovania a analýzy veľkého objemu dát spôsobom čo najviac transparentným pre analytikov a používateľov. A Hadoop už teraz môže pomôcť predspracovať nové typy dát pre DWH, napríklad obohatiť profil zákazníka o charakteristiku jeho správania sa na on-line kanáloch.

Nepochybne, zákazníkov na Hadoope zaujíma cenová výhoda open source projektu, namiesto komerčných licencií a cena lacného hardvéru s lokálnymi diskami namiesto ceny nadupaných serverov a enterprise diskových polí. To je v poriadku, ale túto cenovú výhodu by som dal až na druhé miesto za zmenu paradigmy spracovania dát. S použitím Hadoopu organizácie získavajú obrovskú výhodu rýchleho prototypovania a iteratívneho zdokonaľovania spracovania rozsiahlych dát. A to znamená rýchlejšie a lacnejšie získavanie užitočných poznatkov z neraz ťaživého objemu údajov. Skrátka a dobre, s morom Hadoopov sa má šancu naozaj zrealizovať aj oveľa viac z mora nápadov.

A teraz k „implementačným detailom“ - ako my ajtíci hovoríme – teda k drobným zradám a obmedzeniam Hadoopu a ich možnému riešeniu z portfólia spoločnosti SAS. Spoločnosť SAS ako líder analytického spracovania dát si predsavzala pokryť celý životný cyklus spracovania, analýzy a vizualizácie dát na Hadoope kvalitnými vizuálnymi nástrojmi – či už podporou Hadoopu v existujúcich nástrojoch alebo vytvorením nástrojov úplne nových.

Prvá základná zrada Hadoopu je, že bol na začiatku navrhnutý pre programátorov. Vývoj „high level“ jazykov Pig Latin a HiveQL či vytvorenie SQL rozhraní je pomocou pre skúsených analytikov, ale ešte stále veľa potenciálnych používateľov Hadoopu necháva vonku na daždi. K uľahčeniu prípravy a transformácie dát ponúka SAS vizuálny nástroj SAS Data Loader for Hadoop, ktorý je určený pre analytikov - neprogramátorov. Samozrejmosťou je transparentná podpora Hadoopu v existujúcich nástrojoch pre analytikov ako sú SAS Enterprise Guide a SAS Enterprise Miner.

Druhá zrada je potreba implementovať „štábnu kultúru dát“. Práve veľká otvorenosť a flexibilita Hadoopu vyžaduje spoľahlivú správu dát – data manažment, podporu metadát, plánovanie ETL jobov, sledovanie vplyvu zmien dátovej štruktúry na ETL joby (impact analýza a reverse impact analýza), podporu tímovej práce a podobne. Takýmto vyspelým nástrojom vhodným pre Data warehouse aj pre Hadoop je existujúci nástroj SAS Data Integration Studio.

Tretia zrada je zrejmá – ak na jednu hromadu dáme dáta z rôznych zdrojov – zákazníckej databázy, záznamov call centra, webových logov či dáta zo zariadení infraštruktúry, ktorá zákazníkom poskytuje služby – tak podpora funkcií dátovej kvality, ako je štandardizácia formátu dát a párovanie subjektov medzi rôznymi dátovými zdrojmi, sa stáva nevyhnutnosťou. SAS patrí k lídrom v oblasti dátovej kvality a už spomínané nástroje SAS podporujú riešenie dátovej kvality aj na Hadoope.

Štvrtá zrada sa už nejaký čas šepká – strojovňa Hadoopu „MapReduce“ je stavaná na dávkové spracovanie a nie na interaktívnu analýzu. Nie je dostatočne efektívna pre jednoduché opakované dotazy (tie sa v relačných databázach dajú oveľa lepšie vyladiť) a tiež nie je efektívna na komplexné analýzy, ktoré vyžadujú viacero prechodov (napríklad štatistické modelovanie alebo optimalizácia). Iniciatív v tejto oblasti je viacero – v oblasti open source napríklad Hive, HBase a Impala, ale ich výkonnostné výsledky sa rôznia podľa druhu dátového spracovania. Spoločnosť SAS plne vsadila na „in-memory analytiku“. Dôvody sú v zásade dva:

  • Pre naozaj rozsiahle dáta jednoduché vyhľadávanie ako v Googli, alebo jednoduché dotazy ako ich poznáme z relačných databáz, často nestačia. Potrebujeme lepší „dátový lievik“ na odfiltrovanie obrovského objemu hlušiny a automatizované objavenie kľúčových užitočných informácií. To často znamená použitie sofistikovanejších analytických metód, ktoré hojne využívajú výpočtovo náročné štatistické algoritmy.
  • Rýchlejšie, ako spracovanie v operačnej pamäti na veľa paralelne pracujúcich počítačoch, to už jednoducho nejde. Pre vizualizáciu rozsiahlych dát a interaktívnu prácu s nimi môžeme dosiahnuť interaktívnu odozvu pár sekúnd. Odozvu pár desiatok sekúnd môžeme dosiahnuť napríklad pre korelačné analýzy, rozhodovacie stromy, modelovanie pomocou regresie alebo analyzovanie zhlukov podobných dát (clustrov), ktoré by inak trvali desiatky minút alebo hodiny.

Okrem “ťažkých váh” z rodiny produktov SAS High performance – HP Data mining, HP Statistics, HP Text mining či HP Optimization, stoja v ringu za SAS aj “mušie váhy” SAS Visual Analytics a SAS Visual Statistics, ktoré ponúkajú používateľovi pokročilú vizuálnu interaktívnu analýzu rozsiahlych dát. Používateľ dostáva prístup aj k štatistickým metódam bez potreby ich detailnej znalosti a – samozrejme - bez programovania. Zaujímavosťou je, že v pozadí SAS Visual Analytics a SAS Visual Statistics je tá istá vyspelá technológia ako v silnejších produktoch, ale je sústredená na užívateľsky kľúčové funkcie za veľmi atraktívnu cenu.

A teraz slovo do bitky –  prečo komerčný softvér od SAS-u a nie open source? Skúste dať do Googlu „in memory analytics“. Google nájde SAS in memory analytics a potom in memory OLAP, in memory BI a in memory databázy. Háčik je v tom, že nestačí x rokov staré koncepty multidimenzionálnych kociek či relačných databáz preniesť na urýchlenie do operačnej pamäte, aby sme dostali in memory analytiku, ktorá robí česť svojmu menu. Spoločnosť SAS investovala nemalé prostriedky, aby 39 rokov skúseností so štatistickými, optimalizačnými či lingvistickými algoritmami preniesla do sveta paralelných architektúr, do Hadoopu a do operačnej pamäte a má v tom náskok pred mnohými komerčnými ako aj open source technológiami. Takže preto.

A načo to celé? Zákazníkom SAS sa „z mora nápadov“ vďaka Hadoopu a využitiu SAS nástrojov podarilo zrealizovať aj nasledujúce inovácie:

  • zlepšenie pochopenia zákazníkov, identifikovanie príležitostí k up-sellu a cross-sellu ako aj zvýšenie vernosti zákazníkov o 20% vo veľkej obchodnej sieti,
  • zlepšenie finančného plánovania v štátnej správe integráciou veľmi rozsiahlych finančných dát,
  • monitorovanie kvality siete, detekciu dopadu na zákazníkov a plánovanie preventívnych aktivít v takmer reálnom čase pomocou integrácie dát o volaniach a dát z telekomunikačnej infraštruktúry,
  • lepšiu predikciu rizika odchodu zákazníka ku konkurenciu a predikciu rizika nedobytných pohľadávok v telekomunikačnej spoločnosti,
  • zníženie roamingových poplatkov, zoptimalizovanie sieťovej infraštruktúry a zníženie kapitálových a prevádzkových nákladov telekomunikačnej spoločnosti,
  • zlepšenie dizajnu, výroby a spokojnosti zákazníkov u high-tech výrobcu analýzou dát o výrobe a použití svojich produktov.

Napojila sa už vaša organizácia na more nápadov a more Hadoopov?

Tomas Lencz

Autor:
Tomáš Lencz

Schéma možnej synergie Data warehousu a Hadoopu

Schéma možnej synergie Data warehousu a Hadoopu
(kilknite pre zväčšenie)

Životný cyklus analytického spracovania dát na Hadoope nástrojmi SAS

Životný cyklus analytického spracovania dát na Hadoope nástrojmi SAS
(kliknite pre zväčšenie)

Back to Top