SAS Slovakia
Tlač Akcie Služby Pracovné miesta Kontakt Hľadaj
Home Produkty a riešenia Referencie Partneri O nás Customer Support www.sas.com
Special report
 

Možnosti ukladania dát

Neustály nárast objemu dát v každej organizácii sme mnohí prijali ako neodškriepiteľný fakt. S týmto nárastom sa úmerne zvyšujú nároky na starostlivosť o dáta, či už ide o ich uloženie, zálohovanie, zabezpečenie dostatočného výkonu na ich spracovávanie alebo nástrojov pre transformáciu dát do požadovaných štruktúr.

Samotné dáta však nie sú tým, čo organizácie resp. ich vedenia potrebujú. To, čo manažment naozaj žiada, sú relevantné a dôveryhodné informácie o fungovaní organizácie, ale aj o kľúčových ukazovateľoch trhu, správaní sa konkurencie atď. Na získanie správnych informácií z dostupných dát potrebujeme mať vybudovanú vhodnú infraštruktúru podporovanú správnymi technológiami pokrytú vyspelými procesmi. Skúsme sa bližšie pozrieť, kde všade a v akých formách sa dáta v organizácii nachádzajú, a čo sa s nimi deje.

Operational Application Layer

Na najspodnejšej úrovni ležia informačné systémy (IS) zabezpečujúce každodennú operatívu organizácie. Typickými príkladmi sú podnikové informačné systémy (ERP) ale sú to i ďalšie aplikácie, ktoré môžu byť bohatým zdrojom informácií. Tieto IS sú charakteristické spracovávaním transakcií, preto sú označované ako OLTP (Online Transaction Processing) systémy. OLTP systémy, ktoré poskytujú vstupné údaje pre všetky ďalšie IS, sú doménou dodávateľov relačných databázových systémov (RDBMS). Dlhá tradícia RDBMS na trhu sa odzrkadľuje vo vyspelých produktoch jednotlivých dodávateľov, ktoré ponúkajú bohatú funkcionalitu a spoľahlivý výkon OLTP systémov.

ODS (Operational Data Store) Layer

V mnohých organizáciách možno nájsť ODS ako dátovú vrstvu medzi primárnymi systémami a centrálnym dátovým skladom. Obsahuje údaje (za krátke časové obdobie – rádovo 1 až niekoľko dní, nie historické dáta) z primárnych systémov, čím umožňuje biznis používateľom obracať sa so svojimi dátovými dotazmi na ODS namiesto primárne systémy, a tak odľahčiť záťaž kladenú na OLTP systémy. ODS môže byť aktualizovaná podľa požiadaviek biznis používateľov v reálnom čase, teda pri zmene dát v primárnom systéme (napr. pomocou mechanizmov CDC (Change Data Capture) alebo prijímaním správ z Message Queues) alebo v pravidelných intervaloch dávkovým spôsobom (1-krát za hodinu, denne, týždenne, ...). Samozrejme so zvyšujúcimi sa nárokmi na aktuálnosť dát v ODS sa zvyšujú technické nároky na infraštruktúru ODS. Ak ľudia používajú pojem „real-time data warehousing“, zvyčajne majú na mysli práve vrstvu Operational Data Store.

Niekedy sa ODS vrstva, pri použití techník dátovej integrácie, využíva i na konsolidáciu údajov z viacerých vstupných primárnych systémov, čím sa dáta pripravujú na načítanie do dátového skladu.

Je dôležité si uvedomiť, že, bez ohľadu na aktuálnosť dát, na tejto úrovni nie je vyžadovaná mohutná transakčná podpora ako u OLTP systémov, hoci mnohé organizácie používajú tú istú RDBMS platformu ako na úrovni primárnych systémov. Manažéri IT volia rovnakú RDBMS možno aj kvôli neznalosti iných možností.

EDW (Enterprise Data Warehouse) Layer

Cieľom projektov budovania centralizovaného dátového skladu, je snaha zhromaždiť na jednom mieste všetky relevantné dáta v organizácii zo spodnejších vrstiev dátových zdrojov, čím sa organizácia snaží o vytvorenie konsolidovanej neprotirečivej a dôveryhodnej dátovej základne pre ďalšie analýzy a vytvoriť tak „jednu verziu pravdy“. Niektorým organizáciám sa to podarilo, mnohé skončili na polceste vytvorením niekoľkých dátových skladov, čo môžeme považovať len za akési vzájomne prepojené data marty nazývané data warehouse.
Príčin takéhoto neúspechu je viacero. Medzi najvýraznejšie možno zaradiť veľký rozsah takýchto projektov (budovanie EDW má (aspoň by mal mať, pokiaľ sa robí správne) vplyv na všetky zložky organizácie) a fakt, že sú často riadené IT oddeleniami s malým dôrazom na naozajstné biznis požiadavky.

V Enterprise Data Warehouse sú dáta zvyčajne ukladané v denormalizovanej forme, pričom EDW obsahuje značný objem historických údajov a agregovaných dát. Dáta v EDW sú prevažne považované za read-only, pričom procesy na načítanie údajov zo spodnejších vrstiev prebiehajú v pravidelných intervaloch. Keďže zmena v dátach na tejto úrovni vyžaduje prepočítať sumarizované údaje, čo je väčšinou časovo náročná úloha, posúvame sa od „real-time data warehousingu“ k termínu „near real-time“ alebo „active data warehousing“.

DM (Data Mart) Layer

Organizácie budujú data marty ako dátové úložiská pre podporu riešenia úloh konkrétneho biznis oddelenia. Údaje sa do data martu dostávajú ETL procesmi zo spodnejších vrstiev, primárne z EDW, kde sú už dáta vyčistené a konsolidované, pričom sú vyberané len dáta nevyhnutné pre riešenie daných úloh. V závislosti od biznis požiadaviek môže DM obsahovať historické údaje, čo spôsobuje, že aj samotné DM dosahujú veľké objemy dát.
Naviac, na úrovni DM sú často využívané multi-dimenzionálne úložiská, ktoré umožňujú dynamicky analyzovať údaje a flexibilne vytvárať reporty agregovaných dát, čím dávajú rýchle odpovede na bežné biznis otázky.
Práve úroveň data martov prináša najviac príležitostí na plné uplatnenie a využitie Business Intelligence (BI) technológií v oblasti reportingu a pokročilých techník analýzy dát v oblasti prediktívneho modelovania, data miningu alebo optimalizácie.

Desktop Layer

Táto vrstva ukladania dát môže mať rozmanitú formu v závislosti na požiadavkách rôznych používateľov, ktorí pracujú s dátami uloženými na svojich PC z dôvodu náročnosti prenosu dát po sieti alebo možnosti efektívne pracovať aj offline.
Napríklad dátoví analytici, skúmajúci korporátne dáta, často vyberajú reprezentatívne vzorky údajov z centrálneho dátového skladu alebo data martov pri vyvíjaní a testovaní nových modelov predtým, ako ich nasadia do produkčného prostredia.
Netreba však desktop vrstvu vnímať ako kópiu dát z centrálnych úložísk na reportovacie účely, čo je veľmi zlá prax, keďže výstupy nepochádzajú z najaktuálnejších, živých, údajov. Aj na desktope vyvinuté nové modely sú totiž pred samotným nasadením do produkcie konfrontované s výsledkami testov bežiacimi na aktuálnych dátach z EDW alebo DM vrstiev.

SAS Intelligence Storage

Uvedené vrstvy uloženia dát sa viac či menej nachádzajú v každej organizácii. Majú pritom špecifické požiadavky plynúce nielen z nárokov na IT technológie ale aj potrieb biznis používateľov. SAS svojimi technológiami nevstupuje do oblasti aplikácií primárnych systémov, ktoré vyžadujú silnú OLTP podporu. Tu sú doménou relačné databázové systémy, s ktorými vedia SAS komponenty spolupracovať a využívať tak údaje v nich obsiahnuté vo vyšších vrstvách. Pre ďalšie spomenuté vrstvy ukladania dát, počnúc ODS, je k dispozícii SAS Intelligence Storage.

Požiadavky Technológia
ODS Schopnosť zachytiť údaje z OLTP systémov real-time, near real-time alebo batch spôsobom.
Schopnosť ukladať údaje aj z non-OLTP systémov vrátane flat súborov.
Schopnosť načítať veľké objemy dát v krátkom čase.
Schopnosť vytvoriť a udržiavať indexy.
Schopnosť rýchlej odozvy na dotazy z vyšších vrstiev so špecifickou podporou pre rýchle joiny.
Schopnosť uchovávať dáta v normalizovanej forme.
SAS Intelligence Storage
EDW Schopnosť načítať veľké objemy dát v krátkom čase.
Schopnosť vytvoriť a udržiavať indexy.
Schopnosť rýchlej odozvy na dotazy z vyšších vrstiev.
Schopnosť uchovávať dáta v denormalizovanej forme.
SAS Intelligence Storage
DM Rovnaké požiadavky, ako pri vrstve EDW.
Podpora pre ukladanie a spravovanie dát v multidimenzionálnych štruktúrach – OLAP kocky.
SAS Intelligence Storage
Desktop Schopnosť rýchlej odozvy na analytické dotazy.
Minimálna resp. žiadna nutnosť IT administrácie.
SAS Intelligence Storage

SAS Intelligence Storage je sada špecializovaných technológií postavených na spoločnej integrovanej platforme SAS EIP (Enterprise Intelligence Platform), ktoré pokrývajú požiadavky na efektívne ukladanie dát v normalizovaných, denormalizovaných i multidimenzionálnych štruktúrach.

Keď sme v úvode s nárastom objemu dát hovorili o úmernom zvyšovaní nárokov na starostlivosť o dáta, zámerne sme nepoužili slovo priamoúmerne, pretože by to v mnohých prípadoch bolo iba „tajným želaním“ databázových a systémových administrátorov. Úsilie, ktoré je nutné vynaložiť pri použití nevhodnej technológie a presiahnutí istých hraníc objemu spracovávaných dát, môže byť naozaj ohromné a nezávideniahodné.

SAS Intelligence Storage sa snaží vykoreniť niektoré mýty hovoriace o tom, že na manažovanie technológií pre podporu dátových skladov a ukladania dát v organizácii všeobecne je potrebné mať armádu administrátorov, a podobne, že je najvhodnejšie použiť rovnakú RDBMS aká je už použitá na úrovni primárnych systémov.

Naviac, v spolupráci s komponentmi SAS Data Integration je možné dosiahnuť efektívne pokrytie požiadaviek na transformáciu dát medzi jednotlivými vrstvami, a to v rámci jedinej integrovanej platformy.

(Dušan Krcho)
The Power to Know
   Contact Us      Worldwide Sites     Search     Site Map     RSS Feeds     Terms of Use    Privacy Statement   Copyright © 2008 SAS Institute Inc. All Rights Reserved