Dokumentált tény, hogy a különféle szervezetek évente sok milliárd
dollárt veszítenek amiatt, hogy tevékenységüket, döntéseiket rossz
minőségű adatokra alapozzák. Gyakori jelenség, hogy a tisztítatlan
adatok miatt a cégek többletmunkaerőt foglalkoztatnak; ez azonban
csak a kisebbik része a veszteségnek, ugyanis az elpazarolt erőforrásokon
túlmenően elégedetlen ügyfelek, csökkenő bevétel, romló hitelesség
rontják az üzletmenetet. Súlyos esetekben a nem megfelelő minőségű
adatok a cég bukásához vezethetnek.
|
|
AZ
ADAT-MINőSÉGBIZTOSÍTÁSI TEVÉKENYSÉG FÁZISAI |
 |
Az alábbi grafikon egy tipikus vállalat adatminőségi ráfordításait mutatja az adat-minőségbiztosítási tevékenység előrehaladásával. Az első fázisban
a tényleges (ki nem mutatott) adatminőségi költségek elérhetik akár az informatikai költségvetés 40 százalékát is. Ennek főbb összetevői: parttalan adategyeztetési
megbeszélések, alkalmazások újraírása, sohasem bevezetett fejlesztések, feladatok ismételt elvégzése, pazarló marketingakciók, stb. Amikor a vállalat elkezd az adatminőség
javításával foglalkozni, az adatminőségre fordított kimutatható költsége növekszik, miközben a vállalat tényleges, adatminőségi problémákból eredő költségei csökkennek.
Ideális állapotban a vállalat tényleges és ismert adatminőségi ráfordításai egyenlők, mert a vállalat tudja, mit jelent a jó adatminőség, és mit kell tenni annak folyamatos
szinten tartása érdekében.

|
 |
 |
|
|
|
Felmérések szerint a gazdálkodó szervezetek mintegy háromnegyede
nem alkalmaz adatminőséggel kapcsolatos eljárásokat. Ez meglepő,
mivel a vállalatok informatikai költségvetésük jelentős hányadát
költik kifinomult adatbázisok és adattárházak létrehozására. A hatékony
üzleti intelligencia elérése érdekében különféle alkalmazásokat
és rendszereket telepítenek, illetve információgyűjtő folyamatokat
indítanak el. Sajnos sokan nem veszik figyelembe azt a tényt, hogy
ami igazán számít, az az alapadat. Mit sem ér a világ összes fantasztikus
képernyője, kimutatása, ha az őket támogató adatok inkonzisztensek,
redundánsak vagy éppen hiányosak. Az adatok szegényességének fő
oka, hogy számos forrásból származnak. Adatminőségi problémákkal
általában csak akkor kezdenek el foglalkozni, amikor egy-két alkalmazás,
rendszer (CRM, adattárház) már összeomlott, vagy a részvényesek
morgolódnak befektetésük lassú megtérülése miatt.
Megbízható adatok, problémák
A nem megfelelő adatminőségnek számtalan forrása lehet: helytelen
adatbevitel, sérült információ az internetről, pontatlan adatokat
tartalmazó vásárolt adatbázis, hibás alkalmazási logika, pontatlan
adatdefiníció vagy éppen a régi rendszer nem körültekintő migrációja.
Gyakori jelenség különböző rendszerekből számított, azonos megnevezésű,
de ténylegesen különböző módon kalkulált adatok egymás mellé rendelése;
ezekből később nem lehet eldönteni, melyik a helyes és melyik a
helytelen, és a helytelen mennyire az. A legtöbb szervezetnek fogalma
sincs a rendszereiben és alkalmazásaiban fellelhető adatok minőségéről.
Az Adattárház Intézet (TDWI)
2002-es felmérése szerint a válaszadók 44 százaléka úgy nyilatkozott,
hogy a cégük által nyilvántartott adatok minősége rosszabb, mint
bárki gondolná. 40 százalék pedig gyenge minőségű adatok használata
miatt bekövetkezett veszteségről vagy problémáról számolt be. A
cégek kettős postaköltségre, felesleges raktárkészletekre, pontatlan
számlázásra és elvesztett kedvezményekre is panaszkodtak, nem beszélve
az ügyfelek elégedetlenségéről, az új rendszerek bevezetésének késleltetéséről
és az elmaradt bevételekről.
Maximálisan kiaknázni az adatvagyont
Az adatot a vállalat kulcsfontosságú stratégiai vagyonaként kell
kezelni. Garantálni kell, hogy minősége elsőrangú legyen, bár egy
vállalat számos forrásból gyűjti össze adatait, s a minőség gyakran
hagy kívánnivalót maga után. Sajnos a minőség gyengeségét kevesen
ismerik el, pedig fontos lenne, hogy erőfeszítéseket tegyenek a
minőségproblémák leküzdésére - ha már annyi pénzt, fáradságot és
energiát fordítottak az adatok beszerzésére.
Jellemző probléma, hogy a szervezetek az adatok minőségét az informatika
belügyének tekintik, holott súlyos üzleti problémáról van szó, amelyet
csak az üzleti és az informatikai terület együttes erőfeszítésével
lehet megoldani. Az adattárház vagy egy CRM-projekt sikerének fokozásához
fontos, hogy még a forrásánál megtisztítsuk az adatokat, így elkerülhetjük
a rossz minőségű információk továbbhaladását a feldolgozási csatornákon.
Az, hogy egyszerűen csak összegyűjtjük az adatokat, már nem elegendő,
hiszen az adatok tömegének növekedésével a belőlük nyert információ
pontatlanságának az esélye is nő. A megelőző intézkedések az adatminőség
biztosítására ráadásul gazdaságosabban is kivitelezhetők, és kevésbé
fájdalmasak - ám azzá válnak, ha késlekedünk.
Pedig van módszer a komplex adatintegráció könnyebb kezelésére,
s ez a kinyerés, betöltés és átalakítás (extraction, loading and
transformation, ETL) és az adatminőség szinergiája egy adattárházfolyamaton
belül. Az adattárház-építési erőfeszítések legtöbbje arra összpontosít,
hogy különféle forrásokból kinyerje a rekordokat és a mezőket, új
formátumra alakítsa az adatokat, s ezeket más célállomásra - adattárházba,
adatpiacba - töltse. Az ETL célja tehát, hogy az adattárházba tisztított
és integrált adatok kerüljenek. Az adatminőség ugyanakkor - az egyes
rekordok tartalmára összpontosítva - azért "felel", hogy
az adattárházba töltött adat pontos, megbízható és konzisztens legyen.
Adatminőség és elérése
A fentiek alapján az adatminőséget gyakran olyan információrendezési
folyamatként határozzák meg, amelyben az egyedi rekordok pontosak,
frissek és ellentmondásmentesek, s ezért általuk konszolidált, átfogó
képet lehet kapni egy vállalat, szervezeti egység vagy rendszer
működéséről. Pontos információkat csakis ilyen adatok alapján lehet
szerezni - amelyek általában neveket, címeket, e-mailcímeket, telefonszámokat,
stb. tartalmaznak. Az olyan szoftvermegoldások tehát, amelyek intelligensen
azonosítják, szabványosítják, javítják, öszszehasonlítják és konszolidálják
az adatokat, nagy segítségükre lehetnek a vállalatoknak. Ma a szervezetek
körében nagy kereslet mutatkozik az adatminőség megteremtését támogató
eszközök iránt. A TDWI felmérése szerint az óhajtott szoftverek
között első helyen a szabványosítást és a verifikációt elősegítők
állnak, ezt követik az üzleti szabályokat meghatározó és érvényesítő
eszközök.
A SAS rendelkezik az egyetlen olyan megoldással, amely az ETL-folyamatba
integrálja az adatminőséget. Ezenfelül adattisztítási módszertannal
is ellátja ügyfeleit, mielőtt azok elemzésre betöltenék az adatokat
az adattárházba.
Az adattisztítás lépései
Ugyanazt a dolgot sokféleképpen lehet leírni. Például azt a beosztást,
hogy "értékesítési igazgató", úgy is lehet jelölni, hogy
"értékesítési ig." vagy "igazgató, értékesítés".
Ha egy DM-kampány keretében ki akarjuk választani az összes értékesítési
igazgatót az adatbázisunkból, a lekérdezés bizony hiányos lesz,
mert a keresés csak az egyik formára irányul az inkonzisztens adatok
között.
| |
Üzleti problémák feltárása. Üzleti szempontból
az adattisztítás első lépése. Mely területeken okozzák a legnagyobb
gondot a gyenge minőségű adatok? Az adattárház összes adatát
nem lehet egyszerre, és nem lehet véglegesen megtisztítani.
Az először tisztításra kerülő adatkörök meghatározásánál mérlegelni
kell, mekkora várható üzleti hasznot hoz az egyes adatkörök
megtisztítása, valamint milyen adatminőségi küszöbérték elérése
a megtérülő befektetés. A tapasztalat azt mutatja, hogy első
lépésben a törzsadatok tisztításával érdemes foglalkozni. A
SAS ETL-folyamatba integrált Data Quality megoldása segíti az
adatok minőségbiztosítását, az adattisztítást definiáló üzletviteli
szabályok dokumentálását és munkafolyamatba illesztését úgy,
hogy a centralizált metaadat-kezelés segítségével mindez egyszerűen
karbantartható marad. |
| |
Auditálás. Informatikai oldalon az adattisztítás
első lépése. Ez tárja fel az adatmezőben előforduló gyakoriságokat,
azonosítja a ritka és a hiányzó értékeket, illetve maximum-
és minimumérték szerint rangsorolja a jelentéseket. A nem szabványos
adatokat és formátumokat szektorelemzéssel azonosítja. Ebben
a fázisban meghatározhatjuk a tisztítás szabályait is. A SAS
Data Quality Solution mindehhez intuitív kezelői felületet
nyújt. |
| |
Adat-összekapcsolás (data linking) és -konszolidáció.
Mindenkivel előfordult már, hogy egy levelet vagy újságot
két (több) példányban is megkap ugyanattól a feladótól. Ez tipikus
példa az ugyanarról a személyről több bejegyzést tartalmazó
(például Kovács János, Muskátli utca 2., Kovács János, Muskátli
u. 2., Kovács J. Muskátli 2.), inkonzisztens ügyféladatbázis
meglétére. Ha egy ember rápillant ezekre az adatokra, egyből
tudja, hogy ugyanarról a személyről van szó, ám a komputer három
különböző rekordként kezeli őket. Ily módon kiderülhet, hogy
egy cégnek nem is 130 ezer, hanem csak 120 ezer ügyfele van.
Nem is kell mondani, hogy a redundancia mekkora többletköltséggel
jár. Szakemberek ezért ajánlják az adat-összekapcsolást (data
linking) és konszolidációt az adatminőségi folyamat fontos elemeiként. |
| |
Adaterősítés (data enhancement). Ez a folyamat
a külső adatok létező adatkészletekhez való hozzáadását, illetve
a hosszú távú hasznosítás ér- dekében történő megváltoztatását
jelenti - mégpedig széleskörű programozási igény nélkül. Például,
számos cég úgy akar ügyfélprofilokat készíteni, hogy a meglévő
ügyfelek jellemzőinek segítségével ér el hasonló jellemzőkkel
rendelkező, de más földrajzi terülten élő embereket, s ehhez
vesz igénybe külső adatforrást. |
| |
Az adatminőség igazolása (verification).
Az a folyamat, amikor adatainkat ismert szabványokkal hasonlítjuk
össze. Például ha egy cég címlistát vásárol, az ebben szereplő
irányítószámokat - a küldemények kézbesíthetetlenségének kiküszöbölése
végett - össze lehet hasonlítani a hivatalos postai irányítószám-jegyzékkel. |
SAS Data Quality Solution
Jó minőségű adatok létrehozása proaktív megközelítést követel. A
legtöbb vállalat elköveti azt a hibát, hogy az adatminőséget ok-okozati
eseményként tekinti. Az adatminőségi kérdéseket túlságosan is gyakran
a negatív esemény bekövetkezése után kezdi el kezelni, holott azoknak
szervesen kellene illeszkedniük az ETL-folyamatba. Tapasztalatok
azt mutatják, hogy semmi értelme sincs az adattisztításnak, ha azt
az adattárházba történő migráció után akarják végezni. Ebben az
esetben ugyanis sérül az adattárház integritása, továbbá maga az
adattisztítás időigényes és költséges lesz.
Mindazonáltal az ETL hagyományosan nem tartalmaz adatminősítési
eszközöket és folyamatokat, így nem is olyan könnyű dolog kiküszöbölni
a duplikátumokat, azonosítani a helyes és a hibás adatokat, illetve
adatbázisokon és adattárházakon át menedzselni az adatfolyamot.
A SAS az első olyan szállító, amelyik teljesen integrált megoldást
kínál - ez a SAS
Data Quality Solution -, amelyben egyesülnek az ETL- és az adatminősítési
folyamatok.
Ebben az adatminőség exponenciálisan növeli az ETL hatékonyságát.
Ez a megoldás jó hatásfokkal támogatja a kritikus üzleti döntéseket,
az erőforrások allokációját, az árképzést, a marketingkampányokat
és a napi üzemeltetést - tehát mindent, ami a vállalati adattárházból
kinyerhető információk minőségétől függ. |