Česká pojištovna chytře čistí data

Česká pojišťovna se potýkala s problémem masivního znečištění klientských dat v nejstarším provozním systému. Nebylo možné se vyhnout jejich vyčištění; zároveň ovšem bylo třeba dodržet řadu specifických požadavků. Čištění mělo dopad na více než 90 % zpracovaných záznamů, tj. několik milionů položek.

Spojení unikátního nástroje pro čištění dat, jakým je Dataflux, kvalitní znalostní báze, nadšeného týmu a na míru šitých, pokročilých transformací, umožnily realizovat toto speciální řešení. Neumím si představit, že bychom téhož dosáhli s jinou technologií

Štěpán Čábelka
Manager datové kvality České pojišťovny

Česká pojišťovna má pozoruhodnou historii, která se začala datovat už roku 1827. Mezi historicky významné pojistné události patřil například i požár Národního divadla v 19. století. Počátkem 20. století začala Česká pojišťovna nabízet svým klientům řadu nových produktů a započala tak masovou éru sběru dat. Dnes nabízí svým klientům všechny druhy životního i neživotního pojištění a je největší pojišťovnou na českém pojistném trhu. Jak vypadají data, která byla pečlivě shromažďována více než stovku let? Datový kaleidoskop, v němž se odráží historie vývoje pojišťovny i počítačových systémů, bylo třeba vyčistit tak, aby bylo možno s daty smysluplně pracovat.

Otrávený přítok

Okolo r. 2000 se Česká pojišťovna v souvislosti s vybudováním Klientského servisu rozhodla vytvořit centrální databázi svých klientů, která by poskytovala kompletní informace o každém zákazníkovi. Původní data pocházela z mnoha zdrojů, které se lišily platformou, technologií, strukturou, obsahem, ale i kvalitou dat. Centrální databáze vykazovala i přes své nesporné přínosy závažné datové defekty. Komplexní datový audit poukázal na „masivní zdroje znečištění dat", se kterými se použité paušální čištění nedokázalo vypořádat. Coby největší znečišťovatel byl identifikován systém životního pojištění, obsahující informace cca od r.1950, jenž byly v minulosti shromážděny a zpracovány sálovými počítači na děrných štítcích – samozřejmě s řadou chyb. Tento stav omezoval využití databáze klientů a celý projekt centrální databáze tak znehodnocoval. Odpovídal přesně situaci, kdy jeden silně znečištěný přítok otráví vodu v celém jezeře.

Hozená rukavice

Cíl byl zřejmý: dát do pořádku silně znečištěná data ze systému životního pojištění. Požadavky České pojišťovny zahrnovaly obtížně splnitelné, místy až protichůdné požadavky:

  • Flexibilně řešit nestandardní požadavky a aplikovat významně přizpůsobené postupy a pravidla datové kvality „šitá na míru".
  • Vypořádat se s velmi nestandardními případy. Ty vznikaly omezeními historických počítačových systémů, např. uměle krácené záznamy pro nedostatek místa, IČ vepisovaná namísto rč, data bez diakritiky či vynechané „cizokrajné" znaky, apod.
  • Zajistit vysokou spolehlivost oprav dat promítnutých do původního systému s garancí téměř absolutní jistoty správnosti oprav.
  • Zohlednit business význam dat a dopadu jejich oprav, v praxi to například znamenalo volit odlišná pravidla podle toho, v jakém kontextu budou vyčištěná data použita.
  • Provést „křížové opravy dat" mezi různými subjekty a různými systémy, a to mezi daty s různou úrovní kvality.

DataFlux zasahuje

SAS uspěl ve výběrovém řízení díky využití předního softwarového nástroje v oboru datové kvality DataFlux a vytvoření společného realizačního teamu, zahrnujícího jak zkušené odborníky SASu, tak pracovníky České pojišťovny, zvláště specialisty na datovou kvalitu a agilní tým IT podpory. K získání zakázky významně přispěl ekonomický rozměr nabízené metody, kombinující postupy a algoritmy Datafluxu vyladěné s ohledem na osobitou povahu znečištění, komplexní transformace dat přímo ve zdrojovém jazyce SASu, i ruční dočišťování automaticky nezpracovatelných případů. Klíčový byl rovněž zkušební projekt, na základě kterého si zadavatel ověřil kvalitu čištění adresních záznamů vůči internímu benchmarku.

Standardizace nestandardně hodně nestandardních dat

Během tříměsíčního projektu jsme zpracovali 24 milionů klientských dat napojených na pojistné smlouvy a událostí v systému životního pojištění a dalších 14 milionů záznamů dat o klientech z dalších systémů, které byly použity jako vysoce spolehlivá referenční data. Skutečná (ne)kvalita vstupních dat šla ještě za rámec problémů odhalených při datovém auditu. Řešení neobvyklých defektů a speciálních požadavků, vývoj a aplikace nových algoritmů a postupů – to vše představovalo podstatnou část úsilí našeho teamu, který navíc řešil kompletní standardní sady úloh datové kvality. Ty zahrnovaly například identifikaci typu klientů (osoby, organizace), vyčištění a verifikace všech adres vůči adresnímu registru, opravu jmen, včetně rozeznání jejich složek, opravy diakritiky a zkratek, identifikace rč a IČ, včetně jejich opravy z referenčních dat, apod. Závěrečný požadavek zněl, aby se vyčištěná data nahrála zpět do původních historických datových struktur, dokud nebudou hotové struktury nové. Dle zadání tedy bylo třeba data zpětně „konzistentně zašpinit", ale tak, aby jejich „dosažená kvalita byla zachována". A zajistit, aby v budoucnu bylo možné tytéž informace umístit do „nových struktur" bez dalších závažných problémů. Díky DataFlux – unikátnímu nástroji na čištění dat – se projekt vydařil. Spojení špičkové vnitřní architektury, komplexní znalostní báze pravidel, flexibility a pokročilých transformací mimo Dataflux – to vše bylo rozhodujícím prvkem pro úspěch nástroje, který si stále drží vedoucí postavení na trhu v hodnocení předních analytických společností.

V cíli – výsledky projektu

Při dodržení časového limitu, v plném (ba větším) rozsahu a k úplné spokojenosti zákazníka byl projekt úspěšně ukončen a byly provedeny opravy u více než 90 % zpracovaných záznamů. Závěrečné důkladné testování nejen potvrdilo vysokou kvalitu výstupů zpracování, ale pomohlo identifikovat i ojedinělé případy (po)chybných oprav. Při požadovaném „odborném zašpinění" jsme zajistili propojení redukovaného výstupu s úplnými kvalitními informacemi pro jejich budoucí použití. Česká pojišťovna získala kompletní metodiku pro údržbu a rozvoj řešení. Vyčištění dat mělo okamžité efekty nejen ve skokovém nárůstu kvality ústřední klientské databáze, ale i v podobě identifikace klientů s neplatným pojištěním.

ceska-pojistovna

Výzva

Nesourodost a datové defekty databáze, která obsahovala údaje staré mnoho desítek let. Velmi rozsáhlé znečištění dat omezující využití a práci s centrální databází klientů, znehodnocení dat. Maximální požadavky na věrohodnost a přesnost oprav.

Řešení

DataFlux umožňuje svými nástroji pro řízení datové kvality a master management eliminovat rozsáhlé znečištění dat.

Výhody

Čistá data, která lze použít jak v původních historických, tak i nově navržených datových strukturách.

The results illustrated in this article are specific to the particular situations, business models, data input, and computing environments described herein. Each SAS customer’s experience is unique based on business and technical variables and all statements must be considered non-typical. Actual savings, results, and performance characteristics will vary depending on individual customer configurations and conditions. SAS does not guarantee or represent that every customer will achieve similar results. The only warranties for SAS products and services are those that are set forth in the express warranty statements in the written agreement for such products and services. Nothing herein should be construed as constituting an additional warranty. Customers have shared their successes with SAS as part of an agreed-upon contractual exchange or project success summarization following a successful implementation of SAS software. Brand and product names are trademarks of their respective companies.