Produkty a riešenia / SAS® Data mining

Hĺbkový prieskum údajov

Scenár používaný pre Data Mining je podobný scenáru, ktorý sa používal vo svete štatistiky v 60-tych rokoch. Jednalo sa o proces prehľadávania údajov s cieľom nájsť niečo významné. Motiváciou bolo publikovať to nájdené niečo ako významné zistenie. Scenár používaný pre Data Mining sa však podstatne odlišuje v tom, že interpretácia faktov, alebo pravidiel nájdených v údajoch a potvrdenie ich významnosti je jednoznačne úlohou analytika. V určitom okamžiku musí byť užívateľ zainteresovaný a chápať. Data mining identifikuje významné trendy podľa „predstavy“ systému; je na užívateľovi, aby rozpoznal a sústredil svoje vlastné skúmanie na to, čo bolo odhalené aplikáciou Data Mining. Data Mining je proces, ktorého cieľom je ťažba informácií v databázach.
Data Mining je proces výberu, prieskumu a modelovania na báze veľkých objemov údajov, s cieľom odhaliť predtým neznáme informačné vzory v údajoch, pre výhody v konkurenčnom prostredí. Data Mining používa štatistické metódy a ďalšie metódy hraničiace s oblasťou Umelej Inteligencie.

Charakteristické oblasti použitia pre Data Mining

V podstate akýkoľvek proces je možné študovať, pochopiť a vylepšiť s použitím Data Mining. Tieto techniky sa aplikujú vo vzájomne veľmi odlišných oblastiach, ako je napríklad riadenie procesu výroby, ľudské zdroje, ... Data Mining je užitočný všade tam, kde je možné zhromažďovať údaje. V súčasnosti je Data Mining s výhodou a úspešne aplikovaný v rezortoch, ktoré:

  • sú orientované na služby zákazníkom
  • poskytujú finančné služby
  • majú výrobný charakter

Typické problémy riešené s využitím Data Mining sú napríklad:

  1. Segmentácia zákazníkov do skupín s podobnými vzormi správania sa
  2. Efektívna profilácia zákazníkov pre riadenie individuálnych vzťahov s nimi
  3. Identifikácia zákazníkov, ktorí prinášajú najväčší zisk a identifikácia dôvodov prečo
  4. Identifikácia príčin prechodu zákazníkov ku konkurencii
  5. Zistenie faktorov, ktoré významne ovplyvňujú nákupné správanie (vzory)
  6. Plánovanie efektívneho riadenia a správania informačných systémov
  7. Predikcia neoprávnených transakcií s (odcudzenými) platobnými kartami, alebo hlásení pochybných poistných udalostí
  8. Plánovanie potrieb energie, dodávok vody, telekomunikačných služieb
  9. Pochopenie budúceho správania zákazníkov na základe ich histórie a charakteristík
  10. Zistenie kritických faktorov vo výrobe (letectvo, automobily, elektronika, hutnícky priemysel)

Definovanie cieľa

Prvým a najdôležitejším krokom v každom projekte modelovania je stanovenie jasného cieľa a vyvinúť proces, ktorým tento cieľ dosiahneme. Efektívnym spôsobom ako určiť cieľ projektu cieleného modelovania alebo analýzy profilov je položiť si otázku, resp. definovať problém, ktorý chceme riešiť. Ku všetkým týmto otázkam môžeme pristupovať prostredníctvom analýzy profilov, segmentácie a cieleného modelovania. Pozrime sa na jednotlivé otázky z perspektívy zákazníka a marketingu:

  • Chceme prilákať nových zákazníkov? Modelovanie odozvy v kampaniach na získavanie nových zákazníkov prinesie viac zákazníkov pri rovnakých marketingových nákladov.


  • Chceme aby títo nový zákazníci boli profitabilný? Modelovaním hodnoty po dobu existencie nájdeme s vysokou pravdepodobnosťou predpoveď profitability zákazníkov pre dlhé obdobie.


  • Chceme sa vyhnúť vysoko rizikovým zákazníkom? Zákazníci alebo potencionálny zákazníci s vysokou pravdepodobnosťou stratovosti pre firmu nám pomôžu identifikovať modely rizika alebo schválenia. Vo finančných službách vzniká strata neplatením pôžičiek. Straty poisťovní pramenia z poistných plnení uplatňovaných poistenými osobami.


  • Chceme pochopiť charakter našich budúcich zákazníkov? Tento prístup spočíva v segmentácii zákazníckej základne pomocou analýzy profilov. Z viacerých dôvodov sa jedná o hodnotný postup. Umožňuje nám poznať charakteristiky našich najviac ziskových zákazníkov. Akonáhle definujeme segmenty, môžeme ich charakteristiky priradiť osobám zo zoznamov, ktoré nie sú z našej firmy a vytvoriť modely pre prilákanie viac profitabilných zákazníkov. Ďalšou výhodou segmentácie najviac a najmenej ziskových zákazníkov je možnosť ponúknuť rôzne úrovne služieb


  • Chceme zo svojich neprofitabilných zákazníkov urobiť viac profitabilných? Pre zvýšenie ziskovosti existujúcich zákazníkov môžeme aplikovať cielené modely krížového predaja a navyšovacieho predaja.


  • Chceme si udržať svojich profitabilných zákazníkov? Modely pre výpočet pravdepodobnosti odchodu či udržania si zákazníkov môžu identifikovať zákazníkov s vysokou pravdepodobnosťou zníženia alebo ukončenia ich terajšej aktivity. Vďaka nájdeniu týchto zákazníkov skôr ako od našej firmy odídu, môžeme podniknúť akciu na ich udržanie. Obvykle je lacnejšie udržať si ich ako ich znovu získavať späť.


  • Chceme získať späť zákazníkov, ktorí nás opustili? Modely pre spätné získanie sa sústreďujú na bývalých zákazníkov. Pomocou nich je možné modelovať odozvu alebo hodnotu zákazníka v závislosti na cieli.


  • Chceme zlepšiť spokojnosť zákazníkov? Na dnešnom konkurenčnom trhu je spokojnosť zákazníka kľúčom k úspechu. Kombináciou trhového výskumu a profilovanie zákazníka je efektívnou metódou merania spokojnosti zákazníkov.


  • Chceme zvýšiť tržby? Zvýšenie tržieb môžeme dosiahnuť niekoľkými spôsobmi. Model získavania nových zákazníkov prinesie zvýšenie zákazníckej základne, čo sa prejaví na zvýšení tržieb. Pre zvýšenie tržieb je možné použiť aj modely krížového a navyšovacieho predaja.


  • Chceme znížiť výdaje? Lepšie cielenie pomocou modelov pre získanie nových zákazníkov a riadenie vzťahu so zákazníkmi vedie k redukcii výdajov tým, že vylepší efektívnosť marketingového úsilia.


Metodika procesu Data Mining

Data Mining nie je hotovým riešením, ktoré je dosiahnuteľné jednoduchým stlačením tlačidla. Použitie techník Data Mining je spojené s vynaložením úsilia predovšetkým na strane metodických a odborných pracovníkov organizácie, ktorí sú znalcami svojej problematiky a svojich údajov. Nedostatok kvalifikovaných analytikov a štatistikov je z tohoto pohľadu všeobecný. SAS vypracoval úplný postup procesu Data Miningu, ktorý je popísaný metodológiou SEMMA. Pozostáva z 5 základných krokov:

  • Sampling – výber vzoriek údajov. Tento krok nie je nevyhnutný, je však odporučený. Databázy, ktoré sú v Data Mining predmetom skúmania, majú gigabyte-ové objemy. V tejto situácii je potrebné uvážiť, či je pre potrebnú analýzu potrebné použiť celú množinu údajov, alebo bude postačujúca reprezentatívna vzorka údajov. Tento postup je štatisticky korektný. Vo všeobecnosti platí, že ak v celkových údajoch je obsiahnutý nejaký všeobecný vzťah/pravidlo, jeho vplyv musí byť viditeľný aj v reprezentatívnej vzorke údajov. Význam použitia reprezentatívnych vzoriek údajov je v tom, že všetky analytické operácie nad vzorkou výrazne znižujú nároky na výpočtovú a pamäťovú kapacitu. Samozrejmým dôsledkom použitia vzorky údajov je verifikácia platnosti a všeobecnosti získaného abstraktného modelu.


  • Exploration – prieskum, diagnostika charakteristiky údajov. Zmyslom tohto kroku je ustáliť predstavu o otázkach, na ktoré môže analýza konkrétnych údajov poskytnúť odpovede. Prieskum údajov umožní zoznámiť sa s rozložením príslušných hodnôt v dátovom priestore a získať obraz o rozložení extrémnych hodnôt a rozpoznať existenciu sekvencií, asociácii alebo zoskupení.


  • Modification – manipulácia a transformácia údajov. Príkladom možných modifikácií údajov je:
    • odstránenie nedefinovaných hodnôt,
    • doplnenie popisov premenných,
    • doplnenie nových informácií,
    • vytvorenie zoskupení a pod.


  • Modelling – konštrukcia abstraktných modelov. V podstate ide o hľadanie odpovede na otázku “Čo je príčinou vzorov nájdených v údajoch?” Odpoveď môže byť získaná napríklad konštrukciou štatistického modelu, ktorým je formulovaná a otestovaná explicitne vyjadrená hypotéza. Výber vhodnej metódy je závislý na charaktere vzorov, ktoré boli v údajoch rozpoznané pri ich prieskume (napr. Nelineárny charakter interakcií, alebo veľký rozptyl v charakteristikách skupín a pod.). Metódy, ktoré sú podstatné v tomto kontexte sú:
    • Neurónové siete – sú všeobecným nástrojom pre modelovanie. Pre aplikáciu neurónových sieti je charakteristická fáza učenia sa na konkrétnej množine údajov a fáza ich aplikácie na vytvorenie žiadaného modelu. Použitie neurónových sietí je veľmi efektívne zvlášť pri spracovaní komplexných údajov (detekcia nelineárnych závislostí). Protikladom tejto efektívnosti sú ťažkosti pri interpretácii modelov a pri preukázaní toho, že výsledný model je optimálny vzhľadom na spracované údaje. Pre použitie neurónových sietí jestvujú určité špecifické obmedzenia na údaje, napríklad na spracovanie sú vhodné iba numerické údaje.
    • Stromové modely – skupina metód CART, CHAID, C4.5, ktorým sa na základe definovaných pravidiel členia údaje do osobitých segmentov (stromových štruktúr). Automatická detekcia nelineárnych závislosti patrí k silným stránkam týchto metód. Na rozdiel od neurónových sietí je použitie týchto metód výhodné pre výber významných premenných v prípade, keď údaje obsahujú mnoho irelevantných prediktorov.
    • Štatistické metódy – osvedčený nástroj vhodný pre konštrukciu lineárnych modelov. V Data Mining sú najčastejšie používané nasledovné metódy: diskriminančná analýza, zhluková analýza, korešpondenčná analýza, logistická regresia, analýza prežitia, predikcia vývoja časových radov a ďalšie


  • Assesment – porovnanie a posúdenie vytvorených modelov. V tomto kroku sa na základe porovnania získaných alternatív vyberie (podľa zvoleného kritéria) jeden model, ako výsledné riešenie. Intuitívna interpretácia abstraktného modelu je výsledkom, ktorý očakáva užívateľ výsledku analýzy.