SAS opět zvednul laťku v oblasti Data Miningu a Text Miningu

Společnost SAS Institute, která za svůj software získala v letošním roce nejvyšší ocenění v každoroční anketě Intelligent Enterprise magazínu, znovu pozvedla laťku a představuje zásadní vylepšení svého software pro Data Mining a Text Mining.

SAS Enterprise Miner 5.2 a SAS Text Miner 2.3 jsou od podzimu tohoto roku rozšířeny o další funkcionalitu, která ještě více usnadní odkrytí všech informací a souvislostí obsažených jak ve strukturovaných, tak i nestrukturovaných datech, shromažďovaných z široké škály zdrojů.

Hlavní přínosy se týkají jak technických, tak i business uživatelů SAS software a dají se shrnout do těchto základních bodů:

  • Efektivní příprava dat do formátu vhodného pro Data Mining
  • Široká škála snadno interpretovatelných grafických výstupů
  • Podpora web miningu a strojové analýzy informací z webu

Ověřené přínosy pro uživatele

Díky analytickým možnostem SAS software pro Data Mining a Text Mining jsou pracovníci organizace, kteří jsou zodpovědní za rozhodování, schopni snížit podvody, zvýšit hodnotu svých zákazníků, snížit jejich fluktuaci či predikovat rizika nedodržení plnění úvěrových smluv a podmínek. To ve svém důsledku znamená vydělat své organizaci miliony.

Jak SAS Enterprise Miner a SAS Text Miner pracují

Prostředí SAS umožňuje uživatelům týmově spolupracovat při využívání dat shromážděných z velkého množství kanálů: interní a externí strukturovaná data, dokumenty, webové logy, transakce či časové řady. SAS software pak vytvoří model, který extrahuje zásadní informace a znalosti ze všech těchto rozdílných a různorodých datových zdrojů. Navíc lze výsledky Data Miningu přímo zapojit do Data Integration procesů a BI reportingu, a to jak v rámci platformy SAS Enterprise Intelligence Platform (SAS Data Integration Server, SAS BI Server), tak i jiných existujících systémů. Dále je díky SAS pro uživatele mnohem snadnější získat cenné business informace prostřednictvím svých oblíbených kanálů.

SAS Enterprise Miner 5.2 a SAS Text Miner 2.3 nabízí nové statistické a vizualizační možnosti pro odkrývání trendů a vzorců v datech. Například nová interaktivní grafika umožňuje business analytikům rychle odhalit komplexní vztahy a vazby. Uživatelé mohou procházet výsledky dolování dat pomocí mnoha technik, analyzovat trendy a vzorce a získat tak podrobný a komplexní pohled do podstaty problému a na jeho základě přicházet s novými nápady. Podpora grid-computingu / grid-miningu snižuje dobu potřebnou jak k vývoji, tak i k nasazení prediktivních modelů a dalších výsledků Data Miningu.

Nové vlastnosti SAS Enterprise Mineru

Interaktivní, průzkumná analýza dat a interaktivní seskupování dat umožňují uživatelům snadno odhalit anomálie v datech. Výsledkem jsou data optimálně připravená a strukturovaná, umožňující uživatelům soustředit se na vlastní analýzu a modelování. Vylepšení zahrnují zejména:

  • Interaktivní grafy umožňující identifikaci odlehlých pozorování a chyb, je možné specifikovat intervaly pro spojité i kategoriální proměnné.
  • Interaktivní „expression builder“ uživateli umožní zapracovat vlastní business pravidla, včetně různých interakcí mezi faktory.
  • Interaktivní nastavení oprav pro chybějící nebo chybně kódované hodnoty pro spojité i kategoriální proměnné.
  • Celý proces je řízen rozhodovací maticí zisků a ztrát umožňující maximalizovat profit či minimalizovat ztrátu – to znamená kvalitnější a rychlejší rozhodnutí.

SAS rovněž přidal ke grafickému vyjádření pohledu na vícerozměrná data možnosti vizualizace, „area bar“, matice XY grafů, „lattice chart“, možnost paralelní osy a 3D grafy. V oblasti segmentace pomocí rozhodovacích stromů jsou podstatným způsobem rozšířeny možnosti uživatelsky definovaných větvení na základě vybrané proměnné. Větve stromu je možné nyní interaktivně rozbalovat a sbalovat, což uživateli umožňuje lepší kontrolu nad komplexními stromy.

Vylepšený Web mining pro návštěvníky web stránek rychle identifikuje nejvýznamnější sekvence web cest, ke sledování navigačních vzorů. Přidáním Web provozu, návštěvnosti, transakcí časových řad a obsahu tržního koše do modelovacích procesů, mohou data minery vytvářet bohatší prediktivní modely, které zachytí a zdůrazní komplexní chování zákazníků.

SAS Text Miner rozšiřuje možnosti Data Miningu

V nové verzi jsou automaticky vytvářeny seznamy synonym z chybně napsaných slov a překlepů, včetně přehozených, navíc vložených a smazaných znaků, akronymů a interpunkce. Nové prohlížeč termínů umožňuje rychle rozšiřovat seznam synonym. Algoritmus „Singular Value Decomposition“ - ověřená technika redukce vysoké dimenzionality textů, slučuje „podobné termíny“. SAS automaticky řeší problematiku terminologie v různých oblastech.

Analýza textu je připravena pro práci s vícejazyčnými dokumenty. Tato flexibilita umožňuje nadnárodním společnostem získat 360-ti stupňový pohled na všechny své klienty. Rozbor textu je nyní kombinován s interaktivním slučováním a vizualizací propojování obsahů: K jakémukoli slovu se lze nyní chovat jako ke konceptu, obsahu. Na kliknutí myši lze tento koncept rozšiřovat a zobrazit propojené vztahy. Tato schopnost v kombinaci s integrovaným prohlížečem taxonomie pomáhá dodat ještě podrobnější a komplexnější náhled.

Dokumenty lze analyzovat v PDF, HTML a mnoha dalších formátech. SAS Text Miner může analyzovat texty z poznámek call center, komentářů shromážděných z výzkumů trhu, internetové informace (např. BLOGy), může provádět automatické prohledávání Webu pro lepší podporu výzkumníka.

SAS uživatelé nyní mají větší kontrolu při provádění dynamických úprav, které zlepšují jejich efektivitu při Data Miningu. Žádné jiné řešení pro Data Mining nebo Text Mining neposkytuje takovou flexibilitu a možnost úprav procesu podle potřeb uživatele. Od automatické přípravy datamartu až po distribuovaný výpočet (grid computing / grid mining) je celý proces jednoduchý a více škálovatelný.


Nová verze SAS Enterprise Mineru a SAS Text Mineru se do praxe v České republice zavádí právě nyní, a tak ohlasy lze zatím mít jen z verze předchozí (SAS Enterprise Mineru 5.1), která měla i tak u uživatelů úspěch. SAS Institute ČR si nechal od nezávislé třetí strany - uživatele - vypracovat studii právě na SAS Enterprise Miner 5.1. Zde je výsledek.

V létě 2005 byla dokončena interní studie na prostředí SAS 9.1 ve společnosti Honeywell Prague Laboratory.

Výsledky studie a stručná sumarizace: 

  • Studie byla zaměřena na vyhodnocování možnosti využití “High-Performance Data Mining Systems” v “Process Industries” a dalších oblastech působení naší laboratoře. Studie nereaguje na konkrétní potřebu, ale je spíše zaměřená na mapování a vyhodnocování možných budoucích alternativ rozšíření našich nástrojů a činností. Podkladem pro studii byly interní průmyslová data.
  • Prezentace byla zaměřena zejména na předvedení komplexnosti systému SAS 9.1 a především efektivitě prediktivního modelování v prostředí SAS Enterprise Miner 5.1. V rámci prezentace byly předvedeny nástroje SAS Enterprise Miner pro práci s nedostatky v datech, výběr vhodných proměnných a především samotné nástroje prediktivního modelování. Prezentace se věnovala i řešení jiných záležitostí souvisejících s typickými úlohami, se kterými se v naší laboratoři často setkáváme.
  • Podle mého názoru byli přednosti SASu velmi dobře uvedeny a ilustrovány. Domnívám se, že pokud by se naše vedení v budoucnu rozhodlo zahájit spolupráci v oblasti “Analytical Intelligence”, měl by SAS díky předvedené studii velmi dobrou výchozí pozici.
  •  

Tamer Keshi, Ph.D. Principle Research Engineer - Business Development
Honeywell Prague Laboratory
Data-Centric Technology Group

Hodnocení založené na datech z běžných provozních procesů

Tamer Keshi, PhD
Laboratoře Honeywell Praha

Souhrn

Cílem studie bylo ohodnotit možnosti řešení SAS Enterprise Miner zachytit a modelovat poznatky z dat typických pro technologické procesy. Počáteční data se brala z jednotky pro katalitické krakování kapalin (Fluid Catalytic Cracking unit - FCC) v rafinérii surové nafty. Úkolem bylo zpracovat typický příklad problémů, se kterými se potýkají souvislé technologické procesy, které lze charakterizovat následujícími atributy:

  • Procesní proměnné jsou měřeny senzory, které vytváří průběžné časové řady
  • Data jsou ovlivňována chybami měření (chybně zdanými, uloženými daty, chybějícími hodnotami, nefunkčními senzory)
  • Časové řady jednotlivých postupů individuálních procesních proměnných jsou vysoce souvztažná.
  • Systém je ovlivňován mnoha exogenními faktory, které se časem mění a nutí systém přeskakovat mezi několika provozními regiony.

Data se sbírala v hodinových intervalech. Databáze obsahovala 160 proměnných a 8000 řádek.

Hlavní úlohy

  1. Identifikovat proměnné, které mají největší dopad na objem FCC produktů.
  2. Vytvořit a ohodnotit prediktivní modely pro klíčové FCC produkty a celkový profit oddělení.
  3. Určit nejlepší provozní praktiky použitím ziskových proměnných jako kritéria výkonnosti systému.
Úloha 1 – Výběr proměnných

Decision Tree a Variable Selection moduly byly při této studii shledány velmi užitečnými pro uvedení důvodů výběru. Efektivita výběru proměnných používající Decision Trees byla ověřena porovnáním výsledků s dlouhodobými zkušenostmi a oborovými znalostmi. Dalším ověřením byla správnost predikce na základě zvolených proměnných. Moduly nabídly ještě další hodnotné informace o závislostech proměnných, důležitosti a důvodech odmítnutí.

Úloha 2 – Prediktivní modely

Moduly Filtrování, Vkládání a Transformace proměnných byly použity pro práci s daty a jejich problémy. Moduly nabízí přednastavené opravné procesy. Pokročilé možnosti lze užít při práci s citlivými detaily. Tyto nástroje byly hlavně používány pro vyřazení nesprávných dat a chyb v měření, nahrazení chybějících hodnot použitím komplexních informací ze všech prohlížených datových souborů a transformaci hodnot důležitých vkládaných proměnných do přijatelnějšího formátu pro prediktivní modelování. Moduly byl shledány robustními a dostatečnými pro zpracování všech vyskytnuvších se problémů.

Moduly pro prediktivní modelování včetně Regrese, Rozhodovacích stromů a Neuronových sítí nabízí automatické mechanizmy navrhující konkrétní nastavení modelů na základě formátu vkládaných dat a cílových proměnných. Tato vlastnost urychluje iniciační a rutinní kroky a analytikům umožňuje se lépe koncentrovat na klíčové úkoly a citlivé detaily. Vzhledem ke komplexnosti problému a nelineárních závislostí cílových proměnných při vkládání je modul Neuronových sítí jedním z nejužitečnějších nástrojů při prediktivním modelování. Užitečné byly rovněž pohledy ilustrující studijní a adaptační procesy, např. Vizualizace adaptovaných parametrů neuronové sítě. Proměnné byly také sofistikovanými grafy ukazujícími modelovací přesnost cílových proměnných. Na základě mezinárodních znalostí, výsledků modelování objemů produkce FCC bylo použití SAS Enterprise Miner ohodnoceno jako spolehlivé. To samé lze říci o přesnosti modelování profitu v celém objemu oddělení.

Úkol 3 – Určení nejlepších provozních praktik

Cílem tohoto úkolu bylo vytvořit a ohodnotit základy pro optimalizaci systému. Byly použity rozhodovací stromy, protože jsou robustní, snadno pochopitelné a je možné jednoduše otestovat výsledky. K rozdělení pravidel červenou barvou (obrázek 2) došlo na základě porušených proměnných, které jsou sledovány a nesmí s nimi být manipulováno. Rozdělení pravidel modrou barvou bylo uděláno na základě manipulovatelných proměnných, které lze měnit pro dosažení lepší výkonnosti. Proces optimalizace je založen na změně hodnot manipulovatelných proměnných k dosažení nejlepších možných výsledků a výkonnosti, bereme-li v úvahu aktuální nastavení porušených proměnných. Optimalizace představuje změnu žlutého na oranžový segment (obrázek 1) a ze světle modré na tmavě modrou v obrázku 2 bere-li se v úvahu omezení kvůli hodnotám porušených proměnných.

Závěr

  • Nástroje SAS Enterprise Mineru na výběr proměnných byly shledány robustními a adekvátními pro práci s problémy, se kterými se setkaly.
  • Problémy dat včetně chybějících hodnot, „zbloudilých“ dat, zamrzlých senzorech, chyb měřen a abnormálních distribucích byly použitím modelů Filtrování, Vkládání a Transformace proměnných vyřešeny.
  • Nástroje SAS Enterprise Mineru na prediktivní modelování byly ohodnoceny jako efektivní a výsledky ovlivňující. Nástroje podporují jak rychlé vytváření modelů použitím defoltního a automatického nastavení, tak pokročilých metod spoléhajících na umění analytiků a sofistikovaných SAS výstupů.
  • Vedle popisných řešení jako jsou analýzy a predikce (forecasty), SAS podporuje aktivní přístupy na základě pokročilých prediktivních technik. Tyto přístupy mohou přímo vést k optimalizaci výkonnosti systému.
  • SAS software nabízí rychlé, robustní a efektivní zpracování problémů a zároveň podporuje řadu možností transparentních řešení, které mohou být snadno implementovány a transformovány do dalších prostředí.

Kontaktujte nás

logo

The Power To Know