SAS opět zvednul laťku v oblasti Data Miningu a Text MininguSpolečnost SAS Institute, která za svůj software získala v letošním roce nejvyšší ocenění v každoroční anketě Intelligent Enterprise magazínu, znovu pozvedla laťku a představuje zásadní vylepšení svého software pro Data Mining a Text Mining. SAS Enterprise Miner 5.2 a SAS Text Miner 2.3 jsou od podzimu tohoto roku rozšířeny o další funkcionalitu, která ještě více usnadní odkrytí všech informací a souvislostí obsažených jak ve strukturovaných, tak i nestrukturovaných datech, shromažďovaných z široké škály zdrojů. Hlavní přínosy se týkají jak technických, tak i business uživatelů SAS software a dají se shrnout do těchto základních bodů:
Ověřené přínosy pro uživateleDíky analytickým možnostem SAS software pro Data Mining a Text Mining jsou pracovníci organizace, kteří jsou zodpovědní za rozhodování, schopni snížit podvody, zvýšit hodnotu svých zákazníků, snížit jejich fluktuaci či predikovat rizika nedodržení plnění úvěrových smluv a podmínek. To ve svém důsledku znamená vydělat své organizaci miliony. Jak SAS Enterprise Miner a SAS Text Miner pracujíProstředí SAS umožňuje uživatelům týmově spolupracovat při využívání dat shromážděných z velkého množství kanálů: interní a externí strukturovaná data, dokumenty, webové logy, transakce či časové řady. SAS software pak vytvoří model, který extrahuje zásadní informace a znalosti ze všech těchto rozdílných a různorodých datových zdrojů. Navíc lze výsledky Data Miningu přímo zapojit do Data Integration procesů a BI reportingu, a to jak v rámci platformy SAS Enterprise Intelligence Platform (SAS Data Integration Server, SAS BI Server), tak i jiných existujících systémů. Dále je díky SAS pro uživatele mnohem snadnější získat cenné business informace prostřednictvím svých oblíbených kanálů. SAS Enterprise Miner 5.2 a SAS Text Miner 2.3 nabízí nové statistické a vizualizační možnosti pro odkrývání trendů a vzorců v datech. Například nová interaktivní grafika umožňuje business analytikům rychle odhalit komplexní vztahy a vazby. Uživatelé mohou procházet výsledky dolování dat pomocí mnoha technik, analyzovat trendy a vzorce a získat tak podrobný a komplexní pohled do podstaty problému a na jeho základě přicházet s novými nápady. Podpora grid-computingu / grid-miningu snižuje dobu potřebnou jak k vývoji, tak i k nasazení prediktivních modelů a dalších výsledků Data Miningu. Nové vlastnosti SAS Enterprise MineruInteraktivní, průzkumná analýza dat a interaktivní seskupování dat umožňují uživatelům snadno odhalit anomálie v datech. Výsledkem jsou data optimálně připravená a strukturovaná, umožňující uživatelům soustředit se na vlastní analýzu a modelování. Vylepšení zahrnují zejména:
SAS rovněž přidal ke grafickému vyjádření pohledu na vícerozměrná data možnosti vizualizace, „area bar“, matice XY grafů, „lattice chart“, možnost paralelní osy a 3D grafy. V oblasti segmentace pomocí rozhodovacích stromů jsou podstatným způsobem rozšířeny možnosti uživatelsky definovaných větvení na základě vybrané proměnné. Větve stromu je možné nyní interaktivně rozbalovat a sbalovat, což uživateli umožňuje lepší kontrolu nad komplexními stromy. Vylepšený Web mining pro návštěvníky web stránek rychle identifikuje nejvýznamnější sekvence web cest, ke sledování navigačních vzorů. Přidáním Web provozu, návštěvnosti, transakcí časových řad a obsahu tržního koše do modelovacích procesů, mohou data minery vytvářet bohatší prediktivní modely, které zachytí a zdůrazní komplexní chování zákazníků. SAS Text Miner rozšiřuje možnosti Data MininguV nové verzi jsou automaticky vytvářeny seznamy synonym z chybně napsaných slov a překlepů, včetně přehozených, navíc vložených a smazaných znaků, akronymů a interpunkce. Nové prohlížeč termínů umožňuje rychle rozšiřovat seznam synonym. Algoritmus „Singular Value Decomposition“ - ověřená technika redukce vysoké dimenzionality textů, slučuje „podobné termíny“. SAS automaticky řeší problematiku terminologie v různých oblastech. Analýza textu je připravena pro práci s vícejazyčnými dokumenty. Tato flexibilita umožňuje nadnárodním společnostem získat 360-ti stupňový pohled na všechny své klienty. Rozbor textu je nyní kombinován s interaktivním slučováním a vizualizací propojování obsahů: K jakémukoli slovu se lze nyní chovat jako ke konceptu, obsahu. Na kliknutí myši lze tento koncept rozšiřovat a zobrazit propojené vztahy. Tato schopnost v kombinaci s integrovaným prohlížečem taxonomie pomáhá dodat ještě podrobnější a komplexnější náhled. Dokumenty lze analyzovat v PDF, HTML a mnoha dalších formátech. SAS Text Miner může analyzovat texty z poznámek call center, komentářů shromážděných z výzkumů trhu, internetové informace (např. BLOGy), může provádět automatické prohledávání Webu pro lepší podporu výzkumníka. SAS uživatelé nyní mají větší kontrolu při provádění dynamických úprav, které zlepšují jejich efektivitu při Data Miningu. Žádné jiné řešení pro Data Mining nebo Text Mining neposkytuje takovou flexibilitu a možnost úprav procesu podle potřeb uživatele. Od automatické přípravy datamartu až po distribuovaný výpočet (grid computing / grid mining) je celý proces jednoduchý a více škálovatelný. Nová verze SAS Enterprise Mineru a SAS Text Mineru se do praxe v České republice zavádí právě nyní, a tak ohlasy lze zatím mít jen z verze předchozí (SAS Enterprise Mineru 5.1), která měla i tak u uživatelů úspěch. SAS Institute ČR si nechal od nezávislé třetí strany - uživatele - vypracovat studii právě na SAS Enterprise Miner 5.1. Zde je výsledek. V létě 2005 byla dokončena interní studie na prostředí SAS 9.1 ve společnosti Honeywell Prague Laboratory. Výsledky studie a stručná sumarizace:
Tamer Keshi, Ph.D. Principle Research Engineer - Business Development Hodnocení založené na datech z běžných provozních procesůTamer Keshi, PhD SouhrnCílem studie bylo ohodnotit možnosti řešení SAS Enterprise Miner zachytit a modelovat poznatky z dat typických pro technologické procesy. Počáteční data se brala z jednotky pro katalitické krakování kapalin (Fluid Catalytic Cracking unit - FCC) v rafinérii surové nafty. Úkolem bylo zpracovat typický příklad problémů, se kterými se potýkají souvislé technologické procesy, které lze charakterizovat následujícími atributy:
Data se sbírala v hodinových intervalech. Databáze obsahovala 160 proměnných a 8000 řádek. Hlavní úlohy
Úloha 1 – Výběr proměnnýchDecision Tree a Variable Selection moduly byly při této studii shledány velmi užitečnými pro uvedení důvodů výběru. Efektivita výběru proměnných používající Decision Trees byla ověřena porovnáním výsledků s dlouhodobými zkušenostmi a oborovými znalostmi. Dalším ověřením byla správnost predikce na základě zvolených proměnných. Moduly nabídly ještě další hodnotné informace o závislostech proměnných, důležitosti a důvodech odmítnutí. Úloha 2 – Prediktivní modelyModuly Filtrování, Vkládání a Transformace proměnných byly použity pro práci s daty a jejich problémy. Moduly nabízí přednastavené opravné procesy. Pokročilé možnosti lze užít při práci s citlivými detaily. Tyto nástroje byly hlavně používány pro vyřazení nesprávných dat a chyb v měření, nahrazení chybějících hodnot použitím komplexních informací ze všech prohlížených datových souborů a transformaci hodnot důležitých vkládaných proměnných do přijatelnějšího formátu pro prediktivní modelování. Moduly byl shledány robustními a dostatečnými pro zpracování všech vyskytnuvších se problémů. Moduly pro prediktivní modelování včetně Regrese, Rozhodovacích stromů a Neuronových sítí nabízí automatické mechanizmy navrhující konkrétní nastavení modelů na základě formátu vkládaných dat a cílových proměnných. Tato vlastnost urychluje iniciační a rutinní kroky a analytikům umožňuje se lépe koncentrovat na klíčové úkoly a citlivé detaily. Vzhledem ke komplexnosti problému a nelineárních závislostí cílových proměnných při vkládání je modul Neuronových sítí jedním z nejužitečnějších nástrojů při prediktivním modelování. Užitečné byly rovněž pohledy ilustrující studijní a adaptační procesy, např. Vizualizace adaptovaných parametrů neuronové sítě. Proměnné byly také sofistikovanými grafy ukazujícími modelovací přesnost cílových proměnných. Na základě mezinárodních znalostí, výsledků modelování objemů produkce FCC bylo použití SAS Enterprise Miner ohodnoceno jako spolehlivé. To samé lze říci o přesnosti modelování profitu v celém objemu oddělení. Úkol 3 – Určení nejlepších provozních praktikCílem tohoto úkolu bylo vytvořit a ohodnotit základy pro optimalizaci systému. Byly použity rozhodovací stromy, protože jsou robustní, snadno pochopitelné a je možné jednoduše otestovat výsledky. K rozdělení pravidel červenou barvou (obrázek 2) došlo na základě porušených proměnných, které jsou sledovány a nesmí s nimi být manipulováno. Rozdělení pravidel modrou barvou bylo uděláno na základě manipulovatelných proměnných, které lze měnit pro dosažení lepší výkonnosti. Proces optimalizace je založen na změně hodnot manipulovatelných proměnných k dosažení nejlepších možných výsledků a výkonnosti, bereme-li v úvahu aktuální nastavení porušených proměnných. Optimalizace představuje změnu žlutého na oranžový segment (obrázek 1) a ze světle modré na tmavě modrou v obrázku 2 bere-li se v úvahu omezení kvůli hodnotám porušených proměnných. Závěr
|
Kontaktujte nás |
![]() |
| Contact Us  | Worldwide Sites  | Search  | Site Map  | Terms of Use & Legal Information  | Privacy Statement  | Copyright © 2008 SAS Institute Inc. All Rights Reserved |