Detailní informace o školení
| Outline in English | Data Preparation for Data Mining |
| Kód | DMDP |
| Název | Příprava dat pro data mining |
| Určení | Data Mining |
| Úroveň | 3 |
| Délka | standardně 2 dny, vždy 9-17 hodin (s pauzou na oběd) |
| Cena |
|
| Místo konání | SAS, Na Pankráci 17-19, Praha 4 (1. patro budovy) |
| Jazyk |
|
| V ceně zahrnuto |
|
| Doporučené kurzy před | PRG1, PRG2, AAEM či AAEM53 |
| Navazující kurzy | PMADV nebo PMAD53 |
Příprava dat je klíčem k úspěchu při dolování dat. Tento kurz IV úrovně je určen pro data minery a IT profesionály, kteří se zabývají transformací surových dat na smysluplné vstupy prediktivních modelů.
Přínos pro účastníka
Školení představuje programátorské techniky užívané analytiky při přípravě dat do formy vhodné k modelování. Naučíte se, jak extrahovat potřebné informace ze zdrojů surových dat a převádět transakční data či data popisující události do formy, která je nutná k modelování. Rovněž se naučíte, jak do modelů efektivně zahrnout nenumerická data, jak se vyrovnat s výjimkami či extrémními hodnotami. Po absolvování tohoto školení budete rovněž schopni dokumentovat proces přípravy dat.
Účastník by měl mít:
- zkušenost s technikami prediktivního modelování, přibližně v rozsahu školení AAEM / AAEM53
- zkušenost při práci s tabulkami v SAS, zhruba v rozsahu školení PRG2
Obsah kurzu
Úvod
- struktury surových dat
- struktura dat vhodná pro prediktivní modelování
- přehled problematiky přípravy dat
Extrakce relevantních dat
- "problémy" v datech
- ohodnocení dostupnosti dat
- přístup k datům
- vytvoření reprezentativního vzorku dat pro modelování
Transformace transakčních dat a dat popisujících události
- výhody a nevýhody transakčních dat
- běžně užívané struktury pro uložení transakcí
- definice časového okna
- fixní a variabilní časové okno
- implementace běžně užívaných transformací transakčních dat
Použití nenumerických dat
- definice a "problémy" nenumerických dat
- detekce a řešení problémů manuálně vkládaných dat
- řízení stupňů volnosti
- geokódování, specifika České Republiky
Výjimky a extrémní hodnoty
- odlehlá pozorování, chybějící a neaplikovatelné hodnoty, extrémní hodnoty
- detekce vyjímek a extrémů
- ošetření odlehlých a extrémních hodnot
Další témata podle zájmu účastníků
Podělte se s námi o vaše nápady! Jsou zde další témata, která vám v kurzu chybí? Chtěli byste kurz uspořádat jinde nebo trochu jinak? Dejte nám o tom vědět na training@cze.sas.com.

