Školení / Metody čištění dat

Detailní informace o školení

Outline in English Data Cleaning Techniques
Kód BDCT
Název Metody čištění dat
Určení Warehousing
Délka standardně 2 dny, vždy 9-17 hodin (s pauzou na oběd)
Cena
  • 25.000,- Kč
  • 25.000,- Kč pro akademická pracoviště
  • sleva 5% až 20% při dvou a více účastnících z jedné firmy
  • uvedené ceny jsou bez DPH
Místo konání SAS, Na Pankráci 17-19, Praha 4 (3. patro budovy)
Jazyk
  • přednášky - čeština
  • školící materiály - angličtina
V ceně zahrnuto
  • přístup k PC (max. 1 účastník na 1 PC)
  • školící materiály
Doporučené kurzy před PRG1

Kurz určený všem, kteří se chtějí seznámit s nejrůznějšími metodami čištění dat. Při přihlášení do tohoto kurzu by uživatelé již měli mít zkušenosti se SAS System a datastepem (PRG1 + PRG2).

Přínos pro účastníka

Ve školení se naučíte, jak odhalovat a korigovat chyby ve vstupních datech. Mezi techniky patří zejména použití datastepu, ale i procedur FREQ, MEANS a UNIVARIATE, které umožňují identifikovat "problematická" pozorování numerických i kategoriálních proměnných dle předem stanovených kritérií. Další část kurzu je věnována vyhledávání shodných identifikačních znaků v různých souborech (fuzzy join) a vyhledávání duplicitních záznamů.

Obsah kurzu

Úvod

  • co je to čištění dat
  • seznámení se s ukázkovými datovými soubory

Kontrola hodnot textových proměnných

  • výpis hodnot pomocí procedury FREQ
  • hledání nepřípustných hodnot pomocí datastepu
  • zobrazení nepřípustných hodnot
  • použití předdefinovaných formátů SAS
  • použití vstupních šablon (informáty)

Kontrola hodnot numerických proměnných

  • identifikace odlehlých pozorování v procedurách MEANS, TABULATE a UNIVARIATE
  • zobrazení nepřípustných hodnot pomocí procedury PRINT s klauzulí WHERE
  • hledání nepřípustných hodnot pomocí datastepu
  • kontrola přípustných hodnot na základě stanoveného intervalu
  • použití předdefinovaných formátů SAS
  • použití vstupních šablon (informáty)
  • vyhledávání horních a dolních percentilů procedurou UNIVARIATE
  • vyhledávání horních a dolních percentilů procedurou RANK
  • vyhledávání extrémních pozorování procedurou RANK
  • jiné způsoby nalezení extrémních hodnot
  • kontrola přípustného intervalu stanoveného na základě směrodatné odchylky
  • kontrola přípustného intervalu stanoveného na základě mezikvartilového rozpětí
  • simultání kontrola několika proměnných

Kontrola chybějících hodnot

  • prohlížení logu
  • hledání chybějících hodnot procedurami MEANS a FREQ
  • hledání chybějících hodnot pomocí datastepu
  • použití procedury TABULATE ke zjištění chybějících hodnot numerických proměnných
  • použití procedury TABULATE ke zjištění chybějících hodnot textových proměnných
  • vytvoření obecně použitelného algoritmu za účelem vyhledávání chybějících hodnot
  • vyhledávání konkrétní hodnoty

Práce s datumy

  • kontrola pomocí stanoveného intervalu
  • nalezení neplatných datumů
  • nestandardní datumové formáty
  • ošetření chybějícího dne v měsíci
  • zrušení automatické kontroly neplatných datumů

Vyhledávání duplicit a vícenásobných pozorování

  • vynechání duplicit za pomoci procedury SORT
  • nalezení duplicit v datastepu
  • vyhledávání duplicitních záznamů pomocí maker a SQL
  • hledání duplicit procedurou FREQ
  • identifikace subjektů s n pozorováními

Práce s více soubory

  • vyhledávání shodných identifikátorů ve dvou a více souborech
  • jednoduchá makra pro vyhledávání shodných hodnot v klíčových proměnných
  • složitější makra pro vyhledávání ve více souborech
  • pravidla vyhledávání ve více souborech
  • kontrola správného řazení datumů

Porovnávání více souborů (procedura COMPARE)

  • jednoduché porovnání dvou souborů bez společného klíče
  • procedura COMPARE při existenci společné proměnné
  • použití COMPARE v souborech s rozdílným počtem pozorování
  • porovnání dvou souborů při existenci různých proměnných

Vybraná SQL řešení pro čištění dat

  • přehled možností procedury SQL
  • kontrola neplatných hodnot
  • identifikace odlehlých pozorování
  • kontrola přípustného intervalu stanoveného na základě směrodatné odchylky
  • vyhledávání chybějících pozorování
  • kontrola datumů
  • hledání duplicit
  • verifikace vícenásobných pozorování u stejného subjektu
  • vyhledávání shodných identifikátorů ve dvou souborech
  • složitější vyhledávání ve více souborech

Vybraná datastep řešení pro čištění dat

  • přiřazení k číselníkovým hodnotám
  • seskupování podobných textových položek
  • automatické vytvoření číselníku

Data specifická pro ČR (viz. CZDATA)

  • PSČ
  • IČO
  • telefony
  • čísla účtů
  • názvy
  • adresy

Další témata podle zájmu účastníků

Podělte se s námi o vaše nápady! Jsou zde další témata, která vám v kurzu chybí? Chtěli byste kurz uspořádat jinde nebo trochu jinak? Dejte nám o tom vědět na training@cze.sas.com.