Использование загрузчика данных SAS для Hadoop (SAS Data Loader 2.3 for Hadoop)


DL23HD            Длительность: 2 дня            Уровень: 1            Версия ПО:  9.4

Этот курс знакомит бизнес-аналитиков и специалистов по обработке данных с платформой для профилирования, интеграции, очистки и переноса больших данных без написания кода в рабочем окружении Hadoop при помощи интуитивно понятного веб-интерфейса.

Слушатели изучат

  • как переноить данные в Hadoop и из него
  • как оценивать качество данных и выявлять сопутствующие проблемы с ними
  • как выполнять преобразования данных, их транспонирование и объединение
  • очистку и интеграцию данных, для их последующего анализа и построения на них отчётов
  • загрузку данных на сервер SAS In-Memory Analytics Server для аналитики и их исследования
  • как выполнять пользовательский код SAS и HiveQL в кластере Hadoop.

Целевая аудитория

Бизнес-пользователи, работающие с данными, отвечающие за их исследование, подготовку для других пользователей и построение запросов;

Аналитики данных, статистики и исследователи, которые пользуются результатами исследований данных, создают новые таблицы и элементы данных, изменяют структуру или формат таблиц для их просмотра, изменяют элементы данных и загружают данные для использования другими пользователями;

Специалисты по управлению данными, отвечающие за соответствие данных внутренним стандартам, обеспечивающие качество данных и их перемещение на кластер Hadoop и из него, оптимизирующие код, запускаемый на кластере Hadoop.

Для прохождения этого курса не требуется никаких специальных знаний.

В курсе рассматривается программное обеспечение SAS Data Loader for Hadoop.

Введение 

  • Эра больших данных (Big Data)
  • Зачем нужен Hadoop?
  • Что такое SAS?
  • Зачем использовать SAS и Hadoop?
  • Зачем нужен SAS Data Loader for Hadoop?

Обзор SAS Data Loader

  • Введение в виртуальные приложения
  • Введение в SAS Data Loader (vApp)
  • Функциональность SAS Data Loader
  • Интерфейс SAS Data Loader
  • Общие шаги для большинства операций

Методология и обзор курса

  • Варианты использования SAS Data Loader
  • Методология подготовки данных для аналитики
  • Обзор курса, демонстраций и упражнений

Получение и исследование данных

  • Копирование таблиц в Hadoop
  • Импорт текстовых файлов в Hadoop
  • Исследование качества данных и проблем с ним
  • Создание запросов к данным в Hadoop для понимания их структуры и содержимого

Трансформации и транспонирование данных 

  • Трансформации данных в Hadoop
  • Транспонирование данных в Hadoop

Очистка данных 

  • Разделение данных на значимые подмножества для дальнейшего анализа
  • Стандартизация данных по заданному формату и структуре
  • Создание идентификаторов (match code) для объединения таблиц по нечётким условиям
  • Определение и категоризация данных в Hadoop
  • Фильтрация строк при помощи бизнес-правил или выражений Hive

Интеграция данных

  • Создание запросов для выбора и объединения таблиц используя внутреннее, внешнее, лево- и правосторонние объединения
  • Объединение таблиц при помощи созданных идентификаторов (match codes) для разнородных таблиц
  • Сортировка, удаление дубликатов и управление столбцами и данными
  • Выполнение программы SAS в Hadoop используя элементы языка программирования SAS DS2
  • Выполнение программы Hive используя редактор выражений или копирование кода

Передача данных 

  • Загрузка данных в LASR
  • Копирование данных из Hadoop

Additional Topics 

  • Параметры SAS Data Loader vApp
  • Конфигурации SAS Data Loader
  • Обработка данных в SAS и Hadoop
  • Программы SAS DS2
  • Отлатка заданий в Hadoop

Back to Top