Введение в SAS и Hadoop


DIACHD            Длительность: 2 дня            Уровень: 3            Версия ПО:  9.4

Курс посвящён обзору программных методов чтения, записи и обработки данных Hadoop на языке SAS. Основные методы, рассмотренные в курсе, включают чтение и запись необработанных данных при помощи шага DATA, управление файловой системой Hadoop, выполнение кода Map-Reduce и Pig из SAS через процедуру HADOOP. Дополнительно рассматриваются методы работы с интерфейсом SAS/ACCESS для Hadoop, позволяющие организовать чтение и запись таблиц Hadoop Hive через оператор LIBNAME, а также «сквозная передача» SQL запросов. Хотя этот курс не содержит подробное описание дополнительных методов взаимодействия SAS и Hadoop, в нём даётся краткий обзор DS2, процедур высокопроизводительной аналитики, SAS LASR Server, статистических in-memory процедур SAS, вычислительной инфраструктуры и методов доступа к данным.

This course is included in the Expert Exchange on Hadoop: Using SAS/ACCESS service offering to configure SAS/ACCESS Interface to Hadoop or SAS/ACCESS Interface to Impala to work with your Hadoop environment. О чём это?

Слушатели изучат

  • Как считывать и записывать файлы Hadoop используя оператор FILENAME
  • Как выполнять и использовать команды Hadoop при помощи PROC HADOOP
  • Как запускать программы MapReduce и Pig в окружении Hadoop из программы SAS
  • Организацию доступа к Hadoop при помощи оператора LIBNAME и «сквозной передачи» SQL
  • Создание и использование «сквозных запросов» в процедуре SQL
  • Параметры и методы оптимизации производительности доступа к данным
  • Объединение данных при помощи процедуры SQL и шага DATA
  • Использование процедур Base SAS с Hadoop
  • Написание программ для создания исходных данных в окружении SAS High Performance Analytics, и получения аналитических результатов, вычисляемых в этом окружении параллельно.
  • Как написать программу SAS для запуска серверов SAS LASR в распределённом окружении, осуществить параллельную загрузку данных в память и обработать эти данные при помощи процедуры IMSTAT.

Целевая аудитория

Программисты SAS, работающие с данными в Hadoop из SAS.

Для прохождения этого курса необходимо уметь программировать на SAS  и писать SQL-запросы в рамках программы курса SAS SQL 1: Основы. Базовые навыки программирования на SAS объясняются в рамках курса SAS Программирование 1: Основы. Также будет полезным знание рабочего окружения Hadoop.

В этом курсе используется интерфейс SAS/ACCESS для Hadoop.

Введение 

  • что такое Hadoop?
  • Как SAS взаимодействует с Hadoop

Доступ к HDFS и запуск приложений Hadoop из SAS 

  • Обзор методов Base SAS для взаимодействия с Hadoop
  • Чтение и запись файлов Hadoop из Base SAS
  • методы
  • выполнение кода MapReduce
  • выполнение кода Pig из PROC HADOOP

Использование «сквозной передачи» SQL (Pass-Through)

  • Что такое «сквозная передача» в процедуре SQL
  • Соединение с базой данных Hadoop Hive
  • Методы запросов к таблицам Hive
  • Обзор метаданных Hadoop Hive
  • Создание «сквозных запросов» из процедуры SQL
  • Создание и загрузка таблиц Hive при помощи операторов EXECUTE процедуры SQL
  • Обработка типов данных STRING из Hive

Использование механизма SAS/ACCESS LIBNAME

  • Использование оператора LIBNAME для Hadoop
  • Использование параметров набора данных
  • Создание представлений
  • Объединение таблиц
  • Преимущества метода LIBNAME
  • Использование PROC HDMD для обработки текстовых файлов с разделителями, данных в формате XML и других форматов, отличных от Hive
  • Вопросы производительности для оператора SAS/ACCESS LIBNAME
  • Копирование данных из библиотеки SAS в библиотеку Hive

Секционирование и кластеризация таблиц Hive

  • Методы секционирования, кластеризации и индексирования в Hive
  • Как секционирование и кластеризация могут улучшить производительность запросов
  • Создание и загрузка секционированных и кластеризованных таблиц Hive

Обзор рабочего окружения SAS In-Memory Analytics и Code Accelerator для Hadoop 

  • Использование высокопроизводительных процедур и механизм SASHDAT
  • Создание сеанса сервера LASR Analytic
  • Использование механизма SASIOLA
  • Выполнение потоков DS2 на кластере Hadoop для агрегации данных
  • Использование PROC HDMD для доступа к файлам HDFS

Back to Top