Data Science Certification

Станьте сертифицированным специалистом по анализу данных и углубленной аналитике SAS®

Пройдите обучение в SAS Academy for Data Science, получите сертификат специалиста по анализу данных и углубленной аналитике.

Abstract Green Art

SAS® Big Data Certification

Courses

19 курсов

Содержание курсов спроектировано для подготовки к сертификационным экзаменам.

+

Case Study Icon

Практические упражнения

Примеры из мировой практики, закрепляющие изученный материал.

+

Exam

5 Экзаменов

Сдайте все пять экзаменов для получения статуса сертифицированного специалиста.

Изучаемые темы

Программа сертификации специалиста по анализу данных и углубленной аналитике включает в себя темы обеих программ SAS Certified Big Data Professional и SAS Certified Advanced Analytics Professional

  • Навыки программирования SAS.
  • Доступ к данным, их трансформация и управление данными
  • Улучшение качества данных для отчетов и аналитики.
  • Основы статистики и аналитики.
  • Работа с Hadoop, Hive, Pig и SAS.
  • Изучение и визуализация данных.
  • Основные навыки коммуникации.
  • Машинное обучение и алгоритмы прогнозного моделирования.
  • Как применять данные модели к распределенным и хранящимся в памяти наборам данных.
  • Обнаружение паттернов.
  • Экспериментирование.
  • Методы оптимизации.
  • Прогнозирование временных рядов.

SAS software covered

  • Base SAS ®
  • DataFlux ® Data Management Server
  • DataFlux ® Data Management Studio
  • SAS ® Enterprise Guide ®
  • SAS ® Enterprise Miner
  • SAS/ETS ®
  • SAS®High-Performance Data Mining
  • SAS ® In-Memory Statistics
  • SAS/OR ®
  • SAS/STAT ®
  • SAS ® Studio
  • SAS®Text Miner
  • SAS ® Visual Analytics
  • SAS®Visual Statistics
  • Инструменты SAS для интеграции с открытыми источниками

Предварительные требования

Требуется опыт программирования в SAS или в любом другом языке не менее 6 месяцев. Мы также рекомендуем Вам иметь опыт применения математики и/или статистики в бизнес среде не менее 6 месяцев. Для получения базовых навыков, мы рекомендуем:

Statistics 1: Introduction to ANOVA, Regression or Logistic Regression1 – доступен в формате очного курса или бесплатного онлайн курса e-learning.

И одно из следующего:

Что Вы изучите

Программирование на языке SAS, SQL и Макро язык

SAS Fundamentals: Programming, SQL and Macro Language (classroom only)

Этот курс посвящен методам управления данными, используя шаг DATA и процедуру SQL для доступа, преобразования, объединения наборов данных SAS и их агрегация. Вы узнаете, как использовать компоненты макроса SAS для создания текстовых замещений в коде SAS и для написания простых макропрограмм.

Рассматриваемые темы

  • Группировка и агрегация данных
  • Создание запросов и срезов данных
  • Преобразование различных типов переменных.
  • Объединение наборов данных, используя join и merge.
  • Обработка данных в цикле DO и обработка массивов SAS.
  • Реструктуризация набора данных SAS.
  • Выполнение текстового замещения в коде SAS.
  • Использование макропеременных.
  • Создание простых макроопределений.

Модуль 1:Big Data Preparation, Statistics and Visual Exploration 

Course 1: Big Data Challenges and Analysis-Driven Data

Этот курс рассматривает проблемы, связанные с Big Data и данными, полученными в результате анализа.

Рассматриваемые темы

  • Чтение внешних данных.
  • Хранение и обработка данных.
  • Объединение Hadoop и SAS.
  • Определение проблем, связанных с Big Data и их решение.

Course 2: Exploring Data With SAS Visual Analytics

В этом курсе Вы научитесь использовать SAS Visual Analytics Explorer для исследования таблиц, хранящихся в памяти, из SAS2® LASR Analytic Server и выполните дополнительный анализ.

Рассматриваемые темы

  • Нахождение прежде неизвестных связей и выделение тенденций Ваших данных.
  • Визуализация данных с помощью диаграмм, графиков таблиц.
  • Использование автоматических диаграмм для визуализации данных наилучшим образом.
  • Использование продвинутых графических элементов, таких как сетевая диаграмма, диаграмма Sankey и облако слов.
  • Добавление аналитики к графикам, включая описание ее результатов.
  • Навигация по Вашим данным, используя иерархии, созданные "на лету".

Course 3: Statistics 1: Introduction to ANOVA, Regression and Logistic Regression

Вводный курс SAS/STAT® фокусируется на t-тестах, ANOVA и линейной регрессии, а также включает в себя понятие логистической регрессии.

Рассматриваемые темы

  • Создание описательной статистики и изучение данных с помощью графиков.
  • Выполнение дисперсионного анализа и применение нескольких методов сравнения.
  • Выполнение линейной регрессии и оценка допущений.
  • Использование методов выбора регрессионной модели для определения переменной прогноза при множественной регрессии.
  • Использование статистического прогнозированиям для доступа к статистическим допущениям и идентификации потенциальных выбросов в множественной регрессии.
  • Использование статистики хи-квадрат для обнаружения ассоциаций между категориальными переменными.
  • Установка модели множественной логистической регрессии.
  • Подсчет новых данных с использованием разработанных моделей.

Course 4: Preparing Data for Analysis and Reporting

В данном курсе Вы научитесь выполнять задачи управления данными, такие как улучшение качества данных, разрешение сущностей и мониторинг данных.

Изучаемые темы

  • Создание, просмотр и анализ исследований данных.
  • Создание и просмотр профилей данных.
  • Создание задач для улучшения данных
  • Создание аспектов мониторинга для Ваших данных.
  • Понимание компонентов QKB.
  • Использование редактора компонентов.
  • Понимание выражений различных типов
  • Создание нового типа данных (опционально).

Course 5: Crafting Compelling (and true) Data Stories

Умение легко и просто объяснить итоги своей аналитической работы - ключевой навык при общении с руководством организации. Результаты анализа данных могут существенно изменить работу компании. В этом курсе Вы узнаете, почему такие умения Вам необходимо развивать. Когда аргументы работают, а когда нет. В этом курсе Вы узнаете, почему такие умения Вам необходимо развивать. Когда аргументы работают, а когда нет.

Модуль 1 готовит Вас к сертификационному экзамену SAS Big Data Preparation, Statistics and Visual Exploration.


Модуль 2 Программирование и загрузка Big Data

Course 1: Introduction to SAS and Hadoop: Essentials

В этом курсе Вы узнаете, как использовать методы программирования SAS для чтения, записи и управления данными Hadoop. Вы узнаете, как использовать методы Base SAS для чтения и записи необработанных данных с помощью шага DATA, управления распределенной файловой системой Hadoop (HDFS) и выполнения MapReduce и кода Pig из SAS с помощью процедуры HADOOP. Вы также узнаете, как использовать методы SAS/ACCESS ® Interface to Hadoop, которые позволяют LIBNAME и методам сквозной передачи SQL читать и писать структуры таблиц Hive или Impala.

Рассматриваемые темы

  • Доступ к дистрибутивам Hadoop с использованием оператора LIBNAME и средства передачи данных SQL.
  • Создание и использование сквозных запросов SQL.
  • Использование опций и методов повышения эффективности для оптимизации доступа к данным.
  • Объединение таблиц с помощью процедуры SQL и шага DATA.
  • Чтение и запись файлов Hadoop с помощью оператора FILENAME.
  • Выполнение и использование команд Hadoop с PROC HADOOP.
  • Использование процедур Base SAS с Hadoop.

Course 2: DS2 Programming Essentials With Hadoop

Этот курс сосредоточен вокруг DS2, языке 4го поколения собственной разработки SAS с продвинутыми возможности по обработке данных, дающий возможность параллельной обработки данных и хранения больших массивов данных с повторно используемыми методами и пакетами.

Рассматриваемые темы

  • Определение совпадений и различий между шагом SAS DATA и шагом DS2 DATA.
  • Преобразование шага SAS DATA в DS2.
  • Создание деклараций переменных DS2, выражений и методов для преобразования данных, обработки и условной обработки.
  • Создание пользовательских и заранее заданных пакетов для хранения, обмена и выполнения методов DS2.
  • Создание и выполнение потоков DS2 для параллельной обработки.
  • Использование SAS In-Database Code Accelerator для запуска кода DS2 вне сеанса SAS.
  • Выполнение кода DS2 в модуляторе SAS High-Performance Analytics с использованием процедуры HPDS2.

Course 3: Hadoop Data Management With Hive, Pig and SAS

В этом курсе Вы будете использовать методы обработки для подготовки структурированных и неструктурированных больших данных для анализа. Вы научитесь компоновать данные в структурированные таблицы используя Apache Hive и Apache Pig. Вы также научитесь технологиям и методам ПО SAS, интегрированных с Hive и Pig, так же как и научитесь расширять эти открытые исходные возможности, программируя на SAS Base с интерфейсом SAS/ACCESS для Hadoop, а также с SAS Data Integration Studio.

Изучаемые темы

  • Перемещение данных в экосистему Hadoop.
  • Использование Hive для создания хранилища данных в Hadoop, выполнение анализа данных с помощью языка запросов Hive (HiveQL) и соединение источников данных.
  • Выполнение извлечения, преобразования и загрузки (ETL).
  • Организация данных в Hadoop по использованию.
  • Анализ неструктурированных данных с использованием Pig.
  • Соединение больших наборов данных используя Pig.
  • Использование пользовательских функций (UDFs).
  • Анализ Big Data в Hadoop с использованием Hive and Pig.
  • Использование программирования SAS для отправки программ Hive и Pig, которые выполняются в Hadoop, и сохранение результатов в Hadoop или возврат результатов в SAS.
  • Использование программирования SAS для перемещения данных между сервером SAS и HDFS.
  • Построение задач SAS Data Integration Studio, которые интегрируются с процессами Hive и Pig и HDFS.

Course 4: Getting Started With SAS In-Memory Statistics

В этом курсе основное внимание уделяется доступу к данным на SAS LASR Analytic Server и выполнению исследовательского анализа данных и их подготовке. Изучаемые темы включают запуск сервера, загрузку данных и обработку данных на SAS LASR Analytic Server с использованием процедуры IMSTAT. Изучаемые темы IMSTAT включают: получение новых временных и постоянных таблиц и колонок, расчёт сводных статистик (таких как: математическое ожидание, частота и процентиль) и создание фильтров и соединений по данным в памяти.

Рассматриваемые темы

  • Запуск SAS LASR Analytic Server.
  • Загрузка таблиц в память на SAS LASR Analytic Server.
  • Обработка in-memory таблиц c помощью PROC LASR и PROC IMSTAT.
  • Эффективный доступ к данным через интеллектуальное разделение.
  • Получение новых временных и постоянных таблиц и переменных.
  • Создание фильтров и объединений на in-memory данных.
  • Экспорт результирующих таблиц ODS для клиентской графической разработки.
  • Создание описательной статистики, включая количество, процентили и среднее.
  • Создание сводных отчетов с более чем тремя измерениями, с кросс табуляцией и случайными таблицами (возможно таблиц с случайным заполнением).
  • Получение оценок плотности ядра с использованием нормальных функций.

Модуль 2 готовит Вас к сертификационному экзамену SAS Big Data Programming and Loading


Модуль 3: Прогнозное моделирование

Course 1: Applied Analytics Using SAS Enterprise Miner

Этот курс охватывает умения, необходимые для построения аналитических моделей с помощью диаграмм в SAS Enterprise Miner и для поиска паттернов (сегментация, объединение и анализ последовательностей) и прогнозного моделирования (деревья решений, регрессия и модели нейронных сетей).

Рассматриваемые темы

  • Определение проекта SAS Enterprise Miner и графическое исследование данных.
  • Изменение данных для улучшения результатов анализа.
  • Построение и понимание прогнозных моделей, включая деревья принятия решений и регрессионные модели.
  • Сравнение и объяснение сложных моделей.
  • Генерация и использование score кода.
  • Применение ассоциативных правил и анализа последовательностей для обработки данных.

Модуль 4: Продвинутое прогнозное моделирование.

Course 1: Neural Network Modeling

Этот курс помогает понять и научиться применять два популярных алгоритма искусственных нейронных сетей – многослойные перцептроны и радиальные базисные функции. Рассматриваются как теоретические, так и практические вопросы настройки нейронных сетей.

Изучаемые темы

  • Построение многослойных персептронных и радиальных базисных функций нейронных сетей.
  • Построение пользовательских нейронных сетей с использованием процедуры NEURAL
  • Выбор подходящей сетевой архитектуры и определение соответствующего метода обучения.
  • Избежание переобучения нейронных сетей
  • Выполнение автоматического регрессионного анализа временных рядов с использованием нейронных сетей.
  • Интерпретация моделей нейронных сетей.

Course 2: Predictive Modeling Using Logistic Regression

Этот курс исследует прогнозное моделирование с использованием программного обеспечения SAS / STAT ® , уделяя особое внимание процедуре LOGISTIC.

Рассматриваемые темы

  • Применение логистической регрессии для моделирования поведения наблюдения как функции от известных входных значений.
  • Выбор переменных и параметров.
  • Визуализация результатов статистического анализа (effect plots, odds ratio plots) в ODS Statistical Graphics
  • Обработка пропущенных значений в данных.
  • Устранение мультиколлинеарности в переменных
  • Оценка качества модели и сравнение моделей.
  • Запись категориальных переменных, основанных на сглаженных WOE
  • Использование эффективных методов для работы с большими данными

Course 3: Data Mining Techniques: Predictive Analytics on Big Data

Этот курс представляет приложения и методы для анализа и моделирования больших данных. Он представляет базовые и продвинутые стратегии моделирования, такие как группировка по параметрам для линейных моделей, случайные леса , обобщенные линейные модели и смешанные модели распределения. Вы будете проводить практические исследования и анализ с использованием таких инструментов, как SAS Enterprise Miner, SAS Visual Statistics и SAS In-Memory Statistics.

Изучаемые темы

  • Использование приложений, предназначенных для анализа Big Data.
  • Эффективное исследование данных.
  • Уменьшение размерности в данных.
  • Создание предсказательных моделей с использованием деревьев решений, регрессий, обобщенных линейных моделей, случайных лесов и метода опорных векторов.
  • Создание моделей, которые обращаются к нескольким целевым переменным.
  • Оценка производительности модели.
  • Внедрение моделей и оценка новых прогнозов.

Course 4: Using SAS to Put Open Source Models Into Production

В этом курсе представлены основы интеграции R-программирования и Python в SAS и SAS Enterprise Miner. Темы представлены в контексте интеллектуального анализа данных, который включает в себя исследования данных, прототипное моделирование и контролируемые и неконтролируемые методы обучения.

Рассматриваемые темы

  • Вызов пакетов R в SAS.
  • Использование скриптов Python в SAS.
  • Интеграция методов исследования данных с открытым исходным кодом в SAS.
  • Интеграция моделей с открытым исходным кодом в SAS Enterprise Miner.
  • Создание итогового кода программы для моделей на языке R.

Модуль 4 готовит Вас к сертификационному экзамену Advanced Predictive Modeling


Модуль 5: Текстовая аналитика SAS, временные ряды, экспериментирование и оптимизация

Course 1: Text Analytics Using SAS Text Miner

В этом курсе Вы научитесь использовать SAS Text Miner для раскрытия основных тем или концепций, содержащихся в больших коллекциях документов, автоматически группировать документы в тематические кластеры, классифицировать документы в предопределенные категории и интегрировать текстовые данные со структурированными данными, чтобы обогатить прогнозное моделирование.

Изучаемые темы

  • Преобразование документов, хранящихся в стандартных форматах (Microsoft Word, Adobe PDF и т. Д.) в многоцелевые форматы HTML или TXT.
  • Чтение документов из различных источников (веб-страниц, плоских файлов, элементов данных в реляционной базе данных, ячеек электронных таблиц и т. д.) в таблицы SAS.
  • Обработка текстовых данных для интеллектуального анализа текста (например, исправление орфографических ошибок или перекодирование аббревиатур и сокращений).
  • Преобразование неструктурированных текстовых символов в структурированные числовые данные.
  • Изучение слов и фраз в коллекции документов.
  • Запрос коллекций документов с использованием ключевых слов (т. е. идентификация документов, содержащих специальные слова или фразы).
  • Определение тем или концепций, отображаемых в коллекции документов.
  • Создание пользовательских тематических таблиц из случайных функций или модифицированием автоматически сгенерированных тем, или создание данных, используя знания в конкретной области.
  • Использование полученных таблиц или ранее существовавших пользовательских таблиц (или обеих) для улучшения поиска информации и классификации документов.
  • Кластеризация документов в однородные подгруппы.
  • Классификация документов в предопределенные категории.

Course 2: Time Series Modeling Essentials

В этом курсе, вы изучите основы моделирования временных рядов, с фокусом на использование трёх главных типов моделирования : экспоненциальное сглаживание, ARIMAX и UCM.

Рассматриваемые темы

  • Создание временных рядов.
  • «Подстраивающийся» тренд, так же как и сезонная вариация,и вариация событий, в модели временного ряда.
  • Диагностика, подгонка и интерпретация экспоненциального сглаживания, модели ARIMAX и UCM.
  • Определение относительных сильных и слабых сторон трех типов моделей.

Course 3: Experimentation in Data Science

В курсе рассматриваются основы экспериментирования в области Data Science, почему эксперименты являются главными в любых начинаниях Data Science, а также как проектировать результативные и работающие эксперименты.

Рассматриваемые темы

  • Определение общей терминологии в разработанных экспериментах.
  • Описание преимуществ многофакторных экспериментов.
  • Различие между влиянием модели и влиянием действия, выполненного в модели.
  • Подстройка моделей восприимчивости для подсчета уникальных благоприятных факторов маркетинговых сообщений, действий, внедрений или изменений процесса в зависимости от доходов

Course 4: Optimization Concepts for Data Science

Этот курс фокусируется на линейных и нелинейных концепциях и концепциях оптимизации эффективности. Участники узнают, как сформулировать проблемы оптимизации и как сделать их формулировки эффективными с помощью индексов и массивов. Демонстрации курса включают примеры анализа оболочки данных (DEA) и оптимизации портфеля. Процедура OPTMODEL используется для решения задач оптимизации, которые усиливают концепции, рассматриваемые в ходе курса.

Рассматриваемые темы

  • Выявление и формулирование соответствующих подходов к решению различных задач линейной и нелинейной оптимизации.
  • Создание моделей оптимизации, обычно используемых в промышленности.
  • Формулирование и решение анализа охвата данных.
  • Решение проблем оптимизации с использованием процедуры OPTMODEL в SAS.

Модуль 5 готовит Вас к сертификационному экзамену Text Analytics, Time Series, Experimentation and Optimization certification exam

С тем опытом, который я здесь получил, всеми теми вещами, о которых я узнал, с возможностями для моего будущего, кажется, что даже небо не предел. Клейтон Расселл (Clayton Russell) Выпускник SAS Academy for Data Science

Back to Top