Продукты и решения
Управление рисками
Управление маркетинговой деятельностью
Управление данными
Производственная аналитика
Финансовая аналитика
Бизнес-аналитика
Аналитика
- Enterprise Miner
Управление данными
Отчетность
Foundation Tools
Продукты SAS A-Z
Аналитика
Высокопроизводительная аналитика
 
     
 

Хотите узнать больше?

Прогнозирование оттока клиентов

Выявление мошенничества на рынке финансовых услуг

Единая аналитическая платформа


Материалы в формате PDF
 
     

Enterprise Miner

Интегрированная среда для получения знаний о бизнесе

Программный продукт Enterprise Miner – это интегрированный компонент системы SAS, созданный для выявления в огромных массивах данных информации, необходимой для принятия решений. Разработанный специально для поиска и анализа скрытых закономерностей в данных (data mining) Enterprise Miner включает в себя эффективные методы статистического анализа, соответствующую методологию выполнения проектов data mining и удобный графический интерфейс пользователя. Разработка проектов data mining может выполняться как локально, так и в архитектуре клиент-сервер. Важной особенностью Enterprise Miner является его полная интеграция с программным продуктом SAS/Warehouse Administrator, предназначенным для разработки и эксплуатации информационных хранилищ, и другими компонентами системы SAS. В частности, продукт SAS/IntrNet может эффективно использоваться для распространения результатов проекта data mining через локальную сеть или Интернет.

Графический интерфейс пользователя

Графический интерфейс является основным средством реализации проекта data mining. В его основу положен принцип “указать и щелкнуть”. Этот подход позволяет пользователю осуществить все стадии проекта data mining - от выбора источников данных до получения результатов.

Пользователь выбирает нужные функциональные узлы из палитры элементов и собирает из них блок-схему проекта. Данный графический интерфейс был разработан для двух групп пользователей. Бизнес-аналитики, имеющие минимальный опыт в области статистики, могут легко создавать собственные проекты из готовых самонастраивающихся модулей. Экспертам в области численного анализа предоставляется возможность более тонкой настройки аналитических процессов.

Методология SEMMA

Наличие соответствующей методологии разработки проектов data mining является ключом к эффективному использованию Enterprise Miner. Аббревиатура SEMMA образована от слов Sample (отбор данных), Explore (исследование отношений в данных), Modify (модификация данных), Model (моделирование взаимозависимостей), Assess (оценка полученных моделей и результатов). Методология SEMMA не предлагает разработчику проекта жестких правил, но предоставляет в его распоряжение научные методы построения концепции проекта, его реализации и оценки результатов проектирования.

Доступ к данным

Система SAS предоставляет пользователю доступ к данным, находящимся практически в любом формате. Для подключения к источнику данных и извлечения из него необходимого объема информации Eneterprise Miner имеет три соответствующих функциональных модуля. На этой стадии проекта пользователь должен определить, как данные будут использоваться моделирующими узлами.

Исследование данных

Для визуального исследования данных имеются два графических модуля. Один из них предназначен для построения многомерных гистограмм и исследования распределений в больших объемах данных. Другой модуль используется для быстрого исследования зависимостей целевых переменных от входных параметров. Результат представляется в виде гистограмм и диаграмм рассеяния для входных и зависимых переменных.

На стадии анализа данных весьма эффективным инструментом является встроенный в Enterprise Miner продукт SAS/INSIGHT. С его помощью аналитик может проводить статистические исследования данных, причем интерактивно посредством множества диаграмм, взаимодействующих между собой.

Модификация данных

Для модификации данных в распоряжении аналитика имеется несколько функциональных узлов. С их помощью можно нормализовать данные, выделить нетипичные случаи в отдельное множество, заместить отсутствующие значения наиболее вероятными или по некоторому алгоритму.

Кластерный анализ

Цель кластерного анализа – поместить отдельные события в группы (или кластеры), причем так, что события отнесенные к конкретному кластеру имели наибольшее подобие между собой, а события из разных кластеров между собой имели мало общего. В частности, с помощью кластерного анализа можно выявить группы покупателей в зависимости от типов продуктов, которые они приобретают. Для выполнения кластерного анализа в Enterprise Miner имеется специализированный модуль, позволяющий выполнять все виды кластерного анализа и определять автоматически оптимальное количество кластеров. Выявленные идентификаторы кластеров могут использоваться в дальнейшем анализе.

Ассоциации и последовательности

Модуль поиска ассоциаций позволяет выявлять в данных, как ассоциативные связи, так и последовательности и представлять их в виде правил. Работа данного модуля основана на подсчете условных вероятностей. Методы поиска ассоциаций и последовательностей широко используются для анализа покупательского спроса. В транспортной индустрии с помощью данного модуля, можно количественно оценить ассоциативную связь между совместными событиями; например, между перевозками нефтепродуктов.

Методы выявления последовательностей используются в том случае, если между событиями имеется временной промежуток. В этом случае, результатом анализа может быть совокупность правил следующего вида: «Из тех покупателей, которые воспользовались данной услугой, 25 процентов приобретут новую услугу в следующем месяце».

Дерево

Модуль "Дерево" необходим для автоматического построения классификационных и регрессионных деревьев решений. В первом случае для вывода правил сегментирования данных в распоряжение аналитика предоставлены критерии хи-квадрат и уменьшения энтропии. В случае регрессионных деревьев могут использоваться F-тест или критерий уменьшения дисперсии. Как и в случае кластерного анализа, данный модуль может использоваться для объединения отдельных событий в группы событий со схожими характеристиками, но с учетом причинно-следственных отношений.

Далее полученная модель дерева решений может использоваться для прогнозирования значений целевой переменной или для классификации событий. Например, при планировании маркетинговой кампании деревья могут быть эффективным инструментом для построения профилей покупателей, наиболее реагирующих на рассылку рекламной информации по почте. Во многих случаях методы деревьев решений имеют преимущество по сравнению с другими методами моделирования, так полученная модель может быть легко представлена графически и в виде совокупности правил.

Нейронная сеть

Методы нейронных сетей возникли в результате попыток моделирования нейрофизиологических процессов, происходящих в мозгу человека при распознавании образов. Модуль "Нейронная сеть" использует в своей работе алгоритмы регрессионных и дискриминантных моделей, объединенных в единую нелинейную динамическую систему. Нейронные сети используются для выявления нелинейных отношений в данных, и, следовательно, для решения широкого класса проблем прогнозирования. В зависимости от задачи могут использоваться многослойный персептрон, несколько разновидностей радиальных базисных функций или обобщенная линейная модель.

Регрессия

Регрессионный модуль предоставляет аналитику возможность выявления в данных линейных и логических зависимостей между целевой переменной и совокупностью независимых (входных) переменных. В случае линейной регрессии эти отношения выражаются в виде линейной функции целевой переменной от значений входных переменных. В случае логической регрессии будет построена функция для вычисления вероятности того, что целевая переменная будет равна некоторому дискретному значению. Для моделирования нелинейных регрессионных зависимостей может использоваться обобщенная линейная модель. Модуль включает в себя “Построитель взаимодействий”, позволяющий образовывать новые входные переменные более высоких порядков. Выбор значимых входных переменных может быть осуществлен автоматически одним из трех методов: прямым, обратным и ступенчатым.

Оценка результатов моделирования и вычислений

Каждый модуль производит необходимую диагностическую информацию необходимую для проверки качества полученных результатов. Для выявления наиболее адекватных моделей и организации обработки новых данных (в том числе и для вычисления прогнозов) имеются соответствующие модули. Еще один модуль предоставляет разработчику возможность автоматического документирования всего проекта data mining в формате HTML.

Дополнительную информацию о продукте Enterprise Miner Вы можете найти на Web-сервере SAS Institute по адресу: http://www.sas.com/technologies/analytics/datamining/miner/index.html или получить, обратившись в московский офис SAS Institute.

Вернуться к списку продуктов
Контактная информация
  (+7 495) 937-41-51
  (+7 495) 937-41-55
  info@rus.sas.com