|
|
Novedades en SAS Enterprise Miner 7.1 | SAS EDUCACIÓN ARGENTINA
Buenos Aires, Argentina
(09 Sep. 2011)
– SAS Enterprise Miner 7.1 corresponde a la versión más reciente de SAS, la 9.3. Las mejoras realizadas incluyen cuestiones administrativas, de interfase, nuevos nodos y mejoras sobre algunos de los nodos existentes. Probablemente las novedades más interesantes resultarán los nuevos nodos. Estos responden a pedidos frecuentes de nuestros usuarios. Un nuevo nodo permite realizar análisis de supervivencia para la modelización del tiempo transcurrido hasta un suceso. Este tipo de análisis es muy útil para modelización de fenómenos como el churn y para la incorporación en modelos predictivos de un análisis de valor de tiempo de vida del cliente. Otro nodo introducido (o más bien reintroducido) permite realizar clasificaciones mediante máquinas de soporte vectorial. El nodo denominado "rate making" introduce modelos lineales generalizados principalmente para el ámbito de seguros. Ya existía en Enterprise Miner la posibilidad de usar modelos lineales generalizados mediante el nodo de redes neuronales (además de hacerlo vía código mediante PROC GENMOD, por supuesto), pero con la introducción de este nuevo nodo se amplía la utilización de este tipo de modelos mediante diversas clases de herramientas específicas y la inclusión de la distribución Tweedie. Finalmente, se ha profundizado en la incorporación de herramientas para hacer data mining de series de tiempo con tres nuevos nodos para preparación, cálculo de similitud y forecasting (mediante modelos de suavizamiento exponencial) de series de tiempo.
Cambios administrativos
El cambio más importante se vincula con la tecnología de capa intermedia. La versión 7.1 abandona el uso de la Plataforma Analítica. Esta también ha dejado de utilizarse en otros productos de SAS 9.3.
SAS Enterprise Miner puede instalarse y configurarse actualmente de dos modos:
-
Modo Workstation: Se instala SAS Foundation 9.3 y SAS Enterprise Miner 7.1 en un sistema Windows en una configuración uniusuario. Esta es la instalación apropiada para las licencias de SAS Enterprise Miner Desktop, SAS Enterprise Miner Classroom, y SAS Enterprise Miner Workstation. No se requiere el paso de configuración mediante el SAS Deployment Wizard, tampoco el Servidor de Metadatos o el Servidor de Aplicaciones.
-
Modo cliente/servidor: Se puede instalar SAS Foundation 9.3 y SAS Enterprise Miner 7.1 Server en un sistema local o remoto para acceso multiusuario. La SAS Web Infrastructure Platform (reemplazante de la Plataforma Analítica) se instala como servidor de capa intermedia, y el cliente puede instalarse en un sistema Windows o puede iniciarse mediante Java Web Start conectando un explorador de Internet a la capa intermedia.
Mejoras en la interfase
Las ventanas Editor de Programa, Log, Salida y Gráficos se encuentran integradas en una sola interfase con solapas. Se ha agregado una ventana de Log de Proyecto que muestra las líneas de log generadas por la aplicación principal, separando así las líneas generadas por el sistema de las generadas por el usuario. La ventana de Log de Proyecto será útil para consultar la información de sistema y realizar tareas de debugging. La ventana Library Explorer muestra ahora el contenido de todas las librerías de diagramas en modo Read-Only. Esto facilita a los usuarios encontrar datos determinados del proyecto y protege también contra alteraciones o bloqueos accidentales de los archivos de sistema. La ventana de espacio de trabajo de un diagrama incluye un visor de log que muestra las líneas del log generadas por el proceso del diagrama. Esto hace más fácil seguir la actividad de un diagrama.
Otra mejora se vincula con la importación de modelos. Una nueva función de importación de modelos en un proyecto local permite mover un paquete de reporte de un proyecto a un nodo de importación de modelos en un diagrama, para comparar un nuevo modelo con uno contenido en el paquete aunque este no haya sido registrado. Anteriormente solo se podían importar modelos registrados.
Finalmente un nuevo Servicio Web de resultados de mining se comunica con el servidor de metadatos para obtener información sobre resultados de modelos. Este servicio permite obtener listas de modelos, buscar modelos según el valor de alguna propiedad, obtener detalles de un modelo seleccionado.
Mejoras en los nodos existentes
Las principales mejoras son:
-
Nodo árboles de decisiones: Incluye dos nuevas propiedades en el grupo "Búsqueda de particiones". Las nuevas propiedades determinan si el procedimiento subyacente (PROC ARBOR) usa información sobre las decisiones involucradas (Use Decisions) o información sobre probabilidades a priori durante la búsqueda de las mejores particiones (Use Priors). También se ha incluido la información de ID del nodo en los diagramas de árbol (en la ventana de Resultados). Antes de iniciar una sesión de entrenamiento interactivo, se realiza ahora un muestreo de los datos, lo que produce una mejora significativa de performance durante este entrenamiento. El árbol de interactivo posee una nueva función que permite al usuario seleccionar un subárbol en un gráfico de curvas de aprendizaje y utilizarlo como modelo actual.
-
Nodo LARS: Puede ahora modelizar targets binarios y de intervalo. Si la variable target es binaria, se ajusta una regresión logística basada en la combinación lineal de las variables seleccionadas. El método LASSO (Least Absolute Shrinkage and Selection Operator) maneja también variables binarias.
-
Nodo Scorecard: Agrega una nueva propiedad al grupo "Característica Adversa", Generate Report. Indica si el usuario quiere incluir características adversas en el código de scoring. También se agrega un nuevo grupo, Scaling Properties.
-
Nodo IGN: Incluye un nuevo método para realizar agrupamiento de variables de entrada: el método óptimo constreñido. Esto extiende los métodos de agrupamiento previos mediante diversas restricciones nuevas . También proporciona a los usuarios la flexibilidad de asignar restricciones a variables individuales de a una por vez.
Nuevos nodos
Los nuevos nodos son los siguientes:
-
Supervivencia: Realiza análisis de supervivencia sobre bases de clientes con información de sucesos dependientes del tiempo. Está diseñado para implementar regresiones logísticas multinomiales de tiempo hasta un suceso que definen funciones de riesgo y subriesgo. El tiempo hasta el suceso es siempre un entero positivo. El efecto tiempo se modeliza con splines cúbicos para permitir funciones de riesgo con formas flexibles. La función de riesgo proporcional se ajusta sin covariables variantes en el tiempo. El nodo incluye módulos funcionales para realizar preparación de datos incluyendo censura, expansión de datos a un registro para cada cliente por unidad discreta de tiempo, muestreo para reducir el tamaño del conjunto de datos con el fin de optimizar la tarea de data mining sin pérdida de información y modelización de supervivencia, validación, reporting y scoring.
-
Rate Making: Construye modelos lineales generalizados usando distribuciones y funciones de enlace comunes para conteos de sucesos (distribución de Poisson o binomial negativa con una función de enlace logarítmica) y severidad (distribución gamma con función de enlace logarítmica). También implementa una distribución Tweedie para modelización de primas. Existen varias técnicas de optimización a seleccionar cuando se usa la distribución Tweedie. Se puede usar una función de cuasi verosimilitud extendida o una función de verosimilitud completa para estimar los parámetros del modelo. Los resultados analíticos que exhibe el nodo son específicos a la industria de seguros. Por ejemplo, gráficos de relatividad para todos los modelos de enlace logarítmicos para todas las variables de entrada. También están disponibles gráficos de conteo real versus predicho para modelos de conteo como el de Poisson o el de Poisson con inflación cero.
-
Máquinas de soporte vectorial: Las máquinas de soporte vectorial usan un hiperplano o conjunto de hiperplanos para separar los puntos (casos) proyectados en un espacio con un mayor número de dimensiones. Las colecciones de puntos (datos) usados para construir los hiperplanos son los vectores de soporte. Este nodo usa dos procedimientos PROC SVM y PROC SVMSCORE, y puede resolver problemas de clasificación binarios, incluyendo kernels polinomiales, funciones de base radial y no lineales sigmoideas. El nodo no permite resolver problemas multiclase o de regresión.
-
Preparación de series de tiempo: Permite manipular datos transaccionales y series de tiempo para facilitar el data mining de series de tiempo. Provee varios tipos de herramientas de manipulación de datos, incluyendo definiciones de intervalos de tiempo, transformaciones y trasposiciones, diferenciación y asignación de valores faltantes.
-
Similitud de series de tiempo: Calcula medidas de similitud para datos con marca temporal respecto del tiempo mediante un método de "warping" dinámico. La herramienta acumula los datos en un formato de serie de tiempo y luego calcula medidas de similitud para datos numéricos secuencialmente ordenados respetando el orden de los datos. El nodo también permite especificar parámetros como la medida de similitud, deslizamiento en la secuencia, normalización, intervalo, acumulación, matriz de similitud, clustering jerárquico además de rangos de secuencia deslizantes expandidos y comprimidos.
-
Suavizamiento exponencial de series de tiempo: genera predicciones mediante modelos de suavizamiento exponencial con pesos de suavizamiento optimizados para series de tiempo. Los modelos incluidos son los usuales: suavizamiento exponencial simple (un solo paráemtro), doble (dos parámetros), lineal, con tendencia amortiguada, estacional aditivo y multiplicativo. El nodo también provee la posibilidad de detectar y reemplazar valores extremos, exportar algunas matrices de distancia y extender las series de tiempo de entrada a valores futuros.
Se encuentran en preparación cursos sobre Análisis de supervivencia, Modelización mediante modelos lineales generalizados y Data Mining de Series de tiempo utilizando los nuevos nodos de SAS Enterprise Miner. Por ahora, si busca conocer los fundamentos de estas técnicas, puede utilizar los siguientes cursos:
Para mayor información sobre estos y otros cursos, por favor ingrese a nuestra sección de Educación o envíe un e-mail con su consulta.
Acerca de SAS
SAS es una empresa líder en soluciones y servicios de Business Analytics y el mayor proveedor independiente de Business Intelligence del mercado. Con innovadoras aplicaciones, apoyadas por una plataforma de inteligencia empresarial, SAS ayuda a que 45,000 sitios mejoren su desempeño y brinden valor para tomar decisiones de negocio más acertadas con mayor velocidad. Desde 1976, SAS otorga a sus clientes alrededor del mundo THE POWER TO KNOW®.
Más Notas
Copyright © SAS Institute Inc. All Rights Reserved.
|
|