Noticias / Notas de Prensa

SAS INSTITUTE ARGENTINA SA.
Alicia Moreau de Justo 550, 2º G
(C1107AAL) Ciudad Autónoma de Buenos Aires
Tel:(+54-11)-4878-4500
Fax: (+54-11)4878-4509
E-mail: informes@sas.com

Press Release

Versión para imprimir Versión para imprimir

Noticias

 

La mitad de la historia en Data Mining  | SAS EDUCACIÓN ARGENTINA

Buenos Aires, Argentina  (03 Ago. 2011)  – Si usted es analista o estudiante de data mining probablemente su preocupación principal sea comprender cabalmente las distintas técnicas de modelización, poder diferenciarlas con claridad y reconocer cuáles son apropiadas o indicadas para distintos tipos de problemas, y cómo sacar el mayor provecho de ellas en su trabajo analítico. Si este es el caso, usted está considerando solo la mitad de la historia. Le falta la otra mitad: una comprensión práctica y eficaz de la teoría estadística de las decisiones. Sin este otro componente, ineludible en cualquier tarea de data mining, se verá muy restringido para resolver en forma apropiada cualquier problema medianamente interesante de data mining y hará una subutilización considerable de una herramienta tan potente como SAS Enterprise Miner. Debiera atender mucho menos a las diferencias entre los métodos y dedicar parte de su atención a desarrollar un conocimiento sólido y práctico de la teoría estadística de las decisiones. 

¿Por qué las diferencias entre las técnicas de modelización tienen menos importancia de la que usualmente se les atribuye?

Con mucha frecuencia, los data miners expresan el deseo (un tanto quimérico) de lograr una clara distinción conceptual entre los distintos métodos disponibles en data mining (un conjunto en permanente crecimiento). Pero, por diversas razones, este es, en buena medida, un objetivo ficticio que, en gran parte, solo sirve para encubrir el conjunto de destrezas y conocimientos que el analista debiera realmente desarrollar.

Los distintos métodos de data mining no son, muchas veces, instrumentos tan claramente diferenciables como podrían ser un microscopio o un martillo. Existen grandes familias de métodos con relaciones entre sí, una diversidad de submétodos y técnicas en cada familia, multitudes de variaciones, parámetros o configuraciones, métodos híbridos y, finalmente, implementaciones. Es razonable establecer algunas grandes diferencias entre distintos enfoques, las que pueden tener mayor o menor importancia según como se usen los métodos, a qué problemas se apliquen, qué características tengan los conjuntos de datos utilizados, etc. Pero, muchas diferencias habitualmente discutidas o consideradas pueden ser triviales o irrelevantes cuando se considera que la tarea de data mining no involucra, tan solo, elegir un método y aplicarlo a la modelización de algún suceso de interés, sino más bien constituye una elaborada e intrincada secuencia de aproximaciones iterativas de refinamiento sucesivo que entrelaza tareas de exploración, transformación y modelización, muchas veces de distintos tipos. En este contexto, la mayoría de las diferencias entre los métodos pueden tener una cierta utilidad conceptual, pero poca relevancia práctica. Por ejemplo, reconocer qué hay métodos "perezosos" y otros "ansiosos", univariados o multivariados, lineales o no lineales, etc. y conocer las características diferenciales, ventajas y desventajas de cada uno puede tener alguna utilidad, pero son todos elementos de relevancia incierta cuando se enfrenta un problema concreto.

Para restringirnos solamente a tres familias muy conocidas de métodos, árboles de decisiones, regresión y redes neuronales, cualquiera de ellas (de nuevo, se trata de familias de métodos compuestas por decenas de técnicas concretas y otras tantas implementaciones posibles para cada técnica) puede producir modelos complejos a partir de conjuntos de datos. Es cierto que hay diferencias entre ellas, pero también muchas similitudes.

  • Cualquier método debe generar algún tipo de "mecanismo" predictivo, pero las características del tipo de predicción requerido para un problema dado suelen ser más importantes que el "mecanismo" propio de cada método (y, en realidad, no muy relacionado con aquellas).
  • Todos los métodos deben resolver de alguna manera el problema de selección de variables relevantes, y aunque, nuevamente, hay diferencias, pesan más las variables seleccionadas, las consecuencias de la "maldición de la dimensionalidad" y su relación con la densidad muestral que las diferencias concretas entre los métodos.
  • Cada técnica debe resolver de alguna manera el problema de la evitación del sobreajuste y encontrar un modelo de complejidad óptima. En esto último, las diferencias entre los métodos son bastante triviales: las cuestiones principales giran en torno de qué medida de evaluación es conveniente usar (algo que depende de la escala de medida de la variable target y del propósito de la predicción principalmente) y en la correcta utilización de un conjunto de datos independiente del conjunto de entrenamiento (aunque perteneciente a la misma población).
  • Finalmente, la mayoría de las utilizaciones de estos modelos se realiza en el contexto de problemas concretos que plantean cuestiones de decisión importantes, en las que las diferencias entre los métodos pueden ser irrelevantes, no así las decisiones involucradas.

Un buen ejemplo de los comentarios anteriores es el de los resultados obtenidos por el proyecto europeo Statlog. Este constituyó un trabajo de investigación aplicada dentro del programa ESPRIT de los años noventa del siglo pasado, titulado, nada más ni nada menos que "Comparative testing and evaluation of statistical and logical learning algorithms on large-scale applications to classification, prediction and control". Dos citas bastarán para describir el tenor del proyecto:

"El objetivo de este libro es proporcionar una revisión actualizada de diferentes enfoques de la clasificación, comparar su performance sobre una amplia variedad de conjuntos de datos desafiantes y extraer conclusiones sobre su aplicabilidad a problemas industriales realistas". (Michie el al. 1994, p. 1)

"La fragmentación entre diferentes disciplinas casi ciertamente dificultó la comunicación y el progreso. El proyecto Statlog, fue diseñado para echar abajo estas divisiones al seleccionar procedimientos de clasificación con independencia de su pedigree histórico, poniéndolos a prueba en problemas de gran escala y comercialmente importantes, y por lo tanto determinar en qué medida las diversas técnicas satisfacen las necesidades de la industria". (Michie el al. 1994, p. 1)

Estos comentarios podrían entusiasmar (al menos así me ocurrió hace ya algunos años). Parece tratarse exactamente de lo que muchos analistas buscamos en un momento u otro de nuestras trayectorias profesionales. El trabajo realizado por el proyecto fue extenso y exhaustivo, pero las conclusiones, en lo que respecta a "pepitas doradas de conocimiento" que iluminen cuándo aplicar qué método a qué problema fueron magras, muy magras. Parte del problema pasa por las advertencias que los propios autores del informe hacen en el punto 1.4.2 (Cautions in the interpretations of comparison), pero otro tanto pasa por la tesis principal de la presente nota: la comparación entre los métodos es solo la mitad (tal vez menos) de la historia.

Antes de considerar más en detalle la mitad restante empecemos por algunos breves comentarios aclaratorios de una disciplina que es capaz de contar buena parte de la historia faltante y luego por un ejemplo práctico.

¿Qué es la teoría estadística de las decisiones?

La teoría estadística de las decisiones se ocupa de formular conceptos y reglas de base estadística que contribuyan a iluminar las incertidumbres involucradas en un problema de toma de decisiones.

La estadística inferencial clásica se orienta a la utilización de información muestral para hacer inferencias sobre características de la población. Por lo general, estas inferencias se realizan independientemente del uso o aplicación de las mismas a un problema práctico. En la teoría estadística de las decisiones se intenta combinar la información muestral con otras características relevantes de un problema para tomar mejores decisiones.

Hay dos clases de información relevantes. Una corresponde al conocimiento de las consecuencias posibles de las decisiones. Con frecuencia este conocimiento puede cuantificarse mediante las ganancias o pérdidas originadas por cada posible decisión en relación con los valores posibles de alguna característica o parámetro relevante de la población. La otra clase se vincula con los "a priori", es decir, conocimiento (en lo posible cuantitativo) de las características de interés que no surgen de la modelización en cuestión, sino que son previas, de allí el nombre de "a priori". El ejemplo más típico es el de la frecuencia "verdadera" de un suceso en la población, a diferencia de la frecuencia en la muestra utilizada. Esta última puede ser diferente de la frecuencia en la población, por distintas razones, una de ellas, muy frecuente en data mining, es la necesidad de balancear una muestra muy "desbalanceada" (es decir con una baja frecuencia del suceso de interés en comparación con la de los sucesos secundarios que no lo son).

La inferencia estadística y su análogo en data mining, el ajuste de modelos, proporciona un "resumen" de la evidencia que los usuarios de un modelo pueden incorporar a su propio proceso de decisiones. Creer que el ajuste de un modelo (la estimación de sus parámetros) es lo único necesario para una aplicación de data mining es erróneo y contraproducente por diversas razones.

  • Primero, porque los valores estimados de los parámetros muchas veces no son suficientes para una apropiada toma de decisiones.
  • Segundo, porque si se tiene información relevante de un suceso de interés en términos de información previa o funciones de error, por ejemplo, no usarla significa desperdiciar conocimientos sumamente valiosos y dificultar seriamente la posibilidad de tomar decisiones óptimas a partir de la aplicación de un modelo.
  • Finalmente, porque la propia tarea de modelización es un proceso de toma de decisiones sometido a las mismas leyes que cualquier otro proceso de este tipo, de modo que si solo se considera el aspecto algorítmico y se ignora este otro componente, se menoscaba seriamente cualquier modelización, al punto de que no importa qué método usemos.

Veamos un ejemplo concreto de la relevancia de tomar en cuenta las decisiones involucradas.

¿Cómo se aplica la teoría estadística de las decisiones en data mining?

Un ejemplo bastante impactante puede encontrarse en el curso Modelización predictiva avanzada con SAS Enterprise Miner. En este se utiliza un problema muy conocido de las competencias KDD, el del desarrollo de un modelo predictivo a aplicarse en una campaña futura de donaciones por parte de una organización de veteranos de guerra. Se utiliza una muestra de datos pequeña (un poco menos de 10.000 casos) de antiguos donantes con información demográfica y transaccional (vinculada a las donaciones previas) fundamentalmente. La muestra de análisis ha sido balanceada (50% de donantes), mientras que la proporción de donantes en la población es de solo un 5%. Se cuenta con un conjunto de datos de scoring de poco menos de 100.000 casos. El modelo ganador de la competencia produjo, aplicado a la muestra de scoring, una ganancia total de $14.712 y una ganancia promedio de $0.153, mientras que el "antimodelo" consistente en solicitar una donación a toda la muestra generó una ganancia total de $10.560 y una ganancia promedio de $0.110.

Algo que sorprendió como resultado inmediato de la propia competencia fue que casi la mitad de los modelos competidores produjeron una ganancia inferior a no haber usado ningún modelo (directamente solicitar a todo el mundo). La causa de esto tiene mucho que ver con la forma de seleccionar a los potenciales donantes, una cuestión no relacionada con los métodos de modelización usados (el interés fundamental de los competidores), sino con los elementos de teoría de decisión empleados (o no).

En el curso se realiza una modelización "estándar" bajo el paradigma de "modelo campeón". Parte del diagrama construido puede verse más abajo. Luego de algún preprocesamiento de rigor, se ajustan varios modelos de regresión empleando diversas técnicas de selección de variables, una red neuronal (perceptrón multicapa) bastante estándar y un árbol de decisiones usando los defaults del Enterprise Miner. El criterio de selección en cada uno de los métodos, y usado también en el nodo de comparación de modelos, fue el error cuadrático medio, una medida genérica apropiada cuando se desea generar modelos que predigan probabilidades de un suceso.


Figura 1

Figura 1- Diagrama parcial de modelización usando SAS Enerprise Miner sobre el problema de donaciones de una organización de veteranos.

Figura 2

Figura 2- Ventana de resultados del nodo comparación de modelos.

¿Qué tan bueno es el modelo ganador realizado en la primera parte del curso, en comparación con los que participaron en la competencia? El gráfico de la Figura 3 compara la ganancia esperada en base al modelo seleccionado, la ganancia total realmente obtenida y la ganancia producida mediante una selección aleatoria de casos. En el eje x se representa la profundidad de la muestra, donde, como siempre, los casos están ordenados en orden decreciente de la probabilidad estimada por el modelo. La ganancia esperada sugiere que para maximizar las ganancias de la campaña deberíamos solicitar donaciones a aproximadamente el 50% de la muestra (donde se encuentra el máximo de la curva verde). Sin embargo la realidad es otra. La curva azul muestra un resultado muchísimo más magro (y realista) de la aplicación de nuestro modelo "ganador". Si seleccionamos el 50% de la muestra con mayor probabilidad de donación solo obtendríamos una ganancia de aproximadamente unos $7.000, claramente inferior a los $10.560 que hubiéramos obtenido si seleccionamos a todo el mundo, es decir, no empleamos un modelo.

Figura 3

Figura 3 – Ganancias total, esperada y aleatoria del modelo ganador.

¿Por donde pasa el problema? No por el método empleado, una cuestión fundamentalmente algorítmica. Pasa por un déficit serio en la utilización de una teoría de decisiones. El modelo estima apropiadamente la probabilidad de donación (al igual que los modelos no seleccionados, que tienen una performance parecida), pero esto no basta para producir un modelo "redituable". Explorando un poco los datos (algo que debiéramos haber hecho al comienzo, pero… ¿cuántos invierten el esfuerzo necesario en esta tarea?), habríamos detectado una correlación inversa (y natural) entre la frecuencia de donación y el monto donado. Si calculamos la correlación entre la probabilidad de donación tal como la estima el modelo y el monto donado, también encontramos una correlación inversa. Esto nos dice algo importante: una selección de candidatos sobre la base de su probabilidad de donación inevitablemente sesga la selección hacia los muchos donantes de pequeños montos olvidándose de los donantes de montos más interesantes. Desde un punto de vista económico, ¿que deberíamos preferir para nuestra futura campaña de marketing, 100 donantes frecuentes de 1 peso cada uno donde la solicitud de donación nos cuesta 50 centavos o 1 donante infrecuente de 100 pesos con un costo de solicitud también de 50 centavos?

De nuevo, no necesitamos resolver nuestro problema de haber obtenido una "mala" predicción con un modelo o una técnica de modelización distinta. Lo que necesitamos son mejores criterios de decisión. Vamos entonces a hacer algunos pequeños cambios en nuestro criterio de selección (y no en el modelo que obtuvimos). Primero, vamos a ajustar las probabilidades estimadas por la verdadera probabilidad a priori de donación, que es aproximadamente 0.05 (la muestra había sido balanceada artificialmente mediante un muestreo separado). Esta es una transformación monotónica que no altera en absoluto el ordenamiento de los potenciales donantes en cuanto a su probabilidad de donación, solo altera la magnitud numérica de las estimaciones (de otro modo las probabilidades estarían "infladas").

Pero este no es el punto crucial (aunque sí uno necesario). Vamos, también, a usar un criterio distinto para la selección de los potenciales donantes (las personas a solicitar). Un criterio que utilice la probabilidad estimada por el modelo, pero también algunos elementos muy básicos de conocimiento de domino. Calcularemos un valor numérico que es la probabilidad ajustada de donación por el promedio del monto donado durante los últimos 36 meses, una aproximación, bastante grosera pero útil, al monto que una persona particular sería propensa a donar. Finalmente definimos un umbral simple: solo vamos a seleccionar a aquellos donantes para los cuales el producto de las cantidades anteriores es mayor que el costo de pedir una donación. Como se ve, no cambiamos nuestro modelo, solo nuestro criterio de selección, una cuestión de teoría de decisiones. En la figura 4 vemos el resultado de nuestra selección modificada.


Figura 4

Figura 4 – Curvas de ganancia total, esperada y aleatoria usando un criterio de selección modificado.

Vemos que la performance de nuestro "modelo" (en realidad del mismo modelo anterior pero ahora con un criterio de selección más apropiado) es cualitativamente diferente. La curva de ganancia esperada (generada a partir del modelo más el nuevo criterio de selección) está mucho más cercana a la ganancia total (la "realidad", podría decirse). Además, la ganancia total de este modelo en el umbral definido es de nada menos que $14.571, un monto claramente superior al que obtuvimos en primer lugar (solo la mitad). Si hubiéramos participado en la competencia de KDD hubiéramos ocupado el tercer puesto, a $141 del primer puesto.

 Y esto es solo el comienzo. Si mejoramos aun más nuestros criterios de decisión (el anterior era bastante grosero), podemos terminar en el primer puesto. Pero esta es otra historia… y se cuenta en el curso mencionado. Acá nos basta con notar que el problema que advertimos no pasaba por una mala selección de modelos, técnicas o parámetros, sino por un mal uso o desuso de los criterios de decisión.

 ¿Qué debiera saber un data miner sobre teoría estadística de las decisiones? Como solía decir el matemático aplicado Vladimir Vapnik (el “inventor” de las máquinas de soporte vectorial), no hay nada más práctico que una buena teoría. Por ello, una buena formación conceptual en este tema es fundamental. Debe tener claro los usos equivocados de la inferencia estadística y la modelización habituales en data mining, la relevancia del enfoque bayesiano en muchos de estos problemas, las propiedades de las principales funciones de pérdida, de qué manera seleccionar principios de decisión adecuados y unos cuantos temas más. Puede encontrarse un buen listado (y exposición de estos temas) en el libro clásico de James Berger (Statistical Decision Theory and Bayesian Analysis), por ejemplo.

 Pero, además, un data miner utiliza un software que debe (o debiera) implementar de una manera apropiada (y deseablemente sofisticada) herramientas y principios de teoría de decisión, no solo algoritmos típicos. Es tan importante que conozca cómo se encuentran implementadas y configuradas estas herramientas de decisión como su conocimiento de las técnicas de modelización implementadas, su configuración, defaults, etc. Vamos a detenernos brevemente en algunas de estas cuestiones, tal como están implementadas en SAS Enterprise Miner. Un conocimiento relevante e importante si es que aspira a hacer un uso experto de esta herramienta.

¿Cómo se aplica la teoría estadística de las decisiones en SAS Enterprise Miner?

Las probabilidades previas de las clases se utilizan en las distintas implementaciones de algoritmos de data mining de diversas maneras.  Es importante tener claro como SAS Enterprise Miner las usa para poder decidir cómo manejarlas:

  • SAS EM supone que las probabilidades previas son estimaciones de las proporciones verdaderas de las clases en los datos de scoring.
  • Por default, SAS EM NO usa probabilidades previas para la estimación de parámetros. Esto permite manipular las proporciones de las clases en el conjunto de entrenamiento mediante un muestreo no proporcional o mediante una variable de ponderación
  • Si el usuario especifica probabilidades previas, las probabilidades posteriores calculadas por los nodos de modelización siempre se ajustan según las probabilidades previas.
  • Si el usuario especifica probabilidades previas, los estadísticos de resumen de ganancias y pérdidas siempre se ajustan según las probabilidades previas, lo que permite comparaciones válidas entre modelos, suponiendo que el usuario especificó consecuencias válidas de las decisiones.

Cuando es apropiado usar probabilidades previas ajustadas, es importante recordar lo siguiente:

  • Por defecto, las probabilidades posteriores que cualquier nodo de modelización puede estimar se basan en probabilidades previas implícitas que son proporcionales a las frecuencias de las clases en el conjunto de entrenamiento. Se pueden especificar probabilidades previas distintas en la ventana Target Profile, solapa Prior Probabilities, o mediante un nodo Decisions.
  • Dados conjuntos de datos que ya poseen estimaciones de probabilidades posteriores, se pueden calcular nuevas probabilidades posteriores usando diferentes probabilidades previas mediante el procedimiento DECIDE.
  • Se deben especificar probabilidades previas cuando las proporciones de las clases en el conjunto de entrenamiento difieren sustancialmente de las proporciones en el conjunto de scoring, ya sea por variación muestral o sesgo deliberado (en el caso de clases raras o infrecuentes, principalmente).

Es importante tener en claro cuáles son los efectos específicos de los ajustes de las probabilidades previas:

  • No afectan: la estimación de los parámetros de un modelo de regresión, los valores de los pesos de una red neuronal, el resultado del algoritmo de construcción de un árbol de decisión (a menos que se seleccione la opción Use Prior Probability in Split Search; sí afecta al proceso de pruning), la estimación de residuos que se  basa en las probabilidades posteriores antes del ajuste por las probabilidades previas (excepto en los árboles de decisiones, si se utiliza la opción antes mencionada), las funciones de error como el desvío o la verosimilitud (excepto en el caso señalado de árboles de decisiones), los estadísticos de ajuste como MSE (error cuadrático medio) basados en residuos o funciones de error.
  • Afectan: la estimación de las probabilidades posteriores, la clasificación, las decisiones, la tasa de error de clasificación, las ganancias o pérdidas esperadas, las estadísticas de ganancias o pérdidas, incluyendo la contribución relativa de cada clase.
  • Afectan por defecto si hay dos o más decisiones en la matriz de decisiones: la selección de modelos en el nodo Regresión, la detención temprana en el nodo Redes neuronales y el pruning en el nodo Arboles de decisiones.

Los nodos de modelización pueden hacer estimaciones de los valores de sus respectivos parámetros, pero también pueden hacer más en la implementación de SAS Enterprise Miner: pueden tomar decisiones en base a las consecuencias especificadas por medio una matriz de decisiones y constantes o variables de costo. La matriz de decisiones permite especificar ganancias, pérdidas o ingresos. Cuando se usa un procesamiento de decisiones, los nodos de modelización calculan estadísticos de resumen de la ganancia o pérdida total, y promedio de cada modelo. Estos estadísticos son útiles para seleccionar modelos, pero para ello deben haberse definido consecuencias numéricas razonables para cada decisión respecto de cada valor de la variable target.

Es importante definir apropiadamente la matriz de decisiones y comprender sus características. Las filas de la matriz representan distintas cosas si la variable target es categórica o de intervalo. Según el tipo de matriz (ganancia o ingresos versus pérdida) se toman decisiones de maximización o minimización complementarias. A cada decisión puede asociarse también una constante o variable de costo. Los valores de la variable de costo representan consecuencias específicas a cada caso y son siempre tratados como costos. Las consecuencias no dependen de los valores de la variable target de los casos a predecir. Los costos se usan para calcular el retorno de la inversión como (ingreso – costo)/costo. Las variables de costo solo pueden especificarse si la matriz de decisiones contiene ingresos, no ganancias o pérdidas. Por lo tanto, si se especifican ingresos y costos, las ganancias se calculan como ingresos menos costos. Si se especifican ingresos sin costos, se supone que los costos son cero. La interpretación de consecuencias como ganancias, pérdidas, ingresos y costos solo se usan para calcular el retorno sobre la inversión. Se pueden especificar valores en la matriz de decisiones que sean consecuencias específicas del valor de la variable target. Estos pueden tener alguna interpretación práctica distinta de la ganancia, pérdida e ingresos. Lo mismo para las variables de costo.

En los nodos Redes Neuronales y Regresión, se toma una decisión separada para cada caso. Sin embargo, en el nodo Arboles de Decisiones, se toma una decisión común para todos los casos en la misma hoja, de modo que cuando diferentes casos tienen costos distintos, se usa el costo promedio en la hoja, en lugar del costo individual de cada caso. Es decir, la ganancia es igual al ingreso menos el costo promedio entre todos los casos de entrenamiento en la misma hoja. Por lo tanto, se toma una sola decisión para todos los casos en la misma hoja de un árbol.

La alternativa de decisión asignada a un caso de validación, testeo o scoring ignora cualquier costo asociado al caso. Se supone que los nuevos datos son similares a los datos de entrenamiento en costo además de en las relaciones predictivas. Sin embargo, se usan los costos de cada caso para el costo de inversión, ROI y cantidades que dependen del valor real de la variable target.

  • Las matrices de decisiones y costos NO afectan: la estimación de los parámetros en el nodo Regresión, el aprendizaje del valor de los pesos en el nodo Redes Neuronales, la generación de árboles en el nodo Arboles de Decisiones (pero sí el pruning) a menos que la variable target sea ordinal, los residuos que estén basados en las probabilidades posteriores antes del ajuste por las probabilidades previas, las funciones de error como el desvío o la verosimilitud, los estadísticos de ajuste como el MSE basados en residuos o funciones de error, las probabilidades posteriores, la clasificación, la tasa de error de clasificación.
  • Las matrices de decisiones y costos SÍ afectan: la generación de árboles en el nodo Arboles de decisiones cuando la variable target es ordinal, las decisiones, la ganancia o pérdida esperada, los estadísticos de resumen de ganancia y pérdida, incluyendo la contribución relativa de cada clase.
  • Las matrices de decisiones y costos por default afectarán los siguientes procesos si y solo si hay dos o más decisiones: la selección de modelos en el nodo de Regresión, la detención temprana en el nodo de Redes Neuronales, el pruning de árboles en el nodo Arboles de Decisiones.


En síntesis

Las cuestiones de las características algorítmicas de cada método de modelización, sus implementaciones, parámetros, etc. son solo la mitad de la historia en cualquier utilización de data mining. Si desea hacer aplicaciones apropiadas y "redituables", y utilizar en forma "experta" SAS Enterprise Miner, debe también prestar atención a la mitad restante. Conceptualmente, esto significa que debe adquirir un buen conocimiento funcional de la teoría estadística de las decisiones. En la práctica, esto significa que debe conocer cómo SAS Enterprise Miner implementa estos componentes y qué herramientas ofrece para hacer una especificación apropiada de las decisiones involucradas en una aplicación particular. Solo así podrá realmente optimizar la utilización de un modelo.

Existen varios cursos que lo capacitan en diversos aspectos de la teoría estadística de decisiones, su aplicación a problemas de data mining y las características de la implementación de SAS Enterprise Miner de estas cuestiones:

 

Acerca de SAS

SAS es una empresa líder en soluciones y servicios de Business Analytics y el mayor proveedor independiente de Business Intelligence del mercado. Con innovadoras aplicaciones, apoyadas por una plataforma de inteligencia empresarial, SAS ayuda a que 45,000 sitios mejoren su desempeño y brinden valor para tomar decisiones de negocio más acertadas con mayor velocidad. Desde 1976, SAS otorga a sus clientes alrededor del mundo THE POWER TO KNOW®.

Más Notas

Copyright © SAS Institute Inc. All Rights Reserved.

Contacto Editorial:

  • SAS Argentina | Educación

    Argentina: José Alvarez
    e-mail: jose.alvarez@sas.com
    Tel.: (54-11) 4878-4500