Press Release
Noticias |
La mitad de la historia en Data Mining | SAS EDUCACIÓN ARGENTINABuenos Aires, Argentina (03 Ago. 2011) – Si usted es analista o estudiante de data mining probablemente su preocupación principal sea comprender cabalmente las distintas técnicas de modelización, poder diferenciarlas con claridad y reconocer cuáles son apropiadas o indicadas para distintos tipos de problemas, y cómo sacar el mayor provecho de ellas en su trabajo analítico. Si este es el caso, usted está considerando solo la mitad de la historia. Le falta la otra mitad: una comprensión práctica y eficaz de la teoría estadística de las decisiones. Sin este otro componente, ineludible en cualquier tarea de data mining, se verá muy restringido para resolver en forma apropiada cualquier problema medianamente interesante de data mining y hará una subutilización considerable de una herramienta tan potente como SAS Enterprise Miner. Debiera atender mucho menos a las diferencias entre los métodos y dedicar parte de su atención a desarrollar un conocimiento sólido y práctico de la teoría estadística de las decisiones. ¿Por qué las diferencias entre las técnicas de modelización tienen menos importancia de la que usualmente se les atribuye?Con mucha frecuencia, los data miners expresan el deseo (un tanto quimérico) de lograr una clara distinción conceptual entre los distintos métodos disponibles en data mining (un conjunto en permanente crecimiento). Pero, por diversas razones, este es, en buena medida, un objetivo ficticio que, en gran parte, solo sirve para encubrir el conjunto de destrezas y conocimientos que el analista debiera realmente desarrollar. Los distintos métodos de data mining no son, muchas veces, instrumentos tan claramente diferenciables como podrían ser un microscopio o un martillo. Existen grandes familias de métodos con relaciones entre sí, una diversidad de submétodos y técnicas en cada familia, multitudes de variaciones, parámetros o configuraciones, métodos híbridos y, finalmente, implementaciones. Es razonable establecer algunas grandes diferencias entre distintos enfoques, las que pueden tener mayor o menor importancia según como se usen los métodos, a qué problemas se apliquen, qué características tengan los conjuntos de datos utilizados, etc. Pero, muchas diferencias habitualmente discutidas o consideradas pueden ser triviales o irrelevantes cuando se considera que la tarea de data mining no involucra, tan solo, elegir un método y aplicarlo a la modelización de algún suceso de interés, sino más bien constituye una elaborada e intrincada secuencia de aproximaciones iterativas de refinamiento sucesivo que entrelaza tareas de exploración, transformación y modelización, muchas veces de distintos tipos. En este contexto, la mayoría de las diferencias entre los métodos pueden tener una cierta utilidad conceptual, pero poca relevancia práctica. Por ejemplo, reconocer qué hay métodos "perezosos" y otros "ansiosos", univariados o multivariados, lineales o no lineales, etc. y conocer las características diferenciales, ventajas y desventajas de cada uno puede tener alguna utilidad, pero son todos elementos de relevancia incierta cuando se enfrenta un problema concreto. Para restringirnos solamente a tres familias muy conocidas de métodos, árboles de decisiones, regresión y redes neuronales, cualquiera de ellas (de nuevo, se trata de familias de métodos compuestas por decenas de técnicas concretas y otras tantas implementaciones posibles para cada técnica) puede producir modelos complejos a partir de conjuntos de datos. Es cierto que hay diferencias entre ellas, pero también muchas similitudes.
Un buen ejemplo de los comentarios anteriores es el de los resultados obtenidos por el proyecto europeo Statlog. Este constituyó un trabajo de investigación aplicada dentro del programa ESPRIT de los años noventa del siglo pasado, titulado, nada más ni nada menos que "Comparative testing and evaluation of statistical and logical learning algorithms on large-scale applications to classification, prediction and control". Dos citas bastarán para describir el tenor del proyecto: "El objetivo de este libro es proporcionar una revisión actualizada de diferentes enfoques de la clasificación, comparar su performance sobre una amplia variedad de conjuntos de datos desafiantes y extraer conclusiones sobre su aplicabilidad a problemas industriales realistas". (Michie el al. 1994, p. 1) "La fragmentación entre diferentes disciplinas casi ciertamente dificultó la comunicación y el progreso. El proyecto Statlog, fue diseñado para echar abajo estas divisiones al seleccionar procedimientos de clasificación con independencia de su pedigree histórico, poniéndolos a prueba en problemas de gran escala y comercialmente importantes, y por lo tanto determinar en qué medida las diversas técnicas satisfacen las necesidades de la industria". (Michie el al. 1994, p. 1) Estos comentarios podrían entusiasmar (al menos así me ocurrió hace ya algunos años). Parece tratarse exactamente de lo que muchos analistas buscamos en un momento u otro de nuestras trayectorias profesionales. El trabajo realizado por el proyecto fue extenso y exhaustivo, pero las conclusiones, en lo que respecta a "pepitas doradas de conocimiento" que iluminen cuándo aplicar qué método a qué problema fueron magras, muy magras. Parte del problema pasa por las advertencias que los propios autores del informe hacen en el punto 1.4.2 (Cautions in the interpretations of comparison), pero otro tanto pasa por la tesis principal de la presente nota: la comparación entre los métodos es solo la mitad (tal vez menos) de la historia. Antes de considerar más en detalle la mitad restante empecemos por algunos breves comentarios aclaratorios de una disciplina que es capaz de contar buena parte de la historia faltante y luego por un ejemplo práctico. ¿Qué es la teoría estadística de las decisiones?La teoría estadística de las decisiones se ocupa de formular conceptos y reglas de base estadística que contribuyan a iluminar las incertidumbres involucradas en un problema de toma de decisiones. La estadística inferencial clásica se orienta a la utilización de información muestral para hacer inferencias sobre características de la población. Por lo general, estas inferencias se realizan independientemente del uso o aplicación de las mismas a un problema práctico. En la teoría estadística de las decisiones se intenta combinar la información muestral con otras características relevantes de un problema para tomar mejores decisiones. Hay dos clases de información relevantes. Una corresponde al conocimiento de las consecuencias posibles de las decisiones. Con frecuencia este conocimiento puede cuantificarse mediante las ganancias o pérdidas originadas por cada posible decisión en relación con los valores posibles de alguna característica o parámetro relevante de la población. La otra clase se vincula con los "a priori", es decir, conocimiento (en lo posible cuantitativo) de las características de interés que no surgen de la modelización en cuestión, sino que son previas, de allí el nombre de "a priori". El ejemplo más típico es el de la frecuencia "verdadera" de un suceso en la población, a diferencia de la frecuencia en la muestra utilizada. Esta última puede ser diferente de la frecuencia en la población, por distintas razones, una de ellas, muy frecuente en data mining, es la necesidad de balancear una muestra muy "desbalanceada" (es decir con una baja frecuencia del suceso de interés en comparación con la de los sucesos secundarios que no lo son). La inferencia estadística y su análogo en data mining, el ajuste de modelos, proporciona un "resumen" de la evidencia que los usuarios de un modelo pueden incorporar a su propio proceso de decisiones. Creer que el ajuste de un modelo (la estimación de sus parámetros) es lo único necesario para una aplicación de data mining es erróneo y contraproducente por diversas razones.
Veamos un ejemplo concreto de la relevancia de tomar en cuenta las decisiones involucradas. ¿Cómo se aplica la teoría estadística de las decisiones en data mining?Un ejemplo bastante impactante puede encontrarse en el curso Modelización predictiva avanzada con SAS Enterprise Miner. En este se utiliza un problema muy conocido de las competencias KDD, el del desarrollo de un modelo predictivo a aplicarse en una campaña futura de donaciones por parte de una organización de veteranos de guerra. Se utiliza una muestra de datos pequeña (un poco menos de 10.000 casos) de antiguos donantes con información demográfica y transaccional (vinculada a las donaciones previas) fundamentalmente. La muestra de análisis ha sido balanceada (50% de donantes), mientras que la proporción de donantes en la población es de solo un 5%. Se cuenta con un conjunto de datos de scoring de poco menos de 100.000 casos. El modelo ganador de la competencia produjo, aplicado a la muestra de scoring, una ganancia total de $14.712 y una ganancia promedio de $0.153, mientras que el "antimodelo" consistente en solicitar una donación a toda la muestra generó una ganancia total de $10.560 y una ganancia promedio de $0.110. Algo que sorprendió como resultado inmediato de la propia competencia fue que casi la mitad de los modelos competidores produjeron una ganancia inferior a no haber usado ningún modelo (directamente solicitar a todo el mundo). La causa de esto tiene mucho que ver con la forma de seleccionar a los potenciales donantes, una cuestión no relacionada con los métodos de modelización usados (el interés fundamental de los competidores), sino con los elementos de teoría de decisión empleados (o no). En el curso se realiza una modelización "estándar" bajo el paradigma de "modelo campeón". Parte del diagrama construido puede verse más abajo. Luego de algún preprocesamiento de rigor, se ajustan varios modelos de regresión empleando diversas técnicas de selección de variables, una red neuronal (perceptrón multicapa) bastante estándar y un árbol de decisiones usando los defaults del Enterprise Miner. El criterio de selección en cada uno de los métodos, y usado también en el nodo de comparación de modelos, fue el error cuadrático medio, una medida genérica apropiada cuando se desea generar modelos que predigan probabilidades de un suceso.
Figura 1- Diagrama parcial de modelización usando SAS Enerprise Miner sobre el problema de donaciones de una organización de veteranos.
Figura 2- Ventana de resultados del nodo comparación de modelos.
¿Qué tan bueno es el modelo ganador realizado en la primera parte del curso, en comparación con los que participaron en la competencia? El gráfico de la Figura 3 compara la ganancia esperada en base al modelo seleccionado, la ganancia total realmente obtenida y la ganancia producida mediante una selección aleatoria de casos. En el eje x se representa la profundidad de la muestra, donde, como siempre, los casos están ordenados en orden decreciente de la probabilidad estimada por el modelo. La ganancia esperada sugiere que para maximizar las ganancias de la campaña deberíamos solicitar donaciones a aproximadamente el 50% de la muestra (donde se encuentra el máximo de la curva verde). Sin embargo la realidad es otra. La curva azul muestra un resultado muchísimo más magro (y realista) de la aplicación de nuestro modelo "ganador". Si seleccionamos el 50% de la muestra con mayor probabilidad de donación solo obtendríamos una ganancia de aproximadamente unos $7.000, claramente inferior a los $10.560 que hubiéramos obtenido si seleccionamos a todo el mundo, es decir, no empleamos un modelo.
Figura 3 – Ganancias total, esperada y aleatoria del modelo ganador.
¿Por donde pasa el problema? No por el método empleado, una cuestión fundamentalmente algorítmica. Pasa por un déficit serio en la utilización de una teoría de decisiones. El modelo estima apropiadamente la probabilidad de donación (al igual que los modelos no seleccionados, que tienen una performance parecida), pero esto no basta para producir un modelo "redituable". Explorando un poco los datos (algo que debiéramos haber hecho al comienzo, pero… ¿cuántos invierten el esfuerzo necesario en esta tarea?), habríamos detectado una correlación inversa (y natural) entre la frecuencia de donación y el monto donado. Si calculamos la correlación entre la probabilidad de donación tal como la estima el modelo y el monto donado, también encontramos una correlación inversa. Esto nos dice algo importante: una selección de candidatos sobre la base de su probabilidad de donación inevitablemente sesga la selección hacia los muchos donantes de pequeños montos olvidándose de los donantes de montos más interesantes. Desde un punto de vista económico, ¿que deberíamos preferir para nuestra futura campaña de marketing, 100 donantes frecuentes de 1 peso cada uno donde la solicitud de donación nos cuesta 50 centavos o 1 donante infrecuente de 100 pesos con un costo de solicitud también de 50 centavos? De nuevo, no necesitamos resolver nuestro problema de haber obtenido una "mala" predicción con un modelo o una técnica de modelización distinta. Lo que necesitamos son mejores criterios de decisión. Vamos entonces a hacer algunos pequeños cambios en nuestro criterio de selección (y no en el modelo que obtuvimos). Primero, vamos a ajustar las probabilidades estimadas por la verdadera probabilidad a priori de donación, que es aproximadamente 0.05 (la muestra había sido balanceada artificialmente mediante un muestreo separado). Esta es una transformación monotónica que no altera en absoluto el ordenamiento de los potenciales donantes en cuanto a su probabilidad de donación, solo altera la magnitud numérica de las estimaciones (de otro modo las probabilidades estarían "infladas"). Pero este no es el punto crucial (aunque sí uno necesario). Vamos, también, a usar un criterio distinto para la selección de los potenciales donantes (las personas a solicitar). Un criterio que utilice la probabilidad estimada por el modelo, pero también algunos elementos muy básicos de conocimiento de domino. Calcularemos un valor numérico que es la probabilidad ajustada de donación por el promedio del monto donado durante los últimos 36 meses, una aproximación, bastante grosera pero útil, al monto que una persona particular sería propensa a donar. Finalmente definimos un umbral simple: solo vamos a seleccionar a aquellos donantes para los cuales el producto de las cantidades anteriores es mayor que el costo de pedir una donación. Como se ve, no cambiamos nuestro modelo, solo nuestro criterio de selección, una cuestión de teoría de decisiones. En la figura 4 vemos el resultado de nuestra selección modificada.
Figura 4 – Curvas de ganancia total, esperada y aleatoria usando un criterio de selección modificado.
Vemos que la performance de nuestro "modelo" (en realidad del mismo modelo anterior pero ahora con un criterio de selección más apropiado) es cualitativamente diferente. La curva de ganancia esperada (generada a partir del modelo más el nuevo criterio de selección) está mucho más cercana a la ganancia total (la "realidad", podría decirse). Además, la ganancia total de este modelo en el umbral definido es de nada menos que $14.571, un monto claramente superior al que obtuvimos en primer lugar (solo la mitad). Si hubiéramos participado en la competencia de KDD hubiéramos ocupado el tercer puesto, a $141 del primer puesto. Y esto es solo el comienzo. Si mejoramos aun más nuestros criterios de decisión (el anterior era bastante grosero), podemos terminar en el primer puesto. Pero esta es otra historia… y se cuenta en el curso mencionado. Acá nos basta con notar que el problema que advertimos no pasaba por una mala selección de modelos, técnicas o parámetros, sino por un mal uso o desuso de los criterios de decisión. ¿Qué debiera saber un data miner sobre teoría estadística de las decisiones? Como solía decir el matemático aplicado Vladimir Vapnik (el “inventor” de las máquinas de soporte vectorial), no hay nada más práctico que una buena teoría. Por ello, una buena formación conceptual en este tema es fundamental. Debe tener claro los usos equivocados de la inferencia estadística y la modelización habituales en data mining, la relevancia del enfoque bayesiano en muchos de estos problemas, las propiedades de las principales funciones de pérdida, de qué manera seleccionar principios de decisión adecuados y unos cuantos temas más. Puede encontrarse un buen listado (y exposición de estos temas) en el libro clásico de James Berger (Statistical Decision Theory and Bayesian Analysis), por ejemplo. Pero, además, un data miner utiliza un software que debe (o debiera) implementar de una manera apropiada (y deseablemente sofisticada) herramientas y principios de teoría de decisión, no solo algoritmos típicos. Es tan importante que conozca cómo se encuentran implementadas y configuradas estas herramientas de decisión como su conocimiento de las técnicas de modelización implementadas, su configuración, defaults, etc. Vamos a detenernos brevemente en algunas de estas cuestiones, tal como están implementadas en SAS Enterprise Miner. Un conocimiento relevante e importante si es que aspira a hacer un uso experto de esta herramienta. ¿Cómo se aplica la teoría estadística de las decisiones en SAS Enterprise Miner?Las probabilidades previas de las clases se utilizan en las distintas implementaciones de algoritmos de data mining de diversas maneras. Es importante tener claro como SAS Enterprise Miner las usa para poder decidir cómo manejarlas:
Cuando es apropiado usar probabilidades previas ajustadas, es importante recordar lo siguiente:
Es importante tener en claro cuáles son los efectos específicos de los ajustes de las probabilidades previas:
Los nodos de modelización pueden hacer estimaciones de los valores de sus respectivos parámetros, pero también pueden hacer más en la implementación de SAS Enterprise Miner: pueden tomar decisiones en base a las consecuencias especificadas por medio una matriz de decisiones y constantes o variables de costo. La matriz de decisiones permite especificar ganancias, pérdidas o ingresos. Cuando se usa un procesamiento de decisiones, los nodos de modelización calculan estadísticos de resumen de la ganancia o pérdida total, y promedio de cada modelo. Estos estadísticos son útiles para seleccionar modelos, pero para ello deben haberse definido consecuencias numéricas razonables para cada decisión respecto de cada valor de la variable target. Es importante definir apropiadamente la matriz de decisiones y comprender sus características. Las filas de la matriz representan distintas cosas si la variable target es categórica o de intervalo. Según el tipo de matriz (ganancia o ingresos versus pérdida) se toman decisiones de maximización o minimización complementarias. A cada decisión puede asociarse también una constante o variable de costo. Los valores de la variable de costo representan consecuencias específicas a cada caso y son siempre tratados como costos. Las consecuencias no dependen de los valores de la variable target de los casos a predecir. Los costos se usan para calcular el retorno de la inversión como (ingreso – costo)/costo. Las variables de costo solo pueden especificarse si la matriz de decisiones contiene ingresos, no ganancias o pérdidas. Por lo tanto, si se especifican ingresos y costos, las ganancias se calculan como ingresos menos costos. Si se especifican ingresos sin costos, se supone que los costos son cero. La interpretación de consecuencias como ganancias, pérdidas, ingresos y costos solo se usan para calcular el retorno sobre la inversión. Se pueden especificar valores en la matriz de decisiones que sean consecuencias específicas del valor de la variable target. Estos pueden tener alguna interpretación práctica distinta de la ganancia, pérdida e ingresos. Lo mismo para las variables de costo. En los nodos Redes Neuronales y Regresión, se toma una decisión separada para cada caso. Sin embargo, en el nodo Arboles de Decisiones, se toma una decisión común para todos los casos en la misma hoja, de modo que cuando diferentes casos tienen costos distintos, se usa el costo promedio en la hoja, en lugar del costo individual de cada caso. Es decir, la ganancia es igual al ingreso menos el costo promedio entre todos los casos de entrenamiento en la misma hoja. Por lo tanto, se toma una sola decisión para todos los casos en la misma hoja de un árbol. La alternativa de decisión asignada a un caso de validación, testeo o scoring ignora cualquier costo asociado al caso. Se supone que los nuevos datos son similares a los datos de entrenamiento en costo además de en las relaciones predictivas. Sin embargo, se usan los costos de cada caso para el costo de inversión, ROI y cantidades que dependen del valor real de la variable target.
|
Contacto Editorial:
|