Noticias / Notas de Prensa

SAS INSTITUTE ARGENTINA SA.
Alicia Moreau de Justo 550, 2º G
(C1107AAL) Ciudad Autónoma de Buenos Aires
Tel:(+54-11)-4878-4500
Fax: (+54-11)4878-4509
E-mail: informes@sas.com

Press Release

Versión para imprimir Versión para imprimir

Noticias

 

Redes neuronales, una técnica no del todo comprendida en Data Mining | SAS EDUCACIÓN ARGENTINA

Buenos Aires, Argentina  (14 Nov. 2011)  – Las redes neuronales son una herramienta muy potente de modelización. Pero, debido a distintas razones es frecuente que muchos analistas no tengan una comprensión adecuada de las mismas, lo que fácilmente produce su subutilización o un  uso inadecuado.

Por un lado, el propio nombre de la técnica ("redes neuronales") provoca no pocas confusiones y despropósitos. Es cierto que la técnica tiene su origen histórico en intentos de modelización del sistema nervioso de los seres biológicos, pero rápidamente se comenzó a percibir que, en realidad, el formalismo desarrollado pertenece a clases estadísticas y computacionales conocidas. Salvo para aquellos que utilizan el formalismo para algún tipo de modelización o simulación de sistemas biológicos, el origen biológico o una potencial y muy distante analogía con los sistemas nerviosos de aquellos es algo totalmente irrelevante. Sin embargo, la confusión persiste. Son muchos los analistas que en la universidad estudiaron el tema de las redes neuronales en medio de una confusión de metáforas y justificaciones biológicas o desde un punto de vista algorítmico y de cálculo numérico. Si bien lo segundo está un poco más cerca de las necesidades de un analista, esta forma de tratamiento produce un serio déficit en su formación porque ocupa el lugar de temas más relevantes vinculados a la aplicación de esta familia de técnicas en el análisis de datos, cuestiones que nunca llegan a estudiarse.

Una red neuronal es, en realidad, un sistema de ecuaciones especificado gráficamente mediante lo que se denomina su "arquitectura". Como técnica estadística pertenece a la familia de las técnicas de regresión no lineales, pero tiene algunas diferencias respecto de los métodos más "tradicionales" de modelización de relaciones no lineales (la regresión no lineal típica, la regresión polinomial y la regresión no paramétrica). Los métodos usuales de regresión no lineal y la regresión polinomial requieren especificar precisamente una forma funcional, algo que puede ser complicado con más de unas pocas variables y sin un conocimiento suficiente de lo que se desea modelizar. Las redes neuronales, en cambio, solo exigen especificar unas pocas cuestiones genéricas (reunidas en una arquitectura), e incluso estas podrían, en ciertas condiciones, determinarse "automáticamente". No hace falta una consideración cuidadosa de los componentes del sistema de ecuaciones; ni siquiera comprender la forma funcional especificada (implícitamente).

Los métodos de regresión no paramétrica (otra alternativa para la modelización de relaciones no lineales) son, al igual que las redes neuronales, relativamente fáciles de especificar, pero pueden tener problemas con más de unas pocas variables si no existe un número suficientemente grande de datos. Las redes neuronales, en cambio, suelen tener buena performance en espacios ralos de dimensión elevada (pocos datos, muchas variables).

Existen diversos teoremas que demuestran que, bajo ciertas condiciones, las redes neuronales son “aproximadores universales”. Es decir, dados una cantidad suficiente de unidades (mal llamadas “neuronas”) y tiempo, una red neuronal puede modelizar cualquier relación de entrada/salida, con cualquier grado deseado de precisión. Pero, muchas veces se confunde el hecho de que una red neuronal puede ser un “aproximador universal” con una capacidad predictiva casi mágica. Uno de los aspectos principales en esta confusión es una concepción difusa sobre lo que se debe modelizar (la “señal”) y lo que no (el “ruido”). A una tasa señal/ruido apropiada y para una función de entrada/salida a modelizar suficientemente compleja, una red neuronal es claramente la mejor técnica (la más flexible). Pero, cuando la tasa señal/ruido es suficientemente baja, una red neuronal no ofrece ningún valor agregado y, por el contrario, su gran flexibilidad puede ser contraproducente. Para funciones de entrada/salida simples, nuevamente, una red neuronal no plantea grandes ventajas, si bien puede generar modelos tan precisos como cualquier otra técnica. 

La gran flexibilidad de una red neuronal (gracias a un número potencialmente elevado de pesos) es un arma de doble filo. Así como le permite ajustar fácilmente la interacción entre diversos grupos de variables e incluso discontinuidades en la relación entre variables, también la hace propensa a "sobreajustar", es decir, a incluir en la modelización el ruido o características idiosincráticas de la muestra de entrenamiento. Para evitar esto, es fundamental comprender algunas técnicas simples pero específicas de evitación del sobreajuste como el "entrenamiento detenido".

Además de cómo evitar el sobreajuste, quien pretenda usar una red neuronal como herramienta de modelización debe tener muy en claro otras dos cuestiones: la arquitectura apropiada de una red y su entrenamiento. Ambos temas son relativamente complejos.

Una red neuronal no es más (ni menos) que un sistema complejo de ecuaciones. La arquitectura (o topología) de la misma se refiere a una forma gráfica sencilla de especificar dicho sistema. Pero existen muchas posibilidades de especificar una red neuronal, lo que implica muchos sistemas de ecuaciones diferentes. Una red se compone de unidades, capas de distinto tipo (entrada, salida, ocultas), conexiones representadas por pesos que pueden definirse de diversos modos, funciones de combinación y de activación, funciones de error, etc. Combinaciones definidas de estos elementos componentes corresponden a distintas arquitecturas genéricas y otras más específicas o de nicho. Entre las arquitecturas más conocidas tenemos el perceptrón multicapa, las redes de funciones de base radial, el perceptrón lineal y también redes "híbridas" como las redes de retropropagación, las redes aditivas generalizadas y las mezclas de redes "expertas".

Comprender las distintas arquitecturas disponibles requiere de una buena comprensión de los conceptos involucrados, de las características de cada arquitectura y su relación con técnicas estadísticas conocidas, la aplicabilidad de cada una a distintos problemas de negocios, las formas de construcción manual y "automática" de las distintas arquitecturas, la relación de las arquitecturas con las técnicas de entrenamiento, etc.

Un segundo conjunto de conceptos y técnicas que es fundamental comprender tiene que ver con el entrenamiento de una red neuronal. El llamado "entrenamiento" no es otra cosa que la estimación de los parámetros de una red neuronal (sus pesos). Esto involucra diversas cuestiones: técnicas específicas de estimación de parámetros y su relación con las diversas funciones de error, métodos de optimización numérica, sus características y relación con propiedades de los datos, técnicas de inicialización de una red, la evitación de mínimos locales de baja calidad, etc. La técnica de "backpropagation", una de las primeras en formularse para el entrenamiento del perceptrón multicapa, es útil para comprender conceptualmente en qué consiste el "aprendizaje" de una red, pero es una técnica inestable, ineficiente y poco confiable para aplicaciones de data mining. Curiosamente, muchos software conocidos de data mining implementan esta técnica para el entrenamiento de sus redes neuronales y la mayoría de los analistas de data mining no son conscientes de la desventaja que esto implica.

Finalmente, además de los conceptos técnicos anteriores, que hacen de las redes neuronales una de las técnicas de modelización más potentes, es imprescindible que el data miner conozca las características y modos de su aplicación a familias de problemas típicos importantes. Las redes neuronales constituyen naturalmente una técnica de modelización multivariada, es decir, pueden hacer predicciones de dos o más variables target simultáneamente y en interacción, como también en cascada. Algo que pocas técnicas predictivas pueden hacer. Pueden realizar predicciones tanto de variables continuas como discretas, utilizando las implementaciones apropiadas. Son aptas para realizar análisis de sucesos sincrónicos o de series temporales. Por último, y a pesar de lo que muchos creen, son técnicas que pueden usarse para tratar de comprender conceptualmente lo que se desea modelizar. Es decir, las objeciones de que las redes neuronales son técnicas de "caja negra", ininterpretables, se basan principalmente en el desconocimiento. Es cierto que no se pueden interpretar los pesos de una red neuronal del mismo modo que se lo puede hacer con los parámetros de una regresión lineal, pero esto no las hace "ininterpretables". Técnicas como las de modelos subrogantes, análisis de sensibilidad y otras permiten hacer muy buenos análisis e interpretaciones de un modelo de redes neuronales.

 Las redes neuronales son especialmente aptas para modelizar problemas que involucran relaciones no lineales entre las variables predictoras y la o las variables target, y son relativamente robustas en situaciones de escasez de datos y buena cantidad de variables, distribuciones sesgadas de variables y valores atípicos (aunque naturalmente es conveniente corregir estos problemas en el preprocesamiento). Por esta razones se las usa frecuentemente en problemas de conversión analógica a digital, en robótica, en problemas de negocios suficientemente complejos (p. ej. predicción de valores en bolsa, predicción de churn, riesgo, propensión a la compra, etc.), entre otros.

Si desea profundizar en la utilización de las redes neuronales como técnica de modelización predictiva y así poder aprovechar su considerable potencia y ventajas, considere inscribirse en  el curso de capacitación Modelización con redes neuronales .

Acerca de SAS

SAS es una empresa líder en soluciones y servicios de Business Analytics y el mayor proveedor independiente de Business Intelligence del mercado. Con innovadoras aplicaciones, apoyadas por una plataforma de inteligencia empresarial, SAS ayuda a que 45,000 sitios mejoren su desempeño y brinden valor para tomar decisiones de negocio más acertadas con mayor velocidad. Desde 1976, SAS otorga a sus clientes alrededor del mundo THE POWER TO KNOW®.

Más Notas

Copyright © SAS Institute Inc. All Rights Reserved.

Contacto Editorial: