Analítica predictiva

Qué es y por qué es importante

La analítica predictiva es el uso de datos, algoritmos estadísticos y técnicas de machine learning para identificar la probabilidad de resultados futuros basados en datos históricos. El objetivo es llegar más allá de saber lo que ha sucedido para proveer la mejor evaluación de lo que sucederá en el futuro.

Historia y avances actuales de la analítica predictiva

Aunque la analítica predictiva ha estado entre nosotros por décadas, es una tecnología cuyo momento ha llegado. Cada vez más organizaciones recurren a la analítica predictiva para mejorar su base de operación y lograr una ventaja competitiva. ¿Por qué ahora?

  • Volúmenes y tipos de datos cada vez mayores, además de un mayor interés en el uso de datos para producir insights valiosos.
  • Computadoras más rápidas y económicas.
  • Software más fácil de usar.
  • Condiciones económicas más difíciles y la necesidad de tener una diferenciación competitiva.

Con software interactivo y fácil de usar que se vuelve más predominante, la analítica predictiva ya no es sólo del dominio de matemáticos y estadísticos. Analistas de negocios y expertos en línea de negocios utilizan también estas tecnologías.

 

 


¿Por qué es importante la analítica predictiva?

Las organizaciones recurren a la analítica predictiva para ayudar a resolver problemas difíciles y descubrir nuevas oportunidades. Entre sus usos comunes se cuentan:

Detección de fraude. La combinación de múltiples métodos analíticos puede mejorar la detección de patrones y prevenir la conducta criminal. A medida que la ciberseguridad se vuelve una preocupación cada vez mayor, la analítica conductual de alto desempeño examina todas las acciones en una red en tiempo real para detectar anormalidades que puedan indicar fraude, vulnerabilidades día cero y amenazas persistentes avanzadas.

Optimización de las campañas de marketing. La analítica predictiva se utiliza para determinar respuestas o compras de clientes, además de promocionar oportunidades de ventas cruzadas. Los modelos predictivos ayudan a las empresas a atraer, retener e incrementar el número de sus clientes más rentables. 

Mejoramiento de las operaciones. Muchas compañías utilizan modelos predictivos para pronosticar inventario y gestionar recursos. Las líneas aéreas utilizan la analítica predictiva para fijar los precios de sus boletos. Los hoteles intentan anticipar el número de huéspedes en una noche determinada a fin de maximizar la ocupación e incrementar los ingresos. La analítica predictiva permite a las organizaciones funcionar de manera más eficiente.

Reducción del riesgo. Las evaluaciones de crédito se utilizan para valorar la probabilidad de un comprador de realizar compras predeterminadas y son un ejemplo bien conocido de analítica predictiva. Una evaluación de crédito es un número generado por un modelo predictivo que incorpora todos los datos relevantes para conocer la susceptibilidad crediticia de una persona. Otros usos relacionados con riesgo incluyen reclamos y cobros a seguros.

La analítica predictiva en el mundo actual

Con la analítica predictiva, puede ir más allá de enterarse de lo que sucedió y por qué para descubrir insights acerca del futuro. Aprenda cómo la analítica predictiva da forma el mundo en el que vivimos.

Training and Books icon blue

¿Tiene una carencia de habilidades en torno a la analítica predictiva?

Este e-book de SAS incluye consejo del mundo real de empleadores y educadores sobre cómo encontrar, conservar y motivar los grandes talentos analíticos.

Lea el resumen

Cómo dar buen uso a la analítica predictiva

Este reporte de Harvard Business Review Insight Center incluye
25 artículos que se centran en cómo usar la analítica predictiva para la toma de decisiones y la planeación.

Descargar

Article - Icon

¿Cómo puede la analítica predictiva agregar validez a sus esfuerzos de marketing?

Aprenda cómo la atribución del marketing suma la ciencia y elimina la hechicería de sus esfuerzos de marketing reemplazando suposiciones y modelos arbitrarios con datos y analítica.

Lea al artículo

Las mejores prácticas para mejores resultados de modelos predictivos

La gestión y coordinación de todos los pasos del proceso analítico pueden ser complejas. Aprenda cómo ir paso a paso y lograr resultados mejores y más confiables.

Obtenga más información

 

Analítica predictiva

El software de minería de datos de SAS® utiliza algoritmos probados de avanzada diseñados para ayudarle a superar sus más grandes retos.

Aprenda más acerca del software de minería de datos de SAS

¿Quién lo utiliza?

Cualquier industria puede utilizar la analítica predictiva para reducir riesgos, optimizar operaciones e incrementar los ingresos. Éstos son algunos ejemplos.

Banca y servicios financieros

La industria financiera, con enormes cantidades de datos y dinero en juego, ha venido utilizando la analítica predictiva desde hace tiempo para detectar y reducir el fraude, medir el riesgo del crédito, maximizar las oportunidades de ventas cruzadas/adicionales y retener clientes valiosos. Commonwealth Bank utiliza la analítica para predecir la probabilidad de actividad fraudulenta en cualquier transacción determinada antes de que ésta sea autorizada – apenas en un lapso de 40 milisegundos posterior al inicio de la transacción.

Retail

Desde que el ahora infame estudio que demostró que los hombres que compran pañales a menudo compran cerveza al mismo tiempo, los retailers de todas partes utilizan la analítica predictiva para determinar qué productos tener en existencia, la efectividad de eventos promocionales y qué ofertas son las más apropiadas para los consumidores. Staples analiza el comportamiento para proporcionar una imagen completa de sus clientes y ha logrado un ROI de 137%.

Petróleo, gas y servicios públicos

Ya sea que necesite anticipar fallos de equipo y futuras necesidades de recursos, mitigar riesgos de seguridad y confiabilidad, o mejorar el desempeño en general, la industria de la energía ha adoptado la analítica predictiva con vigor. Salt River Project es la segunda planta de suministro de energía pública de los Estados Unidos y uno de los proveedores de agua más grandes de Arizona. Los análisis de datos de sensores de máquinas anticipan cuándo necesitan mantenimiento las turbinas generadoras de energía.

Gobiernos y el sector público

Los gobiernos han sido participantes clave en el avance de las tecnologías de cómputo. La Oficina del Censo de los Estados Unidos ha venido analizando datos para entender las tendencias poblacionales por décadas. Los gobiernos utilizan ahora la analítica predictiva como muchas otras industrias – para mejorar el servicio y el desempeño; detectar y prevenir fraude; y entender mejor el comportamiento de los consumidores. También utilizan la analítica predictiva para mejorar la ciberseguridad.

Seguro de salud

Además de detectar fraude en reclamos, la industria de los seguros de gastos médicos emprende acciones para identificar a los pacientes con mayor riesgo de sufrir una enfermedad crónica y determinar qué intervenciones son las mejores. Express Scripts, compañía grande de beneficios farmacéuticos, utiliza la analítica para identificar a aquellas personas que no se adhieren a tratamientos prescritos, lo que genera ahorros de $1,500 a $9,000 dólares por paciente.

Manufactura

Para los fabricantes es muy importante identificar factores que conllevan a reducción de la calidad y fallos en la producción, así como también optimizar partes, recursos de servicio y distribución. Lenovo es precisamente un fabricante que ha utilizado la analítica predictiva para entender mejor los reclamos de garantía – iniciativa que generó una reducción de 10 a 15% en costos de garantía.

Ponemos magia en la magia

La analítica del deporte es un área candente, gracias en parte a Nate Silver y las predicciones de los torneos. El equipo Orlando Magic de la NBA utiliza la analítica predictiva de SAS para mejorar sus ingresos y determinar alineaciones de inicio. Usuarios de negocios de toda la organización Orlando Magic tienen acceso instantáneo a la información. Orlando Magic puede ahora explorar de manera visual los datos más recientes, hasta el mismo encuentro y los asientos.

Lea la historia completa de Orlando Magic

Analítica de texto predictiva

Aproximadamente el 90% de todos los datos son no estructurados. ¿Aprovecha la analítica predictiva para encontrar insights en todos esos datos?

Aprenda más acerca de software analítico de texto de SAS

Cómo funciona

Los modelos predictivos utilizan resultados conocidos para desarrollar (o entrenar) un modelo que se pueda utilizar para predecir valores para datos diferentes o nuevos. El uso de modelos proporciona resultados en la forma de predicciones que representan una probabilidad de la variable destino (por ejemplo, ingresos) con base en la importancia estimada a partir de un conjunto de variables de entrada.

Esto es diferente de los modelos descriptivos que le ayudan a entender lo que sucedió o modelos de diagnóstico que le ayudan a entender relaciones clave y determinar por qué algo ha sucedido. Se han dedicado libros enteros a técnicas y métodos analíticos. Currículos universitarios completos profundizan en este tema. Pero para los principiantes, éstos son algunos aspectos básicos.

Existen dos tipos de modelos predictivos. Los modelos de clasificación predicen membresía de clase. Por ejemplo, usted intenta clasificar si alguien tiene probabilidad de irse, si responderá a una convocatoria, si es un riesgo de crédito bueno o malo, etc. En general, los resultados del modelo se dan en la forma de 0 o 1, donde 1 es el evento que usted pretende lograr. Los modelos de regresión predicen un número – por ejemplo, cuántos ingresos generará un cliente en el próximo año o el número de meses antes de que falle un componente de una máquina.

Tres de las técnicas de modelado predictivo más ampliamente utilizadas son los árboles de decisión, la regresión y las redes neurales.

 

La regresión (lineal y logística) es uno de los métodos más populares en la estadística. El análisis de regresión calcula relaciones entre variables. Diseñado para datos continuos que se puede asumir siguen una distribución normal, encuentra patrones clave en grandes conjuntos de datos y a menudo se utiliza para determinar qué tanto factores específicos, como el precio, influencian el movimiento de un activo. Con el análisis de regresión, deseamos predecir un número, llamado respuesta o variable Y. Con la regresión lineal, se utiliza una variable independiente para explicar y/o predecir el resultado de Y. La regresión múltiple utiliza dos o más variables independientes para predecir el resultado. Con la regresión logística, se predicen variables desconocidas de una variable discreta con base en el valor conocido de otras variables. La variable de respuesta es categórica, lo que significa que puede asumir sólo un número limitado de valores. Con la regresión logística binaria, una variable de respuesta tiene sólo dos valores, como 0 o 1. En la regresión logística múltiple, una variable de respuesta puede tener varios niveles, como bajo, medio y alto, o 1, 2 y 3.

Los árboles de decisión son modelos de clasificación que generan particiones de datos en subconjuntos basados en categorías de variables de entrada. Esto le ayuda a entender la ruta que siguen las decisiones de una persona. Un árbol de decisión se parece a un árbol donde cada rama representa una elección entre un número de alternativas, y cada hoja representa una clasificación o decisión. Este modelo observa los datos e intenta hallar la variable que divide los datos en grupos lógicos con las mayores diferencias. Los árboles de decisión son populares porque son fáciles de entender e interpretar. También hacen un buen manejo de valores faltantes y son de utilidad para la selección de variables preliminares. De este modo, si tiene muchos valores faltantes o desea una respuesta rápida y de fácil interpretación, puede comenzar con un árbol.

 

 

 

Las redes neurales son técnicas avanzadas que pueden modelar relaciones extremadamente complejas. Son populares porque son poderosas y flexibles. El poder está en su capacidad de gestionar relaciones no lineales en los datos, lo cual es cada vez más común conforme recopilamos más datos. Se utilizan a menudo para confirmar hallazgos de técnicas simples como la regresión y los árboles de decisión. Las redes neurales están basadas en el reconocimiento de patrones y algunos procesos artificialmente inteligentes que "modelan" parámetros de manera gráfica. Funcionan bien cuando no se conoce una fórmula matemática que relacione entradas con resultados, cuando la predicción es más importante que la explicación o cuando hay muchos datos de entrenamiento. Las redes neurales artificiales fueron desarrolladas originalmente por investigadores que intentaban imitar la neurofisiología del cerebro humano.

Otras técnicas populares de las que quizá escuche hablar

Análisis Bayesiano. Los métodos Bayesianos tratan los parámetros como variables aleatorias y definen la probabilidad como "grados de creencia" (es decir, la probabilidad de un evento es el grado hasta donde usted cree que el evento es verdadero). Cuando realiza un análisis Bayesiano, usted comienza con una creencia previa relacionada con la distribución de probabilidad de un parámetro desconocido. Después de obtener información de los datos que tiene, usted cambia o actualiza su creencia acerca del parámetro desconocido.

Modelos de conjuntos. Los modelos de conjunto son producidos mediante el entrenamiento de varios modelos similares y combinando sus resultados para mejorar la precisión, reducir la parcialidad, reducir la variancia e identificar el mejor modelo para usar con datos nuevos.

Incremento de gradiente. Éste es un enfoque de incremento que muestra su conjunto de datos en varias ocasiones para generar resultados que forman un promedio ponderado del conjunto de datos muestra. Al igual que los árboles de decisión, el incremento no hace suposiciones acerca de la distribución de los datos. El incremento es menos propenso a sobre ajustar los datos que un árbol de decisión, y si un árbol de decisión ajusta los datos con suficiente precisión, entonces el incremento a menudo mejora el ajuste. (Sobre ajustar los datos significa que utiliza demasiadas variables y el modelo es demasiado complejo. Subajustar significa lo opuesto – no hay suficientes variables y el modelo es demasiado simple. Ambos reducen la precisión de la predicción.)

Respuesta incremental (llamados también modelos de elevación neta o elevación ascendente). La probabilidad de estos modelos puede cambiar causada por una acción. Se utilizan ampliamente para reducir las mezclas y descubrir los efectos de diferentes programas de marketing.

K nearest neighbor (knn). Éste es un método no paramétrico de clasificación y regresión que predice los valores o membresías de clase de un objeto con base en los ejemplos de entrenamiento k más cercano.

Razonamiento basado en memoria. El razonamiento basado en memoria es una técnica del k-nearest neighbor para clasificar o predecir observaciones.

Cuadrados mínimos parciales. Esta técnica estadística flexible puede ser aplicada a datos de cualquier forma. Modela relaciones entre entradas y resultados incluso cuando las entradas están correlacionadas y son ruidosas, hay múltiples resultados o hay más entradas que observaciones. El método de cuadrados mínimos parciales busca factores que expliquen variaciones de respuesta y predictores.

Análisis de componentes principales. La finalidad del análisis de componentes principales es derivar un pequeño número de combinaciones lineales independientes (componentes principales) de un conjunto de variables que retengan tanta de la información de las variables originales como sea posible.

Máquina vectorial de soporte. Esta técnica de aprendizaje basado en máquina supervisado utiliza algoritmos de aprendizaje asociados para analizar datos y reconocer patrones. Se puede utilizar para clasificación y regresión.

Minería de datos por series de tiempo. Los datos por series de tiempo tienen la hora estampada y se recopilan con el tiempo en un intervalo en particular (ventas en un mes, llamadas por día, visitas a la Web por hora, etc.). La minería de datos por series de tiempo combina técnicas tradicionales de minería de datos y pron´ósticos. Las técnicas de minería de datos como el muestreo, la agrupación en clústeres y los árboles de decisión se aplican a datos recopilados con el tiempo con el objetivo de mejorar las predicciones.

¿Qué necesita para comenzar a usar la analítica predictiva?

Aprenda más sobre cómo trabajar el ciclo de vida de la analítica para usted

step1

Lo primero que necesita para comenzar a usar la analítica predictiva es un problema que resolver. ¿Qué desea saber acerca del futuro con base en el pasado? ¿Qué desea entender y predecir? También deseará considerar qué se hará con las predicciones. ¿Qué decisiones serán motivadas por los insights? ¿Qué acciones se emprenderán?

step2

Segundo, necesitará datos. En el mundo actual, eso significa datos de muchos lugares. Sistemas de transacciones, datos recopilados por sensores, información de terceros, notas de centros de atención a clientes, registros Web, etc. Necesitará un domador de datos, o alguien con experiencia en la gestión de datos, que le ayude a depurar y preparar los datos para su análisis. Preparar los datos para un ejercicio de modelado predictivo requiere también de alguien que entienda los datos y el problema de negocios. La forma en que define su objetivo es esencial para la forma en que puede usted interpretar el resultado. (La preparación de los datos se considera uno de los aspectos que más tiempo consumen del proceso de análisis. Así que esté preparado para eso.)

step3

Después de eso se inicia la construcción del modelo predictivo. Software cada vez más fácil de usar significa que más personas pueden construir modelos analíticos. Pero aún necesitará probablemente algún tipo de analista de datos que pueda ayudarle a refinar sus modelos y definir el que mejor desempeño tenga. Y luego podría necesitar a alguien de TI que pueda ayudarle a implementar sus modelos. Eso significa poner a trabajar los modelos en sus datos elegidos – y es ahí donde obtiene sus resultados.

step4

Los modelos predictivos requieren un enfoque de equipo. Necesita personas que entiendan el problema de negocios por resolver. Alguien que conozca cómo preparar los datos para el análisis. Alguien que pueda construir y refinar los modelos. Alguna persona de TI que garantice que tenga la infraestructura analítica indicada para construir e implementar modelos. Y un patrocinador ejecutivo puede ayudarle a hacer realidad sus esperanzas analíticas.

Lea más acerca de este tema