Noticias / Notas de Prensa

SAS INSTITUTE ARGENTINA SA.
Alicia Moreau de Justo 550, 2º G
(C1107AAL) Ciudad Autónoma de Buenos Aires
Tel:(+54-11)-4878-4500
Fax: (+54-11)4878-4509
E-mail: informes@sas.com

Press Release

Versión para imprimir Versión para imprimir

Noticias

 

 

¿Qué es uplifting?

Buenos Aires, Argentina  (16 Dic. 2011)  – No, no se trata de un tipo de cirugía estética. Probemos con otra pregunta. ¿Usted cree que sus campañas de marketing realmente incrementan sus ganancias o, más precisamente, que usted maximiza el ROI de las mismas? Es probable que conteste que sí, pero es probable que esté equivocado y este error duele... Hagamos otro intento. ¿Lo tranquilizaría saber que  evaluó satisfactoriamente la efectividad de una campaña de marketing utilizando el consabido método experimental de un grupo de control? Seguramente, diría que sí, pero, lamento contradecirlo, tal como se implementa el método,  este garantiza poco y nada. Antes de frustrarlo o inquietarlo aun más lo invito a enterarse de por qué es probable que sus respuestas a las preguntas anteriores sean equivocadas y qué tiene todo esto que ver con el uplifting (no, no es una cirugía estética).

Empezaremos por revisar la metodología tradicional y algunos supuestos del marketing en bases de datos. Luego, daremos ejemplos de algunas de las consecuencias de esos supuestos y metodologías que probablemente lo sorprenderán. Finalmente apuntaremos en la dirección de una solución a los problemas planteados.

Metodología tradicional del marketing en bases de datos

Ya es una práctica habitual maximizar (en realidad, intentar maximizar) el ROI de una campaña de marketing usando modelos predictivos. En algunos contextos se los suele denominarse "modelos de respuesta" o de "propensión": se busca identificar los clientes (o prospectos) que más probablemente responderán en forma positiva a una campaña mediante la cual se ofrece algún servicio o producto. Al focalizar la campaña en esos individuos preseleccionados se podría, al menos en teoría, incrementar las ganancias y así maximizar el ROI. Campañas de marketing de distintas clases (adquisición, cross-selling, up-selling, deep-selling o retención) emplean típicamente este método. Aunque acá vamos a hacer referencia solo a las campañas de adquisición o cross-selling por una razón de brevedad, las mismas cuestiones se aplican a todos los otros tipos.

Las buenas prácticas aconsejan determinar la efectividad de una campaña. Para esto se utiliza un diseño experimental simple: se divide la muestra de clientes seleccionados por el modelo en dos: un grupo pequeño aunque de un tamaño razonable, llamado grupo de control, y el resto, el grupo "experimental". Este último grupo recibe "el tratamiento" (la campaña de marketing) mientras que el grupo de control no es contactado. Cuantificamos la respuesta diferencial de ambos grupos mediante la diferencia de una medida apropiada (frecuencia de respuesta positiva, ganancia total o promedio, etc.) aplicada a cada grupo y utilizamos algún test estadístico para comparar la significación de la diferencia en la medida elegida.

Los modelos de respuesta detrás de la selección de clientes en los que luego se focalizará la campaña se construyen sobre una muestra de clientes previamente contactados (una muestra experimental) en una campaña de marketing similar anterior. La modelización consiste básicamente en encontrar una función f de los atributos de los clientes, digamos un vector Xi, tal que E(Yi|Xi) = f(Xi), donde Y es la variable target e i representa a cada cliente. f puede ser una función continua o discreta, lineal o no lineal, etc. (es decir, un modelo de regresión, un árbol de decisión, una red neuronal o cualquier otro modelo). Los clientes seleccionados por el modelo son usualmente los que maximizan la función Σ E(Yi|Xi). Cuando Y es alguna medida del valor del cliente (ganancia actual o futura, etc.) el modelo busca maximizar la ganancia global. Cuando Y es una tasa o probabilidad de respuesta, esto implica maximizar la suma de las tasas, probabilidades o alguna función de estas.

Hasta ahora, todo esto seguramente lo conoce de sobra y, en algún sentido, es una especie de Biblia del data miner. ¿Qué hay de malo, entonces? Es que los árboles no nos permiten ver el bosque. Revisemos algunos de los supuestos básicos.

Algunos supuestos

Los modelos de "respuesta" poseen una connotación de causalidad totalmente equívoca que subyace a la metodología usual y la justifica. Se tiende a pensar que los modelos de respuesta estiman (infieren) los resultados causados por la intervención de un "tratamiento", es decir, una campaña. Pero esto no es del todo cierto.

Por lo general, suponemos que una campaña tiene un efecto sobre los clientes y que este es, con mayor o menor intensidad, un efecto en un solo sentido, el de aumentar la propensión a la compra. Pero, si así fuera, la población sería relativamente homogénea respecto de la influencia de la campaña de marketing, algo que no es realista. No todos somos iguales y tampoco reaccionamos igual. Podemos encontrar por lo menos cuatro segmentos distintos en prácticamente cualquier población de clientes: aquellos sobre los que una campaña tiene una influencia positiva (llamémoslos "influenciables"), aquellos sobre los que esta no tiene ninguna influencia porque de todas maneras iban a comprar el producto o servicio (llamémoslos "seguros"), aquellos sobre los que no tiene ninguna influencia porque aunque se los contacte no comprarían el producto o servicio (los "resistentes"), y finalmente aquellos sobre los que la campaña tiene una influencia negativa, es decir, esta disminuye su propensión a la compra en lugar de aumentarla (los "negativos"). Podríamos agrupar los segmentos "seguros" y "resistentes" en un solo grupo de "no influenciables".

Vale la pena detenerse por un momento en la existencia del segmento de "negativos". Muchas veces, por una especie de deformación profesional, los responsables de campañas de marketing (especialmente de retención) tienden a olvidar esta cuestión. Existe un segmento de clientes al que si se lo contacta mediante algún tipo de campaña puede precipitar su deserción, en lugar de evitarla. Esto se debe a diversas causas (la insatisfacción subyacente a muchas deserciones es una de ellas, y un contacto "marketinero" puede no hacer más que exacerbarla) y merece una nota aparte. Pero, cuidado, este segmento de clientes existe casi siempre.

Volviendo a nuestro tema, tenemos, entonces, la siguiente "segmentación fundamental" representada en una especie de imitación irónica de una matriz de "confusión":

Fig 1

Figura 1 – Segmentación fundamental.
 

Claramente, si queremos maximizar el efecto de una campaña (incrementar las ganancias con mínimo costo), debemos focalizar en el segmento que compraría si es contactado (el segmento “influenciable”), y descartar el resto. Es inútil gastar dinero en los otros segmentos ya que el contacto no serviría para estimularlos a una compra e,  incluso, en el caso de los “negativos”, podría tener el efecto exactamente contrario.

Un modelo que maximice las ganancias debería ordenar perfectamente estos grupos, asignándole, por ejemplo, mayor probabilidad o propensión de compra al segmento influenciable, menor probabilidad a los segmentos no influenciables y finalmente la probabilidad mínima de compra al segmento de "negativos". De esta manera obtendríamos una curva de ganancia como la del gráfico de abajo y sería sencillo determinar un valor de corte que seleccione exitosamente a quienes debemos contactar, los influenciables, maximizando así de verdad las ganancias. Pero, lamentablemente, no es esto lo que ocurre por lo general. Veamos la cuestión más en detalle. Antes, obsérvese que la curva de ganancias no tiene una relación monotónica creciente con la profundidad de la muestra. Cuando llegamos al segmento de "negativos" la ganancia empieza a decrecer porque comenzamos a perder ventas, en lugar de ganarlas.

Fig 2

Figura 2 – Curva de ganancias sobre un modelo "perfecto".

 

Podemos representar los segmentos de clientes en términos de su probabilidad de compra si son contactados y su probabilidad de compra si no lo son. Esta representación se aproxima a lo que intentamos hacer usualmente con un modelo: evaluar la propensión o la probabilidad de compra de una muestra de clientes.

Fig 3

Figura 3 – Segmentos de clientes en términos de su probabilidad de compra si son o no contactados.
 

El segmento influenciable tiene una mayor probabilidad de compra si es contactado que si no lo es, de allí su ubicación en el ángulo superior izquierdo. Los "negativos" ocupan el sitio opuesto: tienen mayor probabilidad de compra si NO son contactados que si lo son. Los "seguros" tienen alta probabilidad de compra, se los contacte o no, mientras que los "resistentes" tienen baja probabilidad de compra, de una u otra forma. Hay que hacer una advertencia: este gráfico es una idealización para mostrar algunas cuestiones, pero estamos excluyendo algunas informaciones potencialmente relevantes. Una de estas es la densidad de cada segmento. Mayor densidad de los grupos negativos y los no influenciables puede agravar la situación que describimos, una menor densidad puede aliviarla considerablemente.

En el gráfico de arriba puede empezar a verse qué significa uplift,  impacto incremental o lift neto, son todos sinónimos. Cuanto más precisamente un modelo se concentre en el segmento influenciable, mayor será su impacto incremental. Es decir, la ganancia de una campaña está en directa relación con la concentración de influenciables versus los otros segmentos en la muestra seleccionada. Podemos pensar el uplift como una dimensión cuyo eje atraviesa los vértices inferior derecho y superior izquierdo. A medida que nos movemos sobre este eje hacia arriba, es decir, a medida que disminuyen de nuestra muestra, primero, los clientes pertenecientes al segmento negativo, incrementamos nuestras ganancias porque dejamos de perder ventas (por haber contactado a esos clientes) y luego, en la medida que evitamos contactar a los clientes no influenciables, ahorramos en gastos inconducentes.

Veamos cómo esta representación se relaciona con los modelos habituales de respuesta y penetración. Pero, le advierto, puede sorprenderse…

Modelos de respuesta y modelos de penetración

 Los modelos de respuesta permiten estimar para cada cliente la probabilidad condicional de compra si es contactado. La selección de la muestra de contacto a partir de un modelo consiste en establecer un umbral en la probabilidad de compra: los clientes con un valor superior al umbral, o punto de corte, serán contactados, los que están por debajo no. Aunque habitual, este es un método costoso y muy ineficiente de detectar a los clientes del segmento influenciable que son, después de todo, los únicos que vale la pena contactar. Esto se ve claramente en el gráfico de más abajo. Definir un umbral significa trazar una línea horizontal sobre un determinado valor del eje vertical. Todos los clientes para los que se haya estimado una probabilidad de compra superior al umbral (los que están por encima de la línea), sin importar a qué segmento pertenecen, serán seleccionados. El problema de este método, como puede verse claramente, es que incluimos demasiados clientes a los que es inútil o incluso contraproducente contactar y esto no hace más que deteriorar seriamente el uplift de un modelo (el efecto incremental).

Fig 4

Figura 4 – Selección de una muestra a contactar a partir de un umbral de probabilidad inferida de compra para un modelo de respuesta.

Esta situación desafortunada puede verse muy claramente si comparamos un gráfico de ganancias (tradicional para evaluar un modelo, aunque engañoso) con un gráfico de uplift. El primero (Figura 5) muestra la curva de ganancia de un modelo utilizado para una campaña. El 40% de la población con mayor probabilidad de compra representa el 65% de las ventas realizadas. No parece un mal resultado.

Fig 5

Figura 5 – Gráfico de ganancias.

Sin embargo, cuando evaluamos el modelo según las ventas incrementales generadas a distintas profundidades de la muestra (Figura 6), la historia es muy distinta. En esta figura, la curva roja muestra el incremento en las ventas respecto de un grupo de control cuyos miembros fueron seleccionados aleatoriamente.

Fig 6

Figura 6 – Gráfico de uplift.

 

Lo que se ve es bastante sorprendente: los resultados que parecían bastante buenos en un gráfico tradicional de ganancia acumulativa, vistos desde este punto de vista son MALOS. ¡La tasa de ventas en la muestra seleccionada por el modelo de respuesta es incluso inferior a la tasa de ventas de la muestra de control, elegida aleatoriamente! La explicación de esta situación es simple: el modelo de respuesta no predice incrementos en las compras, solo predice la probabilidad de compra y claramente en este caso (como en muchos otros, debido al sesgo de nuestros métodos) el modelo concentró su selección mayoritariamente en el grupo no influenciable.

¿Podría ser peor la situación? Lamentablemente sí. Existe un tipo particular de modelo de propensión denominado "modelo de penetración". Este tipo de modelos se utiliza especialmente cuando no tenemos información de campañas previas, sea porque no se cuenta con esa información o porque nunca antes se realizó una campaña para un servicio o producto particular (situación típica de los productos nuevos en áreas como la telefonía). Estos modelos toman la base de clientes y tratan de estimar la probabilidad de que el cliente posea el producto o servicio en cuestión, es decir, la probabilidad de que ya lo haya comprado, como una aproximación a la probabilidad de compra si fuera contactado. Dependiendo de detalles del mercado, esta probabilidad podría ser bastante similar a la probabilidad condicional de compra SIN contacto de marketing.

El problema en esto es que seleccionando clientes a partir de este modelo, lo que hacemos es trazar un umbral, ahora vertical, en el gráfico de abajo, o sea sobre el eje que representa la probabilidad de compra sin "tratamiento".

 

Fig 7



Figura 7 – Selección de una muestra a contactar a partir de un umbral de probabilidad inferida de compra para un modelo de penetración.
 

Puede verse fácilmente que la situación es aun peor que la anterior. El modelo se concentra principalmente en los segmentos a los que es costosamente inútil contactar y deja de lado una fracción importante del segmento sobre el que debiera haberse focalizado.

Cómo resolver la cuestión o la luz al final del túnel

Las técnicas tradicionales construyen un modelo predictivo a partir de una muestra de clientes contactados que intenta separar los clientes propensos a comprar de los que no lo serían. Estas técnicas solo utilizan muestras de clientes previamente contactados. Este hecho ya sesga nuestra evaluación de efectividad.

El uplift de una campaña de marketing se define como la diferencia en la tasa de respuesta entre un grupo "tratado" y un grupo aleatorio de control (pero no el que se toma habitualmente, que ya es un grupo sesgado). Esta medida permite aislar el efecto de una acción de marketing y medir su efectividad. Esta, y no la medición tradicional, es una evaluación honesta de la efectividad de una campaña de marketing. Un modelo predictivo debe tratar de maximizar la respuesta incremental, no la probabilidad de respuesta. Para esto debe optimizar una medida diferente que la que habitualmente se usa, esta medida es el uplift.

La solución pasa, entonces, por un diseño experimental algo diferente del acostumbrado y más apropiado, y también por una medida de optimización distinta. Además, es preciso reconsiderar algunos aspectos de las técnicas de modelización: la selección de variables relevantes y cuáles son los métodos predictivos más adecuados.

Esta reconsideración de nuestras técnicas habituales es lo que se denomina "modelización por uplifting". Debido a que este enfoque se concentra directamente en el incremento de respuestas debido al efecto de una campaña, es capaz de producir un genuino incremento en el ROI cuando se aplica a actividades típicas de generación de demanda o retención. Además, y reforzando lo anterior, este método permite evitar los efectos negativos tan frecuentes en las campañas de retención en industrias como las telecomunicaciones y los servicios financieros. Por otra parte, este enfoque también es capaz de ayudar a comprender el efecto de campañas que emplean técnicas más elaboradas como las que emplean variaciones de un mismo mensaje o un contacto multi-etapa (todas involucran un diseño experimental más complejo).

El éxito en lograr que sus campañas de marketing sean verdaderamente efectivas y maximicen el ROI está en los detalles de la modelización por uplifting. Este será el tema de una próxima nota. Mientras tanto, si lo anterior lo inquietó, puede ganar tiempo tomando nuestro curso Modelos de lift incremental o recurrir a nuestros consultores especializados. Después de todo el lema de SAS es "The Power to Know".

Acerca de SAS

SAS es una empresa líder en soluciones y servicios de Business Analytics y el mayor proveedor independiente de Business Intelligence del mercado. Con innovadoras aplicaciones, apoyadas por una plataforma de inteligencia empresarial, SAS ayuda a que 45,000 sitios mejoren su desempeño y brinden valor para tomar decisiones de negocio más acertadas con mayor velocidad. Desde 1976, SAS otorga a sus clientes alrededor del mundo THE POWER TO KNOW®.

Más Notas

Copyright © SAS Institute Inc. All Rights Reserved.

Contacto Editorial: