Detección de fraude y machine learning:
qué necesitas saber
La detección de fraudes es un problema de difícil solución. Las transacciones fraudulentas suelen ser la excepción; representan una fracción muy pequeña de la actividad dentro de una organización. Sin embargo, un pequeño porcentaje de actividad puede llegar a suponer en grandes pérdidas si no se cuenta con las herramientas y los sistemas adecuados. Los delincuentes son astutos. Como las estrategias de fraude tradicionales no dan resultados, los estafadores han aprendido a cambiar sus tácticas. La buena noticia es que con los avances en la analítica del fraude, los sistemas pueden aprender, adaptarse y desvelar nuevos sistemas emergentes para prevenir el fraude.
La mayoría de las organizaciones sigue utilizando sistemas basados en normas como su herramienta principal para la detección de fraudes. Las normas pueden hacer un excelente trabajo a la hora de descubrir patrones conocidos, pero por sí solas no son muy efectivas para desvelar estrategias desconocidas, adaptarse a nuevos patrones de fraude o manejar las técnicas cada vez más sofisticadas de los estafadores. Es en este punto en el que la analítica de fraude, impulsado por el machine learning, se vuelve necesario para la prevención y detección de fraude.
En la actualidad el machine learning está viviendo un momento de auge. La mayoría de los proveedores afirman que disponen de algún tipo de machine learning, especialmente para la detección de fraudes. SAS ha sido pionero en machine learning desde la década de 1980, cuando se utilizaron por primera vez redes neuronales para combatir el fraude con tarjetas de crédito. Sin embargo, el hecho de que nos hayamos dedicado al machine learning y la analítica del fraude durante tanto tiempo no significa que nos hayamos dormido en los laureles. Todo lo contrario.
Datos: elementos esenciales para unos buenos sistemas de machine learning
Los conjuntos de datos son cada vez más grandes y, a medida que aumentan los volúmenes, también lo hace el desafío de detectar el fraude. De hecho, los datos son clave cuando se trata de construir sistemas de machine learning. El dicho de que más datos equivalen a mejores modelos es cierto cuando se trata de la detección de fraude. Los profesionales necesitan que su plataforma de machine learning vaya escalando a medida que aumentan los datos y la complejidad. Si bien las herramientas académicas a menudo funcionan bien con miles de registros y unos pocos megabytes de datos, los problemas del mundo real se miden en gigabytes o incluso terabytes de datos.
Las ventajas de la multiplicidad
No existe un único algoritmo o método de machine learning que funcione. El éxito proviene de la capacidad de probar muchos métodos diferentes basados en el machine learning, poner a prueba sus variaciones y utilizarlos con una variedad de conjuntos de datos. El científico de datos necesita un conjunto de herramientas con una variedad de métodos supervisados y no supervisados, así como una diversidad de técnicas de ingeniería de características. Por último, existe un aspecto creativo o «arte» en el machine learning para la detección de fraude. Se trata de aplicar analítica de fraude de formas nuevas e innovadoras, como combinar una variedad de métodos de machine learning supervisados y no supervisados en un solo sistema para ser más eficaz que cualquier método por sí solo.
Informe comparativo de tecnología antifraude
Según una encuesta de ACFE y SAS, es probable que el uso de inteligencia artificial (IA) y machine learning en programas antifraude se triplique en los próximos dos años. Explora cómo las organizaciones están combatiendo las tendencias crecientes de fraude con estas tecnologías y otras, incluidos analítica tradicional, inteligencia artificial generativa, herramientas de gestión de casos y biometría.
Descarga el informe
Integración en las operaciones
Debería ser obvio, pero este es un desafío para las iniciativas de analítica de fraude de muchas organizaciones. Una vez que se desarrolla un modelo de machine learning, el desafío consiste en integrarlo con las operaciones. Si tus datos están en la nube, tiene sentido que tu modelo de machine learning se integre con tu almacenamiento en la nube y tu cómputo en la nube. De manera similar, si tus datos se transmiten desde el borde, necesitarás un motor de machine learning que admita la transmisión de datos en tiempo real. La portabilidad del modelo y la integración de la lógica de decisión dentro de los sistemas operativos son fundamentales para detener el fraude a gran escala y a medida que ocurre a gran escala.
Caja blanca («WhiteBox»)
Explicar lo que hace un sistema de machine learning es fundamental; esto a menudo se conoce como «caja blanca», o «WhiteBox» (en inglés). Los métodos y modelos de machine learning son generalmente cajas negras. Es muy difícil (si no imposible) explicar a los analistas por qué obtuvieron una puntuación o la decisión que recibieron. Existen muchos enfoques para hacer que la analítica de fraude sea interpretable, incluidos cuadros de mando basados en aproximación lineal local, generación de narrativas textuales y generación de visualizaciones de datos gráficas. Estas son aproximaciones, pero pueden brindar a los usuarios información sobre el modelo de machine learning y guiar el proceso de investigación de fraude.
Monitoreo continuado
Todo cambia y su analítica de fraude deben adaptarse a medida que pasa el tiempo. La monitorización continuada de los sistemas de detección de fraude mediante machine learning es imprescindible para alcanzar el éxito. A medida que cambian las poblaciones y los datos subyacentes, se degradan las entradas esperadas del sistema y, por lo tanto, tienen un impacto en el rendimiento general. Esto no es exclusivo de los sistemas de machine learning; los sistemas basados en reglas deben enfrentarse al mismo desafío. Sin embargo, los métodos de machine learning más recientes pueden adaptarse a patrones nuevos y no identificados a medida que se dan cambios subyacentes. Esto elimina algunos de los pasos de evaluación y reentrenamiento del machine learning, pero no todos.
Un buen programa de monitoreo se basa en un enfoque proactivo. Porque analiza los datos que introducen al sistema, evalúa las predicciones y explicaciones del modelo de machine learning y alerta a los administradores sobre cambios en las tendencias y estadísticas de los datos antes de que los cambios drásticos afecten a las operaciones y al resultado final.
¿Y qué impacto tiene esto en sus clientes?
Para una institución financiera, combatir los casos de fraude era un desafío. Tenía que identificar transacciones maliciosas, pero también mantener un servicio al cliente de calidad. Un esfuerzo en la vigilancia y detección del fraude no puede resultar intrusivo para el cliente si marca – y rechaza – transacciones legítimas.
Esta institución financiera quería modernizar su sistema de detección de fraude basado en reglas y lograr un equilibrio entre la supervisión y el servicio al cliente. Para ello, trabajó con SAS para implementar una solución de detección de fraude basada en machine learning que saca provecho de un conjunto de redes neuronales para crear dos puntuaciones de fraude diferentes:
- Una puntuación de fraude primaria que evalúa la probabilidad de que una cuenta se encuentre en un estado fraudulento.
- Una puntuación transaccional que evalúa la probabilidad de que una transacción individual sea fraudulenta.
Haciendo uso de este enfoque, la institución financiera pudo identificar correctamente cerca de un millón de dólares en transacciones mensuales que habían sido identificadas erróneamente como fraude. Además, identificó 1.5 millones de dólares adicionales por mes en otros fraudes que anteriormente no habían sido detectados. Aparte de mejorar drásticamente la capacidad de la empresa para detectar fraudes, la solución de analítica aumentó significativamente la satisfacción del cliente. ¿Cómo? Al mejorar el proceso de aprobación de transacciones y aumentar la eficacia de la detección de fraude se redujo enormemente la fricción entre la empresa y sus clientes.
Existe un aspecto creativo o «arte» en el machine learning para la detección de fraude. Se trata de aplicar analítica de fraude de formas nuevas e innovadoras, como combinar una variedad de métodos de machine learning supervisados y no supervisados en un solo sistema para ser más eficaz que cualquier método por sí solo.
Piensa saliéndote del molde
Finalmente, los programas de machine learning exitosos tienen un elemento de experimentación continua. No basta simplemente con construir un modelo de machine learning y dejar que funcione. Los estafadores son inteligentes y la tecnología cambia rápidamente. Disponer de un entorno de pruebas donde los científicos de datos puedan experimentar libremente con una variedad de métodos, datos y técnicas para combatir el fraude se ha convertido en un aspecto fundamental de los principales programas de analítica de fraude. Las inversiones en el aumento de la capacidad de los científicos de datos que combaten el fraude tienen un retorno casi inmediato.
¿Quieres saber más sobre el machine learning?
En pocas palabras, el machine learning automatiza la extracción de patrones conocidos y desconocidos de los datos. Expresa esos patrones como una fórmula o un conjunto de instrucciones que pueden aplicarse a datos nuevos o que pasan desapercibidos. La máquina aprende y se adapta a medida que se le presentan resultados y patrones nuevos, y puede ser supervisada o no supervisada.
El machine learning supervisado es una clase de métodos analíticos que intentan aprender de registros identificados en los datos; a menudo se los denomina datos etiquetados. Para entrenar un modelo supervisado, se presentan registros fraudulentos y no fraudulentos, y a continuación el modelo intenta inferir una función o un conjunto de instrucciones que permita predecir si hay fraude al aplicarlo a nuevos ejemplos. Los métodos comunes de machine learning supervisado incluyen regresión logística, redes neuronales, árboles de decisión, máquinas de impulso de gradiente, bosques aleatorios de árboles, máquinas de vectores de soporte y muchos más.
El machine learning no supervisado es diferente. Como no sabes qué datos son fraudulentos, lo que quieres es que el modelo cree una función que describa la estructura de los datos. De esta forma, el modelo marca cualquier cosa que no se ajuste al modelo como una anomalía.
Para entrenar un modelo no supervisado, simplemente se le presentan datos y el modelo intenta inferir una función o un conjunto de instrucciones que describe la estructura y las dimensiones subyacentes de los datos. Esta función o conjunto de instrucciones se puede aplicar luego a datos nuevos e invisibles.
El desafío con los métodos no supervisados es que a menudo es difícil evaluar la precisión del esquema de detección hasta que los datos hayan sido procesados y verificados manualmente. Los métodos comunes de machine learning no supervisado incluyen mapas autoorganizados, k-means, DBSCAN, estimaciones de densidad de kernel, máquinas de vectores de soporte de una clase, analítica de componentes principales y muchos más.
Paso a la inteligencia artificial
Hemos recorrido un largo camino desde el análisis estadístico hasta el machine learning y la inteligencia artificial. Y la ola está ganando velocidad. Descubre la forma en la que SAS puede ayudarte a combatir el fraude a través de la detección proactiva basada en analítica avanzada, machine learning y técnicas de inteligencia artificial.
Lecturas recomendadas
- Artículo ¿Qué son las alucinaciones de IA?Separar la realidad de la ficción generada por la IA puede ser difícil. Aprende cómo los grandes modelos lingüísticos pueden fallar y conducir a alucinaciones de IA y descubre cómo utilizar la GenAI de forma responsable.
- Artículo Next generation anti-money laundering: robotics, semantic analysis and AIAdding AI and machine learning to your anti-money laundering program can combat rising compliance pressures, complexity and risks. Learn about the results innovative financial institutions around the globe are getting from next-generation AML.
- Artículo Are you covering who you think you’re covering? Payers often don't focus enough on healthcare beneficiary fraud in public and private healthcare plans. Before paying a claim, payers need to ensure beneficiaries are eligible. Advanced analytics applied to a broad range of data can help them accurately detect and prevent beneficiary fraud.
- Artículo Detecting health care claims fraudHealth care claims fraud could represent as much as 10 percent of total claims cost. Learn how to fight back with analytics.