Datos sintéticos para impulsar avances de IA

Es difícil de creer, pero el auge de la inteligencia artificial ha creado, en cierto modo, escasez de datos. No es una escasez en sí. Tenemos una cantidad asombrosa de datos que crece exponencialmente (se calcula que en 2023 se crearán 120 zettabytes). ¡Y esta cifra podría ser más del doble de aquí a 2027!

No, nuestro problema de datos actual es la viabilidad, no la cantidad. Los datos sintéticos , producto de la IA generativa , pueden ser la respuesta.

En este artículo hablaremos del lugar vital que ocupan los datos sintéticos en nuestras iniciativas de IA hambrientas de datos, de cómo las empresas pueden utilizar los datos sintéticos para desbloquear el crecimiento y de los retos éticos que aún quedan por resolver.

¿Qué son los datos sintéticos? ¿Y por qué los necesitamos?

En pocas palabras, los datos sintéticos son datos generados algorítmicamente que imitan los datos del mundo real. Podrían generarse aleatoriamente: 100 000 fechas de nacimiento. Fácil.

Por lo general, sin embargo, los datos sintéticos llenan un vacío en los datos aptos para un fin determinado: 100 000 fechas de nacimiento de mujeres que se registraron recientemente para votar. Difícil.

Sin embargo, el verdadero punto fuerte de los datos sintéticos se encuentra en los raros casos límite: un conjunto de datos de pacientes varones con cáncer de próstata menores de 35 años o imágenes de patrones de desgaste en anillos de pistón de bronce, por ejemplo. ¿Ves adónde va esto? Esa especificidad, esa rareza, hace que los datos sean más difíciles de obtener y, en algunos casos, más arriesgados de utilizar.

Fernando Lucini, Jefe de Científicos de Datos de Accenture, explica en una conversación de podcast con Kimberly Nevala, asesora estratégica de SAS, que los datos sintéticos también pueden ayudar con la privacidad de los datos. La información personal privada (IPP o PPI en inglés) está estrechamente vigilada en la sanidad, el sector público e incluso el comercio minorista. Cuando no podemos arriesgarnos a exponer la IPP, necesitamos datos de sustitución para analizar.

«Pedimos (a la IA que cree...) datos con los mismos patrones pero ninguna de las características de los datos originales. En términos sencillos, (los datos sintéticos) son datos generados por máquinas que son un facsímil —no una copia, sino un facsímil— de las señales y patrones de los datos originales», explica Lucini.

Equivalentes de datos clave:

1 yottabyte (YB) = 1000 zettabytes

1 zettabyte (ZB) = 1000 exabytes

1 exabyte (EB) = 1000 petabytes

1 petabyte (PB) = 1000 terabytes

1 terabyte (TB) = 1000 gigabytes

1 gigabyte (GB) = 1000 megabytes

1 megabyte (MB) = 1000 kilobytes

1 kilobyte (KB) = 1000 bytes

Ventajas de los datos sintéticos

El acceso a datos diversos y auténticos resulta crucial para entrenar modelos sólidos de IA. Sin embargo, obtener ese tipo de datos del mundo real puede resultar difícil, dadas las crecientes preocupaciones por la privacidad, las restricciones legales y los elevados costes de adquisición y anotación de datos.

Los datos sintéticos pueden crearse con etiquetas y anotaciones ya incorporadas, lo que ahorra tiempo y recursos, y sin exponer información sensible, ya que se han eliminado los vínculos con personas reales para garantizar la privacidad de los datos.

¿Y qué pasa con los datos anónimos? Según Edwin van Unen, Principal Customer Advisor de SAS, la anonimización tampoco es la solución. Es inadecuada, laboriosa e incoherente.

«Su escasa calidad hace que sea casi imposible utilizarla para tareas analíticas avanzadas, como el modelado de IA o aprendizaje automático y la creación de cuadros de mando», explica van Unen.

Los datos sintéticos cambian las reglas del juego. Reflejan las propiedades y correlaciones estadísticas originales. Los conjuntos de datos son muy útiles para probar y entrenar modelos predictivos precisos sin necesidad de enmascarar información sensible. Este enfoque de «gemelos sintéticos» ayuda a contrarrestar los sesgos y logra un anonimato casi perfecto.

Cuatro tipos básicos de datos sintéticos y su uso habitual

Los datos estructurados sintéticos representan a personas, productos y otras entidades y sus actividades o atributos, como los clientes y sus hábitos de compra, o los pacientes y sus síntomas, medicamentos y diagnósticos.
Las imágenes sintéticas son cruciales para entrenar la detección de objetos, la clasificación de imágenes y la segmentación. Estas imágenes son útiles para la detección precoz del cáncer, el descubrimiento de fármacos y los ensayos clínicos, o la enseñanza de coches autoconducidos. Las imágenes sintéticas pueden utilizarse para casos poco frecuentes en los que se dispone de pocos datos, como las señales de tráfico orientadas horizontalmente.
El texto sintético puede adaptarse para habilitar modelos de procesamiento del lenguaje natural (PLN) robustos y versátiles para la traducción de modelos, el análisis de sentimiento y la generación de textos para aplicaciones como la detección de fraude y stress testing.
Los datos de series temporales sintéticas (incluidos los datos de sensores) pueden utilizarse en sistemas de radar, lecturas de sensores IoT y detección y alcance de luz. Puede ser valioso para el mantenimiento predictivo y los sistemas de vehículos autónomos, donde más datos pueden garantizar la seguridad y la fiabilidad.

SAS^® Data Maker - Ahora en vista previa

Protege los datos existentes, innova más rápido y garantiza resultados escalables utilizando una interfaz de bajo código/sin código para aumentar o generar datos rápidamente. Libera el potencial de los datos existentes con SAS Data Maker.

Más información

Captura de pantalla de SAS Data Maker - observaciones

Creación de datos sintéticos: cuándo utilizar SMOTE frente a GAN

Generar datos con reglas de negocio y lógica de negocios no es un concepto nuevo. La IA añade una capa de precisión a la generación de datos mediante la introducción de algoritmos que pueden utilizar los datos existentes para modelar automáticamente los valores y relaciones adecuados.

Dos técnicas populares de IA para generar datos sintéticos son:

Técnica de sobremuestreo sintético de minorías (SMOTE).
Redes antagónicas generativas (GAN).

SMOTE es una técnica de interpolación inteligente. Funciona utilizando una muestra de datos reales y generando puntos de datos entre puntos aleatorios y sus vecinos más cercanos. De este modo, SMOTE permite centrarse en puntos de interés, como las clases infrarrepresentadas, y crear puntos similares para equilibrar el conjunto de datos y mejorar la precisión general en los modelos predictivos.

GAN, por su parte, es una técnica que genera datos entrenando un sofisticado modelo de aprendizaje profundo para representar los datos originales. Una GAN está formada por dos redes neuronales: un generador para crear datos sintéticos y un discriminador que intenta detectarlos. Esta relación adversarial iterativa produce datos sintéticos cada vez más realistas, ya que el discriminador, en última instancia, no puede diferenciar fácilmente los datos sintéticos de los reales. El proceso de entrenamiento puede llevar mucho tiempo y a menudo requiere unidades de procesamiento gráfico (GPUs), pero puede captar relaciones altamente no lineales y complejas entre variables y producir así datos sintéticos muy precisos. También puede generar datos en los límites de los datos originales o más allá de ellos, representando potencialmente datos novedosos que de otro modo se pasarían por alto.

Una prueba: datos sintéticos frente a datos anónimos

SAS y un socio probaron la viabilidad de los datos sintéticos como alternativa a los datos anónimos utilizando un conjunto de datos de bajas de clientes de telecomunicaciones del mundo real (lea la entrada del blog, «Uso de datos sintéticos generados por IA para acceder fácil y rápidamente a datos de alta calidad»)). Van Unen explicó que el equipo evaluó el resultado en función de la calidad de los datos, la validez jurídica y la facilidad de uso.

Lo que descubrieron:

Los datos sintéticos conservaron las propiedades estadísticas y la lógica empresarial originales, incluidos los «patrones estadísticos ocultos profundos». Comparativamente, la anonimización destruyó las correlaciones subyacentes.
Los modelos de datos sintéticos predijeron la rotación de forma similar a los entrenados con los datos originales. Al mismo tiempo, los modelos de datos anonimizados obtuvieron malos resultados.
Los datos sintéticos pueden utilizarse para entrenar modelos y comprender las características clave de los datos, protegiendo la privacidad al reducir e impedir el acceso a los datos originales.
Los procesos de generación de datos sintéticos son reproducibles. La anonimización es variable, incoherente y más manual.

«Este estudio de caso refuerza la idea de que los datos sintéticos generados por IA proporcionan un acceso rápido y sencillo a datos de alta calidad para el análisis y el desarrollo de modelos», afirma van Unen. «Su enfoque de privacidad por diseño agiliza el análisis, las pruebas y el desarrollo».

Debemos abordar los datos sintéticos con sumo cuidado para evitar consecuencias imprevistas. Natalya Spicer Synthetic Data Product Manager SAS

Consideraciones éticas sobre los datos sintéticos

A medida que se generalice el uso de datos sintéticos, también lo harán las bóvedas de datos. Estos repositorios compartidos fomentarán la colaboración, la democratización de los datos y la polinización cruzada de ideas. Sin embargo, sin darse cuenta, podrían respaldar prejuicios, ocultar infracciones contra la privacidad de datos y perpetuar prácticas desleales en materia de datos.

En contra de la creencia popular, sostiene Lucini, los datos sintéticos no son automáticamente privados ni preservan la privacidad. Si no se aplican los controles y pruebas adecuados, la generación de datos sintéticos puede dar lugar a fugas de privacidad.

Los modelos generativos pueden ser una 'caja negra'. Para garantizar un uso responsable, requieren una validación rigurosa, que la industria aún no ha desarrollado plenamente. Tenemos que abordar los datos sintéticos con mucho cuidado para evitar consecuencias imprevistas», afirma Natalya Spicer, jefa de Producto de Datos Sintéticos de SAS.

El derecho a la privacidad es blanco y negro: podemos regularlo, ponerle normas, y todo el mundo puede someterse a ellas. La imparcialidad y la parcialidad no son tan sencillas de regular. Si esas decisiones subjetivas se dejan en manos de las personas, esto podría tener consecuencias a largo plazo. Por ello necesitamos una gobernanza a nivel empresarial hasta que haya una normativa gubernamental integral.

«Hemos construido SAS^® Viya^® para que sirva de plataforma empresarial para el uso conforme de los datos y la analítica, algo crucial con la aceleración de la IA y los datos sintéticos», afirma Spicer. «SAS Viya ofrece una trazabilidad completa de la creación de los modelos, desde los datos brutos hasta los modelos utilizados para analizar su precisión».

El futuro de los datos sintéticos y de la IA

A medida que avancen la inteligencia artificial y la ciencia de datos, los datos sintéticos serán cada vez más importantes. La sinergia entre los datos sintéticos y las técnicas emergentes permitirá crear conjuntos de datos sintéticos aún más sofisticados y realistas, ampliando aún más los límites de lo posible.

La gobernanza desempeñará un papel importante a medida que evolucione el uso de datos sintéticos. Las organizaciones deben implantar marcos de gobernanza sólidos, prácticas de auditoría de datos y una comunicación clara sobre las limitaciones y los casos de uso adecuados de los datos sintéticos. Las políticas de etiquetado e identificación del uso de datos sintéticos también serán cruciales para evitar usos indebidos y malentendidos. Al adoptar el poder de los datos sintéticos, los científicos de datos pueden desbloquear nuevas fronteras de innovación, desarrollar modelos de IA más sólidos y fiables e impulsar una transformación que repercuta positivamente en nuestro mundo.