Mit synthetischen Daten AI-Durchbrüche ermöglichen
Es klingt seltsam, aber die zunehmende Verbreitung künstlicher Intelligenz hat in gewisser Weise zu einer Datenknappheit geführt. Es handelt sich dabei nicht um einen Mangel. Die verfügbaren Daten wachsen exponentiell (Schätzungen zufolge wurden 2023 120 Zettabytes an Daten kreiert. Und diese Zahl könnte sich bis 2027 verdoppeln!
Nein, unser aktuelles Datenproblem ist die Eignung, nicht die Quantität. Synthetische Daten – ein Produkt von generativer AI, – könnte die Antwort sein.
In diesem Artikel beleuchten wir die entscheidende Rolle von synthetischen Daten in unseren daten-hungrigen AI-Initiativen, wie Unternehmen Wachstum mit synthetischen Daten generieren können, und welche ethischen Fragen noch nicht geklärt sind.
Was sind synthetische Daten und wozu benötigen wir sie?
Im Prinzip sind synthetische Daten von Algorithmen generierte Spiegelungen realer Daten. Sie können etwa aus 100.000 zufälligen Geburtsdaten bestehen. Einfach.
Meist füllen synthetische Daten aber eine Lücke in Fit-for-Purpose-Daten: 100.000 Geburtsdaten von Frauen, die sich vor kurzem zur Wahl registriert haben. Kompliziert.
Das eigentliche Potenzial synthetischer Daten liegt jedoch in den seltenen Ausreißer-Fällen: etwa ein Datensatz von männlichen Prostata-Krebs-Patienten unter 35 Jahren oder Abbildungen von Verschleißmustern in Kolbenringen aus Bronze. Merken Sie, wohin die Reise geht? Diese Spezifizität, diese Seltenheit, erschwert den Zugang zu solchen Daten und macht die Nutzung in einigen Fällen riskanter.
Fernando Lucini, Chief Data Scientist bei Accenture, erklärt in einem Podcast-Gespräch mit SAS Strategic Advisor Kimberly Nevala, dass synthetische Daten auch beim Datenschutz helfen können. Private persönliche Informationen (PPI) werden im Gesundheitswesen, im öffentlichen Dienst und auch im Einzelhandel gut geschützt. Um PPI vor Zugriffen zu schützen, benötigen wir Ersatzdaten für Analysen.
„Wir bitten (die AI um die Erstellung von ...) Daten mit denselben Mustern aber ohne die Eigenschaften der Original-Daten. In anderen Worten: (synthetische Daten) sind maschinell generierte Reproduktionen – keine Kopien, sondern Faksimiles – von Signalen und Mustern der Original-Daten," so Lucini.
Wichtige Maßeinheiten für Daten:
1 Yottabyte (YB) = 1.000 Zettabytes
1 Zettabyte (ZB) = 1.000 Exabytes
1 Exabyte (EB) = 1.000 Petabytes
1 Petabyte (PB) = 1.000 Terabytes
1 Terabyte (TB) = 1.000 Gigabytes
1 Gigabyte (GB) = 1.000 Megabytes
1 Megabyte (MB) = 1.000 Kilobytes
1 Kilobyte (KB) = 1.000 Bytes
Vorteile von synthetischen Daten
Zugriff auf große, diverse und authentische Daten ist entscheidend für das Training robuster AI-Modelle. Aber angesichts zunehmender Datenschutz-Maßnahmen, rechtlicher Einschränkungen und der hohen Anschaffungs- und Annotationskosten sind solche echten Daten schwer zu bekommen.
Bei der Erstellung synthetischer Daten können Labels und Annotationen bereits berücksichtigt werden – was Kosten und Ressourcen spart. Das funktioniert ohne die Offenlegung sensibler Daten, da die Verbindungen zu echten Personen zur Wahrung der Privatsphäre automatisch gekappt werden.
Sie fragen nach anonymisierten Daten? Edwin van Unen, Principal Customer Advisor bei SAS, sagt, dass Anonymisierung nicht die Antwort ist. Sie ist mühselig, inkonsistent und im Ergebnis unzureichend.
„Ihre qualitativen Mängel machen es beinahe unmöglich, anonymisierte Daten für Aufgaben im Bereich erweiterte Analysen, wie AI, maschinelle Lern-Modelle oder Dashboarding zu nutzen,“ so van Unen.
Synthetische Daten sind ein Gamechanger. Sie spiegeln die statistischen Eigenschaften und Korrelationen der originalen Daten. Das macht die Datensätze extrem nützlich für Tests und für das Training präziser Vorhersagemodelle, ohne sensible Daten manuell verbergen zu müssen. Dieser Ansatz mit einem „synthetischen Zwilling“ senkt die Voreingenommenheit und erreicht fast perfekte Anonymität.
Infografik
Warum synthetische Daten in der AI-gestützten Zukunft Ihres Unternehmens eine entscheidende Rolle spielen
Blick auf vier grundlegende Arten von synthetischen Daten und wie sie häufig genutzt werden
- Synthetisch strukturierte Daten repräsentieren Personen, Produkte und andere Entitäten und ihre Aktivitäten oder Eigenschaften – etwa Kund:innen und ihre Kaufgewohnheiten, Patient:innen und ihre Symptome oder auch Medikamente und Diagnosen.
- Synthetische Bilder spielen eine wichtige Rolle für das Training von Objekterkennung, Bilderklassifizierung und -segmentierung. Diese Bilder können für die Krebsfrüherkennung, Medikamentenentwicklung und klinische Studien oder das Training selbstfahrender Autos genutzt werden. Synthetische Bilder sind nützlich bei Ausreißern wie horizontal ausgerichtete Verkehrsampeln, wo wenig Daten zur Verfügung stehen.
- Synthetische Texte können zur Unterstützung von robusten, vielseitigen Modellen zur Verarbeitung natürlicher Sprache (Natural Language Processing, NLP), Tonalitätsanalysen und Textgenerierung etwa für Betrugserkennung und Stresstests angepasst werden.
- Synthetische Zeitreihendaten (etwa Sensordaten) können für Radarsysteme, IoT-Sensor-Auslesung oder Light Detection and Ranging genutzt werden. Sie helfen bei der Entwicklung von Vorhersagesystemen für die Wartung und für selbstfahrende Fahrzeuge, wo mehr Daten mehr Sicherheit und Zuverlässigkeit bedeuten.
SAS® Data Maker – Jetzt als Vorschau verfügbar
Schützen Sie Daten, beschleunigen Sie die Innovation und sorgen Sie für skalierbare Ergebnisse mit einer Low-Code/No-Code-Schnittstelle für die schnelle Erweiterung oder Erstellung von Daten. Schöpfen Sie mit SAS Data Maker das Potenzial vorhandener Daten aus.
Synthetische Daten erstellen: Brauche ich SMOTE oder GAN?
Die Erstellung von Daten mit Geschäftsregeln und Geschäftslogik ist nichts Neues. AI steigert die Genauigkeit der Datengenerierung – mit Algorithmen, die anhand existierender Daten automatisch passende Werte und Beziehungen modellieren.
Zwei verbreitete AI-Methoden zur Generierung synthetischer Daten sind:
- Synthetic Minority Oversampling Techniques (SMOTE).
- Generative adversarial Network (GAN).
SMOTE ist eine intelligente Interpolationsmethode. Sie erstellt in realen Datensätzen Datenpunkte zwischen zufälligen Punkten und ihren nächsten Nachbarn. Auf diese Weise können Sie sich mit SMOTE auf relevante Punkte wie etwa unterrepräsentierte Fälle konzentrieren und ähnliche Punkte generieren, um den Datensatz auszubalancieren und die Genauigkeit der Vorhersagemodelle zu verbessern.
GAN hingegen ist eine Methode, die ein fortgeschrittenes Deep-Learning-Modell auf die Erstellung von Daten zur Repräsentation der Original-Daten trainiert. Ein GAN besteht aus zwei neuronalen Netzen: einem Generator zur Erstellung synthetischer Daten und einem Diskriminator, der versucht, sie zu erkennen. Diese iterative, kontradiktorische Beziehung bringt zunehemend realistische synthetische Daten hervor – der Diskriminator ist kaum noch in der Lage, die synthetischen unter den realen Daten auszumachen. Das Training kann zeitaufwendig sein und benötigt oft Grafikprozessoren (GPUs), aber es ermöglicht die Erfassung stark nonlinearer, komplexer Beziehungen zwischen Variablen und bringt sehr genaue synthetische Daten hervor. Zudem ermöglicht es die Erstellung von Daten an der Grenze der originalen Daten oder darüber hinaus, wodurch potenziell neuartige Daten repräsentiert werden, die sonst vernachlässigt worden wären.
Ein Test: Synthetische Daten vs. anonymisierte Daten
SAS und ein Partnerunternehmen haben mit einem realen Telecom-Datensatz zur Kundenabwanderung den Wert synthetischer Daten als Alternative zu anonymisierten Daten getestet (Blog-Post lesen: Mit AI-generierten synthetische Daten schnell über hochwertige Daten verfügen). Van Unen erklärt, dass das Team das Ergebnis im Hinblick auf Data Quality, rechtliche Gültigkeit und Nutzbarkeit untersucht hat.
Was sie herausfanden:
- Synthetische Daten wahren die statistischen Eigenschaften und Geschäftslogik der originalen Daten, auch „tief versteckte statistische Muster“. Bei der Datenanonymisierung werden solche tiefer liegenden Korrelationen hingegen zerstört.
- Modelle auf Basis synthetischer Daten sind bei der Vorhersage der Kundenabwanderung ähnlich zuverlässig, wie die mit den Originaldaten trainierten Modelle. Modelle auf Basis anonymisierter Daten schnitten hingegen schlecht ab.
- Synthetische Daten können für das Training von Modellen genauso eingesetzt werden, wie für das Verstehen zentraler Dateneigenschaften – dabei wahren sie den Datenschutz, indem sie den Zugriff auf die Originaldaten verhindern.
- Die Prozesse zur Generierung synthetischer Daten sind reproduzierbar. Anonymisierung hingegen ist variabel, inkonsistent und aufwendiger.
„Diese Fallstudie stützt den Gedanken, dass AI-generierte synthetische Daten schnell und einfach Zugriff auf hochwertige Daten für Analysen und die Modellentwicklung ermöglichen“, bestätigt van Unen. „Die integrierten Datenschutzmechanismen ermöglichen agilere Analysen, Tests und Entwicklung.“
Wir müssen synthetische Daten mit äußerster Vorsicht behandeln, um unbeabsichtigte Konsequenzen zu vermeiden. Natalya Spicer Synthetic Data Product Manager SAS
Ethische Überlegungen zu synthetischen Daten
Während synthetische Daten sich immer weiter verbreiten, wird auch die Zahl synthetischer Data Vaults steigen. Diese geteilten Datenspeicher werden die Zusammenarbeit, die Demokratisierung von Daten und die Verknüpfung von Ideen stärken. Sie haben jedoch das Potenzial, die Voreingenommenheit von Daten zu verstärken, Datenschutzbrüche zu verbergen und unfaire Datennutzung zu verstetigen.
Anders als viele denken, so Lucini, sind synthetische Daten von sich aus weder privat noch wahren sie den Datenschutz. Werden sie ohne angemessene Kontrollen und Tests implementiert, kann die Erstellung synthetischer Daten trotzdem zu Datenschutzverletzungen führen.
„Generative Modelle sind oft wie eine Art Black Box. Um ihre verantwortliche Nutzung sicherzustellen, benötigen sie rigorose Prüfung, deren Entwicklung die Branche derzeit noch nicht abgeschlossen hat. Wir müssen synthetische Daten daher mit größter Vorsicht behandeln, um ungewollte Konsequenzen zu vermeiden", sagt Natalya Spicer, eine Synthetic Data Product Managerin bei SAS.
Das Recht auf Datenschutz ist schwarz-weiß – wir können es regulieren, Regeln dazu entwickeln und uns alle an die Einhaltung dieser Regeln binden. Fairness und Bias lassen sich jedoch nicht so leicht regulieren. Werden solch subjektive Entscheidungen Individuen überlassen, kann das nachhaltige Konsequenzen nach sich ziehen. Wir benötigen also Governance auf Unternehmensebene, bis Regierungen umfassendere Regularien entwickelt haben.
„Wir haben SAS® Viya® als Unternehmensplattform für die verantwortungsvolle Nutzung von Daten und Analysen entwickelt, da diese bei der schnellen Entwicklung von AI und synthetischen Daten entscheidend ist", so Spicer. „SAS Viya bietet umfassende Trackingfunktionen des Modellentwicklungsprozesses, bis hin zu den Rohdaten und den Modellen, anhand derer ihre Genauigkeit analysiert wird."
Die Zukunft synthetischer Daten und AI
Im Zuge der Weiterentwicklung von künstlicher Intelligenz und Data Science kommt synthetischen Daten eine wachsende Bedeutung zu. Die Synergie zwischen synthetischen Daten und neuen Methoden wird es uns ermöglichen, noch differenziertere und realistischere Datensätze zu entwickeln und so die Grenzen des Möglichen weiter zu verschieben.
Mit der wachsenden Nutzung synthetischer Daten wächst die Bedeutung von Governance. Unternehmen benötigen robuste Governance-Systeme, Data Auditing-Maßnahmen und klare Kommunikation zu Limitationen und angemessenen Anwendungsfällen für synthetische Daten. Regularien für das Labeling und die Identifizierung der Nutzung von synthetischen Daten wird ebenso entscheidend sein, um Missbrauch und Missverständnisse zu vermeiden. Indem wir das Potenzial synthetischer Daten anerkennen, können Data Scientists neue Innovationsräume erschließen, robustere und zuverlässigere AI-Modelle entwickeln und Transformationen anstoßen, die unsere Welt verbessern.
Sind Sie bereit, Insights zu abonnieren?
Literaturempfehlungen
- Intelligent policing: Data visualization helps crack down on crimeLearn how data visualization can give police real-time views of locations enriched with other data to help them make intelligent, fact-based decisions.
- Shut the front door on insurance application fraud!Fraudsters love the ease of plying their trade over digital channels. Smart insurance companies are using data from those channels (device fingerprint, IP address, geolocation, etc.) coupled with analytics and machine learning to detect insurance application fraud perpetrated by agents, customers and fraud rings.
- 3 ways to rethink retail forecasting and demand planning The pandemic has profoundly changed consumer shopping behaviors and experiences and the increasing pressure has retailers scrambling to improve their ability to precisely predict and plan for demand. If you don’t know where to start, here are three questions to ask as you rethink your forecasting and demand planning.