Learn more Learn more about SAS Data Maker software

Hvad er syntetiske data?

Og hvordan kan du bruge dem til at skabe AI-gennembrud?

Hvilke faktorer driver efterspørgslen efter syntetiske data på tværs af brancher? Og hvilke risici og fordele er der ved at bruge syntetiske data til beslutningstagning? I denne artikel diskuterer vi syntetiske datas vigtige plads i vores datahungrende AI-initiativer, hvordan virksomheder kan bruge syntetiske data til at frigøre vækst og de etiske udfordringer, der endnu ikke er løst.

Det er svært at tro, men den stigende brug af kunstig intelligens har på en måde skabt knaphed på data. Ikke en mangel i sig selv. Vi har en forbløffende mængde data, som vokser eksponentielt (estimater viser at der blev skabt 120 zettabytes i 2023). Og det tal kan mere end fordobles i 2027!

Nej, vores nuværende dataproblem er egnethed, ikke mængde. Syntetiske data – et produkt af generativ AI – kan være svaret på det.

Syntetiske data bliver mainstream

Syntetiske data kan hjælpe organisationer med at forbedre produktiviteten og sænke omkostningerne til AI-udvikling. Se denne forklaringsvideo, hvor Brett Wujek - der leder produktstrategien for næste generations AI-teknologier hos SAS - beskriver den nuværende tilstand for syntetiske data og deres potentiale for fremtiden.

Hvad er syntetiske data? Og hvorfor har vi brug for dem?

Kort sagt er syntetiske data algoritmisk genererede data, der efterligner data fra den virkelige verden. Det kan for eksempel dreje sig om 100.000 tilfældigt genererede fødselsdatoer. Det er nemt.

Normalt udfylder syntetiske data dog et hul i data, der passer til formålet: 100.000 fødselsdatoer på kvinder, der for nylig har ladet sig registrere som vælgere. Det er svært.

Det er især i de usædvanlige og grænsetilfælde, at syntetiske data virkelig viser deres værdi: Et datasæt med mandlige prostatakræftpatienter under 35 år eller billeder af slidmønstre i bronzestempler, for eksempel. Kan du se, hvor det bærer hen? Denne specificering - denne sjældenhed - gør dataene sværere at få fat i og i nogle tilfælde mere risikable at bruge.

Accentures Chief Data Scientist Fernando Lucini forklarer i en  podcast-samtale med SAS' strategiske rådgiver Kimberly Nevala,  at syntetiske data også kan hjælpe med datasikkerhed. Private personlige oplysninger (PPI) beskyttes nøje i sundhedsvæsenet, den offentlige sektor og endda i detailhandlen. Når vi ikke kan risikere at afsløre PPI, har vi brug for erstatningsdata til at analysere.

"Vi beder (AI om at skabe ...) data med de samme mønstre, men ingen af de oprindelige datas egenskaber. Kort fortalt er (syntetiske data) maskin-genererede data, der udgør en faksimile – ikke en direkte kopi, men en tro gengivelse – af mønstre og signaler i de oprindelige data, forklarer Lucini.

Key data equivalents:

1 yottabyte (YB) = 1,000 zettabytes

1 zettabyte (ZB) = 1,000 exabytes

1 exabyte (EB) = 1,000 petabytes

1 petabyte (PB) = 1,000 terabyte

1 terabyte (TB) = 1,000 gigabyte

1 gigabyte (GB) = 1,000 megabyte

1 megabyte (MB) = 1,000 kilobyte

1 kilobyte (KB) = 1,000 bytes

Fordele ved syntetiske data

Adgang til store, forskelligartede og autentiske data er afgørende for at træne robuste AI-modeller. Men det kan være svært at få fat i den slags data fra den virkelige verden på grund af stigende bekymringer om privatlivets fred, juridiske begrænsninger og høje omkostninger til dataindsamling og -annotation.

Syntetiske data kan oprettes med etiketter og kommentarer, der allerede er indbygget - hvilket sparer tid og ressourcer - og uden at afsløre følsomme oplysninger, fordi forbindelserne til rigtige personer er blevet afbrudt for at sikre indbygget databeskyttelse.

Hvad med anonymiserede data, spørger du? Ifølge Edwin van Unen, SAS Principal Customer Advisor, er anonymisering heller ikke svaret. Den er utilstrækkelig, besværlig og inkonsekvent.

"Den dårlige kvalitet gør det næsten umuligt at bruge dem til avancerede analyseopgaver som AI eller maskinlæringsmodellering og dashboarding", forklarer van Unen.

Syntetiske data ændrer spillet her. Det afspejler de oprindelige statistiske overnatningssteder og sammenhænge. Datasættene er meget nyttige til at teste og træne præcise forudsigelsesmodeller uden behov for at maskere følsomme oplysninger. Denne "syntetiske tvilling"-tilgang hjælper med at modvirke bias og opnår næsten perfekt anonymitet.

Et kig på fire grundlæggende typer af syntetiske data, og hvordan de ofte bruges

Syntetiske strukturerede data repræsenterer personer, produkter og andre enheder og deres aktiviteter eller egenskaber - herunder kunder og deres købsvaner eller patienter og deres symptomer, medicin og diagnoser.
Syntetiske billeder afgørende for træning af objektdetektering, billedklassificering og segmentering. Disse billeder er nyttige til tidlig opdagelse af kræft, opdagelse af lægemidler og kliniske forsøg eller undervisning i selvkørende biler. Syntetiske billeder kan bruges til sjældne tilfælde, hvor der kun er få data til rådighed, f.eks. horisontalt orienterede trafiksignaler.
Syntetisk tekst kan skræddersys til at muliggøre robuste, alsidige NLP-modeller (Natural Language Processing) til oversættelse, sentimentanalyse og tekstgenerering til applikationer som f.eks. afsløring af svindel og til stresstest.
Syntetiske tidsseriedata (herunder sensordata) kan bruges i radarsystemer, IoT-sensoraflæsninger og i lysbaseret afstandsmåling (LiDAR). Det kan være værdifuldt for forudsigelig vedligeholdelse og autonome køretøjssystemer, hvor flere data kan sikre sikkerhed og pålidelighed.

SAS® Data Maker - nu i preview

Beskyt dine eksisterende data, skab hurtigere innovation, og opnå skalerbare resultater ved hjælp af en low-code/no-code grænseflade, der gør det nemt at udvide eller generere nye datasæt. Frigør potentialet i eksisterende data med SAS Data Maker.

Få mere at vide

Screenshot of SAS Data Maker - Correlation with highlight

Oprettelse af syntetiske data: Hvornår skal man bruge SMOTE vs. GAN

At generere data med forretningsregler og forretningslogik er ikke et nyt koncept. AI tilføjer et lag af nøjagtighed til datagenerering ved at introducere algoritmer, der kan bruge eksisterende data til automatisk at modellere passende værdier og relationer.

To populære AI-teknikker til generering af syntetiske data er:

Syntetisk mindretalsoversamplingsteknik (SMOTE).
Generativt kontradiktorisk netværk (GAN).

SMOTE er en intelligent interpolationsteknik. Den fungerer ved at bruge en stikprøve af rigtige data og generere datapunkter mellem tilfældige punkter og deres nærmeste naboer. På den måde giver SMOTE dig mulighed for at fokusere på interessante punkter, f.eks. underrepræsenterede klasser, og skabe lignende punkter for at afbalancere datasættet og forbedre den samlede nøjagtighed i forudsigelsesmodeller.

GAN er derimod en teknik, der genererer data ved at træne en avanceret deep learning-model til at efterligne de oprindelige data. En GAN består af to neurale netværk: en generator, der skaber syntetiske data, og en discriminator, der forsøger at skelne dem fra ægte data. Dette iterative, modstridende forhold gør de syntetiske data stadig mere realistiske, efterhånden som diskriminatoren til sidst ikke længere nemt kan kende forskel på syntetiske og virkelige data. Træningsprocessen kan være tidskrævende og kræver ofte grafikkort (GPU’er), men teknikken er i stand til at fange meget komplekse og ikke-lineære sammenhænge mellem variabler – og dermed skabe meget præcise syntetiske datasæt. Den kan endda generere data ved eller uden for grænserne af det oprindelige datasæt og dermed repræsentere ny, ellers overset information.

En test: Syntetiske data versus anonymiserede data

SAS og en samarbejdspartner testede, om syntetiske data kunne fungere som et alternativ til anonymiserede data ved hjælp af et datasæt om kundefrafald fra en virkelig teleudbyder (læs blogindlægget Using AI-generated synthetic data for easy and fast access to high-quality data). Van Unen forklarede, at teamet vurderede resultatet ud fra datakvalitet, juridisk gyldighed og anvendelighed.

Hvad de lærte:

Syntetiske data bevarede de oprindelige statistiske overnatningssteder og forretningslogik, herunder "dybt skjulte statistiske mønstre". Til sammenligning ødelagde anonymisering de underliggende sammenhænge.
Syntetiske datamodeller forudsagde kundefrafaldet på samme måde som dem, der var trænet på originale data. I mellemtiden klarede anonymiserede datamodeller sig dårligt.
Syntetiske data kan bruges til at træne modeller og forstå vigtige dataegenskaber og beskytte privatlivets fred ved at reducere og forhindre adgang til originale data.
Processer til generering af syntetiske data er reproducerbare. Anonymisering er variabel, inkonsekvent og mere manuel.

"Dette casestudie styrker ideen om, at AI-genererede syntetiske data giver hurtig og nem adgang til data af høj kvalitet til analyse og modeludvikling", siger van Unen. "Dens privacy-by-design-tilgang gør analyse, test og udvikling mere smidig."

Vi skal nærme os syntetiske data med stor forsigtighed for at undgå utilsigtede konsekvenser. Natalya Spicer produktchef for syntetiske data SAS

Etiske overvejelser om syntetiske data

Efterhånden som brugen af syntetiske data bliver mere udbredt, vil syntetiske datalagre også blive mere udbredte. Disse fælles arkiver vil fremme samarbejde, datademokratisering og krydsbestøvning af ideer. Men de kan også utilsigtet understøtte fordomme, skjule overtrædelser af databeskyttelse og fastholde uretfærdig datapraksis.

I modsætning til hvad mange tror, hævder Lucini, er syntetiske data hverken automatisk private eller beskytter privatlivets fred. Hvis de ikke implementeres med de rette kontroller og test, kan generering af syntetiske data stadig føre til lækager af privatlivets fred.

"Generative modeller kan være en 'sort boks'. For at sikre ansvarlig brug kræver de streng validering, som branchen endnu ikke har udviklet fuldt ud. Vi er nødt til at nærme os syntetiske data med stor forsigtighed for at undgå utilsigtede konsekvenser," siger Natalya Spicer, der er Synthetic Data Product Manager hos SAS.

Retten til privatlivets fred er sort og hvid - vi kan regulere den, sætte regler op omkring den, og alle kan være bundet af disse regler. Retfærdighed og bias er ikke så enkle at regulere. Hvis disse subjektive beslutninger overlades til enkeltpersoner, kan det få langsigtede konsekvenser. Så vi har brug for styring på virksomhedsniveau, indtil der er mere omfattende statslige regler.

"Vi har bygget SAS® Viya® til at fungere som en virksomhedsplatform til lovlig brug af data og analyser, hvilket er afgørende med den accelererende brug af kunstig intelligens og syntetiske data", siger Spicer. "SAS Viya har fuld sporbarhed i forhold til, hvordan modeller skabes, helt tilbage til rådata og de modeller, der bruges til at analysere deres nøjagtighed."

Fremtiden for syntetiske data og AI

I takt med at kunstig intelligens og datavidenskab udvikler sig, bliver syntetiske data stadig vigtigere. Synergien mellem syntetiske data og nye teknikker vil gøre det muligt at skabe endnu mere avancerede og realistiske syntetiske datasæt, der yderligere flytter grænserne for, hvad der er muligt.

Styring vil spille en vigtig rolle, efterhånden som brugen af syntetiske data udvikler sig. Organisationer skal implementere robuste styringsrammer, datarevisionspraksisser og klar kommunikation omkring begrænsningerne og passende brugsscenarier for syntetiske data. Politikker for mærkning og identifikation af brugen af syntetiske data bliver også afgørende for at undgå misbrug og misforståelser. Ved at omfavne kraften i syntetiske data kan dataforskere åbne op for nye grænser for innovation, udvikle mere robuste og pålidelige AI-modeller og skabe forandringer, der har en positiv indvirkning på vores verden.