Learn more Learn more about SAS Data Maker software

Vad är syntetisk data?

Och hur kan du använda det för att främja AI- genombrott?

Vilka faktorer driver en efterfrågan på syntetisk data i olika branscher? Och vilka är riskerna och fördelarna med att använda syntetisk data för beslutsfattning? I den här artikeln ska vi diskutera syntetisk datas viktiga plats i våra datahungriga AI-initiativ, hur företag kan använda syntetisk data för att öppna upp för tillväxt, samt de etiska utmaningarna som behöver lösas.

Det är svårt att tro, men uppkomsten av artificiell intelligens har, på vissa sätt, skapat en brist på data. Inte ett underskott, i sig, för vi har en förvånansvärd mängd data som växer exponentiellt (uppskattningar visar att det skapades 120 zettabytes under 2023). Och den siffran skulle kunna mer än fördubblas fram till 2027!

Nej, vårt nuvarande dataproblem är lämplighet, inte kvantitet. Syntetisk data – en produkt av generativ AI – skulle kunna vara lösningen.

Syntetisk data blir mainstream

Syntetisk data kan hjälpa organisationer att förbättra produktivitet och sänka kostnader för utvecklingssatsningar inom AI. Få en snabb överblick I den här videon där Brett Wujek – som leder produktstrategi för nästa generations AI-tekniker hos SAS – redogör för den nuvarande situationen för syntetisk data och dess löfte för framtiden.

Vad är syntetisk data? Och varför behöver vi det?

Syntetisk data är, i enkla ordalag, algoritmiskt genererad data som härmar verklig data. Den kan genereras slumpvis – 100 000 födelsedatum. Busenkelt.

Vanligtvis brukar dock syntetisk data fylla ett håll i ändamålsenlig data: Födelsedatum för 100 000 kvinnor som nyligen registrerade sig för att rösta. Svårt.

Syntetisk datas optimala funktion hittas dock i sällsynta specialfall: en datamängd för manliga patienter med prostatacancer som är yngre än 35 år, eller bilder på slitage på bronskolvringar. Du kanske ser vart vi är på väg. Den specialiseringen – sällsyntheten – gör datan svårare att få tag på och i vissa fall, mer riskabel att använda.

Accentures Chief Data Scientist Fernando Lucini förklarar i ett podcastsamtal med SAS strategiska rådgivare Kimberly Nevala att syntetisk data även kan hjälpa till med dataskydd. Identitetsuppgifter bevakas noga inom sjukvård, den offentliga sektorn och till och med handel. När vi inte kan riskera att utsätta identitetsuppgifter för fara behöver vi utbytesdata att analysera.

“Vi ber [AI att skapa] data med samma mönster men utan den ursprungliga datans egenskaper. Enkelt förklarat är [syntetisk data] maskingenererad data som är en faksimil – inte en kopia, utan en faksimil – av signalerna och mönstren inuti den ursprungliga datan,” förklarar Lucini.

Viktiga datamotsvarigheter:

1 yottabyte (YB) = 1,000 zettabyte

1 zettabyte (ZB) = 1,000 exabyte

1 exabyte (EB) = 1,000 petabyte

1 petabyte (PB) = 1,000 terabyte

1 terabyte (TB) = 1,000 gigabyte

1 gigabyte (GB) = 1,000 megabyte

1 megabyte (MB) = 1,000 kilobyte

1 kilobyte (KB) = 1,000 byte

Fördelar med syntetisk data

Tillgång till stor, mångfaldig och autentisk data är avgörande för att träna robusta AI-modeller. Men att få tag på den sortens verklig data kan vara svårt sett till tilltagande oro kring integritet, lagliga restriktioner, samt höga kostnader för förvärvande och annotation av data.

Syntetisk data kan skapas med etiketter och annotationer redan inlagda – vilket sparar tid och resurser – och utan att exponera känslig information då kopplingarna till verkliga personer har tagits bort för inbyggd dataintegritet.

Men varför inte använda anonymiserad data, frågar du? Enligt Edwin van Unen, SAS huvudsakliga kundrådgivare, är anonymisering inte heller lösningen. Det är otillräckligt, arbetskrävande och inkonsekvent.

“Dess dåliga kvalitet gör det nästintill omöjligt att använda för avancerade analysuppgifter såsom AI- eller maskininlärningsmodellering och dashboarding,” förklarar van Unen.

Syntetisk data förändrar hela upplägget. Den speglar de ursprungliga statistiska egenskaperna och sambanden. Dataseten är mycket användbara när man testar och tränar precisa prediktiva modeller utan behov att maskera känslig information. Taktiken med en ”syntetisk tvilling” hjälper till att motverka partiskhet och åstadkommer en i det närmaste perfekt anonymitet.

En titt på fyra grundläggande typer av syntetisk data och hur de ofta används

Syntetisk strukturerad data representerar individer, produkter och andra aktörer och deras aktiviteter och egenskaper – Syntetisk strukturerad data representerar individer, produkter och andra aktörer och deras aktiviteter och egenskaper –
Syntetiska bilder är viktiga för att träna objektigenkänning och segmentering. Bilderna är användbara för tidig upptäckt av cancer,, läkemedelsutveckling och kliniska prövningar samt för att träna självkörande bilar. Syntetiska bilder kan användas för särskilda specialfall där den tillgängliga datan är knapphändig, som för horisontella trafikljus.
Syntetisk text kan anpassas till att möjliggöra för robusta och mångsidiga modeller som använder bearbetning av naturligt språk för översättning, känsloanalys och textgenerering för applikationer så som bedrägeriupptäckt och stresstestning.
Syntetisk tidsseriedata (inklusive sensordata) kan användas i radarsystem, sensoravläsningar för sakernas internet samt ljusdetektion och avståndsmätning. Det kan vara lönande för prediktivt underhåll och system för självkörande fordon, där mer data kan försäkra säkerhet och pålitlighet.

SAS^® Data Maker – nu tillgänglig för förhandsvisning

Skydda existerande data, gör förändringar snabbare och försäkra skalbara resultat med hjälp av ett gränssnitt som kräver lite till ingen kodning för att augmentera och generera data snabbt. Lås upp potentialen i existerande data med SAS Data Maker.

Läs mer

Screenshot of SAS Data Maker - Correlation with highlight

Skapa syntetisk data: När man ska använda SMOTE vs. GAN

Att generera data med affärsregler och affärslogik är inget nytt. AI lägger till ett lager av noggrannhet till datagenerering genom att introducera algoritmer som kan använda existerande data för att automatiskt modellera passande värden och förhållanden.

Två populära AI-tekniker som används för att generera syntetisk data är:

Synthetic Minority Oversampling Technique (SMOTE).
Generative Adversarial Network (GAN).

SMOTE är en intelligent interpolationsteknik. Det fungerar på så sätt att det använder ett urval av verklig data och genererar datapunkter mellan slumpvis utvalda punkter och deras närmaste grannar. På så sätt låter SMOTE dig fokusera på intressanta punkter, så som underrepresenterade grupper, och skapa liknande punkter för att balansera datamängden och förbättra den övergripande noggrannheten för prediktiva modeller.

GAN är å andra sidan en teknik som genererar data genom att träna en sofistikerad djupinlärningsmodell till att representera den ursprungliga datan. En GAN består av två neuronnät: en generator för att skapa syntetisk data och en diskriminator som försöker att upptäcka den. Det upprepande och fientliga förhållandet producerar allt mer verklighetstrogen syntetisk data, då diskriminatorn i slutändan inte enkelt kan skilja mellan syntetisk och verklig data. Träningsprocessen kan vara tidskrävande och kräva grafikprocessorer (GPU:er), men det kan fånga mycket olinjära och komplexa förhållanden mellan variabler och på så vis producera väldigt exakt syntetisk data. Den kan även generera data vid eller bortom gränserna för den ursprungliga datan, vilket potentiellt kan representera ovanlig data som annars hade försummats.

Ett test: syntetisk data jämfört med anonymiserad data

SAS och en partner testade syntetisk datas vitalitet som ett alternativ till anonymiserad data med hjälp av ett verkligt telekomföretags datamängd för kundbortfall (se blogginlägget, Using AI-generated synthetic data for easy and fast access to high-quality data). Van Unen förklarade att teamet bedömde resultatet efter datakvalitet, legal giltighet och användbarhet.

Vad de kom fram till:

Syntetisk data behöll de ursprungliga statistiska egenskaperna och affärslogiken, inklusive ”väl dolda statistiska mönster”. I jämförelse förstörde anonymisering underliggande korrelationer.
Syntetiska datamodeller förutsåg bortfall på liknande sätt som modellerna som hade tränats på den ursprungliga datan. Medan anonymiserade datamodeller presterade undermåligt.
Syntetisk data kan användas för att träna modeller och förstå viktiga dataegenskaper, vilket skyddar integritet genom att minska och förebygga åtkomst till den ursprungliga datan..
Generering av syntetisk data är reproducerbar. Anonymisering är föränderlig, inte konsekvent och mer manuell.

”Den här studien stärker idén att AI- genererad syntetisk data tillhandahåller snabb och smidig tillgång till högkvalitativ data för analys och modellutveckling,” framhåller van Unen. ”Dess inbyggda dataskydd gör analys, testning och utveckling mer flexibel.”

Vi måste närma oss syntetisk data med stor försiktighet för att undvika oavsiktliga konsekvenser. Natalya Spicer Produktchef för syntetisk data SAS

Etiska överväganden för syntetisk data

Allt eftersom syntetisk data blir mer omfattande kommer syntetiska datamagasin också att bli mer utbredda. De här delade förvaringsplatserna kommer att fostra samarbete, datademokratisering och korspollinering av idéer. Men de kan av misstag lägga till partiskhet, dölja kränkningar av datasekretess och vidmakthålla orättvisa datapraktiker.

I motsats till vad många tror menar Lucini att syntetisk data varken är automatiskt privat eller integritetsskyddande. Om det inte implementeras med rätt kontroll och testande kan generering av syntetisk data fortfarande leda till sekretessläckor.

”Generativa modeller kan vara ‘svarta lådor’. För att försäkra ansvarsfullt användande kräver de ytterst noggrann validering, vilket branschen ännu inte har lyckats utveckla helt och hållet. Vi måste närma oss syntetisk data med stor försiktighet för att undvika oavsiktliga konsekvenser,” säger Natalya Spicer, en produktchef för syntetisk data på SAS.

Rätten till sekretess är svart och vit – vi kan styra den, sätta upp regler för den och alla behöver efterfölja reglerna. Rättvisa och partiskhet är inte lika enkla att reglera. Om de subjektiva besluten lämnas till personer kan konsekvenserna få långvariga konsekvenser. Så vi behöver regelverk på företagsnivå tills det finns mer omfattande bestämmelser från regeringshåll.

”Vi byggde SAS ® Viya ® för att fungera som en företagsplattform för användning av data och analys på ett ansvarsfullt och regelrätt sätt, vilket är viktigt sett till AI och syntetisk datas stora frammarsch,” säger Spicer. ”SAS Viya har full spårbarhet gällande hur modeller skapas, hela vägen tillbaka till rådata och modellerna som använts för att analysera dess exakthet.”

Framtiden för syntetisk data och AI

Allt eftersom artificiell intelligens och data science utvecklas kommer syntetisk data att bli alltmer viktig. Synergin mellan syntetisk data och nyblivna tekniker kommer att möjliggöra för skapandet av ännu mer sofistikerade och realistiska syntetiska datamängder, vilket kommer att tänja ytterligare på gränserna för vad som är möjligt.

Regelverk kommer att spela en viktig roll när användandet av syntetisk data utvecklas. Organisationer måste implementera robusta ramverk för regler, tillämpning av datagranskning och tydlig kommunikation gällande begränsningarna och passade användningsfall för syntetisk data. Principer för etikettering och identifiering av användandet av syntetisk data kommer också att bli viktigt för att undvika missbruk och missförstånd. Genom att anamma kraften i syntetisk data kan data scientists öppna upp för nya forskningsfält för innovation, utveckla mer robusta och pålitliga AI-modeller och driva på förvandling som har en positiv inverkan på vår värld.