Generatieve AI

Wat is het en waarom is het belangrijk

Generatieve AI gebruikt bestaande data, leert ervan en genereert vervolgens data met vergelijkbare kenmerken. Het kan bijvoorbeeld tekst, afbeeldingen, audio, video en computercode genereren.

De evolutie van generatieve AI

Traditionele AI- en machine learning-systemen herkennen patronen in data en doen aan de hand daarvan voorspellingen. Maar generatieve AI gaat verder dan voorspellen. Het genereert nieuwe data als primaire output. Stel je voor dat je aan een chatbot (zoals ChatGPT) een aantal woorden geeft om een idee te omschrijven, en je luttele seconden later een volledige tekst voor een speech in handen hebt. Dat je muziek, kunst of afbeeldingen kunt genereren aan de hand van tekstuele beschrijvingen. Of dat je een zakelijke strategie kunt ontwikkelen door middel van een conversatie met een generatieve AI-tool.

Waar is het allemaal begonnen?

In tegenstelling tot wat wordt gedacht, is generatieve AI niet nieuw. Het is gemaakt op basis van technologieën die we al decennialang gebruiken, waaronder AI, machine learning en statistische methodes. Drie belangrijke generatieve AI-technologieën zijn digitale tweelingen (digital twins), grote taalmodellen (large language models) en synthetische datageneratie (synthetic data generation).

De oorsprong van generatieve AI gaat al veel langer terug, maar wij beginnen in 1966 met een chatbot genaamd ELIZA.

Joseph Weizenbaum, die ELIZA bouwde, ontwierp de bot om Rogeriaanse psychotherapeuten te imiteren die spiegelen wat een patiënt zegt. Om dit te kunnen doen gebruikt ELIZA patroonherkenning. ELIZA was een van de eerste programma's die de turingtest deed –een imitatiespel om te testen of een machine menselijke intelligentie kan vertonen.

Naarmate de methoden voor het analyseren van ongestructureerde tekstgegevens zich ontwikkelden, groeiden in de jaren 1970 tot 1990 de semantische netwerken, ontologieën, terugkerende neurale netwerken (RNN) en nog veel meer. Van 2000 tot 2015 verbeterden taalmodellering en het inbedden van woorden, en zo ontstond Google Translate.

In 2014 ontwikkelden Ian Goodfellow en zijn collega's het Generative Adversarial Network (GAN), waarbij ze twee neurale netwerken instelden om met elkaar te wedijveren (m.a.w. elkaar te trainen). Eén netwerk genereerde data terwijl het andere probeerde vast te stellen of de data echt of nep was. In 2017 werden transformer-modellen geïntroduceerd. Ze gebruikten een zelfcontrole mechanisme waarmee ze het belang van verschillende delen van de input konden afwegen bij het maken van voorspellingen. Architecturen zoals BERT en ELMo werden ook populair.

Vervolgens zagen we in 2018 het eerste GPT-model (generative pre-trained transformer). Dit model was getraind met grote hoeveelheden tekstgegevens van het internet. Met 117 miljoen parameters kon het tekst genereren die in stijl en content vergelijkbaar was aan de trainingsdata. Tegen 2023 hadden grote GPT-modellen zich zover ontwikkeld dat ze goed scoorden op moeilijke examens, zoals het Amerikaanse advocatenexamen.

De snelle opkomst van generatieve AI-technologie

De impact van generatieve AI, een ontwrichtende technologie, wordt vergeleken met ontdekkingen zoals elektriciteit en de drukpers. Spraakgestuurde AI-modellen zoals ChatGPT hebben het potentieel om de productiviteit drastisch te verhogen. Ze hebben in die hoedanigheid dan ook een enorme vlucht genomen in populariteit onder bedrijven en alledaagse gebruikers. Maar er zijn ook zorgen over data privacy, vooroordelen (bias) in AI, ethiek en de nauwkeurigheid. De wereldwijde markt voor generatieve AI zal naar verwachting groeien naar $ 110,8 miljard tegen 2030.

Beleidsmakers gebruiken digitale twin-technologie om vast te stellen hoe nieuwe belastingmaatregelen burgers kunnen beïnvloeden.

Het bepalen van de 'winnaars' en 'verliezers' van mogelijke wijzigingen in het belastingstelsel voordat de regelgeving is geïmplementeerd, is cruciaal voor de Belgische Federale Overheidsdienst Financiën. Wanneer snelle en accurate antwoorden vereist zijn, gebruikt de FOD Financiën het programma Aurora. Dit is een digitale tweeling van de rekenmachine die de inkomstenbelasting van het land verwerkt om toekomstige schuldhervormingen te simuleren. Betere simulaties betekenen beter geïnformeerde beleidsmakers en dus ook betere resultaten.

Generatieve AI in de wereld van vandaag

Omarm betrouwbare kunstmatige intelligentie

Consumenten hebben meer vertrouwen in organisaties die laten zien verantwoordelijk en ethisch gebruik te maken van AI. Leer waarom het belangrijk is om betrouwbare AI-systemen te omarmen die zijn ontworpen met het oog op mensgerichtheid, inclusiviteit en verantwoordelijkheid.

Voordelen en risico's van generatieve AI

Benieuwd hoe generatieve AI werkt en waar je rekening mee moet houden voordat je het gebruikt? Maak kennis met de technologie, leer over een framework voor het gebruik van generatieve AI-tools en overweeg of en hoe je de technologie gaat gebruiken.

Het gebruik van AI in het onderwijs

Studenten gebruiken generatieve AI voor het creëren van content en afbeeldingen, het schrijven van code, het bouwen van mobiele apps en het oplossen van problemen. En al kan generatieve AI leuk en handig zijn, er zijn mensen nodig om fouten of 'hallucinaties' te zien en te verbeteren.

Een irreële werkelijkheid: de staat van generatieve AI

Kan de snelle opkomst van gegenereerde beelden een onwerkelijkheid creëren die de mensheid negatief zal beïnvloeden? Ontdek de ware betekenis van het woord 'deepfake', en hoe deepfakes gebruikt kunnen worden voor iets positiefs. Bekijk ook hoe opkomende technieken kunnen helpen met het vinden en identificeren van gegenereerde media.

Populaire AI-tools en hoe ze worden gebruikt

AI-tools zijn vandaag een populair gespreksonderwerp. Maar wist je dat er momenteel meer dan 1.500 op de markt zijn, inclusief generatieve AI-tools?

Zie welke tools het meest gangbaar zijn en hoe ze in verschillende branches gebruikt worden.

Wie gebruikt er generatieve AI?

Generatieve AI wordt wereldwijd gebruikt in een groot aantal industrieën voor tal van zakelijke functies. Naarmate de technologie aan populariteit wint, ontstaat er tegelijkertijd enthousiasme en angst onder individuen, bedrijven en overheidsinstanties. Laten we eens kijken hoe sommige industrieën vandaag de dag generatieve AI toepassen.

Bankwezen

Banken en andere financiële dienstverleners kunnen generatieve AI gebruiken om betere beslissingen te nemen, risico's te verminderen en klanttevredenheid te verbeteren. Wanneer generatieve AI-modellen zijn getraind om patronen te leren en anomalieën te herkennen, kunnen ze in realtime verdachte activiteiten signaleren. Door gesimuleerde data te creëren voor stresstests en scenarioanalyses, kan generatieve AI banken helpen toekomstige financiële risico’s te voorspellen en verliezen te voorkomen. Bovendien kunnen virtuele assistenten (zoals chatbots) 24/7 menselijke klantenservice leveren.

Verzekeringsbranche

Verzekeraars kunnen synthetische data gebruiken voor prijsstelling, kasreserves en actuariële modellen. Zo kunnen verzekeringsmaatschappijen synthetische data gebruiken die lijken op historische polis- en claiminformatie om prijsmodellen te trainen en te testen. Daardoor kunnen ze beoordelen hoe verschillende prijsstrategieën zouden presteren zonder gebruik te maken van gevoelige persoonlijke informatie van klanten. Synthetische data kunnen ook helpen bij het evalueren van gebeurtenissen met een lage waarschijnlijkheid, zoals aardbevingen of orkanen.

Biowetenschappen

Er zijn talloze veelbelovende toepassingen voor generatieve AI in de biowetenschappen. Bij de ontwikkeling van geneesmiddelen kan generatieve AI het proces versnellen van het identificeren van nieuwe potentiële geneesmiddelen. In klinisch onderzoek heeft generatieve AI het potentieel om informatie uit complexe data te halen en zo synthetische data en digitale tweelingen te creëren, die representatief zijn voor individuen (een manier om de privacy te beschermen). Andere toepassingen zijn het identificeren van veiligheidssignalen of het vinden van nieuwe toepassingen voor bestaande behandelingen.

Maakindustrie

Fabrikanten kunnen generatieve AI gebruiken om de bedrijfsvoering, het onderhoud, de toeleveringsketens en zelfs het energieverbruik te optimaliseren voor lagere kosten, hogere productiviteit en meer duurzaamheid. Een generatief AI-model leert van bestaande prestatie-, onderhouds- en sensordata, voorspellingen, externe factoren en meer, en biedt vervolgens verbeterstrategieën aan.

Publieke sector

Natuurlijke-taalverwerking (NLP) en chatbots kunnen werknemers in de publieke sector helpen om sneller te reageren op de behoeften van burgers, zoals verbeterde noodhulp aan mensen die wonen in overstromingsgevoelige gebieden of het ondersteunen van achtergestelde buurten. Generatieve AI-technieken – zoals voorspellende modellen en simulaties – kunnen enorme hoeveelheden historische gegevens, het publieke sentiment en andere indicatoren analyseren en vervolgens aanbevelingen doen om flies te verminderen, de infrastructuurplanning te verbeteren en de toewijzing van middelen te optimaliseren.

Retailsector

In de retailsector is succes afhankelijk van inzicht in de klantvraag, het ontwerpen van winkelervaringen die klanten binden en een betrouwbare en stabiele toeleveringsketen. Er zijn retailers die bijvoorbeeld gebruikmaken van generatieve AI met digital twin-technologie, om planners inzicht te geven in mogelijke scenario's, bijvoorbeeld verstoringen in de toeleveringsketen of beperkte middelen. Dit wordt mogelijk gemaakt door geavanceerde AI-simulatie en datamodellering.

De resultaten van generatieve AI zijn in de basis een weerspiegeling van de mens. Consumenten moeten continu kritisch blijven nadenken tijdens interactie met conversationele AI en 'automation bias' voorkomen (de overtuiging dat een technisch systeem waarschijnlijk nauwkeuriger en betrouwbaarder is dan een mens). Reggie Townsend VP of the SAS Data Ethics Practice

Overwegingen voor generatieve AI-modellen

Modellen zijn duur om in gebruik te nemen - ze vereisen een enorme hoeveelheid rekenkracht en data. Je moet de ROI zorgvuldig berekenen voordat je een generatief AI-model in gebruik neemt. Daarnaast zijn er de ethische overwegingen. Waar komt de data vandaan en wie is de eigenaar? Zijn de data betrouwbaar? Begrijp je precies hoe het model is ontworpen?

De werking van generatieve AI

Enkele populaire voorbeelden van generatieve AI-technologieën zijn DALL-E, een beeldgeneratiesysteem dat afbeeldingen maakt van tekstinvoer, ChatGPT (een tekstgeneratiesysteem), de Google Bard-chatbot en de door AI aangedreven Bing-zoekmachine van Microsoft. Een ander voorbeeld is het gebruik van generatieve AI om een digitale representatie te creëren van een systeem, bedrijfsproces of zelfs een persoon, zoals een grafische weergave van iemands huidige en toekomstige gezondheidsstatus.

Er zijn drie hoofdtypen van generatieve technologieën (digitale tweelingen, grote taalmodellen en het genereren van synthetische data).

Digitale tweelingen

Digitale tweelingen zijn virtuele modellen van bestaande objecten of systemen. Ze zijn ontworpen aan de hand van historische data, gegevens uit het dagelijks leven, synthetische gegevens of uit de feedbackloop van een systeem. Digitale tweelingen zijn gebouwd met software, data en verzamelingen van generatieve en niet-generatieve modellen die een fysiek systeem weerspiegelen en synchroniseren, zoals een entiteit, proces, systeem of product. Digitale tweelingen worden gebruikt om te testen, optimaliseren, monitoren of voorspellen. Een digitale tweeling van een toeleveringsketen kan bijvoorbeeld bedrijven helpen om te voorspellen wanneer er tekorten kunnen optreden.

Grote taalmodellen

Een groot taalmodel (large language model - LLM) is een krachtig machine learning-model dat complexe relaties in natuurlijke taal kan verwerken en identificeren, tekst kan genereren en gesprekken kan hebben met gebruikers. Deze modellen zijn afhankelijk van technieken zoals deep learning en neurale netwerken. LLM's worden gedefinieerd als AI-modellen die natuurlijke taal verwerken en worden getraind op enorme hoeveelheden tekstgegevens. De daaruit voortvloeiende modellen hebben miljarden parameters. OpenAI’s ChatGPT is een voorbeeld van een populair large language model.

Synthetische datageneratie

Synthetische datageneratie verwijst naar on-demand, self-service of geautomatiseerde gegevens die worden gegenereerd door algoritmes of regels in plaats van te worden verzameld uit de echte wereld. Synthetische data worden vaak gegenereerd om te voldoen aan voorwaarden die in de echte data ontbreken. Ze reproduceren dezelfde statistische eigenschappen, waarschijnlijkheden, patronen en kenmerken als de echte data op basis waarvan ze zijn getraind. Veel organisaties gebruiken synthetische data om hun privacy te beschermen of om andere problemen met het verzamelen en gebruik van echte data op te lossen, zoals kosten, tijdrovende processen voor het voorbereiden van gegevens, of vooroordelen (bias).

Er zijn vele andere technologieën die generatieve AI mogelijk maken en ondersteunen:

Een algoritme is een overzicht van stapsgewijze instructies die is ontworpen om specifieke taken uit te voeren of een probleem op te lossen. Veel computerprogramma's zijn een reeks algoritmen die op zo'n manier geschreven zijn dat de computer ze begrijpt. Nu algoritmes menselijke beslissingen kunnen aanvullen of zelfs vervangen, moeten we onderzoeken of ze eerlijk zijn en transparantie eisen in de manier waarop ze worden ontwikkeld.

Kunstmatige intelligentie maakt het mogelijk dat machines kunnen leren van ervaringen, te reageren op nieuwe input en menselijke taken uit te voeren. AI is vaak zeer afhankelijk van deep learning en NLP. Met behulp van deze technieken kunnen computers getraind worden om specifieke taken uit te voeren door grote hoeveelheden data te verwerken en patronen in de data te ontdekken.

Deep learning is een subset van machine learning. Het traint een computer om menselijke taken uit te voeren, zoals spraakherkenning, beeldidentificatie en het maken van voorspellingen. Het verbetert het vermogen om data te classificeren, herkennen, detecteren en beschrijven. Deep learning-modellen zoals GAN's en variational autoencoders (VAE's) zijn getraind op enorme datasets en kunnen data van hoge kwaliteit genereren. Nieuwere technieken zoals StyleGAN's en transformer-modellen kunnen realistische videos, beelden, tekst en spraak creëren.

Machine learning is een methode van data-analyse die de ontwikkeling van een analytisch model automatiseert. Het gaat om een onderdeel van kunstmatige intelligentie die een machine traint om te leren. Machine learning is gebaseerd op het idee dat systemen kunnen leren van gegevens, patronen kunnen herkennen en beslissingen kunnen nemen met minimale menselijke tussenkomst.

Natural language processing is een onderdeel van kunstmatige intelligentie dat computers helpt menselijke taal te begrijpen, interpreteren en bewerken. NLP maakt gebruik van vele disciplines, waaronder computerwetenschap en computerlinguïstiek, om de kloof tussen menselijke communicatie en computersysteem te dichten

Neurale netwerken zijn computersystemen met onderling verbonden 'nodes' die bijna net zo werken als de zenuwcellen in onze hersenen. Neurale netwerken gebruiken algoritmes om verborgen patronen en verbanden tussen ruwe data te herkennen, die ze vervolgens clusteren en classificeren. Op de lange termijn leren ze van deze gegevens en worden ze steeds beter.

Reinforcement learning vindt plaats wanneer een algoritme proefondervindelijk ontdekt welke acties de beste resultaten opleveren. Reinforcement learning is een machine learning-model dat vertrouwt op een beloningssignaal voor zijn feedbackmechanisme terwijl het geleidelijk het beste (of meest belonende) beleid of doel leert. Het wordt vaak gebruikt in robotica, gaming en navigatie.

5 stappen voor het finetunen van een model

Generatieve AI maakt gebruik van veel verschillende AI-algoritmen en -technologieën om gegevens te genereren die vergelijkbare waarschijnlijkheidsverdelingen en kenmerken hebben als de gegevens waarvan wordt geleerd. In plaats van helemaal vanaf nul te beginnen, kun je deze vijf stappen volgen om een vooraf getraind groot taalmodel te verfijnen.

1. De taak definiëren.

Kies een geschikt voorgetraind large language model en definieer duidelijk de taak waarvoor het wordt afgestemd. Dit kan zijn voor tekstclassificatie (voornamelijk entiteitsherkenning), tekstgeneratie, enz.

2. De data voorbereiden.

Verzamel en bewerk je taakspecifieke gegevens voor taken als labelen, opmaken en tokenisatie. Creëer datasets voor training en validatie (en mogelijk ook tests).

3. Fine-tuning.

Train het aangepaste model op je taakspecifieke data en gebruik de trainingsdata om het gewicht van het model bij te werken. Controleer de prestaties van het model op de validatieset om overfitting te voorkomen.

4. Evalueren en testen.

Na de training evalueer je het geoptimaliseerde model op de validatieset en maak je de nodige aanpassingen op basis van de resultaten. Als je tevreden bent, test je het model op de testset om een betrouwbare schatting van de prestaties te krijgen.

5. Implementatie.

Als je vertrouwen hebt in de prestaties van het model, kun je het implementeren voor het beoogde doel. Dit kan betekenen dat je het model integreert in een applicatie, website of een ander platform.

Wat zijn synthetische data?

Data is essentieel voor het bouwen van modellen, maar data van hoge kwaliteit kan moeilijk te vinden, bevooroordeeld of duur zijn. Een manier om dit op te lossen, is het gebruik van synthetische data, die kunstmatig worden gecreëerd (vaak met algoritmen). Als we datasets uit de echte wereld gebruiken om aanvullende, synthetische data te genereren - met de juiste eigenschappen voor het bouwen van goede machine learning modellen - kunnen we modellen trainen voor vrijwel elk doel, zoals onderzoek naar een zeldzame ziekte.

Vervolgstappen

Bekijk hoe AI-oplossingen menselijke creativiteit en inspanningen kunnen vergroten.

Neem contact op met SAS en kom erachter wat we voor u kunnen doen.