Cyberbeveiliging
Hoe nepgegevens echte gebruikers beschermen: de waarde van synthetische gegevens

Het eindeloze verlangen naar meer gegevens
Toen de wereld meer gedigitaliseerd raakte, begon het steeds meer gegevens te produceren en te vereisen. Dit vormt een probleem, omdat deze gegevens vaak in verband staan met echte mensen en echte bedrijven die mogelijk ernstige privacyproblemen hebben.
Dit is nog meer een probleem geworden met de opkomst van AI, die niet alleen in staat is om statistische analyses uit te voeren op batches gegevens, maar ook om de gegevensset grondig te doorzoeken en te analyseren op alle niveaus, van een individuele persoon tot miljarden numerieke invoer.
Gegevens zijn nu zo essentieel voor de moderne economie dat de vraag naar echte, hoogwaardige gegevens exponentieel is toegenomen. Tegelijkertijd hebben strengere gegevensbeschermingsregels en steeds grotere AI-modellen het verzamelen en labelen van echte gegevens steeds moeilijker of onpraktisch gemaakt. – IBM Research
Dit is waarom synthetische gegevens zijn uitgevonden als oplossing. Deze gegevens repliceren echte gegevens uit de wereld, maar bevatten geen privégegevens die problemen kunnen veroorzaken. Ze kunnen ook worden gewijzigd en aangepast aan specifieke use cases, zeldzame situaties of alles wat de statisticus of tester die ze gebruikt nodig heeft.
Ook hier is AI transformatief geweest. Enerzijds is AI-technologie zeer nuttig om betere synthetische gegevens te genereren, waarmee de eerder gebruikte puur statistische methoden worden overtroffen. Anderzijds zijn synthetische gegevens even nuttig om AI-modellen te trainen, van gesimuleerde 3D-modellen van eiwitten voor geneesmiddelenontdekking tot straten voor zelfrijdende AI.
Synthetische AI uitgelegd
Synthetische gegevens verwijzen naar datasets die kunstmatig worden gegenereerd, maar de onderliggende statistische eigenschappen van de oorspronkelijke gegevens waarop ze zijn gebaseerd, behouden.
Synthetische gegevens fungeren als aanvulling op echte gegevens uit de wereld en bieden een aantal belangrijke voordelen die onderzoekers en analisten in staat stellen om uit te breiden op de initiële resultaten die zijn verzameld uit enquêtes, experimenten en metingen:
- Het trainen van AI-modellen met synthetische gegevens stelt ons in staat om het totale volume van de gegevens te verhogen wanneer hoogwaardige echte gegevens schaars zijn.
- In sectoren zoals financiën en gezondheidszorg is de gegevensaanbod beperkt, tijdrovend om te verkrijgen of moeilijk toegankelijk.
Het onderzoeksbureau Gartner schat dat tegen 2030 synthetische gegevens echte gegevens zullen overtreffen bij het trainen van AI-modellen. Gartner voorspelt ook dat tegen 2026 75% van de bedrijven generatieve AI zal gebruiken om synthetische klantgegevens te creëren.
Soorten synthetische gegevens
Gedeeltelijk synthetische gegevens gebruiken echte gegevenssets en vervangen delen ervan door kunstmatige waarden. Dit gebeurt meestal vanwege privacyproblemen en wordt vaak gebruikt in klinisch onderzoek, waar de echte identiteiten van patiënten en medische dossiers geanonimiseerd worden.
Volledig synthetische gegevens zijn een geheel gegenereerde dataset, die de kenmerken van echte gegevens schat en probeert deze zo goed mogelijk na te bootsen: kenmerken, patronen en relaties. Dit kan bijvoorbeeld worden gedaan voor het trainen tegen gegevens die ontbreken in een gebruikersdataset, zoals financiële gegevens met ontbrekende fraudeactiviteiten, die nodig zijn om een AI te trainen voor fraudeopsporing.
Hybride synthetische gegevens combineren echte gegevens met volledig synthetische gegevens.
Hoe synthetische gegevens te genereren
Statistische methoden zijn verreweg de oudste methode om synthetische gegevens te genereren, die teruggaat tot de jaren dertig met de synthese van audio en spraak, wat leidde tot software-synthesizers vanaf de jaren zeventig.
Variational autoencoders (VAE’s) zijn programma’s die variaties produceren op de gegevens waarop ze zijn getraind. Deze systemen worden vaak gebruikt om synthetische afbeeldingen te genereren, evenals andere vormen van machine learning.

Bron: IBM
Een gerelateerde benadering van VAE’s is generatieve tegenstrijdige netwerken (GAN’s), een belangrijke benadering van generatieve kunstmatige intelligentie. Het bestaat uit twee neurale netwerken:
- Een dat gegevens genereert die proberen te lijken op de echte gegevensset.
- Een dat de gegenereerde gegevens vergelijkt met een echte gegevensset.
Het tweede neurale netwerk geeft feedback aan het eerste totdat het eerste in staat is om een synthetische dataset te genereren die zo dicht mogelijk bij de echte ligt.

Bron: Wikipedia
Transformer-modellen gebruiken de wiskundige instrumenten die worden gebruikt bij de ontwikkeling van veel moderne AI’s, waaronder ChatGPT (waar “T” staat voor “transformer). Ze “raden” de meest statistisch waarschijnlijke uitvoersequentie door te focussen op de meest belangrijke tokens in de invoersequentie.
Ten slotte gaat agent-gebaseerde modellering nog een stap verder en creëert “agenten”, mini-AI’s die interacties en agentgedrag simuleren om synthetische gegevens te produceren. Bijvoorbeeld kunnen individuele agenten individuele mensen vertegenwoordigen in een epidemiologische studie, waarbij elke zijn eigen patroon of contactrisico vertoont, enz.
(We hebben de toekomstige rol van AI-agenten op de werkplek en in het dagelijks leven onderzocht in “AI’s Killer App: Hoe AI-agenten alles kunnen veranderen”)
Voordelen van synthetische gegevens
Controle & aanpassing
Omdat de gegevens van scratch worden gemaakt, is het veel gemakkelijker om de juiste set gegevens te produceren voor een bepaalde taak, bijvoorbeeld voor het trainen van een AI-systeem.
Ze kunnen ook worden gemaakt om aan de exacte specificaties en behoeften van een bedrijf of onderzoeker te voldoen.
Efficiëntie
De generatie van gegevens verwijdert de behoefte aan dure en tijdrovende verzameling van echte gegevens, tenminste zolang de gegenereerde synthetische gegevens dicht genoeg bij de echte wereld liggen.
Deze gegevens komen ook vooraf gelabeld, waardoor de saaie handmatige stap van het labelen van elke gegevenspunt door een mens wordt verwijderd, waarbij elke afbeelding, zin of audiobestand wordt beschreven zodat een geautomatiseerd systeem ze kan begrijpen.
Privacy
Volledig synthetische gegevens hebben geen enkele privacy-gerelateerde problemen, omdat ze niet zijn gekoppeld aan enige echte individuen of bedrijven. Andere vormen van synthetische gegevens zijn een goede manier om echte gegevens te anonimiseren en “schoon” te maken van enige beschermde informatie, of het nu gaat om individuele privégegevens of beschermd intellectueel eigendom.

Bron: Mostly AI
Meer diverse gegevens
Te kleine echte gegevenssets kunnen randgevallen of ondervertegenwoordigde groepen missen. Dit kan een probleem zijn bij het trainen van AI’s, omdat het resulterende model de existentie van deze gevallen volledig zou negeren.
Door de initiële dataset uit te breiden en kunstmatig de ontbrekende gevallen toe te voegen die de ontwerper weet dat ze moeten bestaan, kunnen de resulterende hybride synthetische gegevens nauwkeuriger en representatiever zijn voor echte situaties.
Beperkingen van synthetische gegevens
Gegevensverlies
Zelfs als synthetische gegevens ideaal gezien vrijwel identiek zijn aan echte gegevens, kan een bepaald niveau van informatie verloren gaan in het proces. Dit is vooral waar bij sterke anonimisering. Dus moet soms een balans tussen privacy en efficiëntie worden gevonden.
Vooringenomenheid
Aangezien synthetische gegevens proberen om echte gegevenssets na te bootsen, zullen ze ook waarschijnlijk elke fout, vooringenomenheid of probleem repliceren dat daarin wordt aangetroffen. Dus is het vaak belangrijk om meerdere echte gegevenssets van verschillende regio’s, demografische groepen, tijdsframes, enz. te mengen bij het creëren van synthetische gegevens.
“De geloofwaardigheid van synthetische gegevens wordt berekend door deze te vergelijken met echte gegevens via statistische en analytische tests. Dit omvat een beoordeling van hoe goed de synthetische gegevens belangrijke statistische eigenschappen behouden, zoals gemiddelden, varianties en correlaties tussen variabelen.”
Raul Salles de Padua – Directeur van Engineering, AI en Quantum bij Multiverse Computing
Modelcollaps
AI-training kan falen wanneer het begint te trainen op te veel van zijn eigen output. Meer training van AI-gegenereerde gegevens creëert een afnemende kwaliteit, die het invoer wordt van de volgende cyclus van training, wat leidt tot de “degeneratie” van het AI-model en zijn collaps.
Om deze reden wordt het mengen van echte gegevens met synthetische gegevens over het algemeen aanbevolen.
“Trainen op samples van een andere generatieve model kan een distributieverschuiving veroorzaken, die op lange termijn modelcollaps veroorzaakt. Dit zorgt ervoor dat het model de onderliggende leertaak verkeerd begrijpt.
Om het leren over een lange periode te behouden, moeten we ervoor zorgen dat toegang tot de oorspronkelijke gegevensbron wordt behouden en dat verdere gegevens die niet zijn gegenereerd door LLM’s beschikbaar blijven over tijd.”
AI-modellen collaberen wanneer ze worden getraind op recursief gegenereerde gegevens – Nature.
Gebruikscases van synthetische gegevens
Zelfrijdende auto’s
Aangezien echte gegevens van stadsstraten moeilijk te verzamelen kunnen zijn in voldoende hoeveelheden, gebruiken de meeste zelfrijdende AI-bedrijven synthetische gegevens tot op zekere hoogte. Deze gesimuleerde straten, complete met levensechte fietsen, auto’s, wandelaars en willekeurige bewegende objecten, kunnen helpen om de zelfrijdende AI te trainen met veel meer uren van virtuele ervaring, waardoor de totale kosten van de training afnemen.
Financiën
Van voorspellende modellen voor investeringen en risico’s (handel, banken, verzekeringen) tot fraudeopsporing, gebruiken financiële bedrijven synthetische gegevens voor betere detectie van risico’s, fraude en witwassen.
Hier is het gebruik niet alleen om deze risico’s goed te detecteren, maar ook voor de managementteams van bedrijven om te demonstreren aan regelgevers en stakeholders dat elke inspanning wordt gedaan om deze problemen te detecteren en te voorkomen, wat potentieel miljarden in verliezen of boetes kan voorkomen.
Gezondheidszorg
Door de totale “ervaring” van een AI in training te vergroten, kunnen synthetische gegevens helpen om modellen te trainen die later worden gebruikt in epidemiologie, medische beeld- en laboratoriumresultaatanalyse of klinische onderzoeken.
Dergelijke AI’s kunnen later retroactief worden getest op bekende kohorten en populatieonderzoeken, waardoor de nauwkeurigheid van hun voorspelling wordt aangetoond.
Synthetische gegevensprovider – Tonic.ai
De meeste bedrijven die synthetische gegevens gebruiken, vertrouwen op externe providers die zich specialiseren in dit veld.
Een voorbeeld hiervan is Tonic.ai, dat kan worden geïntegreerd met vrijwel elke database, waardoor gegevensontginning, ontwikkeling en testen mogelijk worden met de echte gegevens van de klant.

Bron: Tonic.ai
Onder de diensten die door het bedrijf worden aangeboden, kunnen worden genoemd:
- Creëren van geïsoleerde testdatabase in seconden.
- Validatie van de gegenereerde synthetische gegevens.
- Vrije-tekstgegevensredactie en synthese, waardoor de-identificatie wordt gewaarborgd.

Bron: Tonic.ai
Tonic.ai-tools worden gebruikt door veel grote ondernemingen, zoals eBay-ontwikkelaars, American Express (zie hieronder), Volvo, Cigna, Walgreens, enz.
Gebruiker van synthetische gegevens – American Express
(AXP )
Een van ‘s werelds toonaangevende creditcardaanbieders, American Express, is al enige tijd bezig met het gebruik van synthetische gegevens voor bedrijfsdoeleinden, al gebruikmakend van diepe leerlingen vóór 2020 en gebruikmakend van Nvidia-hardware.
AI-gebruik voor klanten
Het werd gemeld dat het “AI-gegenereerde nepfraudepatronen gebruikt om de modellen te verbeteren om zeldzame of ongebruikelijke oplichting te detecteren”.
“Deze technieken hebben een aanzienlijke impact op de klantenervaring, waardoor American Express de snelheid van detectie kan verbeteren en verliezen kan voorkomen door het automatiseren van het besluitvormingsproces.”
Dmitry Efimov – vice president of machine learning research at American Express
Het gebruikt ook AI en synthetische gegevens voor het stroomlijnen van kredietrisicobeoordeling door het opnemen van sociale gedrags- en real-time marktcondities.
Het wordt ook gebruikt, vooral met generatieve AI, voor het verbeteren van de klantenservice en het verminderen van de tijden wanneer het bedrijfschatbot ontoereikend is om aan de verzoeken van klanten te voldoen.
Ondertussen analyseren AI-algoritmen de bestedingsgedragingen, voorkeuren en transactiegeschiedenissen van klanten om aangepaste aanbiedingen en beloningen voor te stellen.
Interne AI-gebruik
Intern heeft AI American Express in staat gesteld om de escalatie naar IT-tickets te verminderen via een reactief probleemoplossingssysteem, en de 9.000 ingenieurs van het bedrijf gebruiken nu GitHub Copilot voor codingsondersteuning.
Het helpt ook de 5.000 reisadviseurs die de meest elite Centurion (zwarte) kaart en Platinum kaart leden van het bedrijf adviseren.
“Reisadviseurs worden uitgerekt over veel verschillende gebieden. Bijvoorbeeld, een klant kan vragen naar must-see locaties in Barcelona, terwijl de volgende vraagt naar vijfsterrenrestaurants in Buenos Aires. Het is alsof je alles in iemands hoofd probeert te houden, hè?”
Overzicht van American Express
Naast AI en synthetische gegevens is American Express een solide financieel bedrijf, dat een omzetgroei van 8-10% in 2025 verwacht, in overeenstemming met het langetermijndoel voor omzetgroei, en een winst per aandeel van 12-16%.
Het bedrijf breidt ook snel uit in het buitenland, na een lange periode waarin het voornamelijk aanwezig was op de Amerikaanse markt, met een groei van 15% per jaar in internationale kaartdiensten.












