Cyberbeveiliging

Hoe nepdata echte gebruikers beschermt: de waarde van synthetische data

mm
Securities.io maintains rigorous editorial standards and may receive compensation from reviewed links. We are not a registered investment adviser and this is not investment advice. Please view our affiliate disclosure.

De eindeloze dorst naar meer data

Naarmate de wereld meer gedigitaliseerd werd, begon deze steeds meer data te produceren en te vereisen. Dit vormt een probleem, omdat die data vaak gekoppeld zijn aan echte mensen en bedrijven, wat serieuze privacyzorgen met zich meebrengt.

Dit is een nog groter probleem geworden met de opkomst van AI, die niet alleen statistische analyses kan uitvoeren op datasets, maar ook de volledige dataset op elk niveau kan doorzoeken en analyseren, van een individueel persoon tot miljarden numerieke vermeldingen.

Data is nu zo essentieel voor de moderne economie dat de vraag naar echte, hoogwaardige data exponentieel is gegroeid. Tegelijkertijd maken strengere privacyregels en steeds grotere AI-modellen het verzamelen en labelen van echte data steeds moeilijker of onpraktisch. – IBM Research

Daarom is synthetische data uitgevonden als oplossing. Deze data bootsen de real‑world data na, maar bevatten geen privé‑informatie die problemen kan veroorzaken. Ze kunnen bovendien worden aangepast aan specifieke use‑cases, zeldzame situaties, of alles wat de statisticus of tester nodig heeft.

Ook hier heeft AI een transformatieve rol. Aan de ene kant is AI‑technologie zeer nuttig om betere synthetische data te genereren, verder gaand dan de eerdere puur statistische methoden. Aan de andere kant zijn synthetische data even nuttig om AI‑modellen te trainen, van gesimuleerde 3D‑modellen van eiwitten voor geneesmiddelenontdekking tot straten voor zelfrijdende AI.

Synthetische AI uitgelegd

Synthetische data verwijst naar datasets die kunstmatig worden gegenereerd maar de onderliggende statistische eigenschappen van de oorspronkelijke data behouden.

Synthetische data fungeert als een aanvulling op real‑world data en biedt enkele belangrijke voordelen die onderzoekers en analisten in staat stellen om de initiële resultaten van enquêtes, experimenten en metingen uit te breiden:

  • Het trainen van AI‑modellen met synthetische data maakt het mogelijk om het totale datavolume te vergroten wanneer hoogwaardige echte data schaars zijn.
  • In sectoren zoals financiën en gezondheidszorg is data beperkt beschikbaar, tijdrovend te verkrijgen of moeilijk toegankelijk.

Het onderzoeksbureau Gartner schat dat synthetische data tegen 2030 echte data zal overtreffen bij het trainen van AI‑modellen. Gartner voorspelt bovendien dat tegen 2026 75 % van de bedrijven generatieve AI zal inzetten om synthetische klantdata te creëren.

Typen synthetische data

Gedeeltelijk synthetische data maakt gebruik van real‑world datasets en vervangt delen ervan door kunstmatige waarden. Dit gebeurt meestal om privacyredenen en wordt vaak toegepast in klinisch onderzoek, waar de echte identiteit van patiënten en medische dossiers geanonimiseerd worden.

Volledig synthetische data is een volledig gegenereerde dataset die de kenmerken van echte data schat en probeert deze zo nauwkeurig mogelijk te emuleren: attributen, patronen en relaties. Dit kan bijvoorbeeld worden gebruikt om te trainen op ontbrekende gegevens in een gebruikersdataset, zoals financiële data zonder frauduleuze activiteiten, die nodig zijn om een AI voor fraude‑detectie te trainen.

Hybride synthetische data combineert echte data met volledig synthetische data.

Hoe synthetische data te genereren

Statistische methoden zijn verreweg de oudste manier om synthetische data te genereren, teruggaand tot de jaren 1930 met de synthese van audio en spraak, leidend tot softwaresynthesizers vanaf de jaren 1970.

Variational autoencoders (VAEs) zijn programma’s die variaties produceren op de data waarop ze getraind zijn. Deze systemen worden vaak gebruikt om synthetische afbeeldingen te genereren, evenals andere vormen van machine learning.

Bron: IBM

Een verwante benadering van VAEs zijn generatieve adversariële netwerken (GANs), een belangrijke methode binnen generatieve kunstmatige intelligentie. Het bestaat uit twee neurale netwerken:

  • De eerste genereert data die eruitziet als de echte dataset.
  • De tweede vergelijkt de gegenereerde data met een echte dataset.

Het tweede neurale netwerk geeft feedback aan het eerste totdat het eerste netwerk een synthetische dataset kan genereren die zo dicht mogelijk bij de echte ligt.

Bron: Wikipedia

Transformer‑modellen maken gebruik van de wiskundige tools die zijn ontwikkeld voor veel moderne AI’s, waaronder ChatGPT (waar “T” staat voor “transformer”). Ze “raden” de statistisch meest waarschijnlijke outputreeks door zich te concentreren op de belangrijkste tokens in de inputreeks.

Tot slot gaat agent‑gebaseerde modellering een stap verder en creëert “agents”, mini‑AI’s die interacties en agentgedrag simuleren om synthetische data te produceren. Bijvoorbeeld, individuele agents kunnen individuele personen in een epidemiologische studie vertegenwoordigen, waarbij elk zijn eigen contact‑ en infectierisicopatroon vertoont.

(We onderzochten de toekomstige rol van AI‑agents op de werkvloer en in het dagelijks leven in “AI’s Killer App: Hoe AI‑agents alles kunnen veranderen”)

Voordelen van synthetische data

Controle & Aanpassing

Omdat de data vanaf nul worden gecreëerd, is het veel eenvoudiger om de juiste dataset voor een specifieke taak te produceren, bijvoorbeeld het trainen van een AI‑systeem.

Ze kunnen ook precies worden afgestemd op de specificaties en behoeften van een bedrijf of onderzoeker.

Efficiëntie

Het genereren van data elimineert de noodzaak voor dure en tijdrovende verzameling van echte data, zolang de gegenereerde synthetische data voldoende lijken op data uit de echte wereld.

Deze data wordt bovendien vooraf gelabeld, waardoor de arbeidsintensieve handmatige stap van het labelen van elk datapunt door een mens wordt weggenomen, zoals het beschrijven van elke afbeelding, zin of audiobestand zodat een geautomatiseerd systeem ze kan begrijpen.

Privacy

Volledig synthetische data hebben helemaal geen privacy‑gerelateerde problemen, omdat ze niet gekoppeld zijn aan echte personen of bedrijven. Andere vormen van synthetische data zijn een goede manier om echte data te anonimiseren en “schoon” te maken van beschermde informatie, of het nu gaat om individuele privé‑data of auteursrechtelijk beschermd intellectueel eigendom.

Bron: Mostly AI

Meer diverse data

Kleine real‑world datasets kunnen randgevallen of ondervertegenwoordigde groepen missen. Dit kan een probleem zijn bij het trainen van AI’s, omdat het resulterende model die gevallen volledig negeert.

Door de initiële dataset uit te breiden en kunstmatig de ontbrekende gevallen toe te voegen die de ontwerper weet dat ze zouden moeten bestaan, kan de resulterende hybride synthetische data nauwkeuriger en representatiever zijn voor echte situaties.

Beperkingen van synthetische data

Dataverlies

Zelfs als synthetische data in de ideale situatie vrijwel identiek zijn aan echte data, kan er tijdens het proces informatie verloren gaan. Dit geldt vooral bij sterke anonimisatie. Daarom moet soms een balans worden gevonden tussen privacy en efficiëntie.

Bias

Aangezien synthetische data hard proberen real‑world datasets te repliceren, zullen ze ook eventuele fouten, vooroordelen of problemen die in die datasets aanwezig zijn, overnemen. Het is daarom vaak belangrijk om meerdere real‑life datasets uit verschillende regio’s, demografische groepen, tijdsperioden, enz. te combineren bij het creëren van synthetische data.

“De getrouwheid van synthetische data wordt berekend door deze te vergelijken met real‑world data via statistische en analytische tests. Dit omvat een beoordeling van hoe goed de synthetische data belangrijke statistische eigenschappen behoudt, zoals gemiddelden, varianties en correlaties tussen variabelen.”

Raul Salles de Padua – Director of Engineering, AI and Quantum at Multiverse Computing

Model‑instorting

AI‑training kan falen wanneer het te veel traint op eigen output. Meer training met AI‑gegenereerde data leidt tot afnemende kwaliteit, die vervolgens de input wordt voor de volgende trainingscyclus, wat leidt tot “degeneratie” van het AI‑model en uiteindelijk tot instorting.

Om deze reden wordt over het algemeen aanbevolen om echte data te combineren met synthetische data.

“Training op monsters van een ander generatief model kan een distributieverschuiving veroorzaken, die – na verloop van tijd – model‑instorting veroorzaakt. Dit leidt er vervolgens toe dat het model de onderliggende leertaak verkeerd interpreteert.

Om leren over een lange periode vol te houden, moeten we ervoor zorgen dat de toegang tot de oorspronkelijke databron behouden blijft en dat verdere data die niet door LLM’s zijn gegenereerd, beschikbaar blijven.”

AI‑modellen storten in wanneer ze getraind worden op recursief gegenereerde data – Nature.

Toepassingen van synthetische data

Zelfrijdend

Aangezien real‑life data van stadsstraten moeilijk in voldoende aantal te verzamelen zijn, gebruiken de meeste zelfrijdende AI‑bedrijven synthetische data in enige mate. Deze gesimuleerde straten, compleet met levensechte fietsen, auto’s, voetgangers en willekeurige bewegende objecten, kunnen helpen om de zelfrijdende AI te trainen met veel meer uren virtuele ervaring, waardoor de totale trainingskosten dalen.

Financiën

Van voorspellende modellen voor investeringen en risico’s (handelen, banken, verzekeringen) tot fraude‑detectie, gebruiken financiële bedrijven synthetische data voor betere detectie van risico’s, fraude en witwassen.

Hier is de use‑case niet alleen om deze risico’s correct te detecteren, maar ook om de managementteams van de bedrijven aan toezichthouders en belanghebbenden te laten zien dat er alles aan wordt gedaan om deze problemen te detecteren en te voorkomen, waardoor mogelijk miljarden aan verliezen of boetes worden voorkomen.

Gezondheidszorg

Door de totale “ervaring” van een AI tijdens training te vergroten, kan synthetische data helpen bij het trainen van modellen die later worden gebruikt in epidemiologie, medische beeld‑ en laboratoriumresultaatanalyse, of klinische onderzoeken.

Dergelijke AI’s kunnen later retroactief worden getest op bekende cohorten en bevolkingsstudies, waarmee de nauwkeurigheid van hun voorspellingen wordt aangetoond.

Leverancier van synthetische data – Tonic.ai

De meeste bedrijven die synthetische data gebruiken, vertrouwen op externe providers die zich op dit vakgebied hebben gespecialiseerd.

Een voorbeeld hiervan is Tonic.ai, dat kan integreren met vrijwel elke database, waardoor data‑mining, ontwikkeling en testen met de eigen echte data van de klant mogelijk zijn.

Bron: Tonic.ai

Onder de diensten die het bedrijf aanbiedt, kunnen de volgende worden genoemd:

Bron: Tonic.ai

Tonic.ai‑tools worden gebruikt door veel grote ondernemingen, zoals eBay‑ontwikkelaars, American Express (zie hieronder), Volvo, Cigna, Walgreens, enz.

Gebruiker van synthetische data – American Express

(AXP )

Een van ’s werelds toonaangevende creditcardaanbieders, American Express, loopt voorop in het gebruik van synthetische data voor zakelijke doeleinden, al gebruikmakend van deep learning vóór 2020 en met Nvidia‑hardware.

AI‑toepassingen voor klanten

Er is gemeld dat ze “AI‑gegenereerde nep‑fraudepatronen gebruiken om hun modellen te scherpen in het detecteren van zeldzame of ongebruikelijke oplichterijen”.

Deze technieken hebben een aanzienlijke impact op de klantervaring, waardoor American Express de detectiesnelheid kan verbeteren en verliezen kan voorkomen door het besluitvormingsproces te automatiseren.”

Dmitry Efimov – vice president of machine learning research at American Express

Het wordt ook gebruikt om de beoordeling van kredietrisico’s te stroomlijnen door zelfs sociaal gedrag en realtime marktomstandigheden mee te nemen.

Daarnaast wordt het, vooral met generatieve AI, ingezet om de klantenservice te verbeteren en de momenten te verminderen waarop de chatbot van het bedrijf onvoldoende antwoorden kan geven op klantverzoeken.

Tegelijkertijd analyseren AI‑algoritmen het bestedingsgedrag, de voorkeuren en transactiegeschiedenis van klanten om op maat gemaakte aanbiedingen en beloningen voor te stellen.

Interne AI‑toepassingen

Intern heeft AI American Express in staat gesteld om escalaties naar IT‑tickets te verminderen via een reactief probleemoplossingssysteem, en de 9.000 engineers van het bedrijf gebruiken nu GitHub Copilot voor programmeerondersteuning.

Het helpt ook de 5.000 reisadviseurs die de meest elite Centurion‑ (zwarte) en Platinum‑kaarthouders van het bedrijf adviseren.

“Reisadviseurs worden over een breed scala aan onderwerpen uitgerekt. Bijvoorbeeld, de ene klant vraagt naar must‑visit locaties in Barcelona, terwijl de volgende informeert naar vijf‑sterrenrestaurants in Buenos Aires. Het is een uitdaging om al die informatie in iemands hoofd te houden, toch?”

Hilary Packer, Amex EVP and CTO

American Express overzicht

Naast AI en synthetische data is American Express een solide financiële onderneming, die een omzetgroei van 8‑10 % in 2025 verwacht, in lijn met de langetermijndoelstelling voor omzetgroei, en een winst per aandeel van 12‑16 %.

Het bedrijf breidt zich ook snel internationaal uit, na een lange periode waarin het voornamelijk in de Amerikaanse markt aanwezig was, met een groei van 15 % jaar‑over‑jaar in de internationale kaartdiensten‑factureringsactiviteiten.

Laatste nieuws over American Express

Jonathan is een voormalig onderzoeker in de biochemie die werkte aan genetische analyse en klinische onderzoeken. Hij is nu een aandelenanalist en financieel schrijver met een focus op innovatie, marktcycli en geopolitiek in zijn publicatie The Eurasian Century.