Cybersikkerhet

Hvordan falske data beskytter ekte brukere: Verdien av syntetiske data

mm
Securities.io maintains rigorous editorial standards and may receive compensation from reviewed links. We are not a registered investment adviser and this is not investment advice. Please view our affiliate disclosure.

Den endeløse tørsten etter mer data

Etter hvert som verden ble mer digitalisert, begynte den å produsere og kreve stadig større mengder data. Dette skaper et problem, ettersom disse dataene ofte er knyttet til ekte personer og ekte selskaper som kan ha alvorlige personvernproblemer.

Dette har blitt et enda større problem med fremveksten av AI, som ikke bare kan utføre statistisk analyse på datasett, men også gå gjennom og analysere datasettet i dybden på alle nivåer, fra en enkeltperson til milliarder av numeriske oppføringer.

Data er nå så essensielt for den moderne økonomien at etterspørselen etter ekte, høy‑kvalitetsdata har vokst eksponentielt. Samtidig har strengere personvernregler og stadig større AI‑modeller gjort innsamling og merking av ekte data stadig vanskeligere eller upraktisk. – IBM Research

Dette er grunnen til at syntetiske data ble oppfunnet som en løsning. Disse dataene etterligner virkelige data, men inneholder ingen private opplysninger som kan skape problemer. De kan også endres og tilpasses spesifikke bruksområder, sjeldne situasjoner eller alt statistiker eller tester som bruker dem måtte trenge.
Her også har AI vært transformerende. På den ene siden er AI‑teknologi svært nyttig for å generere bedre syntetiske data, og går utover de tidligere rent statistiske metodene som ble brukt. På den andre siden er syntetiske data like nyttige for å trene AI‑modeller, fra simulerte 3D‑modeller av proteiner for legemiddelforskning til gater for selvkjørende AI.

Syntetisk AI forklart

Syntetiske data refererer til datasett som er kunstig generert, men som beholder de underliggende statistiske egenskapene til de originale dataene de er basert på.
Syntetiske data fungerer som et supplement til virkelige data og gir noen viktige fordeler som gjør det mulig for forskere og analytikere å bygge videre på de innledende resultatene samlet fra undersøkelser, eksperimenter og målinger:

  • Å trene AI‑modeller med syntetiske data gjør det mulig å øke den totale datamengden når høykvalitets ekte data er i knapphet.
  • I sektorer som finans og helsevesen er data i begrenset mengde, tidkrevende å skaffe eller vanskelig å få tilgang til.

Forskningsfirmaet Gartner anslår at syntetiske data innen 2030 vil overgå faktiske data i trening av AI‑modeller. Gartner forutsier også at innen 2026 vil 75 % av bedrifter bruke generativ AI til å lage syntetiske kundedata.

Typer syntetiske data

Delvis syntetiske data bruker virkelige datasett og erstatter deler av dem med kunstige verdier. Dette gjøres vanligvis av personvernhensyn og brukes ofte i klinisk forskning, hvor de ekte identitetene til pasienter og medisinske journaler anonymiseres.

Fullt syntetiske data er et helt generert datasett, som estimerer egenskapene til ekte data og prøver å etterligne dem så godt som mulig: attributter, mønstre og relasjoner. Dette kan for eksempel gjøres for trening mot data som mangler i et brukerdatasett, som finansielle data uten svindelaktiviteter, som er nødvendig for å trene en AI for svindeldeteksjon.

Hybridsyntetiske data kombinerer ekte data med fullt syntetiske data.

Hvordan generere syntetiske data

Statistiske metoder er langt den eldste metoden for å generere syntetiske data, og går tilbake til 1930‑årene med syntese av lyd og tale, som førte til programvare‑syntetisatorer fra 1970‑tallet og fremover.

Variational autoencoders (VAEs) er programmer som produserer variasjoner av dataene de er trent på. Disse systemene brukes ofte til å generere syntetiske bilder, samt andre former for maskinlæring.

Kilde: IBM


Jonathan er en tidligere biochemistforsker som arbeidet med genetisk analyse og kliniske forsøk. Han er nå en aksjeanalytiker og finansforfatter med fokus på innovasjon, markedssykluser og geopolitikk i sin publikasjon The Eurasian Century.