Cybersäkerhet

Hur falska data skyddar riktiga användare: Värdet av syntetisk data

mm
Securities.io maintains rigorous editorial standards and may receive compensation from reviewed links. We are not a registered investment adviser and this is not investment advice. Please view our affiliate disclosure.

Den oändliga törsten efter mer data

När världen blev mer digitaliserad började den producera och kräva ökande mängder data. Detta innebär ett problem, eftersom dessa data ofta är kopplade till riktiga personer och företag som kan ha allvarliga integritetsproblem.

Detta har blivit ett ännu större problem med AI:s framväxt, som inte bara kan utföra statistisk analys på datamängder utan också gå igenom och analysera datasetet på djupet på alla nivåer, från en enskild person till miljarder numeriska poster.

Data är nu så avgörande för den moderna ekonomin att efterfrågan på verkliga, högkvalitativa data har ökat exponentiellt. Samtidigt har striktare dataskyddsregler och allt större AI‑modeller gjort insamling och märkning av verkliga data alltmer svår eller opraktisk. – IBM Research

Det är därför syntetisk data uppfanns som en lösning. Dessa data efterliknar verkliga data men innehåller inga privata uppgifter som kan orsaka problem. De kan också modifieras och anpassas till specifika användningsfall, sällsynta situationer eller vad statistikern eller testaren som använder dem kan behöva.

Här också har AI varit transformerande. Å ena sidan är AI‑teknik mycket användbar för att generera bättre syntetisk data, som går bortom de tidigare enbart statistiska metoderna. Å andra sidan är syntetisk data lika värdefull för att träna AI‑modeller, från simulerade 3D‑modeller av proteiner för läkemedelsupptäckt till gator för självkörande AI.

Syntetisk AI förklarad

Syntetisk data avser dataset som artificiellt genereras men behåller de underliggande statistiska egenskaperna hos de ursprungliga data de baseras på.

Syntetisk data fungerar som ett komplement till verkliga data och ger några viktiga fördelar som gör det möjligt för forskare och analytiker att bygga vidare på initiala resultat insamlade från undersökningar, experiment och mätningar:

  • Att träna AI‑modeller med syntetisk data gör det möjligt att öka den totala datavolymen när högkvalitativa verkliga data är bristfälliga.
  • I sektorer som finans och hälsovård är data begränsade, tidskrävande att erhålla eller svåra att få tillgång till.

Forskningsföretaget Gartner uppskattar att syntetisk data år 2030 kommer att överträffa faktiska data vid träning av AI‑modeller. Gartner förutspår också att år 2026 kommer 75 % av företagen att använda generativ AI för att skapa syntetisk kunddata.

Typer av syntetisk data

Partiellt syntetisk data använder verkliga dataset och ersätter delar av dem med artificiella värden. Detta görs vanligtvis av integritetsskäl och används ofta inom klinisk forskning, där patienters verkliga identiteter och medicinska journaler anonymiseras.

Fullt syntetisk data är ett helt genererat dataset som uppskattar egenskaperna hos verkliga data och försöker efterlikna dem så bra som möjligt: attribut, mönster och relationer. Detta kan exempelvis göras för att träna mot data som saknas i ett användardataset, såsom finansiella data utan bedrägliga aktiviteter, vilka behövs för att träna en AI för bedrägeridetektion.

Hybridsyntetisk data kombinerar verkliga data med fullt syntetisk data.

Hur man genererar syntetisk data

Statistiska metoder är med hela tiden den äldsta metoden för att generera syntetisk data, med rötter tillbaka till 1930‑talen med syntes av ljud och röst, vilket ledde till mjukvarusyntar från 1970‑talen och framåt.

Variationsautoenkodare (VAEs) är program som producerar variationer på de data de tränas på. Dessa system används ofta för att generera syntetiska bilder, liksom andra former av maskininlärning.

Källa: IBM

En relaterad metod till VAEs är generativa adversariella nätverk (GANs), en viktig metod för generativ artificiell intelligens. Den består av två neurala nätverk:

  • Den ena genererar data som försöker se ut som det verkliga datasetet.
  • Den andra jämför den genererade datan med ett verkligt dataset.

Det andra neurala nätverket ger återkoppling till det första tills det första kan generera ett syntetiskt dataset som så nära som möjligt det verkliga.

Källa: Wikipedia

Transformer‑modeller använder de matematiska verktyg som används i utvecklingen av många moderna AI‑system, inklusive ChatGPT (där “T” står för “transformer”). De “gissar” den mest statistiskt sannolika utskriftssekvensen genom att fokusera på de viktigaste tokenarna i inmatningssekvensen.

Slutligen går agentbaserad modellering ett steg längre och skapar ”agenter”, mini‑AI:er som simulerar interaktioner och agentbeteenden för att producera syntetisk data. Till exempel kan enskilda agenter representera enskilda personer i en epidemiologisk studie, där varje visar sitt eget kontaktmönster, infektionsrisk osv.

(Vi utforskade AI‑agenternas framtida roll på arbetsplatsen och i vardagen i “AI’s Killer App: How AI Agents Could Change Everything”)

Fördelar med syntetisk data

Kontroll & anpassning

Eftersom datan skapas från grunden är det mycket enklare att producera rätt dataset för en given uppgift, till exempel att träna ett AI‑system.

De kan också skapas enligt de exakta specifikationerna och behoven hos ett företag eller en forskare.

Effektivitet

Genereringen av data eliminerar behovet av dyr och tidskrävande insamling av verkliga data, så länge de genererade syntetiska data är tillräckligt nära data från den verkliga världen.

Dessa data kommer också förhandsmärkta, vilket tar bort det tråkiga manuella steget att märka varje datapunkt av en människa, beskriva varje bild, mening eller ljudfil så att ett automatiserat system kan förstå dem.

Integritet

Fullt syntetisk data har inga integritetsrelaterade problem alls, eftersom de inte är knutna till några verkliga individer eller företag. Andra former av syntetisk data är ett bra sätt att anonymisera och ”rensa” verkliga data från skyddad information, vare sig det är individuella privata uppgifter eller upphovsrättsskyddad eller på annat sätt skyddad immateriell egendom.

Källa: Mostly AI

Mångsidigare data

För små verkliga dataset kan missa kantfall eller underrepresenterade grupper. Detta kan vara ett problem vid träning av AI, eftersom den resulterande modellen helt skulle ignorera dessa fall.

Genom att utöka det ursprungliga datasetet och artificiellt lägga till det saknade fallet som designern vet bör finnas, kan den resulterande hybridsyntetiska datan bli mer exakt och representativ för verkliga situationer.

Begränsningar för syntetisk data

Dataförlust

Även om syntetisk data i idealfallet är praktiskt taget identiska med verkliga data, kan viss information gå förlorad i processen. Detta är särskilt sant vid stark anonymisering. Så en balans mellan integritet och effektivitet måste ibland hittas.

Partiskhet

Eftersom syntetisk data strävar efter att efterlikna verkliga dataset, är de också benägna att reproducera eventuella fel, partiskhet eller problem som finns i dem. Därför är det ofta viktigt att blanda flera verkliga dataset från olika regioner, demografiska grupper, tidsperioder osv när man skapar syntetisk data.

“Fideliteten hos syntetisk data beräknas genom att jämföra den med verkliga data via statistiska och analytiska tester. Detta inkluderar en bedömning av hur väl den syntetiska datan bevarar viktiga statistiska egenskaper, såsom medelvärden, varians och korrelationer mellan variabler.”

Raul Salles de Padua – Director of Engineering, AI and Quantum at Multiverse Computing

Modellkollaps

AI‑träning kan misslyckas när den börjar träna på för mycket av sitt eget output. Mer träning på AI‑genererad data leder till minskande kvalitet, vilket blir indata i nästa träningscykel och orsakar ”degenerering” av AI‑modellen och dess kollaps.

Av den anledningen rekommenderas generellt att blanda verkliga data med syntetisk data.

“Träning på prover från en annan generativ modell kan inducera ett fördelningsskifte, vilket—över tid—orsakar modellkollaps. Detta i sin tur får modellen att missuppfatta den underliggande inlärningsuppgiften.

För att upprätthålla lärandet under en lång period måste vi säkerställa att åtkomst till den ursprungliga datakällan bevaras och att ytterligare data som inte genereras av LLM‑modeller förblir tillgängliga över tid.

AI models collapse when … etc

Användningsområden för syntetisk data

Självkörande

Eftersom verkliga data om stadsgator kan vara svåra att samla in i tillräcklig mängd använder de flesta företag som utvecklar självkörande AI syntetisk data i viss utsträckning. Dessa simulerade gator, komplett med livsliknande cyklar, bilar, fotgängare och slumpmässiga rörliga föremål, kan hjälpa till att träna den självkörande AI:n med många fler timmar av virtuell erfarenhet, vilket minskar den totala träningskostnaden.

Finans

Från prediktiva modeller för investeringar och risker (handel, banker, försäkringar) till bedrägeridetektion använder finansföretag syntetisk data för bättre upptäckt av risker, bedrägerier och penningtvätt.

Här är användningsfallet inte bara att korrekt upptäcka dessa risker utan också att företagets ledningsgrupper kan visa för regulatorer och intressenter att alla möjliga åtgärder vidtas för att upptäcka och undvika dessa problem, vilket potentiellt kan förhindra miljarder i förluster eller böter.

Hälsovård

Genom att öka den totala ”erfarenheten” för en AI under träning kan syntetisk data hjälpa till att träna modeller som senare används inom epidemiologi, medicinsk bild‑ och laboratorieanalys eller kliniska studier.

Sådana AI‑system kan senare retroaktivt testas på kända kohorter och befolkningsstudier, vilket bevisar deras förutsägelses noggrannhet.

Syntetisk dataleverantör – Tonic.ai

De flesta företag som använder syntetisk data tenderar att förlita sig på externa leverantörer som är specialiserade på detta område.

Ett exempel på detta är Tonic.ai, som kan integreras med praktiskt taget alla databaser och möjliggör datamining, utveckling och testning med kundens egna verkliga data.

Källa: Tonic.ai

Among the services proposed by the company can be mentioned:

Källa: Tonic.ai

Tonic.ai‑verktyg används av många stora företag, såsom eBay‑utvecklare, American Express (see below), Volvo, Cigna, Walgreens, etc.

Användare av syntetisk data – American Express

(AXP )

En av världens ledande kreditkortsutgivare, American Express, har varit i framkant när det gäller att använda syntetisk data för affärssyften, redan använde djupinlärning före 2020 och använder Nvidia‑hårdvara.

AI‑användningar för kunder

Det har särskilt rapporterats att de använder ”AI‑genererade falska bedrägerimönster för att förbättra sina modellers förmåga att upptäcka sällsynta eller ovanliga bedrägerier”.

Dessa tekniker har en betydande inverkan på kundupplevelsen, vilket gör det möjligt för American Express att förbättra hastigheten på upptäckten och förhindra förluster genom att automatisera beslutsprocessen.”

Dmitry Efimov –  vice president of machine learning research at American Express

Den använder också AI och syntetisk data för att effektivisera kreditriskbedömning genom att inkludera även socialt beteende och realtidsmarknadsförhållanden.

Den används även, särskilt med generativ AI, för att förbättra kundservice och minska de tillfällen då företagets chatbot visar sig otillräcklig för att besvara kundernas förfrågningar.

Samtidigt analyserar AI‑algoritmer kundernas spenderingsbeteenden, preferenser och transaktionshistorik för att föreslå skräddarsydda erbjudanden och belöningar.

Interna AI‑användningar

Internt har AI gjort det möjligt för American Express att minska eskalering till IT‑ärenden genom ett reaktivt problemlösningssystem, och företagets 9 000 ingenjörer använder nu GitHub Copilot för kodningshjälp.

Det hjälper också de 5 000 rese‑konsulterna som rådgör de mest exklusiva Centurion‑ (svarta) och Platinum‑kortsinnehavarna.

“Resekonsulterna blir utspridda över många olika områden. Till exempel kan en kund fråga om måste‑besöka platser i Barcelona, medan nästa undrar om femstjärniga restauranger i Buenos Aires. Det är som att försöka hålla allt detta i någon persons huvud, eller hur?”

Hilary Packer, Amex EVP and CTO

Översikt över American Express

Förutom AI och syntetisk data är American Express ett stabilt finansföretag som förväntar sig en intäktstillväxt på 8‑10 % år 2025, i linje med det långsiktiga målet för intäktstillväxt, samt en vinst per aktie på 12‑16 %.

Företaget expanderar också snabbt internationellt, efter en lång period där de mestadels varit verksamma på den amerikanska marknaden, med 15 % år‑till‑år tillväxt i den internationella korttjänstverksamheten.

Senaste om American Express

Jonathan är en före detta biokemist som arbetade med genetisk analys och kliniska prövningar. Han är nu en aktieanalytiker och finansskribent med fokus på innovation, marknads cykler och geopolitik i sin publikation The Eurasian Century.