Sicurezza informatica

Come i dati falsi proteggono gli utenti reali: il valore dei dati sintetici

mm
Securities.io maintains rigorous editorial standards and may receive compensation from reviewed links. We are not a registered investment adviser and this is not investment advice. Please view our affiliate disclosure.

La sete infinita di più dati

Man mano che il mondo è diventato più digitalizzato, ha iniziato a produrre e richiedere quantità sempre maggiori di dati. Questo pone un problema, poiché tali dati sono spesso associati a persone reali e aziende reali che potrebbero avere seri problemi di privacy.

La questione è diventata ancora più grande con l’emergere dell’IA, che è in grado non solo di effettuare analisi statistiche su lotti di dati, ma anche di setacciare e analizzare il set di dati in profondità a tutti i livelli, da una singola persona a miliardi di voci numeriche.

Data is now so essential to the modern economy that demand for real, high-quality data has grown exponentially. At the same time, stricter data privacy rules and ever-larger AI models have made gathering and labeling real data increasingly difficult or impractical. – IBM Research

Per questo è stato inventato il dato sintetico come soluzione. Questi dati replicano i dati del mondo reale ma non contengono alcuna informazione privata che potrebbe causare problemi. Possono anche essere modificati e adattati a casi d’uso specifici, situazioni rare o qualsiasi cosa lo statistico o il tester che li utilizza possa necessitare.

Anche qui l’IA è stata trasformativa. Da un lato, la tecnologia IA è molto utile per generare dati sintetici migliori, andando oltre i precedenti metodi puramente statistici usati fino ad ora. Dall’altro lato, i dati sintetici sono altrettanto utili per addestrare modelli IA, da modelli 3D simulati di proteine per la scoperta di farmaci a strade per l’IA di guida autonoma.

Intelligenza Artificiale Sintetica Spiegata

I dati sintetici si riferiscono a set di dati generati artificialmente ma che mantengono le proprietà statistiche sottostanti dei dati originali su cui si basano.

I dati sintetici agiscono come complemento ai dati del mondo reale e offrono alcuni vantaggi chiave che consentono a ricercatori e analisti di espandere i risultati iniziali raccolti da sondaggi, esperimenti e misurazioni:

  • L’addestramento di modelli IA con dati sintetici permette di aumentare il volume complessivo dei dati quando i dati reali di alta qualità sono scarsi.
  • In settori come finanza e sanità, i dati sono in offerta limitata, richiedono molto tempo per essere ottenuti o sono difficili da accedere.

The research firm Gartner estimates that by 2030, synthetic data will overtake actual data in training AI models. Gartner also predicts that by 2026, 75% of businesses will employ generative AI to create synthetic customer data by 2026

Tipi di Dati Sintetici

Partially synthetic data uses real-world datasets and replaces portions of it with artificial value. This is usually done for privacy concerns and is commonly used in clinical research, where the real identities of patients and medical records are anonymized.

Fully synthetic data is an entirely generated dataset, estimating the characteristics of real data and trying to emulate them as well as possible: attributes, patterns, and relationships. This can be, for example, done for training against data missing from a user dataset, like financial data missing fraudulent activities, which are needed to train an AI for fraud detection.

Hybrid synthetic data combines real data with fully synthetic data.

Come Generare Dati Sintetici

Statistical methods are by far the oldest method to generate synthetic data, dating back to the 1930s with the synthesis of audio and voice, leading to software synthesizers from the 1970s onwards.

Autoencoder variazionali (VAEs) are programs that produce variations on the data they are trained on. These systems are often used to generate synthetic images, as well as other forms of machine learning.

Fonte: IBM

A related approach to VAEs is generative adversarial networks (GANs), a major approach to generative artificial intelligence. It is made of two neural networks:

  • One generates data that tries to look like the real data set.
  • Another one compares the generated data to a real data set.

The second neural network gives feedback to the first one until the first one is able to generate a synthetic dataset as close as possible to the real one.

Fonte: Wikipedia

Transformer models use the mathematical tools used in the development of many modern AIs, including ChatGPT (where “T” stands for “transformer). They “guess” the most statistically probable output sequence by focusing on the most important tokens in the input sequence.

Lastly, agent-based modeling goes one step further and creates “agents”, mini-AIs that simulate interactions and agent behaviors to produce synthetic data. For example, individual agents can represent individual people in an epidemiology study, with each displaying its own pattern or rate of contact, infection risk, etc.

(We explored the future role of AI agents in the workplace and daily life in “AI’s Killer App: How AI Agents Could Change Everything”)

Vantaggi dei Dati Sintetici

Controllo e Personalizzazione

Poiché i dati sono creati da zero, è molto più facile produrre il set corretto di dati per un determinato compito, ad esempio l’addestramento di un sistema IA.

Possono anche essere creati secondo le specifiche esatte e le esigenze di un’azienda o di un ricercatore.

Efficienza

La generazione di dati elimina la necessità di raccogliere dati reali costosi e dispendiosi in termini di tempo, almeno finché i dati sintetici generati sono sufficientemente vicini ai dati del mondo reale.

Questi dati arrivano anche pre‑etichettati, il che rimuove il tedioso passaggio manuale di etichettare ogni punto dati da parte di un umano, descrivendo ogni immagine, frase o file audio affinché un sistema automatizzato possa comprenderli.

Privacy

I dati completamente sintetici non hanno alcun problema legato alla privacy, poiché non sono legati a individui o aziende reali. Altre forme di dati sintetici sono un buon modo per anonimizzare e “pulire” i dati reali da qualsiasi informazione protetta, sia essa dati privati individuali o proprietà intellettuali protette da copyright o altro.

Fonte: Mostly AI

Maggiore Diversità dei Dati

Set di dati reali troppo piccoli possono perdere casi limite o gruppi sottorappresentati. Questo può essere un problema durante l’addestramento delle IA, poiché il modello risultante ignorerebbe completamente l’esistenza di questi casi.

Espandendo il set di dati iniziale e aggiungendo artificialmente i casi mancanti che il progettista sa dovrebbero esistere, i dati sintetici ibridi risultanti possono essere più accurati e rappresentativi delle situazioni reali.

Limiti dei Dati Sintetici

Perdita di Dati

Anche se, idealmente, i dati sintetici sono praticamente identici ai dati reali, qualche livello di informazione può andare perso nel processo. Ciò è particolarmente vero con una forte anonimizzazione. Quindi, a volte è necessario trovare un equilibrio tra privacy ed efficienza.

Bias

Poiché i dati sintetici cercano di replicare i set di dati del mondo reale, è probabile che replicino anche eventuali errori, bias o problemi presenti in essi. Pertanto è spesso importante mescolare più set di dati reali provenienti da diverse regioni, gruppi demografici, periodi temporali, ecc., quando si creano dati sintetici.

“The fidelity of synthetic data is calculated by comparing it to real-world data through statistical and analytical tests. This includes an assessment of how well the synthetic data preserves key statistical properties, such as means, variances, and correlations between variables.”

Raul Salles de Padua – Director of Engineering, AI and Quantum at Multiverse Computing

Collasso del Modello

L’addestramento IA può fallire quando inizia a formarsi su troppi propri output. Un addestramento più intenso su dati generati dall’IA porta a una qualità decrescente, che diventa l’input del ciclo successivo di addestramento, provocando la “degradazione” del modello IA e il suo collasso.

Per questo motivo, è generalmente consigliato mescolare dati reali con dati sintetici.

“Training on samples from another generative model can induce a distribution shift, which—over time—causes model collapse. This in turn causes the model to misperceive the underlying learning task.

To sustain learning over a long period of time, we need to make sure that access to the original data source is preserved and that further data not generated by LLMs remain available over time.”

AI models collapse when trained on recursively generated data – Nature.

Casi d’Uso dei Dati Sintetici

Guida Autonoma

Poiché i dati reali delle strade cittadine possono essere difficili da raccogliere in numero sufficiente, la maggior parte delle aziende di IA per guida autonoma utilizza i dati sintetici in una certa misura. Queste strade simulate, complete di biciclette, auto, pedoni e oggetti in movimento realistici, possono aiutare ad addestrare l’IA di guida autonoma con molte più ore di esperienza virtuale, riducendo il costo complessivo dell’addestramento.

Finanza

Dai modelli predittivi per investimenti e rischi (trading, banche, assicurazioni) alla rilevazione di frodi, le aziende finanziarie usano dati sintetici per migliorare la rilevazione di rischi, frodi e riciclaggio di denaro.

Qui il caso d’uso non è solo rilevare correttamente questi rischi, ma anche consentire ai team di gestione delle aziende di dimostrare a regolatori e stakeholder che ogni sforzo è stato fatto per rilevare e prevenire tali problemi, potenzialmente evitando miliardi di perdite o multe.

Sanità

Aumentando l’esperienza totale di un’IA durante l’addestramento, i dati sintetici possono aiutare a formare modelli successivamente usati in epidemiologia, analisi di immagini mediche e risultati di laboratorio, o studi clinici.

Queste IA possono poi essere testate retroattivamente su coorti note e studi di popolazione, dimostrando l’accuratezza delle loro previsioni.

Fornitore di Dati Sintetici – Tonic.ai

La maggior parte delle aziende che utilizzano dati sintetici tende a fare affidamento su fornitori esterni specializzati in questo campo.

Un esempio è Tonic.ai, che può integrarsi con praticamente tutti i database, consentendo l’estrazione, lo sviluppo e il testing usando i dati reali del cliente.

Fonte: Tonic.ai

Fonte: Tonic.ai

Gli strumenti di Tonic.ai sono utilizzati da molte grandi corporation, come gli sviluppatori di eBay, American Express (vedi sotto), Volvo, Cigna, Walgreens, ecc.

Utente di Dati Sintetici – American Express

(AXP )

Uno dei principali fornitori mondiali di carte di credito, American Express, è stato in prima linea nell’utilizzare dati sintetici per scopi aziendali, già usando deep learning prima del 2020 e utilizzando hardware Nvidia.

Utilizzi dell’IA per i Clienti

È stato segnalato l’uso di “modelli di frode falsi generati dall’IA per affinare la capacità dei loro modelli di rilevare truffe rare o poco comuni”.

Queste tecniche hanno un impatto sostanziale sull’esperienza del cliente, consentendo ad American Express di migliorare la velocità di rilevamento e prevenire perdite automatizzando il processo decisionale.”

Dmitry Efimov – vice president of machine learning research at American Express

Utilizza inoltre IA e dati sintetici per ottimizzare la valutazione del rischio creditizio includendo anche comportamenti sociali e condizioni di mercato in tempo reale.

È anche impiegata, soprattutto con IA generativa, per migliorare i servizi al cliente e ridurre i casi in cui il chatbot dell’azienda non riesce a rispondere alle richieste dei clienti.

Nel frattempo, gli algoritmi IA analizzano i comportamenti di spesa dei clienti, le preferenze e le cronologie delle transazioni per suggerire offerte e premi personalizzati.

Utilizzi Interni dell’IA

Internamente, l’IA ha permesso ad American Express di ridurre le escalation a ticket IT attraverso un sistema reattivo di risoluzione dei problemi, e i 9.000 ingegneri dell’azienda ora usano GitHub Copilot per assistenza nella codifica.

Aiuta anche i 5.000 consulenti di viaggio che assistono i membri più elitari della carta Centurion (nera) e della carta Platinum.

“I consulenti di viaggio sono distribuiti su molte aree diverse. Per esempio, un cliente può chiedere i luoghi da non perdere a Barcellona, mentre il successivo interroga sui ristoranti a cinque stelle di Buenos Aires. È difficile tenere tutto questo nella testa di qualcuno, vero?”

Hilary Packer, Amex EVP and CTO

Panoramica di American Express

Oltre all’IA e ai dati sintetici, American Express è una solida società finanziaria, che prevede una crescita dei ricavi dell’8‑10% nel 2025, in linea con l’obiettivo a lungo termine di crescita dei ricavi, e un aumento degli utili per azione del 12‑16%.

L’azienda sta anche espandendo rapidamente la propria presenza a livello internazionale, dopo un lungo periodo di presenza quasi esclusiva nel mercato statunitense, con una crescita del 15% anno su anno nei servizi di carte internazionali fatturati.

Ultime Notizie su American Express

in italiano.

Jonathan è un ex ricercatore di biochimica che ha lavorato nell'analisi genetica e nei trial clinici. Ora è un analista di mercato e scrittore di finanza con un focus su innovazione, cicli di mercato e geopolitica nella sua pubblicazione The Eurasian Century.