Cybersécurité
Comment les fausses données protègent les vrais utilisateurs : la valeur des données synthétiques
Securities.io applique des normes éditoriales rigoureuses et peut percevoir une rémunération pour les liens vérifiés. Nous ne sommes pas un conseiller en investissement agréé et ceci ne constitue pas un conseil en investissement. Veuillez consulter notre divulgation de l'affiliation.

La soif infinie de plus de données
À mesure que le monde se numérise, il produit et requiert des quantités croissantes de données. Cela pose problème, car ces données sont souvent associées à des personnes et des entreprises réelles, ce qui peut susciter de graves préoccupations en matière de confidentialité.
Ce problème est devenu encore plus important avec l’émergence de l’IA, qui est capable non seulement d’effectuer des analyses statistiques sur des lots de données, mais également de parcourir et d’analyser l’ensemble de données en profondeur à tous les niveaux, d’une personne individuelle à des milliards d’entrées numériques.
Les données sont désormais si essentielles à l'économie moderne que la demande de données réelles et de haute qualité a connu une croissance exponentielle. Parallèlement, le durcissement des règles de confidentialité des données et la multiplication des modèles d'IA rendent la collecte et l'étiquetage de données réelles de plus en plus difficiles, voire impraticables. Recherche IBM
C'est pourquoi les données synthétiques ont été inventées comme solution. Ces données reproduisent des données réelles, mais ne contiennent aucune donnée privée susceptible de poser problème. Elles peuvent également être modifiées et adaptées à des cas d'utilisation spécifiques, à des situations rares ou à tout besoin du statisticien ou du testeur qui les utilise.
Ici aussi, l'IA a été transformatrice. D'un côté, la technologie de l'IA est très utile pour générer de meilleures données synthétiques, dépassant les méthodes purement statistiques utilisées jusqu'à présent. De l'autre, les données synthétiques sont tout aussi utiles pour entraîner des modèles d'IA, des modèles 3D simulés de protéines pour la découverte de médicaments aux routes pour l'IA autonome.
L'IA synthétique expliquée
Les données synthétiques font référence à des ensembles de données générés artificiellement mais qui conservent les propriétés statistiques sous-jacentes des données originales sur lesquelles elles sont basées.
Les données synthétiques agissent comme un complément aux données du monde réel et offrent quelques avantages clés qui permettent aux chercheurs et aux analystes d'élargir les résultats initiaux collectés à partir d'enquêtes, d'expériences et de mesures :
- La formation de modèles d’IA avec des données synthétiques nous permet d’augmenter le volume global de données lorsque les données réelles de haute qualité sont rares.
- Dans des secteurs comme la finance et la santé, les données sont limitées, leur obtention prend du temps ou leur accès est difficile.
Le cabinet de recherche Gartner estime que d'ici 2030, les données synthétiques dépasseront les données réelles dans la formation des modèles d'IA.Gartner prédit également que d'ici 2026, 75 % des entreprises utiliseront l'IA générative pour créer des données clients synthétiques.
Types de données synthétiques
Données partiellement synthétiques Utilise des ensembles de données réelles et remplace certaines parties par des valeurs artificielles. Cette méthode est généralement utilisée pour des raisons de confidentialité et est couramment utilisée en recherche clinique, où l'identité réelle des patients et les dossiers médicaux sont anonymisés.
Données entièrement synthétiques Il s'agit d'un ensemble de données entièrement généré, qui estime les caractéristiques de données réelles et tente de les reproduire au mieux : attributs, modèles et relations. Cela peut être réalisé, par exemple, pour l'entraînement sur des données manquantes dans un ensemble de données utilisateur, comme des données financières manquantes d'activités frauduleuses, nécessaires à l'entraînement d'une IA à la détection de fraude.
Données synthétiques hybrides combine des données réelles avec des données entièrement synthétiques.
Comment générer des données synthétiques
Méthodes statistiques sont de loin la méthode la plus ancienne pour générer des données synthétiques, remontant aux années 1930 avec la synthèse audio et vocale, menant aux synthétiseurs logiciels à partir des années 1970.
Auto-encodeurs variationnels Les VAE (Virtual Adaptive Evaluative) sont des programmes qui produisent des variations sur les données sur lesquelles ils sont entraînés. Ces systèmes sont souvent utilisés pour générer des images de synthèse, ainsi que d'autres formes d'apprentissage automatique.

Source: IBM
Une approche connexe aux VAE est gréseaux antagonistes génératifs (GAN), une approche majeure de l'intelligence artificielle générative. Elle est composée de deux réseaux neuronaux :
- On génère des données qui tentent de ressembler à l’ensemble de données réel.
- Un autre compare les données générées à un ensemble de données réelles.
Le deuxième réseau neuronal donne un retour d'information au premier jusqu'à ce que ce dernier soit capable de générer un ensemble de données synthétiques aussi proche que possible du réel.

Source: Wikipédia
Modèles de transformateurs Utilisent les outils mathématiques utilisés dans le développement de nombreuses IA modernes, notamment ChatGPT (où « T » signifie « transformateur »). Ils « devinent » la séquence de sortie la plus probable statistiquement en se concentrant sur les jetons les plus importants de la séquence d'entrée.
Enfin, le modélisation à base d'agents va plus loin et crée des « agents », des mini-IA qui simulent les interactions et les comportements des agents pour produire des données synthétiques. Par exemple, des agents individuels peuvent représenter des personnes dans une étude épidémiologique, chacun présentant ses propres schémas, taux de contact, risque d'infection, etc.
(Nous avons exploré le rôle futur des agents d'IA sur le lieu de travail et dans la vie quotidienne dans «L'application phare de l'IA : comment les agents IA pourraient tout changer»)
Avantages des données synthétiques
Contrôle et personnalisation
Étant donné que les données sont créées à partir de zéro, il est beaucoup plus facile de produire l’ensemble de données correct pour une tâche donnée, par exemple, la formation d’un système d’IA.
Ils peuvent également être créés selon les spécifications et les besoins exacts d’une entreprise ou d’un chercheur.
Efficacité
La génération de données élimine le besoin d’une collecte coûteuse et chronophage de données réelles, du moins tant que les données synthétiques générées sont suffisamment proches des données du monde réel.
Ces données sont également pré-étiquetées, ce qui supprime l'étape manuelle fastidieuse consistant à étiqueter chaque point de données par un humain, en décrivant chaque image, phrase ou fichier audio afin qu'un système automatisé puisse les comprendre.
Confidentialité
Les données entièrement synthétiques ne posent aucun problème de confidentialité, car elles ne sont liées à aucune personne ni entreprise réelle. D'autres formes de données synthétiques constituent un bon moyen d'anonymiser et de « nettoyer » les données réelles de toute information protégée, qu'il s'agisse de données privées individuelles ou de propriétés intellectuelles protégées par le droit d'auteur ou autre.

Source: Surtout l'IA
Des données plus diversifiées
Des ensembles de données réels trop petits peuvent passer à côté de cas limites ou de groupes sous-représentés. Cela peut poser problème lors de l'entraînement des IA, car le modèle résultant ignorerait complètement l'existence de ces cas.
En élargissant l'ensemble de données initial et en ajoutant artificiellement le cas manquant dont le concepteur sait qu'il devrait exister, les données synthétiques hybrides résultantes peuvent être plus précises et représentatives des situations réelles.
Limites des données synthétiques
Perte de données
Même si, idéalement, les données synthétiques sont quasiment identiques aux données réelles, une certaine quantité d'informations peut être perdue au cours du processus. C'est particulièrement vrai en cas d'anonymisation poussée. Il est donc parfois nécessaire de trouver un équilibre entre confidentialité et efficacité.
Préjugé
Comme les données synthétiques s'efforcent de reproduire des ensembles de données réels, elles sont également susceptibles de reproduire toute erreur, biais ou problème qu'elles contiennent. Il est donc souvent important de combiner plusieurs ensembles de données réelles provenant de régions, de groupes démographiques et de périodes différents, etc., lors de la création de données synthétiques.
La fidélité des données synthétiques est calculée en les comparant aux données réelles au moyen de tests statistiques et analytiques. Cela comprend une évaluation de la capacité des données synthétiques à préserver les propriétés statistiques clés, telles que les moyennes, les variances et les corrélations entre les variables.
Raul Salles de Padua – Directeur de l'ingénierie, de l'IA et du quantique chez Informatique multivers
Effondrement du modèle
L'entraînement de l'IA peut échouer lorsqu'il s'appuie trop sur ses propres données. Un entraînement supplémentaire à partir des données générées par l'IA entraîne une baisse de qualité, qui devient la source du cycle d'entraînement suivant, conduisant à la « dégénérescence » du modèle d'IA et à son effondrement.
Pour cette raison, il est généralement recommandé de mélanger des données réelles avec des données synthétiques.
L'apprentissage sur des échantillons provenant d'un autre modèle génératif peut induire un décalage de distribution qui, à terme, entraîne l'effondrement du modèle. Ce phénomène conduit alors le modèle à mal percevoir la tâche d'apprentissage sous-jacente.
Pour maintenir l’apprentissage sur une longue période, nous devons nous assurer que l’accès à la source de données d’origine est préservé et que d’autres données non générées par les LLM restent disponibles au fil du temps.
Cas d'utilisation des données synthétiques
Auto-conduite
Comme il est difficile de collecter suffisamment de données réelles sur les rues des villes, la plupart des entreprises d'IA autonome utilisent, dans une certaine mesure, des données synthétiques. Ces rues simulées, avec des vélos, des voitures, des piétons et des objets en mouvement aléatoires réalistes, peuvent contribuer à l'entraînement de l'IA autonome grâce à de nombreuses heures d'expérience virtuelle supplémentaires, réduisant ainsi le coût global de la formation.
Finance
Des modèles prédictifs d’investissement et de risques (trading, banques, assurances) à la détection des fraudes, les sociétés financières utilisent des données synthétiques pour une meilleure détection des risques, de la fraude et du blanchiment d’argent.
Ici, le cas d'utilisation n'est pas seulement de détecter correctement ces risques, mais aussi de permettre aux équipes de direction des entreprises de démontrer aux régulateurs et aux parties prenantes que tous les efforts sont faits pour détecter et éviter ces problèmes, évitant ainsi potentiellement des milliards de pertes ou d'amendes.
Santé
En augmentant « l’expérience » totale d’une IA en formation, les données synthétiques peuvent aider à former des modèles utilisés ultérieurement en épidémiologie, en analyse d’images médicales et de résultats de laboratoire ou en essais cliniques.
Ces IA peuvent ensuite être testées rétroactivement sur des cohortes et des études de population connues, prouvant ainsi l’exactitude de leur prédiction.
Fournisseur de données synthétiques – Tonique.ai
La plupart des entreprises utilisant des données synthétiques ont tendance à s’appuyer sur des fournisseurs externes spécialisés dans ce domaine.
Tonic.ai en est un exemple : il peut s'intégrer à pratiquement toutes les bases de données, permettant ainsi l'exploration de données, le développement et les tests à l'aide des données réelles du client.

Source: Tonique.ai
Parmi les services proposés par l'entreprise on peut citer :
- Création d'une base de données de test isolée en quelques secondes.
- Validation des données synthétiques générées.
- Rédaction et synthèse de données en texte libre, assurant la dé-identification.

Source: Tonique.ai
Les outils Tonic.ai sont utilisés par de nombreuses grandes entreprises, comme les développeurs d'eBay, American Express (voir ci-dessous), Volvo, Cigna, Walgreens, etc.

Utilisateur de données synthétiques – American express
American Express Company (AXP + 0.05%)
American Express, l'un des principaux fournisseurs de cartes de crédit au monde, a été à l'avant-garde de l'utilisation de données synthétiques à des fins commerciales. utilisaient déjà l'apprentissage profond avant 2020 et en utilisant du matériel Nvidia.
Utilisations de l'IA pour les clients
Il a notamment été rapporté qu'il utilisait «Des modèles de fraude factices générés par l'IA pour affiner la capacité de ses modèles à détecter les escroqueries rares ou peu courantes ».
"Ces techniques ont un impact substantiel sur l'expérience client, permettant à American Express d'améliorer la vitesse de détection et de prévenir les pertes en automatisant le processus de prise de décision.
Dmitri Efimov - vice-président de la recherche en apprentissage automatique chez American Express
Il utilise également l’IA et les données synthétiques pour rationaliser l’évaluation du risque de crédit en incluant même le comportement social et les conditions du marché en temps réel.
Il est également utilisé, notamment avec l'IA générative, pour améliorer les services clients et réduire les moments où le chatbot de l'entreprise s'avère insuffisant pour répondre aux demandes des clients.
Pendant ce temps, les algorithmes d’IA analysent les comportements de dépenses, les préférences et l’historique des transactions des clients pour suggérer des offres et des récompenses sur mesure.
Utilisations internes de l'IA
En interne, l'IA a permis à American Express de réduire l'escalade des tickets informatiques grâce à un système de résolution de problèmes réactif, et les 9,000 XNUMX ingénieurs de l'entreprise utilisent désormais GitHub Copilot pour l'assistance au codage.
Il aide également les 5,000 XNUMX conseillers en voyages qui conseillent les membres les plus prestigieux de la carte Centurion (noire) et de la carte Platinum de l'entreprise.
Les conseillers en voyages sont souvent confrontés à des domaines très variés. Par exemple, un client peut s'informer sur les sites incontournables de Barcelone, tandis qu'un autre se renseigne sur les restaurants cinq étoiles de Buenos Aires. Il faut essayer de garder tout cela en tête, n'est-ce pas ?
Hilary Packer, vice-présidente exécutive et directrice technique d'Amex
Présentation d'American Express
Outre l'IA et les données synthétiques, American Express est une société financière solide, qui prévoit une croissance des revenus de 8 à 10 % en 2025, conformément à l'objectif à long terme de croissance des revenus, et un bénéfice par action de 12 à 16 %.
L'entreprise connaît également une expansion internationale rapide, après une longue période de présence principalement sur le marché américain, avec une croissance de 15 % d'une année sur l'autre des activités de facturation des services de cartes internationales.









