Cybersicherheit
Wie falsche Daten echte Nutzer schützen: Der Wert synthetischer Daten

Der unstillbare Durst nach mehr Daten
As the world became more digitized, it started producing and requiring increasing amounts of data. This poses a problem, as said data is often associated with real people and real companies that might have serious privacy concerns.
Als die Welt stärker digitalisiert wurde, begann sie, immer mehr Daten zu erzeugen und zu benötigen. Das stellt ein Problem dar, da diese Daten oft mit echten Personen und realen Unternehmen verbunden sind, die ernsthafte Datenschutzbedenken haben könnten.
This has become an even bigger issue with the emergence of AI, which is able not just to do statistical analysis on batches of data but also to comb through and analyze the dataset in-depth at all levels, from an individual person to billions of numerical entries.
Dies wurde mit dem Aufkommen von KI zu einem noch größeren Problem, da sie nicht nur statistische Analysen auf Datenmengen durchführen kann, sondern auch Datensätze in der Tiefe auf allen Ebenen durchsucht und analysiert, von einzelnen Personen bis hin zu Milliarden von numerischen Einträgen.
Data is now so essential to the modern economy that demand for real, high-quality data has grown exponentially. At the same time, stricter data privacy rules and ever-larger AI models have made gathering and labeling real data increasingly difficult or impractical. – IBM Research
Dies ist der Grund, warum synthetische Daten als Lösung erfunden wurden. Diese Daten replizieren reale Daten, enthalten jedoch keine privaten Informationen, die Probleme verursachen könnten. Sie können zudem modifiziert und an spezifische Anwendungsfälle, seltene Situationen oder alles, was der Statistiker oder Tester benötigt, angepasst werden.
Auch hier hat KI eine transformative Wirkung. Einerseits ist KI‑Technologie sehr nützlich, um bessere synthetische Daten zu erzeugen, die über die bisher rein statistischen Methoden hinausgehen. Andererseits sind synthetische Daten ebenso nützlich, um KI‑Modelle zu trainieren, von simulierten 3D‑Modellen von Proteinen für die Medikamentenforschung bis hin zu Straßen für selbstfahrende KI.
Synthetic AI erklärt
Synthetic data refers to datasets that are artificially generated but retain the underlying statistical properties of the original data on which it is based.
Synthetische Daten ergänzen reale Daten und bieten einige zentrale Vorteile, die es Forschern und Analysten ermöglichen, die aus Umfragen, Experimenten und Messungen gewonnenen ersten Ergebnisse zu erweitern:
- Training von KI‑Modellen mit synthetischen Daten ermöglicht es, das Gesamtvolumen an Daten zu erhöhen, wenn hochwertige reale Daten knapp sind.
- In Bereichen wie Finanzen und Gesundheitswesen sind Daten begrenzt, zeitaufwendig zu beschaffen oder schwer zugänglich.
Das Forschungsunternehmen Gartner schätzt, dass synthetische Daten bis 2030 die echten Daten beim Training von KI‑Modellen übertreffen werden. Gartner prognostiziert außerdem, dass bis 2026 75 % der Unternehmen generative KI einsetzen werden, um synthetische Kundendaten zu erstellen.
Arten synthetischer Daten
Teilweise synthetische Daten verwenden reale Datensätze und ersetzen Teile davon durch künstliche Werte. Dies wird in der Regel aus Datenschutzgründen durchgeführt und ist häufig in der klinischen Forschung anzutreffen, wo die echten Identitäten von Patienten und medizinischen Aufzeichnungen anonymisiert werden.
Vollständig synthetische Daten sind ein vollständig erzeugter Datensatz, der die Eigenschaften realer Daten schätzt und versucht, sie so gut wie möglich zu emulieren: Attribute, Muster und Beziehungen. Dies kann beispielsweise zum Training verwendet werden, wenn in einem Benutzerdatensatz Daten fehlen, wie Finanzdaten ohne betrügerische Aktivitäten, die zum Training einer KI für Betrugserkennung benötigt werden.
Hybride synthetische Daten kombinieren reale Daten mit vollständig synthetischen Daten.
Wie man synthetische Daten erzeugt
Statistische Methoden sind bei weitem die älteste Methode zur Erzeugung synthetischer Daten und reichen bis in die 1930er Jahre zurück, als Audio und Stimme synthetisiert wurden, was ab den 1970er Jahren zu Software‑Synthesizern führte.
Variationale Autoencoder (VAEs) sind Programme, die Variationen der Daten erzeugen, auf denen sie trainiert wurden. Diese Systeme werden häufig zur Erzeugung synthetischer Bilder sowie anderer Formen des maschinellen Lernens eingesetzt.

Quelle: IBM











