Cibersegurança

Como Dados Falsos Protegem Usuários Reais: O Valor dos Dados Sintéticos

mm
Securities.io maintains rigorous editorial standards and may receive compensation from reviewed links. We are not a registered investment adviser and this is not investment advice. Please view our affiliate disclosure.

A Sede Infinita por Mais Dados

À medida que o mundo se tornou mais digitalizado, passou a produzir e exigir quantidades cada vez maiores de dados. Isso representa um problema, pois esses dados costumam estar associados a pessoas reais e empresas reais, o que pode gerar sérias preocupações de privacidade.

Isso se tornou ainda mais problemático com o surgimento da IA, que não apenas realiza análises estatísticas em lotes de dados, mas também examina e analisa o conjunto de dados em profundidade em todos os níveis, desde uma pessoa individual até bilhões de entradas numéricas.

Os dados são agora tão essenciais para a economia moderna que a demanda por dados reais e de alta qualidade cresceu exponencialmente. Ao mesmo tempo, regras de privacidade de dados mais rigorosas e modelos de IA cada vez maiores tornaram a coleta e rotulagem de dados reais cada vez mais difíceis ou impraticáveis. – IBM Research

É por isso que os dados sintéticos foram criados como solução. Esses dados replicam dados do mundo real, mas não contêm informações privadas que possam causar problemas. Eles também podem ser modificados e adaptados a casos de uso específicos, situações raras ou qualquer necessidade do estatístico ou testador que os utiliza.

Aqui também, a IA tem sido transformadora. Por um lado, a tecnologia de IA é muito útil para gerar dados sintéticos melhores, indo além dos métodos puramente estatísticos usados até agora. Por outro lado, os dados sintéticos são igualmente úteis para treinar modelos de IA, desde modelos 3D simulados de proteínas para descoberta de medicamentos até ruas para IA de condução autônoma.

IA Sintética Explicada

Dados sintéticos referem‑se a conjuntos de dados gerados artificialmente, mas que mantêm as propriedades estatísticas subjacentes dos dados originais nos quais se baseiam.

Os dados sintéticos funcionam como um complemento aos dados do mundo real e oferecem algumas vantagens principais que permitem a pesquisadores e analistas expandir os resultados iniciais coletados de pesquisas, experimentos e medições:

  • Treinar modelos de IA com dados sintéticos permite aumentar o volume total de dados quando dados reais de alta qualidade são escassos.
  • Em setores como finanças e saúde, os dados são de oferta limitada, demoram a ser obtidos ou são difíceis de acessar.

A empresa de pesquisa Gartner estima que até 2030, os dados sintéticos superarão os dados reais no treinamento de modelos de IA. Gartner também prevê que até 2026, 75% das empresas usarão IA generativa para criar dados sintéticos de clientes até 2026

Tipos de Dados Sintéticos

Dados sintéticos parcialmente utilizam conjuntos de dados do mundo real e substituem partes deles por valores artificiais. Isso geralmente é feito por questões de privacidade e é comumente usado em pesquisas clínicas, onde as identidades reais de pacientes e registros médicos são anonimados.

Dados sintéticos totalmente são um conjunto de dados totalmente gerado, estimando as características dos dados reais e tentando emulá‑los o melhor possível: atributos, padrões e relacionamentos. Isso pode ser, por exemplo, feito para treinar contra dados ausentes de um conjunto de usuários, como dados financeiros que não contêm atividades fraudulentas, necessárias para treinar uma IA de detecção de fraudes.

Dados sintéticos híbridos combinam dados reais com dados sintéticos totalmente gerados.

Como Gerar Dados Sintéticos

Métodos estatísticos são de longe o método mais antigo para gerar dados sintéticos, remontando à década de 1930 com a síntese de áudio e voz, levando a sintetizadores de software a partir da década de 1970.

Variational autoencoders (VAEs) são programas que produzem variações dos dados nos quais são treinados. Esses sistemas são frequentemente usados para gerar imagens sintéticas, bem como outras formas de aprendizado de máquina.

Fonte: IBM


Jonathan é um ex-pesquisador bioquímico que trabalhou em análise genética e ensaios clínicos. Ele agora é um analista de ações e escritor de finanças com foco em inovação, ciclos de mercado e geopolítica em sua publicação The Eurasian Century.