Cybersecurity

Paano Pinoprotektahan ng Pekeng Data ang Totoong mga Gumagamit: Ang Halaga ng Synthetic Data

Na-publish Abril 10, 2025

Na-update Mayo 29, 2026

Jonathan Schramm

Securities.io maintains rigorous editorial standards and may receive compensation from reviewed links. We are not a registered investment adviser and this is not investment advice. Please view our affiliate disclosure.

Ang Walang Katapusang Uhaw sa Mas Maraming Data

Habang nagiging mas digitalized ang mundo, nagsimulang lumikha at humingi ito ng patuloy na pagdami ng data. Nagdudulot ito ng problema, dahil kadalasan ang nasabing data ay konektado sa totoong tao at totoong kumpanya na maaaring magkaroon ng seryosong alalahanin sa privacy.

Lalo pang lumala ang isyung ito sa pag-usbong ng AI, na hindi lamang kayang magsagawa ng estadistikal na pagsusuri sa mga batch ng data kundi pati na rin maghukay at magsuri nang malalim sa lahat ng antas, mula sa indibidwal na tao hanggang sa bilyong mga numerong entry.

Ang data ay ngayon napakahalaga sa modernong ekonomiya na ang pangangailangan para sa totoong, mataas na kalidad na data ay lumago nang eksponensyal. Kasabay nito, ang mas mahigpit na mga patakaran sa privacy ng data at patuloy na lumalaking mga modelo ng AI ay nagpadali sa pagkolekta at pag-label ng totoong data na nagiging mas mahirap o hindi praktikal. – IBM Research

Ito ang dahilan kung bakit nilikha ang synthetic data bilang solusyon. Ang mga data na ito ay ginagaya ang totoong data ngunit hindi naglalaman ng anumang pribadong impormasyon na maaaring magdulot ng problema. Maaari rin itong baguhin at iangkop sa tiyak na mga kaso ng paggamit, kakaibang sitwasyon, o anumang kailangan ng estadistiko o tester na gumagamit nito.

Dito rin naging makabuluhan ang AI. Sa isang banda, napaka-kapaki-pakinabang ng teknolohiyang AI sa paglikha ng mas mahusay na synthetic data, na lumalampas sa mga dating purong estadistikal na pamamaraan. Sa kabilang banda, ang synthetic data ay kaparehong kapaki-pakinabang para sanayin ang mga modelo ng AI, mula sa simulated 3D models ng mga protina para sa drug discovery hanggang sa mga kalye para sa self‑driving AI.

Ipinaliwanag ang Synthetic AI

Ang synthetic data ay tumutukoy sa mga dataset na artipisyal na nilikha ngunit pinananatili ang mga batayang estadistikal na katangian ng orihinal na data kung saan ito nakabatay.

Ang synthetic data ay kumikilos bilang karagdagan sa totoong data at nagbibigay ng ilang mahahalagang benepisyo na nagpapahintulot sa mga mananaliksik at analyst na palawakin ang paunang resulta na nakalap mula sa mga survey, eksperimento, at sukat:

Ang pagsasanay ng mga modelo ng AI gamit ang synthetic data ay nagpapahintulot sa atin na dagdagan ang kabuuang dami ng data kapag kulang ang mataas na kalidad na totoong data.
Sa mga sektor tulad ng pananalapi at pangangalagang pangkalusugan, limitado ang data, matagal kunin, o mahirap ma-access.

Ang firm na pananaliksik na Gartner ay tinatantiya na pagsapit ng 2030, hihigitan ng synthetic data ang aktwal na data sa pagsasanay ng mga modelo ng AI. Inaasahan din ng Gartner na pagsapit ng 2026, 75% ng mga negosyo ay gagamit ng generative AI upang lumikha ng synthetic customer data.

Mga Uri ng Synthetic Data

Partially synthetic data ay gumagamit ng totoong dataset at pinapalitan ang ilang bahagi nito ng artipisyal na halaga. Karaniwang ginagawa ito para sa mga alalahanin sa privacy at madalas gamitin sa klinikal na pananaliksik, kung saan ang totoong pagkakakilanlan ng mga pasyente at medikal na rekord ay inia-anonimo.

Fully synthetic data ay ganap na nilikhang dataset, na tinatantya ang mga katangian ng totoong data at sinusubukang tularan ang mga ito hangga’t maaari: mga katangian, pattern, at ugnayan. Halimbawa, maaaring gawin ito para sanayin ang modelo laban sa data na kulang sa dataset ng user, tulad ng data pinansyal na walang kasamang mapanlinlang na aktibidad, na kailangan para sanayin ang AI sa pagtuklas ng pandaraya.

Hybrid synthetic data ay pinagsasama ang totoong data at ganap na synthetic data.

Paano Lumikha ng Synthetic Data

Statistical methods ang pinakalumang paraan sa paglikha ng synthetic data, nagsimula pa noong 1930s sa pagsasagawa ng synthesis ng audio at boses, na humantong sa mga software synthesizer mula noong 1970s pataas.

Variational autoencoders (VAEs) ay mga programang gumagawa ng mga variation sa data na kanilang sinanay. Madalas gamitin ang mga sistemang ito upang lumikha ng synthetic na mga imahe, pati na rin ng iba pang anyo ng machine learning.

Pinagmulan: IBM

Ang kaugnay na pamamaraan sa VAEs ay generative adversarial networks (GANs), isang pangunahing pamamaraan sa generative artificial intelligence. Binubuo ito ng dalawang neural network:

Isa ang lumilikha ng data na sinusubukang magmukhang katulad ng totoong dataset.
Ang isa pa ay ikinumpara ang nilikhang data sa totoong dataset.

Ang ikalawang neural network ay nagbibigay ng feedback sa una hanggang sa makalikha ito ng synthetic dataset na kasing lapit hangga’t maaari sa totoong data.

Pinagmulan: Wikipedia

Transformer models gamit ang mga matematikal na kasangkapan na ginagamit sa pagbuo ng maraming modernong AI, kabilang ang ChatGPT (kung saan ang “T” ay nangangahulugang “transformer”). “Hinuhulaan” nila ang pinaka-statistikal na posibleng output sequence sa pamamagitan ng pagtutok sa pinakamahalagang token sa input sequence.

Sa huli, agent-based modeling ay nagdadagdag ng isang hakbang pa at lumilikha ng “agents”, mga mini‑AI na nagsasagisimula ng interaksyon at pag-uugali ng mga ahente upang makabuo ng synthetic data. Halimbawa, maaaring kumatawan ang bawat ahente sa isang indibidwal na tao sa isang pag-aaral ng epidemiology, kung saan bawat isa ay nagpapakita ng sariling pattern o rate ng pakikipag-ugnayan, panganib ng impeksyon, atbp.

(Tinutuklas namin ang hinaharap na papel ng mga AI agent sa lugar ng trabaho at pang-araw‑araw na buhay sa “AI’s Killer App: Paano Maaaring Baguhin ng AI Agents ang Lahat”)

Mga Benepisyo ng Synthetic Data

Control & Customization

Dahil nilikha ang data mula sa simula, mas madali itong magbigay ng tamang hanay ng data para sa isang tiyak na gawain, halimbawa, pagsasanay ng isang AI system.

Maaari rin itong likhain ayon sa eksaktong espesipikasyon at pangangailangan ng isang negosyo o mananaliksik.

Episyensya

Ang paglikha ng data ay nag-aalis ng pangangailangan para sa magastos at matagal na pagkolekta ng totoong data, basta’t ang nilikhang synthetic data ay sapat na kahawig ng data mula sa totoong mundo.

Ang data na ito ay pre‑labeled din, na nag-aalis ng nakakapagod na manu‑manong hakbang ng pag‑label sa bawat data point ng tao, na naglalarawan sa bawat imahe, pangungusap, o audio file upang maunawaan ito ng awtomatikong sistema.

Privacy

Ang ganap na synthetic data ay walang anumang isyu sa privacy, dahil hindi ito nakatali sa anumang totoong indibidwal o negosyo. Ang ibang anyo ng synthetic data ay magandang paraan upang i-anonymize at “linisin” ang totoong data mula sa anumang protektadong impormasyon, maging ito man ay pribadong data ng indibidwal o copyrighted o iba pang protektadong intellectual property.

Pinagmulan: Mostly AI

Mas Iba‑ibang Data

Ang napakaliit na totoong dataset ay maaaring mawalan ng mga edge case o underrepresented na grupo. Maaari itong maging problema kapag sinasanay ang mga AI, dahil maaaring balewalain ng modelo ang pag‑iral ng mga kasong ito.

Sa pamamagitan ng pagpapalawak ng paunang dataset at artipisyal na pagdaragdag ng nawawalang kaso na alam ng designer na dapat umiiral, ang nagresultang hybrid synthetic data ay maaaring maging mas tumpak at representatibo ng totoong sitwasyon.

Mga Limitasyon ng Synthetic Data

Pagkawala ng Data

Kahit na, sa perpektong sitwasyon, halos kapareho ang synthetic data sa totoong data, may ilang antas ng impormasyon na maaaring mawala sa proseso. Ito ay lalong totoo kapag malakas ang anonymization. Kaya minsan kailangang humanap ng balanse sa pagitan ng privacy at episyensya.

Bias

Dahil sinisikap ng synthetic data na tularan ang totoong dataset, malaki rin ang posibilidad na tularan nito ang anumang error, bias, o problema na naroroon. Kaya madalas na mahalaga na pagsamahin ang maraming totoong dataset mula sa iba’t ibang rehiyon, demograpikong grupo, panahon, atbp., kapag lumilikha ng synthetic data.

“Ang fidelity ng synthetic data ay kinakalkula sa pamamagitan ng paghahambing nito sa totoong data gamit ang mga estadistikal at analitikal na pagsusuri. Kabilang dito ang pagtatasa kung gaano kahusay na pinapanatili ng synthetic data ang mga pangunahing estadistikal na katangian, tulad ng mean, variance, at correlation sa pagitan ng mga variable.”

Raul Salles de Padua – Director of Engineering, AI and Quantum sa Multiverse Computing

Model Collapse

Maaaring mabigo ang pagsasanay ng AI kapag nagsimulang mag‑train ito sa napakaraming sarili nitong output. Ang patuloy na pagsasanay gamit ang AI‑generated data ay nagdudulot ng pagbaba ng kalidad, na nagiging input ng susunod na siklo ng pagsasanay, na nagreresulta sa “degeneration” ng modelo ng AI at sa pag‑collapse nito.

Dahil dito, inirerekomenda ang pagsasama ng totoong data at synthetic data.

“Ang pagsasanay sa mga sample mula sa ibang generative model ay maaaring magdulot ng distribution shift, na—sa paglipas ng panahon—nagiging sanhi ng model collapse. Ito naman ay nagdudulot sa modelo na maliin ang pag‑unawa sa pinakapundamental na learning task.

Upang mapanatili ang pag‑katuto sa mahabang panahon, kailangan nating tiyakin na ang access sa orihinal na pinagmulan ng data ay nananatili at na ang karagdagang data na hindi nilikha ng LLMs ay mananatiling magagamit sa paglipas ng panahon.

Ang mga modelo ng AI ay nag‑collapse kapag sinanay sa recursively generated data – Nature.

Mga Kaso ng Paggamit ng Synthetic Data

Self‑Driving

Dahil mahirap kolektahin ang sapat na dami ng totoong data ng mga kalye sa lungsod, karamihan sa mga kumpanyang gumagawa ng self‑driving AI ay gumagamit ng synthetic data sa ilang antas. Ang mga simulated na kalye, kumpleto sa buhay‑na‑parang bisikleta, kotse, naglalakad, at mga random na gumagalaw na bagay, ay makakatulong sa pagsasanay ng self‑driving AI gamit ang mas maraming oras ng virtual na karanasan, na nagpapababa ng kabuuang gastos sa pagsasanay.

Pananalapi

Mula sa predictive models para sa pamumuhunan at panganib (trading, bangko, insurance) hanggang sa pagtuklas ng pandaraya, gumagamit ang mga kumpanyang pinansyal ng synthetic data para sa mas mahusay na pagtuklas ng panganib, pandaraya, at money laundering.

Dito, ang kaso ng paggamit ay hindi lamang para maayos na matukoy ang mga panganib kundi pati na rin para maipakita ng mga pamunuan ng kumpanya sa mga regulator at stakeholder na ginagawa ang lahat ng hakbang upang matuklasan at maiwasan ang mga isyung ito, na posibleng makaiwas sa bilyong dolyar na pagkawala o multa.

Healthcare

Sa pamamagitan ng pagtaas ng kabuuang “karanasan” ng AI sa pagsasanay, makakatulong ang synthetic data na sanayin ang mga modelo na gagamitin sa epidemiology, pagsusuri ng medikal na imahe at resulta ng laboratoryo, o mga clinical trial.

Ang mga AI na ito ay maaaring subukan nang retroactively sa mga kilalang cohort at pag-aaral ng populasyon, na nagpapatunay ng katumpakan ng kanilang prediksyon.

Synthetic Data Provider – Tonic.ai

Karamihan sa mga kumpanyang gumagamit ng synthetic data ay kadalasang umaasa sa mga panlabas na provider na dalubhasa sa larangang ito.

Isang halimbawa nito ay ang Tonic.ai, na maaaring mag‑integrate sa halos lahat ng database, na nagbibigay-daan sa data mining, development, at testing gamit ang sariling totoong data ng kliyente.

Pinagmulan: Tonic.ai

Kabilang sa mga serbisyong inaalok ng kumpanya ang mga sumusunod:

Likhang isolated test database sa loob ng ilang segundo.
Pag‑validate ng nilikhang synthetic data.
Free‑text data redaction at synthesis, na nagsisiguro ng de‑identification.

Pinagmulan: Tonic.ai

Ang mga tool ng Tonic.ai ay ginagamit ng maraming malalaking korporasyon, tulad ng mga developer ng eBay, American Express (tingnan sa ibaba), Volvo, Cigna, Walgreens, atbp.

Synthetic Data User – American Express

(AXP )

Isa sa mga nangungunang provider ng credit card sa buong mundo, ang American Express, ay nangunguna sa paggamit ng synthetic data para sa mga layunin ng negosyo, na gumagamit ng deep learning bago pa man umabot ang 2020 at gumagamit ng hardware ng Nvidia.

AI Uses for Customers

Kilala, iniulat na gumagamit ito ng “AI‑generated na pekeng pattern ng pandaraya upang hasain ang kakayahan ng mga modelo nitong matukoy ang mga bihira o hindi pangkaraniwang panlilinlang”.

“Ang mga teknik na ito ay may malaking epekto sa karanasan ng customer, na nagpapahintulot sa American Express na mapabilis ang pagtuklas at maiwasan ang pagkalugi sa pamamagitan ng awtomatikong proseso ng pagdedesisyon.”

Dmitry Efimov – vice president of machine learning research at American Express

Ginagamit din nito ang AI at synthetic data para mapadali ang pagsusuri ng credit risk sa pamamagitan ng pagsasama ng kahit na social behavior at real‑time market conditions.

Ginagamit din ito, lalo na sa generative AI, para mapabuti ang serbisyo sa customer at mabawasan ang mga pagkakataon kung kailan hindi sapat ang chatbot ng kumpanya sa pagsagot sa mga kahilingan ng mga customer.

Samantala, sinusuri ng mga algorithm ng AI ang mga gawi sa paggastos ng mga customer, mga kagustuhan, at kasaysayan ng transaksyon upang magmungkahi ng mga naka‑target na alok at gantimpala.

Internal AI Uses

Sa loob ng kumpanya, pinahintulutan ng AI ang American Express na bawasan ang pag‑escalate sa mga IT ticket sa pamamagitan ng isang reactive problem‑solving system, at ang 9,000 na inhinyero ng kumpanya ay gumagamit na ngayon ng GitHub Copilot para sa tulong sa pag‑code.

Tinutulungan din nito ang 5,000 travel counselors na nagbibigay ng payo sa pinaka‑eliteng Centurion (black) card at Platinum card na mga miyembro ng kumpanya.

“Ang mga travel counselor ay napapaloob sa napakaraming iba’t ibang larangan. Halimbawa, maaaring magtanong ang isang customer tungkol sa mga dapat bisitahin sa Barcelona, habang ang susunod ay nagtatanong tungkol sa limang‑bitang mga restawran sa Buenos Aires. Parang sinusubukang panatilihin lahat ng iyon sa isipan ng isang tao, di ba?”

Hilary Packer, Amex EVP at CTO

American Express Overview

Bukod sa AI at synthetic data, ang American Express ay isang matatag na kumpanya sa pananalapi, na inaasahang tataas ang kita ng 8‑10% sa 2025, alinsunod sa pangmatagalang layunin para sa paglago ng kita, at ang earnings per share ng 12‑16%.

Ang kumpanya ay mabilis ding lumalawak internasyonal, matapos ang mahabang panahon na karamihan ay naroroon lamang sa US market, na may 15% na paglago taon‑taon sa international card services billed business.

Latest on American Express

Ang layunin ng kumpanya para sa paglago ng kita, at earnings per share ay 12‑16%. Ang kumpanya ay mabilis ding lumalawak internasyonal, matapos ang mahabang panahon na karamihan ay naroroon lamang sa US market, na may 15% na paglago taon‑taon sa international card services billed business. Latest on American Express