Keamanan siber
Bagaimana Data Palsu Melindungi Pengguna Nyata: Nilai Data Sintetis

Kebijakan Tak Berujung untuk Lebih Banyak Data
Seiring dunia menjadi semakin digital, ia mulai menghasilkan dan membutuhkan jumlah data yang semakin besar. Hal ini menimbulkan masalah, karena data tersebut seringkali terkait dengan orang nyata dan perusahaan nyata yang mungkin memiliki masalah privasi serius.
Masalah ini menjadi lebih besar lagi dengan munculnya AI, yang tidak hanya dapat melakukan analisis statistik pada kumpulan data tetapi juga menelusuri dan menganalisis dataset secara mendalam pada semua tingkatan, mulai dari individu hingga miliaran entri numerik.
Data kini begitu penting bagi ekonomi modern sehingga permintaan akan data nyata yang berkualitas tinggi telah tumbuh secara eksponensial. Pada saat yang sama, aturan privasi data yang lebih ketat dan model AI yang semakin besar membuat pengumpulan dan pelabelan data nyata semakin sulit atau tidak praktis. – IBM Research
Inilah mengapa data sintetis diciptakan sebagai solusi. Data tersebut meniru data dunia nyata tetapi tidak mengandung data pribadi yang dapat menimbulkan masalah. Mereka juga dapat dimodifikasi dan disesuaikan untuk kasus penggunaan tertentu, situasi langka, atau apa pun yang dibutuhkan oleh statistikawan atau penguji yang menggunakannya.
Di sini juga, AI telah menjadi transformasional. Di satu sisi, teknologi AI sangat berguna untuk menghasilkan data sintetis yang lebih baik, melampaui metode statistik murni yang sebelumnya digunakan. Di sisi lain, data sintetis sama berguna untuk melatih model AI, mulai dari model 3D simulasi protein untuk penemuan obat hingga jalan untuk AI mengemudi otomatis.
Penjelasan AI Sintetis
Data sintetis mengacu pada kumpulan data yang dihasilkan secara artifisial namun mempertahankan sifat statistik dasar dari data asli yang menjadi dasarnya.
Data sintetis berfungsi sebagai pelengkap data dunia nyata dan memberikan beberapa keunggulan utama yang memungkinkan peneliti dan analis memperluas hasil awal yang dikumpulkan dari survei, eksperimen, dan pengukuran:
- Melatih model AI dengan data sintetis memungkinkan kami meningkatkan volume data secara keseluruhan ketika data nyata berkualitas tinggi langka.
- Di sektor seperti keuangan dan kesehatan, data terbatas, memakan waktu untuk diperoleh, atau sulit diakses.
Perusahaan riset Gartner memperkirakan bahwa pada tahun 2030, data sintetis akan melampaui data aktual dalam melatih model AI. Gartner juga memprediksi bahwa pada tahun 2026, 75% bisnis akan menggunakan AI generatif untuk membuat data pelanggan sintetis.
Jenis-Jenis Data Sintetis
Data sintetis parsial menggunakan dataset dunia nyata dan mengganti sebagian darinya dengan nilai buatan. Hal ini biasanya dilakukan untuk keprihatinan privasi dan umum digunakan dalam penelitian klinis, di mana identitas nyata pasien dan catatan medis dianonimkan.
Data sintetis penuh adalah dataset yang sepenuhnya dihasilkan, memperkirakan karakteristik data nyata dan berusaha menirunya sebaik mungkin: atribut, pola, dan hubungan. Ini dapat, misalnya, dilakukan untuk melatih terhadap data yang hilang dari dataset pengguna, seperti data keuangan yang tidak memiliki aktivitas penipuan, yang diperlukan untuk melatih AI deteksi penipuan.
Data sintetis hibrida menggabungkan data nyata dengan data sintetis penuh.
Cara Menghasilkan Data Sintetis
Metode statistik adalah metode tertua untuk menghasilkan data sintetis, yang berasal dari tahun 1930-an dengan sintesis audio dan suara, yang kemudian berkembang menjadi synthesizer perangkat lunak sejak tahun 1970-an.
Variational autoencoders (VAEs) adalah program yang menghasilkan variasi pada data yang mereka latih. Sistem ini sering digunakan untuk menghasilkan gambar sintetis, serta bentuk pembelajaran mesin lainnya.

Sumber: IBM
Sebuah pendekatan terkait dengan VAEs adalah jaringan adversarial generatif (GANs), sebuah pendekatan utama dalam kecerdasan buatan generatif. Ia terdiri dari dua jaringan saraf:
- Satu menghasilkan data yang berusaha terlihat seperti dataset nyata.
- Yang lainnya membandingkan data yang dihasilkan dengan dataset nyata.
Jaringan saraf kedua memberikan umpan balik kepada yang pertama hingga yang pertama dapat menghasilkan dataset sintetis yang sedekat mungkin dengan yang nyata.

Sumber: Wikipedia
Model transformer menggunakan alat matematika yang digunakan dalam pengembangan banyak AI modern, termasuk ChatGPT (di mana “T” berarti “transformer”). Mereka “menebak” urutan output yang paling mungkin secara statistik dengan memfokuskan pada token paling penting dalam urutan input.
Terakhir, pemodelan berbasis agen melangkah lebih jauh dan menciptakan “agen”, mini-AI yang mensimulasikan interaksi dan perilaku agen untuk menghasilkan data sintetis. Misalnya, agen individu dapat mewakili orang individu dalam studi epidemiologi, dengan masing‑masing menampilkan pola atau tingkat kontak, risiko infeksi, dll.
(Kami mengeksplorasi peran masa depan agen AI di tempat kerja dan kehidupan sehari‑hari dalam “Aplikasi Pembunuh AI: Bagaimana Agen AI Dapat Mengubah Segalanya”)
Keuntungan Data Sintetis
Kontrol & Kustomisasi
Karena data dibuat dari awal, jauh lebih mudah menghasilkan set data yang tepat untuk tugas tertentu, misalnya melatih sistem AI.
Mereka juga dapat dibuat sesuai spesifikasi dan kebutuhan tepat bisnis atau peneliti.
Efisiensi
Pembuatan data menghilangkan kebutuhan akan pengumpulan data nyata yang mahal dan memakan waktu, setidaknya selama data sintetis yang dihasilkan cukup mendekati data dunia nyata.
Data ini juga sudah berlabel sebelumnya, yang menghilangkan langkah manual yang melelahkan untuk memberi label pada setiap titik data oleh manusia, menggambarkan setiap gambar, kalimat, atau file audio sehingga sistem otomatis dapat memahaminya.
Privasi
Data sintetis penuh tidak memiliki masalah privasi sama sekali, karena tidak terkait dengan individu atau bisnis nyata. Bentuk lain dari data sintetis merupakan cara yang baik untuk menganonimkan dan “membersihkan” data nyata dari informasi yang dilindungi, baik data pribadi individu maupun hak cipta atau properti intelektual yang dilindungi.

Sumber: Mostly AI
Data Lebih Beragam
Dataset dunia nyata yang terlalu kecil dapat melewatkan kasus tepi atau kelompok yang kurang terwakili. Hal ini dapat menjadi masalah saat melatih AI, karena model yang dihasilkan akan sepenuhnya mengabaikan keberadaan kasus tersebut.
Dengan memperluas dataset awal dan secara artifisial menambahkan kasus yang hilang yang diketahui harus ada oleh perancang, data sintetis hibrida yang dihasilkan dapat menjadi lebih akurat dan representatif terhadap situasi nyata.
Batasan Data Sintetis
Kehilangan Data
Meskipun, secara ideal, data sintetis hampir identik dengan data nyata, beberapa tingkat informasi dapat hilang dalam proses tersebut. Hal ini terutama berlaku pada anonimisasi yang kuat. Jadi, kadang‑kadang perlu menemukan keseimbangan antara privasi dan efisiensi.
Bias
Karena data sintetis berusaha keras meniru dataset dunia nyata, mereka juga cenderung meniru kesalahan, bias, atau masalah apa pun yang ada di dalamnya. Oleh karena itu, seringkali penting untuk mencampur beberapa dataset nyata dari wilayah, kelompok demografis, rentang waktu, dll., saat membuat data sintetis.
“Fidelity data sintetis dihitung dengan membandingkannya dengan data dunia nyata melalui tes statistik dan analitis. Ini mencakup penilaian seberapa baik data sintetis mempertahankan properti statistik utama, seperti rata‑rata, varians, dan korelasi antar variabel.”
Raul Salles de Padua – Direktur Teknik, AI dan Quantum di Multiverse Computing
Keruntuhan Model
Pelatihan AI dapat gagal ketika mulai melatih pada terlalu banyak outputnya sendiri. Lebih banyak pelatihan dari data yang dihasilkan AI menyebabkan penurunan kualitas, yang menjadi input siklus pelatihan berikutnya, mengakibatkan “degenerasi” model AI dan keruntuhannya.
Oleh karena itu, pencampuran data nyata dengan data sintetis umumnya direkomendasikan.
“Melatih pada sampel dari model generatif lain dapat menyebabkan pergeseran distribusi, yang—seiring waktu—menyebabkan keruntuhan model. Hal ini pada gilirannya menyebabkan model salah memahami tugas pembelajaran yang mendasarinya.
Untuk mempertahankan pembelajaran dalam jangka waktu lama, kita perlu memastikan bahwa akses ke sumber data asli tetap terjaga dan data lebih lanjut yang tidak dihasilkan oleh LLM tetap tersedia seiring waktu.”
Model AI runtuh ketika dilatih pada data yang dihasilkan secara rekursif – Nature.
Kasus Penggunaan Data Sintetis
Mengemudi Sendiri
Karena data kehidupan nyata tentang jalan kota sulit dikumpulkan dalam jumlah yang cukup, sebagian besar perusahaan AI mengemudi otomatis menggunakan data sintetis hingga tingkat tertentu. Jalan simulasi ini, lengkap dengan sepeda, mobil, pejalan kaki, dan objek bergerak acak yang menyerupai kehidupan nyata, dapat membantu melatih AI mengemudi otomatis dengan banyak jam pengalaman virtual, mengurangi biaya pelatihan secara keseluruhan.
Keuangan
Dari model prediktif untuk investasi dan risiko (perdagangan, bank, asuransi) hingga deteksi penipuan, perusahaan keuangan menggunakan data sintetis untuk meningkatkan deteksi risiko, penipuan, dan pencucian uang.
Di sini, kasus penggunaan tidak hanya untuk mendeteksi risiko tersebut secara tepat tetapi juga bagi tim manajemen perusahaan untuk menunjukkan kepada regulator dan pemangku kepentingan bahwa segala upaya telah dilakukan untuk mendeteksi dan menghindari masalah ini, berpotensi mencegah kerugian atau denda miliaran.
Kesehatan
Dengan meningkatkan total “pengalaman” AI dalam pelatihan, data sintetis dapat membantu melatih model yang kemudian digunakan dalam epidemiologi, analisis gambar medis & hasil laboratorium, atau uji klinis.
AI semacam itu kemudian dapat diuji secara retroaktif pada kohort dan studi populasi yang dikenal, membuktikan akurasi prediksi mereka.
Penyedia Data Sintetis – Tonic.ai
Sebagian besar perusahaan yang menggunakan data sintetis cenderung bergantung pada penyedia eksternal yang berspesialisasi di bidang ini.
Salah satu contohnya adalah Tonic.ai, yang dapat terintegrasi dengan hampir semua basis data, memungkinkan penambangan data, pengembangan, dan pengujian menggunakan data nyata milik klien.

Sumber: Tonic.ai
Di antara layanan yang ditawarkan perusahaan dapat disebutkan:
- Pembuatan basis data uji terisolasi dalam hitungan detik.
- Validasi data sintetis yang dihasilkan.
- Redaksi dan sintesis data teks bebas, memastikan de‑identifikasi.

Sumber: Tonic.ai
Alat Tonic.ai digunakan oleh banyak korporasi besar, seperti pengembang eBay, American Express (lihat di bawah), Volvo, Cigna, Walgreens, dll.
Pengguna Data Sintetis – American Express
(AXP )
Salah satu penyedia kartu kredit terkemuka di dunia, American Express, telah berada di garis depan dalam memanfaatkan data sintetis untuk tujuan bisnis, telah menggunakan deep learning sebelum 2020 dan menggunakan perangkat keras Nvidia.
Penggunaan AI untuk Pelanggan
Secara khusus, dilaporkan bahwa mereka menggunakan “pola penipuan palsu yang dihasilkan AI untuk meningkatkan kemampuan model mereka dalam mendeteksi penipuan yang jarang atau tidak umum”.
“Teknik ini memiliki dampak signifikan pada pengalaman pelanggan, memungkinkan American Express meningkatkan kecepatan deteksi dan mencegah kerugian dengan mengotomatisasi proses pengambilan keputusan.”
Dmitry Efimov – wakil presiden riset pembelajaran mesin di American Express
Ia juga menggunakan AI dan data sintetis untuk menyederhanakan penilaian risiko kredit dengan memasukkan perilaku sosial dan kondisi pasar real‑time.
Hal ini juga digunakan, terutama dengan AI generatif, untuk meningkatkan layanan pelanggan dan mengurangi situasi ketika chatbot perusahaan tidak cukup menjawab permintaan pelanggan.
Sementara itu, algoritma AI menganalisis perilaku pengeluaran, preferensi, dan riwayat transaksi pelanggan untuk menyarankan penawaran dan hadiah yang disesuaikan.
Penggunaan AI Internal
Secara internal, AI telah memungkinkan American Express mengurangi eskalasi ke tiket IT melalui sistem pemecahan masalah reaktif, dan 9.000 insinyur perusahaan kini menggunakan GitHub Copilot untuk bantuan pemrograman.
AI juga membantu 5.000 konselor perjalanan yang memberi nasihat kepada pemegang kartu Centurion (hitam) dan Platinum paling elit perusahaan.
“Konselor perjalanan harus menangani banyak area yang berbeda. Misalnya, satu pelanggan mungkin menanyakan tempat wajib dikunjungi di Barcelona, sementara yang lain menanyakan restoran bintang lima di Buenos Aires. Itu seperti mencoba menyimpan semua itu dalam kepala seseorang, bukan?”
Hilary Packer, EVP dan CTO Amex
Gambaran American Express
Selain AI dan data sintetis, American Express adalah perusahaan keuangan yang solid, memperkirakan pertumbuhan pendapatan sebesar 8‑10% pada 2025, sejalan dengan tujuan jangka panjang untuk pertumbuhan pendapatan, dan laba per saham meningkat 12‑16%.
Perusahaan juga dengan cepat memperluas secara internasional, setelah periode panjang yang sebagian besar hadir di pasar AS, dengan pertumbuhan tahunan sebesar 15% dalam bisnis layanan kartu internasional yang ditagih.












