サイバーセキュリティ
偽データが実ユーザーを守る:合成データの価値

データへの果てしない渇望
世界がデジタル化するにつれて、ますます多くのデータが生成・必要とされるようになりました。このことは問題をはらんでいます。なぜなら、これらのデータはしばしば実在する個人や企業に結びついており、深刻なプライバシー懸念が生じる可能性があるからです。
AI の台頭により、この問題はさらに大きくなっています。AI は単にデータのバッチに対して統計解析を行うだけでなく、個人単位から数十億件の数値エントリに至るまで、データセット全体を深く掘り下げて分析できるようになりました。
データは現代経済にとって不可欠であり、実際の高品質データに対する需要は指数関数的に増大しています。同時に、より厳格なデータプライバシー規則とますます大規模になる AI モデルにより、実データの収集とラベリングはますます困難または非実用的になっています。 – IBM Research
このような背景から、合成データが解決策として考案されました。合成データは実世界のデータを模倣しますが、問題を引き起こす可能性のあるプライベートデータは含みません。また、特定のユースケースや稀な状況、あるいは統計学者やテスターが必要とするあらゆる条件に合わせて変更・適応させることができます。
ここでも AI は変革的な役割を果たしています。一方で AI 技術は、従来の純粋な統計手法を超えて、より優れた合成データの生成に非常に有用です。もう一方で、合成データは AI モデルの訓練にも同様に有用であり、薬剤探索のためのタンパク質の 3D シミュレーションから自動運転 AI のための街路シミュレーションまで幅広く活用されています。
合成AIの解説
合成データとは、人工的に生成されたデータセットでありながら、元となる実データの統計的特性を保持したものを指します。
合成データは実世界データの補完として機能し、調査・実験・測定から得られた初期結果を拡張できるいくつかの重要な利点を提供します:
- 合成データで AI モデルを訓練することで、高品質な実データが不足している場合でもデータ全体量を増やすことができます。
- 金融や医療など、データが限られ、取得に時間がかかり、またはアクセスが困難な分野でも活用できます。
調査会社 Gartner は、2030 年までに合成データが AI モデルの訓練において実データを上回ると予測しています。Gartner はさらに、2026 年までに 75% の企業が生成的 AI を用いて合成顧客データを作成すると予測しています。
合成データの種類
部分的合成データ は実世界のデータセットの一部を人工的な値に置き換えて使用します。これは主にプライバシー上の懸念から行われ、患者の実名や医療記録が匿名化される臨床研究で一般的に利用されています。
完全合成データ は、実データの特性を推定し、属性・パターン・関係性などをできるだけ忠実にエミュレートしようとする、完全に生成されたデータセットです。たとえば、詐欺検出 AI の訓練に必要な、詐欺行為が欠落した金融データを補うために使用されます。
ハイブリッド合成データ は実データと完全合成データを組み合わせたものです。
合成データの生成方法
統計的手法 は、1930 年代に音声合成が始まって以来、最も古い合成データ生成方法です。1970 年代以降のソフトウェアシンセサイザーへと発展しました。
変分オートエンコーダー(VAEs)は、学習したデータのバリエーションを生成するプログラムです。これらのシステムは合成画像の生成やその他の機械学習タスクで頻繁に使用されます。

ソース: IBM
VAEs に関連する手法として 生成的敵対的ネットワーク(GANs)があります。これは生成的人工知能への主要なアプローチです。GAN は 2 つのニューラルネットワークで構成されます:
- 1 つは実データセットに似たデータを生成します。
- もう 1 つは生成データを実データセットと比較します。
2 つ目のニューラルネットワークがフィードバックを提供し、最初のネットワークが実データにできるだけ近い合成データセットを生成できるようになるまで繰り返します。

ソース: Wikipedia
トランスフォーマーモデル は、ChatGPT など多くの最新 AI が採用している数学的手法を利用します(「T」は「Transformer」の略)。入力シーケンスの最も重要なトークンに焦点を当て、統計的に最も確率の高い出力シーケンスを「推測」します。
最後に、エージェントベースモデリング はさらに一歩進んで「エージェント」— 小規模 AI — を作成し、相互作用やエージェントの行動をシミュレートして合成データを生成します。たとえば、疫学研究において個々のエージェントが個人を表し、それぞれが接触率・感染リスクなど独自のパターンを示すことができます。
(私たちは「AIのキラーアプリ:AIエージェントがすべてを変える方法」において、職場や日常生活における AI エージェントの将来の役割を探求しました。
合成データの利点
制御とカスタマイズ
データはゼロから作成されるため、特定のタスク(例:AI システムの訓練)に最適なデータセットを容易に作り出すことができます。
また、ビジネスや研究者の正確な仕様やニーズに合わせて作成することも可能です。
効率性
データ生成により、実データの収集にかかる高コスト・時間的負担が不要になります(生成された合成データが実世界データに十分近い限り)。
このデータはあらかじめラベル付けされているため、画像・文章・音声ファイルなどを人手でラベル付けする手間が省かれ、システムが自動的に理解できるようになります。
プライバシー
完全合成データは実在する個人や企業に紐付いていないため、プライバシーに関する問題は一切ありません。他の形態の合成データは、実データから個人情報や著作権で保護された知的財産などの機密情報を匿名化・「クリーン」化する優れた手段です。

ソース: Mostly AI
より多様なデータ
規模の小さい実世界データセットは、エッジケースや過小代表されたグループを見逃すことがあります。これは AI の訓練時に問題となり、モデルがこれらのケースの存在を完全に無視してしまう可能性があります。
初期データセットを拡張し、設計者が存在すべきと考える欠落ケースを人工的に追加することで、ハイブリッド合成データはより正確で実際の状況を代表するものとなります。
合成データの限界
データ損失
理想的には合成データは実データとほぼ同一ですが、プロセス上で情報が一部失われることがあります。特に強力な匿名化を行う場合は顕著です。そのため、プライバシーと効率性のバランスを取る必要があります。
バイアス
合成データは実世界データセットを忠実に再現しようとするため、元データに含まれるエラー・バイアス・問題も同様に再現されやすくなります。したがって、合成データを作成する際は、異なる地域・人口層・時間枠など、複数の実データセットを組み合わせることが重要です。
「合成データの忠実度は、統計的・分析的テストを通じて実世界データと比較することで算出されます。これには、平均・分散・変数間の相関といった主要な統計特性がどれだけ保持されているかの評価が含まれます。」
Raul Salles de Padua – Director of Engineering, AI and Quantum at Multiverse Computing
モデル崩壊
AI の訓練は、自己生成データに過度に依存し始めると失敗することがあります。AI が生成したデータでさらに訓練を重ねると品質が低下し、その低品質データが次の訓練サイクルの入力となり、AI モデルが「退化」して崩壊に至ります。
このため、実データと合成データを混合して使用することが一般的に推奨されます。
「別の生成モデルからのサンプルで訓練すると分布シフトが誘発され、時間とともにモデル崩壊を引き起こします。これによりモデルは基礎的な学習タスクを誤認識します。
長期にわたって学習を持続させるためには、元データソースへのアクセスを維持し、LLM によって生成されていないデータが時間とともに利用可能であり続けることが必要です。」
合成データのユースケース
自動運転
実際の街路データは十分な量を収集するのが難しいため、多くの自動運転 AI 企業はある程度合成データを活用しています。これらのシミュレートされた街路は、実物に近い自転車・車・歩行者・ランダムに動く物体を含み、仮想環境での走行経験を大幅に増やすことで訓練コストを削減します。
金融
投資・リスク(取引・銀行・保険)予測モデルから詐欺検出まで、金融企業はリスク・詐欺・マネーロンダリングの検出精度向上のために合成データを利用しています。
ここでのユースケースは、リスクを正確に検出するだけでなく、規制当局やステークホルダーに対して、リスク検出と回避に全力を尽くしていることを示すことにもあります。これにより、数十億ドル規模の損失や罰金を防げる可能性があります。
ヘルスケア
AI の訓練における総「経験」量を増やすことで、疫学、医療画像・検査結果解析、臨床試験などに後で使用されるモデルの訓練に合成データが役立ちます。
このような AI は、既知のコホートや人口研究で遡及的にテストされ、予測精度が実証されます。
合成データプロバイダー – Tonic.ai
合成データを利用する多くの企業は、この分野に特化した外部プロバイダーに依存しています。
その一例が Tonic.ai で、事実上すべてのデータベースと統合でき、クライアント自身の実データを用いたデータマイニング、開発、テストを可能にします。

ソース: Tonic.ai
同社が提供するサービスの例としては以下が挙げられます:

ソース: Tonic.ai
Tonic.ai のツールは多くの大企業で利用されており、eBay の開発者、American Express(下記参照)、Volvo、Cigna、Walgreens などが含まれます。
合成データユーザー – American Express
(AXP )
世界有数のクレジットカードプロバイダーである American Express は、ビジネス目的で合成データを活用する最前線に立っており、2020 年以前からディープラーニングを使用し、Nvidia のハードウェアも活用しています。
顧客向けAI活用
特に、同社は「AI が生成した偽の詐欺パターンを用いて、稀少または珍しい詐欺を検出するモデルの能力を高める」と報じられています。
「これらの手法は顧客体験に大きな影響を与え、American Express が検出速度を向上させ、意思決定プロセスを自動化することで損失を防止できるようにします。」
Dmitry Efimov – American Express の機械学習研究副社長
また、AI と合成データを活用してクレジットリスク評価を合理化し、社会的行動やリアルタイムの市場状況まで考慮に入れています。
さらに、特に生成的 AI を用いて顧客サービスを改善し、チャットボットが顧客の問い合わせに十分に応答できないケースを減らしています。
同時に、AI アルゴリズムは顧客の支出行動・嗜好・取引履歴を分析し、個別に最適化されたオファーやリワードを提案します。
社内AI活用
社内では、AI により IT チケットへのエスカレーションが削減され、リアクティブな問題解決システムが実現しています。また、9,000 人のエンジニアが GitHub Copilot を使用してコーディング支援を受けています。
さらに、5,000 人の旅行カウンセラーが、同社の最上位のセンチュリオン(ブラック)カードおよびプラチナカード会員に対してアドバイスを提供する際に AI を活用しています。
「旅行カウンセラーは多岐にわたる領域で対応しています。たとえば、ある顧客はバルセロナの必見スポットを尋ね、次の顧客はブエノスアイレスの五つ星レストランについて問い合わせます。これらすべてを頭の中で把握し続けるのは大変です。」
Hilary Packer, Amex EVP and CTO
American Express の概要
AI と合成データに加えて、American Express は堅実な金融企業であり、2025 年までに売上高を 8〜10% 成長させ、1 株当たり利益を 12〜16% 増加させることを見込んでいます。
同社は米国市場に主に存在していた長い期間を経て、国際的に急速に拡大しており、国際カードサービスの請求事業は前年同期比で 15% の成長を遂げています。












