사이버 보안
가짜 데이터가 실제 사용자를 보호하는 방법: 합성 데이터의 가치

데이터에 대한 끝없는 갈증
세상이 디지털화되면서 데이터 생산과 요구량이 지속적으로 증가했습니다. 이는 문제가 되는데, 해당 데이터는 종종 실제 사람과 기업과 연결되어 심각한 프라이버시 우려를 초래할 수 있기 때문입니다.
AI가 등장하면서 상황은 더욱 악화되었습니다. AI는 단순히 데이터 배치를 통계적으로 분석하는 것을 넘어, 개인부터 수십억 개의 수치 항목에 이르기까지 데이터셋을 모든 수준에서 정밀하게 탐색하고 분석할 수 있습니다.
데이터는 이제 현대 경제에 필수적이어서 실제 고품질 데이터에 대한 수요가 기하급수적으로 증가했습니다. 동시에, 더 엄격한 데이터 프라이버시 규정과 점점 커지는 AI 모델로 인해 실제 데이터를 수집하고 라벨링하는 것이 점점 더 어렵거나 비현실적이 되고 있습니다. – IBM Research
이러한 이유로 합성 데이터가 해결책으로 고안되었습니다. 합성 데이터는 실제 데이터를 복제하지만 문제를 일으킬 수 있는 개인 정보를 포함하지 않습니다. 또한 특정 사용 사례, 희귀 상황 또는 통계학자나 테스트 담당자가 필요로 하는 모든 것에 맞게 수정하고 적용할 수 있습니다.
이곳에서도 AI는 변혁적인 역할을 하고 있습니다. 한편으로 AI 기술은 기존의 순수 통계적 방법을 넘어 더 나은 합성 데이터를 생성하는 데 매우 유용합니다. 다른 한편으로 합성 데이터는 단백질의 3D 시뮬레이션 모델부터 자율주행 AI를 위한 거리까지, AI 모델을 훈련시키는 데 동일하게 유용합니다.
합성 AI 설명
합성 데이터는 인공적으로 생성되었지만 기반이 되는 원본 데이터의 기본 통계적 특성을 유지하는 데이터셋을 말합니다.
합성 데이터는 실제 데이터의 보완 역할을 하며, 연구자와 분석가가 설문조사, 실험 및 측정에서 수집된 초기 결과를 확장할 수 있게 하는 몇 가지 핵심 장점을 제공합니다:
- 합성 데이터를 사용해 AI 모델을 훈련하면 고품질 실제 데이터가 부족할 때 전체 데이터 양을 늘릴 수 있습니다.
- 금융 및 의료와 같은 분야에서는 데이터가 제한적이거나 확보에 시간이 많이 걸리며 접근이 어려운 경우가 많습니다.
연구 기관 Gartner는 2030년까지 합성 데이터가 AI 모델 훈련에서 실제 데이터를 능가할 것으로 추정합니다. Gartner는 또한 2026년까지 75%의 기업이 생성 AI를 활용해 합성 고객 데이터를 만들 것이라고 예측합니다.
합성 데이터 유형
부분 합성 데이터는 실제 데이터셋을 사용하고 그 일부를 인공 값으로 교체합니다. 이는 주로 프라이버시 문제 때문에 수행되며, 환자와 의료 기록의 실제 신원을 익명화하는 임상 연구에서 흔히 사용됩니다.
완전 합성 데이터는 완전히 생성된 데이터셋으로, 실제 데이터의 특성을 추정하고 가능한 한 잘 모방하려고 합니다: 속성, 패턴 및 관계. 예를 들어, 사기 활동이 누락된 금융 데이터와 같이 사용자 데이터셋에 누락된 데이터를 보완하기 위해 훈련에 사용할 수 있습니다. 이는 사기 탐지를 위한 AI 훈련에 필요합니다.
하이브리드 합성 데이터는 실제 데이터와 완전 합성 데이터를 결합합니다.
합성 데이터 생성 방법
통계적 방법은 합성 데이터를 생성하는 가장 오래된 방법으로, 1930년대 오디오와 음성 합성에서 시작되어 1970년대 이후 소프트웨어 신시사이저로 발전했습니다.
Variational autoencoders (VAEs) 는 훈련된 데이터에 대한 변형을 생성하는 프로그램입니다. 이러한 시스템은 종종 합성 이미지 및 기타 머신러닝 형태를 생성하는 데 사용됩니다.

출처: IBM
VAEs와 관련된 접근법으로 generative adversarial networks (GANs)이 있습니다. 이는 생성 인공지능의 주요 접근법이며, 두 개의 신경망으로 구성됩니다:
- 하나는 실제 데이터 세트와 유사하게 보이도록 데이터를 생성합니다.
- 다른 하나는 생성된 데이터를 실제 데이터 세트와 비교합니다.
두 번째 신경망은 첫 번째 신경망에게 피드백을 제공하여, 첫 번째가 실제 데이터와 가능한 한 가깝게 합성 데이터셋을 생성할 때까지 반복합니다.

출처: Wikipedia
Transformer 모델은 ChatGPT를 포함한 많은 현대 AI 개발에 사용된 수학적 도구를 활용합니다(여기서 “T”는 “transformer”를 의미합니다). 이 모델은 입력 시퀀스에서 가장 중요한 토큰에 집중하여 가장 통계적으로 가능성이 높은 출력 시퀀스를 “예측”합니다.
마지막으로, 에이전트 기반 모델링은 한 단계 더 나아가 “에이전트”라 불리는 소형 AI를 생성하여 상호작용과 에이전트 행동을 시뮬레이션함으로써 합성 데이터를 만들어냅니다. 예를 들어, 개별 에이전트는 역학 연구에서 개별 사람을 나타낼 수 있으며, 각각 고유한 접촉 패턴, 감염 위험도 등을 보여줍니다.
(우리는 직장과 일상 생활에서 AI 에이전트의 미래 역할을 탐구했습니다: “AI’s Killer App: How AI Agents Could Change Everything”)
합성 데이터 장점
제어 및 맞춤화
데이터가 처음부터 생성되기 때문에, 예를 들어 AI 시스템을 훈련시키는 등 특정 작업에 맞는 정확한 데이터 세트를 만들기가 훨씬 쉽습니다.
또한 비즈니스나 연구자의 정확한 사양과 요구에 맞게 생성할 수 있습니다.
효율성
데이터 생성은 실제 데이터를 수집하는 데 드는 비용과 시간을 크게 절감합니다, 단 생성된 합성 데이터가 실제 세계 데이터와 충분히 유사한 경우에 한합니다.
이 데이터는 사전 라벨링되어 있어, 인간이 각 이미지, 문장, 오디오 파일을 설명하여 자동 시스템이 이해하도록 라벨링하는 번거로운 수작업 단계를 없애줍니다.
프라이버시
완전 합성 데이터는 실제 개인이나 기업과 연결되지 않기 때문에 프라이버시 관련 문제가 전혀 없습니다. 다른 형태의 합성 데이터는 개인 민감 정보나 저작권 등 보호된 정보를 제거하고 “정제”하여 실제 데이터를 익명화하는 좋은 방법입니다.

출처: Mostly AI
다양한 데이터 확보
너무 작은 실제 데이터셋은 엣지 케이스나 소수 집단을 놓칠 수 있습니다. 이는 AI를 훈련할 때 문제가 되며, 결과 모델이 이러한 경우의 존재를 완전히 무시하게 됩니다.
초기 데이터셋을 확장하고 설계자가 존재해야 한다고 판단한 누락된 케이스를 인위적으로 추가함으로써, 결과적인 하이브리드 합성 데이터는 실제 상황을 보다 정확하고 대표적으로 반영할 수 있습니다.
합성 데이터 한계
데이터 손실
이상적으로 합성 데이터가 실제 데이터와 거의 동일하더라도, 과정 중에 일부 정보가 손실될 수 있습니다. 특히 강력한 익명화가 적용될 경우 더욱 그렇습니다. 따라서 프라이버시와 효율성 사이의 균형을 찾아야 할 때가 있습니다.
편향
합성 데이터는 실제 데이터셋을 충실히 복제하려다 보니, 그 안에 존재하는 오류, 편향 또는 문제도 함께 복제할 가능성이 높습니다. 따라서 합성 데이터를 만들 때는 다양한 지역, 인구통계 그룹, 시기 등의 실제 데이터셋을 혼합하는 것이 중요합니다.
“합성 데이터의 충실도는 통계 및 분석 테스트를 통해 실제 데이터와 비교함으로써 계산됩니다. 여기에는 평균, 분산, 변수 간 상관관계와 같은 핵심 통계적 특성을 합성 데이터가 얼마나 잘 보존하는지에 대한 평가가 포함됩니다.”
Raul Salles de Padua – Director of Engineering, AI and Quantum at Multiverse Computing
모델 붕괴
AI 훈련은 자체 생성 출력에 과도하게 의존하게 되면 실패할 수 있습니다. AI가 생성한 데이터를 계속해서 훈련에 사용하면 품질이 저하되어 다음 훈련 사이클의 입력이 되고, 이는 AI 모델의 “퇴화”와 붕괴를 초래합니다.
따라서 일반적으로 실제 데이터와 합성 데이터를 혼합하는 것이 권장됩니다.
“다른 생성 모델의 샘플로 훈련하면 분포 변이가 발생할 수 있으며, 시간이 지남에 따라 모델 붕괴를 초래합니다. 이는 모델이 기본 학습 과제를 오인하게 만듭니다.”
오랜 기간 학습을 지속하려면 원본 데이터 소스에 대한 접근성을 유지하고, LLM이 생성하지 않은 추가 데이터가 지속적으로 이용 가능하도록 해야 합니다.
합성 데이터 활용 사례
자율주행
실제 도시 거리 데이터는 충분히 수집하기 어려운 경우가 많아, 대부분의 자율주행 AI 기업은 어느 정도 합성 데이터를 활용하고 있습니다. 이러한 시뮬레이션 거리에는 실제와 같은 자전거, 자동차, 보행자 및 무작위 이동 객체가 포함되어 있어, 자율주행 AI를 훨씬 더 많은 가상 경험으로 훈련시켜 훈련 비용을 감소시킵니다.
금융
투자 및 위험 예측 모델(거래, 은행, 보험)부터 사기 탐지까지, 금융 기업은 위험, 사기 및 자금 세탁을 더 잘 탐지하기 위해 합성 데이터를 사용합니다.
이 경우, 단순히 위험을 정확히 탐지하는 것뿐만 아니라, 기업 경영진이 규제 기관 및 이해관계자에게 이러한 문제를 탐지하고 방지하기 위해 모든 노력을 기울이고 있음을 입증하여 수십억 달러의 손실이나 벌금을 예방할 수 있습니다.
헬스케어
AI 훈련 시 총 “경험”을 늘림으로써, 합성 데이터는 역학, 의료 영상 및 실험실 결과 분석, 임상 시험 등에 사용되는 모델을 훈련하는 데 도움을 줍니다.
이러한 AI는 이후 알려진 코호트와 인구 연구에 대해 사후 검증될 수 있어, 예측 정확성을 입증합니다.
합성 데이터 제공업체 – Tonic.ai
합성 데이터를 사용하는 대부분의 기업은 이 분야에 특화된 외부 제공업체에 의존하는 경향이 있습니다.
그 예가 Tonic.ai이며, 거의 모든 데이터베이스와 통합할 수 있어 고객의 실제 데이터를 활용한 데이터 마이닝, 개발 및 테스트가 가능합니다.

출처: Tonic.ai

출처: Tonic.ai
Tonic.ai 도구는 많은 대기업에서 사용되고 있습니다, 예: eBay 개발자, American Express (아래 참조), Volvo, Cigna, Walgreens 등.
합성 데이터 사용자 – American Express
(AXP )
세계 최고의 신용카드 제공업체 중 하나인 American Express는 비즈니스 목적을 위해 합성 데이터를 활용하는 데 앞장서 왔으며, 2020년 이전에 이미 딥러닝을 사용했으며 Nvidia 하드웨어를 활용하고 있습니다.
고객을 위한 AI 활용
특히, AI가 생성한 가짜 사기 패턴을 사용해 모델이 희귀하거나 흔하지 않은 사기를 탐지하는 능력을 강화하고 있다는 보고가 있었습니다.
“이러한 기술은 고객 경험에 큰 영향을 미치며, American Express가 탐지 속도를 향상하고 의사결정 과정을 자동화함으로써 손실을 방지할 수 있게 합니다.”
Dmitry Efimov – American Express 머신러닝 연구 부사장
또한 AI와 합성 데이터를 활용해 사회적 행동 및 실시간 시장 상황까지 포함한 신용 위험 평가를 간소화합니다.
특히 생성 AI와 함께 고객 서비스를 개선하고, 회사 챗봇이 고객 요청에 충분히 응답하지 못하는 경우를 줄이는 데에도 사용됩니다.
한편, AI 알고리즘은 고객의 소비 행동, 선호도 및 거래 내역을 분석해 맞춤형 제안 및 보상을 제시합니다.
내부 AI 활용
내부적으로 AI는 반응형 문제 해결 시스템을 통해 IT 티켓으로의 에스컬레이션을 감소시켰으며, 현재 회사의 9,000명 엔지니어가 코딩 지원을 위해 GitHub Copilot을 사용하고 있습니다.
또한 5,000명의 여행 상담원이 회사의 최상위 Centurion(블랙) 카드 및 Platinum 카드 회원에게 조언을 제공하는 데 도움을 줍니다.
“여행 상담원은 다양한 분야에 걸쳐 업무를 수행합니다. 예를 들어, 한 고객은 바르셀로나의 꼭 가봐야 할 장소를 묻고, 다음 고객은 부에노스아이레스의 5성급 레스토랑에 대해 문의합니다. 모든 정보를 누군가의 머리 속에 기억하려는 것이죠.”
Hilary Packer, Amex EVP 및 CTO
American Express 개요
AI와 합성 데이터 외에도, American Express는 견고한 금융 기업으로, 2025년에 매출이 8-10% 성장하고 장기 매출 성장 목표에 부합하며 주당 순이익이 12-16% 증가할 것으로 예상됩니다.
또한 이 회사는 주로 미국 시장에 머물던 오랜 기간 이후 국제적으로 빠르게 확장하고 있으며, 국제 카드 서비스 청구 사업에서 연간 15% 성장하고 있습니다.












