الأمن السيبراني
كيف تحمي البيانات الزائفة المستخدمين الحقيقيين: قيمة البيانات التركيبية

العطش اللامتناهي للمزيد من البيانات
مع تحول العالم إلى الرقمنة المتزايدة، بدأ ينتج ويحتاج إلى كميات متزايدة من البيانات. يشكل هذا مشكلة، حيث إن هذه البيانات غالبًا ما تكون مرتبطة بأشخاص وشركات حقيقية قد تواجه مخاوف جدية بشأن الخصوصية.
أصبح هذا الأمر أكثر إلحاحًا مع ظهور الذكاء الاصطناعي، الذي لا يقتصر فقط على إجراء التحليل الإحصائي على دفعات من البيانات، بل يستطيع أيضًا استعراض وتحليل مجموعة البيانات بعمق على جميع المستويات، من شخص فردي إلى مليارات السجلات الرقمية.
البيانات الآن أساسية لاقتصاد العصر الحديث لدرجة أن الطلب على بيانات حقيقية وعالية الجودة قد نما بصورة أسية. وفي الوقت نفسه، أدت القواعد الصارمة للخصوصية ونماذج الذكاء الاصطناعي المتضخمة إلى جعل جمع وتوسيم البيانات الحقيقية أمرًا صعبًا أو غير عملي. – IBM Research
لهذا السبب تم اختراع البيانات التركيبية كحل. هذه البيانات تحاكي البيانات الواقعية لكنها لا تحتوي على أي معلومات خاصة قد تسبب مشاكل. كما يمكن تعديلها وتكييفها لتناسب حالات الاستخدام المحددة، أو الحالات النادرة، أو أي شيء قد يحتاجه الإحصائي أو المختبر.
هنا أيضًا، كان للذكاء الاصطناعي دور تحولي. من ناحية، تُعد تقنية الذكاء الاصطناعي مفيدة جدًا لتوليد بيانات تركيبية أفضل، متجاوزةً الأساليب الإحصائية البحتة التي كانت تُستَخدم حتى الآن. ومن ناحية أخرى، تُعد البيانات التركيبية مفيدة بنفس القدر لتدريب نماذج الذكاء الاصطناعي، من نماذج ثلاثية الأبعاد محاكاة للبروتينات لاكتشاف الأدوية إلى شوارع للذكاء الاصطناعي للقيادة الذاتية.
شرح البيانات التركيبية
تشير البيانات التركيبية إلى مجموعات بيانات تُنشأ صناعيًا ولكنها تحتفظ بالخصائص الإحصائية الأساسية للبيانات الأصلية التي تستند إليها.
تعمل البيانات التركيبية كتكملة للبيانات الواقعية وتوفر عددًا من المزايا الرئيسية التي تسمح للباحثين والمحللين بتوسيع النتائج الأولية التي تم جمعها من الاستطلاعات والتجارب والقياسات:
- يتيح تدريب نماذج الذكاء الاصطناعي بالبيانات التركيبية زيادة حجم البيانات الإجمالي عندما تكون البيانات الحقيقية عالية الجودة نادرة.
- في قطاعات مثل المالية والرعاية الصحية، تكون البيانات محدودة، وتستغرق وقتًا طويلاً للحصول عليها، أو يصعب الوصول إليها.
تقدّر شركة الأبحاث Gartner أنه بحلول عام 2030 ستتفوق البيانات التركيبية على البيانات الفعلية في تدريب نماذج الذكاء الاصطناعي. كما تتوقع Gartner أنه بحلول عام 2026، سيستخدم 75٪ من الشركات الذكاء الاصطناعي التوليدي لإنشاء بيانات عملاء تركيبية.
أنواع البيانات التركيبية
البيانات التركيبية الجزئية تستخدم مجموعات بيانات واقعية وتستبدل أجزاءً منها بقيم صناعية. يُجرى ذلك عادةً لأسباب تتعلق بالخصوصية ويُستَخدم بشكل شائع في البحوث السريرية، حيث يتم إخفاء هوية المرضى والسجلات الطبية.
البيانات التركيبية الكاملة هي مجموعة بيانات مُولَّدة بالكامل، تُقدّر خصائص البيانات الحقيقية وتحاول محاكاتها بأكبر قدر ممكن: السمات، الأنماط، والعلاقات. يمكن القيام بذلك، على سبيل المثال، لتدريب نموذج على بيانات مفقودة من مجموعة بيانات مستخدم، مثل البيانات المالية التي تفتقر إلى أنشطة احتيالية، والتي تُحتاج لتدريب نموذج ذكاء اصطناعي لاكتشاف الاحتيال.
البيانات التركيبية الهجينة تجمع بين البيانات الحقيقية والبيانات التركيبية الكاملة.
كيفية توليد البيانات التركيبية
الطرق الإحصائية هي أقدم طريقة لتوليد البيانات التركيبية، حيث تعود إلى ثلاثينيات القرن الماضي مع توليد الصوت والصوتيات، مما أدى إلى ظهور برامج التوليف منذ السبعينيات.
المُشفرات التلقائية المتغيرة (VAEs) هي برامج تُنتج تنويعات على البيانات التي تم تدريبها عليها. تُستَخدم هذه الأنظمة غالبًا لتوليد صور تركيبية، بالإضافة إلى أشكال أخرى من التعلم الآلي.

المصدر: IBM
نهج مرتبط بـ VAEs هو الشبكات التوليدية الخصمية (GANs)، وهو نهج رئيسي للذكاء الاصطناعي التوليدي. يتكون من شبكتين عصبيتين:
- إحدى الشبكتين تُولِّد بيانات تحاول أن تبدو كأنها مجموعة البيانات الحقيقية.
- الأخرى تقارن البيانات المُولَّدة بمجموعة البيانات الحقيقية.
تُعطي الشبكة العصبية الثانية ملاحظات للشبكة الأولى حتى تتمكن الأولى من توليد مجموعة بيانات تركيبية قريبة قدر الإمكان من الحقيقية.

المصدر: Wikipedia
نماذج المحولات تستخدم الأدوات الرياضية المستخدمة في تطوير العديد من الذكاءات الاصطناعية الحديثة، بما في ذلك ChatGPT (حيث يرمز “T” إلى “محول”). “تخمن” تسلسل الإخراج الأكثر احتمالًا إحصائيًا من خلال التركيز على أهم الرموز في تسلسل الإدخال.
أخيرًا، نمذجة الوكيل القائم على الوكلاء تتخطى خطوة واحدة إضافية وتُنشئ “وكلاء”، وهم ذكاءات اصطناعية صغيرة تحاكي التفاعلات وسلوكيات الوكلاء لإنتاج بيانات تركيبية. على سبيل المثال، يمكن أن يمثل كل وكيل شخصًا فرديًا في دراسة وبائية، مع عرض نمطه أو معدل اتصاله أو خطر إصابته.
(استكشفنا الدور المستقبلي للوكلاء الذكائيين في مكان العمل والحياة اليومية في “التطبيق القاتل للذكاء الاصطناعي: كيف يمكن للوكلاء الذكائيين تغيير كل شيء”)
مزايا البيانات التركيبية
التحكم والتخصيص
نظرًا لأن البيانات تُنشأ من الصفر، يصبح من الأسهل كثيرًا إنتاج مجموعة البيانات الصحيحة لمهمة معينة، مثل تدريب نظام ذكاء اصطناعي.
يمكن أيضًا إنشاؤها وفقًا للمواصفات والاحتياجات الدقيقة للأعمال أو الباحث.
الكفاءة
يُزيل توليد البيانات الحاجة إلى جمع بيانات حقيقية مكلفة وتستغرق وقتًا طويلاً، طالما أن البيانات التركيبية المُولَّدة قريبة بما يكفي من بيانات العالم الحقيقي.
تأتي هذه البيانات أيضًا مُوسومة مسبقًا، مما يلغي الخطوة اليدوية المرهقة لتوسيم كل نقطة بيانات بواسطة إنسان، ووصف كل صورة أو جملة أو ملف صوتي حتى يتمكن النظام الآلي من فهمها.
الخصوصية
البيانات التركيبية الكاملة لا تواجه أي مشكلات تتعلق بالخصوصية، لأنها غير مرتبطة بأي أفراد أو شركات حقيقية. تُعد الأنواع الأخرى من البيانات التركيبية وسيلة جيدة لإخفاء وتطهير البيانات الحقيقية من أي معلومات محمية، سواء كانت بيانات خاصة فردية أو حقوق ملكية فكرية محمية.

المصدر: Mostly AI
بيانات أكثر تنوعًا
قد تغفل مجموعات البيانات الواقعية الصغيرة الحالات الطرفية أو الفئات الممثلة تمثيلاً ناقصًا. يمكن أن يكون ذلك مشكلة عند تدريب نماذج الذكاء الاصطناعي، حيث سيتجاهل النموذج الناتج وجود هذه الحالات تمامًا.
من خلال توسيع مجموعة البيانات الأولية وإضافة الحالة المفقودة صناعيًا التي يعرف المصمم أنه يجب أن تكون موجودة، يمكن للبيانات التركيبية الهجينة الناتجة أن تكون أكثر دقة وتمثيلًا للواقع.
حدود البيانات التركيبية
فقدان البيانات
حتى إذا كانت البيانات التركيبية، في المثالية، مماثلة تقريبًا للبيانات الحقيقية، قد يُفقد بعض المستوى من المعلومات خلال العملية. هذا صحيح خاصةً مع الإخفاء القوي. لذا، قد يتعين في بعض الأحيان إيجاد توازن بين الخصوصية والكفاءة.
التحيز
نظرًا لأن البيانات التركيبية تسعى جاهدًا لتقليد مجموعات البيانات الواقعية، فمن المحتمل أيضًا أن تُعيد إنتاج أي خطأ أو تحيز أو مشكلة موجودة فيها. لذا، من المهم غالبًا دمج مجموعات بيانات حقيقية متعددة من مناطق مختلفة، ومجموعات سكانية، وإطارات زمنية، إلخ، عند إنشاء البيانات التركيبية.
“يُحسب مدى دقة البيانات التركيبية من خلال مقارنتها بالبيانات الواقعية عبر اختبارات إحصائية وتحليلية. يتضمن ذلك تقييم مدى حفظ البيانات التركيبية للخصائص الإحصائية الرئيسية، مثل المتوسطات، التباينات، والارتباطات بين المتغيرات.”
Raul Salles de Padua – مدير الهندسة، الذكاء الاصطناعي والكمية في Multiverse Computing
انهيار النموذج
قد يفشل تدريب الذكاء الاصطناعي عندما يبدأ في التدريب على كمية مفرطة من مخرجاته الخاصة. يؤدي المزيد من التدريب على بيانات مُولَّدة من الذكاء الاصطناعي إلى تدهور الجودة، التي تصبح مدخلًا للدورة التالية من التدريب، مما يؤدي إلى “تحلل” نموذج الذكاء الاصطناعي وانهياره.
لهذا السبب يُنصح عمومًا بدمج البيانات الحقيقية مع البيانات التركيبية.
“يمكن أن يُحدث التدريب على عينات من نموذج توليدي آخر تحولًا في التوزيع، والذي—مع مرور الوقت—يسبب انهيار النموذج. وهذا بدوره يجعل النموذج يسيء فهم مهمة التعلم الأساسية.
للحفاظ على التعلم على مدى فترة طويلة، نحتاج إلى التأكد من الحفاظ على إمكانية الوصول إلى مصدر البيانات الأصلي وأن تظل البيانات الإضافية غير المُولَّدة بواسطة نماذج اللغة الكبيرة متاحة مع مرور الوقت.
نماذج الذكاء الاصطناعي تنهار عند التدريب على بيانات مُولَّدة بشكل متكرر – Nature.
حالات استخدام البيانات التركيبية
القيادة الذاتية
نظرًا لأن جمع بيانات الشوارع الحقيقية قد يكون صعبًا للحصول على عدد كافٍ، فإن معظم شركات الذكاء الاصطناعي للقيادة الذاتية تستخدم البيانات التركيبية إلى حد ما. تساعد هذه الشوارع المُحاكاة، المكتملة بدراجات، سيارات، مشاة، وأجسام متحركة عشوائية، في تدريب الذكاء الاصطناعي للقيادة الذاتية من خلال توفير ساعات افتراضية أكثر، مما يقلل من التكلفة الإجمالية للتدريب.
المالية
من نماذج التنبؤ للاستثمار والمخاطر (التجارة، البنوك، التأمين) إلى اكتشاف الاحتيال، تستخدم الشركات المالية البيانات التركيبية لتحسين اكتشاف المخاطر والاحتيال وغسل الأموال.
في هذه الحالة، لا يقتصر الاستخدام على اكتشاف هذه المخاطر فحسب، بل يُستخدم أيضًا لتوضيح ذلك أمام الجهات التنظيمية وأصحاب المصلحة، مما يُظهر أن الشركة تبذل كل جهد ممكن لاكتشاف وتجنب هذه القضايا، وربما يمنع خسائر أو غرامات بمليارات الدولارات.
الرعاية الصحية
من خلال زيادة “الخبرة” الإجمالية للذكاء الاصطناعي أثناء التدريب، يمكن للبيانات التركيبية المساعدة في تدريب نماذج تُستخدم لاحقًا في الوبائيات، تحليل الصور الطبية ونتائج المختبرات، أو التجارب السريرية.
يمكن لاحقًا اختبار هذه النماذج على مجموعات معروفة ودراسات سكانية، لإثبات دقة توقعاتها.
مزوّد البيانات التركيبية – Tonic.ai
معظم الشركات التي تستخدم البيانات التركيبية تميل إلى الاعتماد على مزوّدي خدمات خارجيين متخصصين في هذا المجال.
أحد الأمثلة على ذلك هو Tonic.ai، التي يمكنها الاندماج مع كل قاعدة بيانات تقريبًا، مما يتيح استخراج البيانات، التطوير، والاختبار باستخدام بيانات العميل الحقيقية.

المصدر: Tonic.ai
من بين الخدمات التي تقدمها الشركة يمكن ذكرها:
- إنشاء قاعدة بيانات اختبار معزولة في ثوانٍ.
- التحقق من صحة البيانات التركيبية المُولَّدة.
- إزالة وتوليد بيانات النص الحر، لضمان إلغاء التعريف.

المصدر: Tonic.ai
تُستخدم أدوات Tonic.ai من قبل العديد من الشركات الكبرى، مثل مطوري eBay, American Express (انظر أدناه), Volvo, Cigna, Walgreens، وغيرها.
مستخدم البيانات التركيبية – American Express
(AXP )
إحدى أكبر مزودي بطاقات الائتمان في العالم، American Express، كانت في طليعة استخدام البيانات التركيبية لأغراض الأعمال، استخدام التعلم العميق قبل عام 2020 واستخدام أجهزة Nvidia.
استخدامات الذكاء الاصطناعي للعملاء
من الجدير بالذكر أنه تم الإبلاغ عن استخدامها لـ “أنماط احتيال مُولَّدة بالذكاء الاصطناعي لتقوية قدرة نماذجها على اكتشاف الاحتيالات النادرة أو غير الشائعة“.
“هذه التقنيات لها تأثير كبير على تجربة العميل، مما يسمح لـ American Express بتحسين سرعة الكشف ومنع الخسائر من خلال أتمتة عملية اتخاذ القرار.”
Dmitry Efimov – نائب رئيس أبحاث التعلم الآلي في American Express
كما تستخدم الذكاء الاصطناعي والبيانات التركيبية لتبسيط تقييم مخاطر الائتمان من خلال تضمين السلوك الاجتماعي وظروف السوق في الوقت الفعلي.
يُستخدم أيضًا، خاصةً مع الذكاء الاصطناعي التوليدي، لتحسين خدمات العملاء وتقليل الأوقات التي يكون فيها روبوت الدردشة الخاص بالشركة غير قادر على تلبية طلبات العملاء.
في الوقت نفسه، تحلل خوارزميات الذكاء الاصطناعي سلوكيات إنفاق العملاء وتفضيلاتهم وتاريخ معاملاتهم لتقديم عروض ومكافآت مخصصة.
استخدامات الذكاء الاصطناعي الداخلية
داخليًا، سمح الذكاء الاصطناعي لـ American Express بتقليل التصعيد إلى تذاكر تقنية المعلومات من خلال نظام حل المشكلات التفاعلي، ويستخدم الآن 9,000 مهندسًا GitHub Copilot للمساعدة في الترميز.
كما يساعد 5,000 مستشار سفر في تقديم المشورة لأعضاء بطاقة Centurion (السوداء) وبطاقة Platinum النخبة.
“يمتد مستشارو السفر عبر العديد من المجالات المختلفة. على سبيل المثال، قد يسأل أحد العملاء عن المواقع التي يجب زيارتها في برشلونة، بينما يستفسر آخر عن مطاعم خمس نجوم في بوينس آيرس. إنه محاولة لإبقاء كل ذلك في ذهن شخص ما، أليس كذلك؟”
نظرة عامة على American Express
إلى جانب الذكاء الاصطناعي والبيانات التركيبية، تُعد American Express شركة مالية قوية، تتوقع نموًا في الإيرادات بنسبة 8-10٪ في عام 2025، بما يتماشى مع الهدف طويل الأجل لنمو الإيرادات، وربحية السهم بنسبة 12-16٪.
كما تتوسع الشركة بسرعة على الصعيد الدولي، بعد فترة طويلة من التواجد الأساسي في السوق الأمريكية، مع نمو بنسبة 15٪ سنويًا في أعمال خدمات البطاقات الدولية المفوترة.












