الذكاء الاصطناعي المادي

الذكاء الاصطناعي الطرفي وعقول الروبوتات: نماذج VLA التي تدعم الروبوتات (2026)

تم النشر ٥ فبراير، ٢٠٢٤

تحديث ٥ فبراير، ٢٠٢٤

دانيال مارتن

تلتزم Securities.io بمعايير تحريرية صارمة، وقد تتلقى تعويضات عن الروابط المُراجعة. لسنا مستشارين استثماريين مُسجلين، وهذه ليست نصيحة استثمارية. يُرجى الاطلاع على كشف التابعة لها.

التنقل بين أجزاء السلسلة: الجزء 2 من 6 دليل الذكاء الاصطناعي الفيزيائي

ملخص: الدماغ الطرفي

تتطلب الروبوتات الحوسبة الطرفية لأن زمن استجابة السحابة (50-200 مللي ثانية) بطيء للغاية للتفاعل المادي الآمن؛ تُظهر معايير 2026 أن المعالجة على الجهاز تصل إلى أوقات استجابة أقل من 10 مللي ثانية.
تُعد نماذج الرؤية واللغة والحركة (VLA) المعيار الذهبي الجديد، مما يسمح للروبوتات بترجمة اللغة الطبيعية مباشرة إلى حركات حركية معقدة.
برزت أجهزة Jetson Thor من NVIDIA و Dragonwing IQ10 من Qualcomm كقوى سيليكونية عظمى رئيسية، حيث توفر TFLOPS اللازمة للتفكير البشري في الوقت الحقيقي.
إن التحول من الذكاء الاصطناعي التفاعلي إلى الاستدلال التوليدي يسمح للروبوتات بالتنبؤ بالتغيرات البيئية والتعامل مع الحالات الشاذة غير المتوقعة في أرضية المصنع.

الذكاء الاصطناعي على الحافة ونماذج الأساس: لماذا لا تستطيع الروبوتات استخدام الحوسبة السحابية

في عالم الذكاء الاصطناعي البرمجي، يُعدّ تأخير نصف ثانية في استجابة روبوت الدردشة إزعاجًا بسيطًا. أما في الذكاء الاصطناعي الفيزيائي، فيُمثّل هذا التأخير كارثةً أمنية. فإذا كان روبوت بشري الشكل يسير في أرضية مصنع مزدحمة، ودخل إنسان في طريقه، يجب على الروبوت معالجة هذه الرؤية، والتفكير في الفعل، وإيقاف محركاته في أقل من 20 مللي ثانية.

بحلول عام 2026، توصلت الصناعة إلى إجماع مفاده أنه لكي ينجح الذكاء الاصطناعي في العالم الحقيقي، يجب أن يكون موجودًا داخل الجهاز نفسه. وقد حفز هذا الشرط تحولًا هائلًا نحو الذكاء الاصطناعي الطرفي، حيث تتم الآن 80% من عمليات الاستدلال محليًا على الجهاز بدلًا من مركز بيانات بعيد.

صعود نماذج الرؤية واللغة والحركة باستخدام تقنية VLA

حتى وقت قريب، كانت الروبوتات عمياء وتتبع نصوصًا جامدة من التعليمات البرمجية المبرمجة مسبقًا. في عام 2026، انتقلنا إلى نماذج الرؤية واللغة والحركة (VLA). هذه نماذج أساسية متعددة الوسائط - يمكن تشبيهها بقشرة الدماغ الحركية للذكاء الاصطناعي - تعالج ثلاثة مدخلات في وقت واحد:

الرؤية: بث مباشر عالي السرعة من كاميرا بدقة 4K وبيانات عمق LiDAR.
اللغة: أوامر صوتية أو نصية من المشرفين البشريين (على سبيل المثال، "فرز الأجزاء التالفة في الصندوق الأزرق").
الإجراء: أوامر عزم الدوران والزاوية الدقيقة لمئات المحركات الصغيرة (المشغلات).fo

نظراً لأن هذه النماذج تُدرَّب على مجموعات بيانات ضخمة مثل Open X-Embodiment (أكثر من مليون مسار)، فإنها تتمتع بذكاء عام. فالروبوت الذي يعمل بتقنية VLA لا يحتاج إلى برمجة للعثور على أداة معينة؛ إذ يعرف ماهية الأداة وكيفية استخدامها من خلال الاستدلال الذي يوفره تدريبه البصري.

القوى العظمى في صناعة السيليكون: إنفيديا ضد كوالكوم

إن المعركة من أجل دماغ الروبوت هي سباق ثنائي بين عمالقة عالم أشباه الموصلات، حيث يقدم كل منهما مسارًا مختلفًا للذكاء المتجسد.

إنفيديا جيتسون ثور (NVDA + 0.91٪)

لا تزال شركة NVIDIA اللاعب المهيمن في هذا المجال. يوفر جهاز Jetson Thor، المبني على معمارية Blackwell، أداءً مذهلاً في مجال الذكاء الاصطناعي يصل إلى 2,070 تيرافلوب. صُمم Thor لتشغيل نماذج العالم - وهي عمليات محاكاة تُجرى داخل رأس الروبوت آلاف المرات في الثانية للتنبؤ بالنتائج الفيزيائية قبل حدوثها.

شركة NVIDIA (NVDA + 0.91٪)

كوالكوم دراغون وينغ IQ10 (QCOM -1.73٪)

أُعلن عن جهاز Dragonwing IQ10 في أوائل عام 2026، وهو بمثابة محاولة كوالكوم للسيطرة على سوق الروبوتات. فبينما تتفوق NVIDIA في قوة المعالجة (TFLOPS)، تتفوق كوالكوم في كفاءة استهلاك الطاقة (Efficiency per Watt). يُصبح IQ10 الخيار الأمثل للروبوتات البشرية التي تعمل بالبطاريات والتي تحتاج إلى العمل لمدة ثماني ساعات متواصلة دون ارتفاع درجة حرارتها. يتميز الجهاز بمعالج Oryon ثماني عشر النواة، ويدعم ما يصل إلى 20 كاميرا تعمل في وقت واحد لتوفير رؤية شاملة بزاوية 360 درجة.

كوالكوم إنكوربوريتد (QCOM -1.73٪)

معايير زمن الاستجابة: لماذا تتطلب الفيزياء الحافة؟

يوضح الجدول التالي فجوة الأمان بين الحوسبة المحلية والحوسبة السحابية.

تعكس البيانات متوسطات الصناعة لأوقات الرحلة ذهابًا وإيابًا من الاستشعار إلى الإجراء التي لوحظت في أوائل عام 2026.

موقع الحساب	متوسط زمن الوصول	السلامة والموثوقية	2026 حالة الاستخدام
على الجهاز (الحافة)	1 مللي ثانية - 10 مللي ثانية	حرج	تجنب العوائق في الوقت الفعلي
حافة شبكة الجيل الخامس الخاصة	15 مللي ثانية - 40 مللي ثانية	مرتفع	تنسيق الأسطول التعاوني
سحابة العامة	100 مللي ثانية - 500 مللي ثانية	غير مأمون	إعادة تدريب النموذج على المدى الطويل

الخلاصة: قلب الاستدلال

أحدثت ثورة الذكاء الاصطناعي على الحافة ثورةً في مفهوم الاستثمار في الذكاء الاصطناعي. ففي عام 2026، تحوّل التركيز من مراكز البيانات الضخمة المستخدمة لتدريب النماذج إلى الرقائق المتخصصة المستخدمة لتشغيلها في العالم الحقيقي. بالنسبة لعصر الذكاء الاصطناعي المادي، تكمن القيمة حيث يحدث التفاعل: على الحافة.

لكنّ كفاءة الدماغ تعتمد على جودة البيانات التي يتلقاها. لفهم دور العينين والجلد في توفير هذه البيانات، انظر الجزء الثالث: طبقة الاستشعار والإدراك عالي الدقة.

دليل الذكاء الاصطناعي الفيزيائي

هذا المقال هو الجزء السادس من دليلنا الشامل لثورة الذكاء الاصطناعي الفيزيائي.

استكشف السلسلة الكاملة:

🌐 مركز دليل الذكاء الاصطناعي المادي
🤖 الجزء الأول: الجنس البشري
🧠 الجزء الثاني: العقل الحافّي (الحالي)
👁️ الجزء الثالث: طبقة الاستشعار
🌐 الجزء الرابع: التوائم الرقمية
📉 الجزء الخامس: خدمات النقل كخدمة (RaaS) واقتصاد الأساطيل
💎 الجزء الرابع: تدقيق الاستثمار