الروبوتات
الذكاء الاصطناعي الطرفي وعقول الروبوتات: نماذج VLA التي تشغل الروبوتات (2026)

تنقل السلسلة: الجزء 2 من 6 في The Physical AI Handbook
Edge AI & Foundation Models: لماذا لا يمكن للروبوتات استخدام السحابة
في عالم الذكاء الاصطناعي البرمجي، تأخير نصف ثانية في استجابة الروبوت المحادثة يُعد إزعاجًا بسيطًا. في الذكاء الاصطناعي الفيزيائي، تأخير نصف ثانية هو كارثة سلامة. إذا كان روبوت بشري الشكل يمشي عبر أرضية مصنع مزدحمة وتدخل إنسان في مساره، يجب على الروبوت معالجة تلك الرؤية، والتفكير في الإجراء، وإيقاف محركاته في أقل من 20 مللي ثانية.
اعتبارًا من عام 2026، وصلت الصناعة إلى إجماع: للبقاء في العالم الحقيقي، يجب أن يعيش الدماغ داخل الجسد. هذا المتطلب أدى إلى هجرة ضخمة نحو الذكاء الاصطناعي الطرفي، حيث يحدث الآن 80٪ من الاستدلال محليًا على الجهاز بدلاً من مركز بيانات بعيد.
صعود VLA: نماذج الرؤية-اللغة-الإجراء
حتى وقت قريب، كانت الروبوتات عمياء وتتبع خطوطًا صلبة من الشيفرة المبرمجة مسبقًا. في عام 2026، انتقلنا إلى نماذج الرؤية-اللغة-الإجراء (VLA). هذه نماذج أساسية متعددة الوسائط—فكر فيها كقشرة حركية للذكاء الاصطناعي—تُعالج ثلاثة مدخلات في آن واحد:
- الرؤية: تدفقات كاميرا 4K عالية السرعة وبيانات عمق LiDAR.
- اللغة: أوامر صوتية أو نصية من المشرفين البشر (مثال، “فرز الأجزاء التالفة في الصندوق الأزرق”).
- الإجراء: أوامر العزم والزاوية الدقيقة لمئات المحركات الصغيرة (المشغلات).fo
نظرًا لأن هذه النماذج تم تدريبها على مجموعات بيانات ضخمة مثل Open X-Embodiment (أكثر من مليون مسار)، فإنها تمتلك الذكاء العام. الروبوت المدعوم بـ VLA لا يحتاج إلى برمجة للعثور على أداة محددة؛ فهو يعرف ما هي الأداة وكيفية إمساكها من خلال التفكير عبر تدريبه البصري.
قوى السيليكون الفائقة: NVIDIA مقابل Qualcomm
المعركة من أجل دماغ الروبوت هي سباق ذو حصانين بين عمالقة عالم أشباه الموصلات، كل منهم يقدم مسارًا مختلفًا للذكاء المتجسد.
NVIDIA Jetson Thor (NVDA )
تظل NVIDIA القردة ذات الـ500 رطل في هذا المجال. وحدة Jetson Thor الخاصة بها، المبنية على بنية Blackwell، تقدم أداءً مذهلاً يبلغ 2,070 تيرافلوبس من الذكاء الاصطناعي. تم تصميم Thor لتشغيل نماذج العالم—محاكيات تعمل داخل رأس الروبوت آلاف المرات في الثانية لتوقع النتائج الفيزيائية قبل حدوثها.
(NVDA )
Qualcomm Dragonwing IQ10 (QCOM )
أُعلن عنه في أوائل عام 2026، يُعد Dragonwing IQ10 خطوة Qualcomm للحصول على تاج الروبوتات. بينما تفوز NVIDIA في الأداء الخام من TFLOPS، تتفوق Qualcomm في الكفاءة لكل وات. يصبح IQ10 الخيار المفضل للروبوتات البشرية التي تعمل بالبطارية وتحتاج إلى الاستمرار طوال نوبة عمل كاملة مدتها 8 ساعات دون ارتفاع الحرارة. يتميز بمعالج Oryon بـ 18 نواة ويدعم ما يصل إلى 20 كاميرا متزامنة لتوفير وعي بزاوية 360 درجة.
(QCOM )
معايير الكمون: لماذا تتطلب الفيزياء الطرفية
البيانات تعكس متوسطات الصناعة لأوقات الذهاب والإياب من الاستشعار إلى الفعل التي لوحظت في أوائل عام 2026.
| موقع الحوسبة | متوسط الكمون | موثوقية السلامة | حالة الاستخدام 2026 |
|---|---|---|---|
| على الجهاز (الطرفية) | 1 ms – 10 ms | حرجة | تجنب العقبات في الوقت الحقيقي |
| الطرفية الخاصة 5G | 15 ms – 40 ms | عالية | تنسيق أسطول تعاوني |
| السحابة العامة | 100 ms – 500 ms | غير آمنة | إعادة تدريب النموذج على المدى الطويل |
الخلاصة: انعكاس الاستدلال
ثورة دماغ الطرفية قلبت فرضية الاستثمار في الذكاء الاصطناعي. في عام 2026، تحول التركيز من مراكز البيانات الضخمة المستخدمة لتدريب النماذج إلى الشرائح المتخصصة المستخدمة لتشغيلها في العالم الحقيقي. بالنسبة لعصر الذكاء الاصطناعي الفيزيائي، القيمة تكمن حيث الفعل: في الطرفية.
ومع ذلك، الدماغ لا يكون أفضل من البيانات التي يتلقاها. لفهم العيون والجلد التي توفر هذه البيانات، راجع الجزء 3: طبقة المستشعرات & الإدراك عالي الدقة.
دليل الذكاء الاصطناعي الفيزيائي
هذه المقالة هي الجزء 2 من دليلنا الشامل لثورة الذكاء الاصطناعي الفيزيائي.
استكشف السلسلة الكاملة:
- The Physical AI Handbook Hub
- 烙 الجزء 1: سباق البشر الآليين
- 易 الجزء 2: دماغ الطرفية (الحالي)
- ️ الجزء 3: طبقة المستشعر
- الجزء 4: التوأم الرقمي
- الجزء 5: RaaS & اقتصاد الأسطول
- الجزء 6: تدقيق الاستثمار












