الذكاء الاصطناعي
تطالب Apple بأن نظام ReALM يتفوق على GPT-4 في القدرات

最近، دثرت Claude 3 لقب GPT 4 كأفضل نظام لغة متقدم. وفي غضون ذلك، كشفت مجموعة من الباحثين في Apple عن نظام ReALM، بعد أن نشرت أخبار حول جهود شركة Apple لترخيص نظام Google Gemini لاستخدامه في هاتف iPhone واداة iOS 18 لادوات الذكاء الاصطناعي التوليدية. ويشير البحث الذي حمل عنوان “ReALM: حل المراجع كنموذج لغة” إلى أن نظام ReALM نظام ذكاء اصطناعي متقدم يعد بتحديد طريقة فهم المساعدين الصوتيين والاستجابة لاستفسارات المستخدمين.
تتمثل الفرقة بين نظام ReALM والأنظمة الأخرى في دمج حل المراجع بشكل متجانس في فهم اللغة. وهذه是一قتراح مبتكر بالنظر إلى التصميم الحالي لأنظمة اللغة الكبيرة القائمة على النماذج، ويساهم في تعزيز فهم النموذج للسياق كما يحدد معيارًا جديدًا للتفاعل بين الذكاء الاصطناعي وواجهات المستخدم الرسومية.
وفقًا لمخرجات البحث، من المقرر أن يساعد نظام ReALM مهندسي نماذج اللغة الكبيرة ومديري المنتجات في أدوات الذكاء الاصطناعي على تحقيق تفاعلات مستخدم أكثر直觉 ووعي بالسياق. كما يسهل نظام ReALM دمج الإدخال النصي مع السياق المرئي، مما يوسع الإمكانات لتحسين مهارات المساعد الرقمي في العديد من التطبيقات.
نظام ReALM المبتكر لحل المراجع في معالجة اللغة الطبيعية
يعتمد جميع أنظمة معالجة اللغة الطبيعية على “حل المراجع”، وهو عملية لتحديد وربط المراجع الغامضة ولكنها سياقية مثل الضمائر أو الوصف الغير مباشر، أي “هم” أو “ذلك”، بالكيانات الصحيحة داخل محادثة أو سياق مرئي للحفاظ على تفاعلات مستخدم متسقة.
تعتمد الأنظمة التقليدية على أساليب قاعدية أو قواعد لتحليل المراجع، مما لا يؤدي إلى النتائج المرغوبة عند محاولة التقاط تعقيدات اللغة الطبيعية الكاملة. ونتيجة لذلك، كان من الصعب دمج السياق المرئي، مثل الكيانات على الشاشة، في الحل باستخدام هذه الأساليب. كما أن مساعدي الصوت مثل Siri يقعون في نفس القيود التي يعالجها نظام ReALM من خلال معاملته كمشكلة نمذجة لغة.
يستخدم نظام ReALM نماذج اللغة الكبيرة لفهم وحل المراجع الغامضة داخل السياق الأوسع للمحادثة بدلاً من استخدام القواعد أو القواعد. وعندما يكون هناك سياق مرئي، يعيد بناء شاشة الجهاز باستخدام التمثيلات النصية وتسجيل الاتصالات المكانية بين المكونات على الشاشة.
بقيادة جويل روبن أنتوني مونيز، يصرح فريق الباحثين:
“إلى حد علمنا، هذا هو العمل الأول الذي يستخدم نموذج لغة كبير يهدف إلى ترميز السياق من الشاشة.”
النتيجة؟ يمكن لمساعدي الصوت الذين يعملون بنظام ReALM فهم استفسارات مثل “انقر على الزر في الزاوية العلوية اليمنى” و “افتح المقال الثاني في القائمة”، والتي تعاني منها الأنظمة الذكية التقليدية.
يجعل ذلك طريقة حل المراجع في نظام ReALM أكثر كفاءة ومثالية للمعالجة على الجهاز، حيث يمكن حل المراجع محليًا على الجهاز، على عكس الأنظمة الذكية القائمة على السحابة التي تحتاج إلى نقل بيانات مستمر.
انقر هنا لمعرفة قائمة بأفضل 5 ملحقات ChatGPT.
مجموعة البيانات وتقييمها
قام فريق البحث في Apple بإنشاء مجموعة بيانات متنوعة تشمل بيانات محادثات وبيانات شاشة وبيانات اصطناعية لتقييم قدرة نظام ReALM على التعامل مع تعقيدات التفاعلات المستخدم الحقيقية مقارنة ببديله.
تم إنشاء بيانات المحادثة من خلال عرض صور على العمال في مجموعة وطلب منهم تقديم استفسارات واضحة تتعلق بالعناصر المحددة داخل تلك القوائم. وتم خضوع مجموعة بيانات الشاشة لعملية تعليم ثنائية المرحلة تضمنت تصنيف الكائنات المرئية وإنشاء استفسارات وإنشاء روابط بين الاستفسارات والكيانات التي تشير إليها.
نتائج الأداء المبهرة
تظهر نتائج التقييم الأداء المبهر لنظام ReALM في جميع مجموعات البيانات. مقارنة بنظام MARRS السابق، الذي كان يُعتبر الأفضل في حل المراجع، يحقق نظام ReALM تحسينات كبيرة في الدقة.
للتقييم بشكل أكبر قدرات نظام ReALM، قام الباحثون بمرجاعته إلى نماذج GPT-3.5 و GPT-4 من OpenAI. ومن المثير للدهشة أن نموذج نظام ReALM الأصغر يؤدي على نفس مستوى نموذج GPT-4 على الرغم من أن لديه عددًا أقل من المعاملات.
الجدول التالي يمثل ملخصًا لنتائج الأداء، مما يبرز تفوق نظام ReALM على النهج الحالية وتقاربه مع نماذج اللغة المتقدمة.

مفتاح النجاح: ترميز الشاشة المثالي
كما هو واضح، فإن نهج ترميز الشاشة المثالي في نظام ReALM هو عامل حاسم يساهم في أدائه المبهر.
واحدة من المحاولات الأولية تضمنت تجميع عناصر الشاشة وضم جميع العناصر الأخرى في سياق كل كيان. ومع ذلك، أدى ذلك إلى توسع في طول الاستفسارات بسرعة مع زيادة عدد الكيانات على الشاشة، مما جعلها غير عملية للتطبيقات الحقيقية.
تمت محاولة نهج آخر ي涉ل وضع علامات على الكيانات في تحليل الشاشة النصي ولكن تقديمها بشكل منفصل عن السياق الرئيسي. ومع أن هذه الطريقة تبدو واعدة، وجد الباحثون أن الحقن المباشر للعلامات في التحليل نفسه يؤدي إلى أفضل النتائج.
يعمل نهج “ترميز الشاشة المحقون” النهائي، كما هو موضح بالتفصيل في البحث، من خلال فرز مراكز عناصر الشاشة من الأعلى إلى الأسفل ثم من اليسار إلى اليمين. وتُجمَع العناصر داخل هامش رأسي محدد في نفس “الخط” في التمثيل النصي، وتُفصَل العناصر على نفس الخط بفاصلات. يسمح هذا بترميز الشاشة بخطوتين لتحويل تخطيط الشاشة ثنائي الأبعاد إلى تنسيق نصي واحد البعد، مما يتيح للنموذج فهم العلاقات المكانية بين الكيانات.
أكدت تجارب الحذف التي أجراها الباحثون على تفوق نهج الترميز المثالي، كما هو موضح في الشكل التالي:

تعامل مع حالات استخدام معقدة
يقدم البحث عدة أمثلة نوعية تظهر قدرة نظام ReALM على التعامل مع حالات استخدام معقدة تتطلب أشكالًا مختلفة من التفكير، بما في ذلك الفهم الدلالي والتلخيص والمعرفة العالمية والتفكير العادي.
في مثال مثير للاهتمام قدمه الفريق، يحل نظام ReALM الاستفسار “اتصل بالرقم المسائي” بشكل صحيح إلى رقم الهاتف المُدرَج تحت “5 مساءً – 9 مساءً” عند تغذيته بشاشة تعرض معلومات الاتصال الصباحية والمسائية. و尽管 يبدو هذا نتيجة منطقية، إلا أنه يُظهر قدرة نظام ReALM على فهم معنى “المساء” وربطه بالفترة الزمنية المناسبة، وهو ما لم يتحقق بعد للأنظمة الذكية الأخرى.
تؤكد هذه الأمثلة النوعية على ملاحظات حول تنوع نظام ReALM وقدرته على التعامل مع مجموعة واسعة من السيناريوهات الحقيقية التي تتطلب فهمًا عميقًا للغة والقدرات العقلية.
ميزات على النهج الشامل
على الرغم من أن النهج الشامل الذي يعتمد على نماذج اللغة الكبيرة بشكل كامل أظهر نتائج واعدة في العديد من مهام فهم اللغة، يبرز الباحثون عدة ميزات لنهج نظام ReALM:
سيكون تشغيل نموذج كامل من النهاية إلى النهاية على الجهاز لreasons زمنية وخصوصية غير ممكن مع النماذج الحالية بسبب القيود الحسابية والذاكرة. من خلال استخدام نموذج أصغر ومحسّن خصيصًا لحل المراجع، يتجنب نظام ReALM هذه القضايا ويمكّن المعالجة الفعالة على الجهاز.
علاوة على ذلك، يسمح هيكل نظام ReALM المتجزئ بدمج سلس مع مكونات الكشف عن الكيانات واكتمال المهام الحالية في خطوط أنابيب الذكاء الاصطناعي المحادثي. في المقابل، سيحتاج نموذج من النهاية إلى النهاية إلى تغييرات كبيرة في الخطوط الأنابيب بأكملها، مما يجعله أكثر صعوبة في التكيف مع الأنظمة الحقيقية.
التنقل إلى أنواع كيانات جديدة
أحد نقاط القوة الرئيسية لنظام ReALM هو قدرته على التنقل إلى أنواع كيانات جديدة. على عكس النهج المسبوقة المتراصة مثل MARRS، التي اعتمدت على منطق نوعي محدد يدوياً، يمكن لنظام ReALM القائم على نماذج اللغة الكبيرة التعميم بسهولة إلى مجالات غير موضحة.
يُظهر الباحثون هذه الميزة من خلال تقييم نظام ReALM على نوع كيان “منبه” غير موضح. ومن المثير للدهشة أن نظام ReALM يطابق أداء نموذج GPT-4 في حل الاستفسارات بدقة، مثل “أغلق المنبه الذي يذكرني بانتظار ديدى”. هذا يُظهر قدرة النموذج على الاستفادة من فهم اللغة لتعامل مع أنواع كيانات جديدة دون الحاجة إلى بيانات تدريب صريحة.
الجدول التالي يعرض مقارنة الأداء بين نظام ReALM ونموذج GPT-4 على مجموعة بيانات “منبه” غير موضحة، مما يبرز قدرة نظام ReALM على التعميم بلا شوط.

إمكانيات مستقبلية وقيود
على الرغم من أن نظام ReALM يحقق تقدمًا كبيرًا في جوانب مهمة مثل حل المراجع لمساعدي الصوت، أشار فريق البحث إلى بعض القيود التي تُستحق الفهم.
تتمثل إحدى العيوب الرئيسية للنظام في أن تحويل تخطيط الشاشة ثنائي الأبعاد إلى تمثيل نصي واحد البعد يؤدي إلى فقدان التفاصيل المكانية الدقيقة. وقد اقترح الفريق استخدام استراتيجيات ترميز أكثر تطورًا، مثل تمثيل مكونات الشاشة بطريقة شبكية، للحفاظ على مواقع نسبية أكثر دقة.
تتمثل إحدى التحسينات المحتملة للمستقبل في تعزيز قدرة نظام ReALM على التعامل مع مرجعيات أكثر تعقيدًا وتنوعًا، بما في ذلك تلك التي تتضمن علاقات زمنية أو هرمية بين الكيانات.
على الرغم من هذه القيود، يجعل أداء نظام ReALM المبهر وتصميمه القابل للتوسيع أساسًا واعداً لمواصلة البحث والتنمية في مجال الذكاء الاصطناعي المحادثي.
أفكار ختامية
سوف يفتح نظام ReALM بابًا ل_interfaces مستخدم أكثر直觉 ووعي بالسياق. سيكون مهندسو نماذج اللغة الكبيرة ومديرو المنتجات قادرون على إنشاء أنظمة ذكاء اصطناعي تفهم وتستجيب للنوايا الحقيقية للمستخدمين، حتى عند التعامل مع عناصر شاشة معقدة.
من منظور فني بحت، فإن هيكل نظام ReALM المتجزئ وقدرته على المعالجة على الجهاز هي قيمتان لا غنى عنهما، حيث لا تُعالج فقط مشاكل الخصوصية والزمن، بل أيضًا توفر أساسًا لمزيد من الأنظمة الذكية المتكاملة والفعالة.
بمعنى بسيط، فإن نجاح نظام ReALM في التعامل مع حالات استخدام معقدة وقدرته على التعميم إلى أنواع كيانات جديدة يُشير إلى أن فهمنا لما هو ممكن حاليًا مع الذكاء الاصطناعي المحادثي قد تغير بشكل كامل. ويمكن أن يسرع من معدل تبني الذكاء الاصطناعي في قطاعات مختلفة، من خدمة العملاء والتجارة الإلكترونية إلى الرعاية الصحية والتعليم.












