كشفت مايكروسوفت عن Rho-alpha، وهو أول نموذج روبوتي تطوره الشركة اعتماداً على سلسلة Phi الخاصة بنماذج الرؤية واللغة.

وترى مايكروسوفت أن الروبوتات تحتاج إلى طرق أكثر تطوراً للرؤية وفهم التعليمات البشرية، حتى تتمكن من العمل بفاعلية خارج خطوط الإنتاج التقليدية.

وبحسب بيان رسمي، فإن الشركة ترى أن الأنظمة الروبوتية يمكنها تجاوز حدود المصانع من خلال الاستجابة للظروف المتغيرة في الزمن الحقيقي، بدلاً من الاعتماد على نصوص أو سيناريوهات ثابتة ومحددة مسبقاً، وهو ما يشكل تحولاً جذرياً في فلسفة تشغيل الروبوتات.

التحول إلى الذكاء المادي

تربط مايكروسوفت تطوير نموذجها الجديد Rho-alpha بمفهوم آخذ في الانتشار يُعرف باسم “الذكاء الاصطناعي الفيزيائي” Physical AI، حيث لا يقتصر دور النماذج البرمجية على التحليل أو التنبؤ، بل يمتد ليشمل توجيه الآلات للعمل في بيئات غير منظمة، وأقل قابلية للتنبؤ.

ويجمع النموذج الجديد بين فهم اللغة والإدراك الحسي وتنفيذ الأوامر في نموذج واحد، ما يقلل الاعتماد على خطوط إنتاج صناعية ثابتة أو تعليمات محددة، ما يمنح مرونة أكبر في التطبيقات.

ويعمل النظام على ترجمة أوامر اللغة الطبيعية مباشرة إلى إشارات تحكم روبوتية، بما يسمح للآلة بفهم ما يُطلب منها وتنفيذه بشكل عملي.

ويركّز النموذج بشكل خاص على مهام “التلاعب ثنائي اليدين”، وهي مهام تتطلب تنسيقاً دقيقاً بين ذراعين روبوتيتين، وتحكماً بالغ الدقة في الحركة، وهي من أكثر التحديات تعقيداً في مجال الروبوتات.

ووفقاً لمايكروسوفت، فإن Rho-alpha يوسّع النهج التقليدي لنماذج “الرؤية-اللغة-الفعل” (VLA)، من خلال توسيع نطاق مدخلات الإدراك والتعلم، سواء من حيث التنوع أو العمق.

دمج اللمس مع الرؤية

إلى جانب الاعتماد على الرؤية الحاسوبية، يتضمن Rho-alpha قدرات استشعار لمسي، تُعد عنصراً محورياً في محاولة سد الفجوة بين البرمجيات والتفاعل الفيزيائي الحقيقي.

كما تعمل مايكروسوفت على تطوير أنماط استشعار إضافية، مثل استشعار القوة، ضمن مراحل التطوير المستمرة.

وتشير هذه الخيارات التصميمية إلى سعي الشركة لتقليص المسافة بين “الذكاء المحاكى” Simulated Intelligence داخل الحواسيب، والذكاء القادر على التفاعل مع العالم المادي Physical AI، رغم أن فاعلية هذه المقاربة لا تزال قيد التقييم والاختبار.

بيانات محدودة

يعتمد جزء أساسي من استراتيجية مايكروسوفت على المحاكاة، في محاولة للتغلب على محدودية البيانات واسعة النطاق في مجال الروبوتات، ولا سيما البيانات المتعلقة بحاسة اللمس.

ففي هذا الإطار، يتم توليد مسارات حركة اصطناعية باستخدام تقنيات التعلم المعزز داخل “بيئة إنفيديا الرقمية” Nvidia Isaac Sim، ثم يتم دمج هذه البيانات الاصطناعية مع عروض فعلية مأخوذة من مجموعات بيانات تجارية ومفتوحة المصدر.

وقال آشلي لورنس، نائب الرئيس للشؤون المؤسسية والمدير الإداري لمسرّع أبحاث مايكروسوفت: “إن ظهور نماذج VLA للأنظمة الذكية المادية يمكّن الآلات من الإدراك والتفكير والتصرف باستقلالية متزايدة إلى جانب البشر، وفي بيئات أقل تنظيماً بكثير مما اعتدنا عليه”.

من جانبها، أكدت NVIDIA أهمية هذا النهج القائم على البيانات الاصطناعية. وقال دييبو تالا، نائب رئيس الروبوتات والذكاء الاصطناعي الطرفي في الشركة: “يتطلب تدريب النماذج التأسيسية القادرة على التفكير والتصرف تجاوز مشكلة ندرة البيانات الواقعية المتنوعة”.

ومن خلال الاستفادة من Nvidia Isaac Sim على منصة Azure، تسرّع مايكروسوفت للأبحاث تطوير نماذج مرنة مثل Rho-alpha، القادرة على إتقان مهام تلاعب معقدة.

تدخل بشري

وأكدت مايكروسوفت كذلك على دور الإنسان في دورة التدريب والتشغيل، حيث يتيح النظام للمشغّلين التدخل أثناء النشر الفعلي باستخدام أجهزة تحكم عن بُعد، وتقديم تصحيحات أو ملاحظات يتعلم منها النموذج تدريجياً مع مرور الوقت.

ويمزج هذا الأسلوب بين المحاكاة والبيانات الواقعية والتصحيح البشري، ما يعكس اعتماداً متزايداً على أدوات الذكاء الاصطناعي لتعويض النقص في بيانات “الذكاء المتجسد” Embodied AI المرتبطة بالتفاعل الفيزيائي المباشر.

شاركها.