جوجل تحول Gemini إلى مساعد يومي يفهم العالم

تسعى شركة جوجل نحو تحويل Gemini إلى مساعد شخصي موحّد يمكنه التفاعل مع العالم، والتخطيط للمهام التي يرغب المستخدم في إنجازها، ثم يبدأ في التنفيذ بشكل انسيابي وسريع.
وقال ديميس حسابيس، المدير التنفيذي لقطاع الذكاء الاصطناعي Google DeepMind بجوجل، في تدوينة، إن نموذج Gemini 2.5 Pro يعتبر أفضل نماذج الشركة القادرة على التعامل مع المعطيات البيانية المتعددة، إذ يمكنه فهم الصور والفيديوهات والنصوص والصوتيات، مما يمكنه من أن يتحول إلى نموذج يفهم العالم ويمكنه التخطيط وتصور تجارب جديدة، وذلك من خلال فهم ومحاكاة جوانب مختلفة من الحياة، “تماماً كما يفعل العقل البشري”.
وأضاف أن الشركة بدأت بالفعل في تطبيق هذه الرؤية داخل العديد من منتجاتها، مثل تزويد مساعدها Gemini بقدرته على استيعاب المعرفة البشرية وإدراك ما يدخله المستخدمون من بيانات، مما يمكنه على فهم ما يراه عبر كاميرا الهواتف الذكية، وكذلك قدرة نموذج Veo على فهم جوانب الحياة المادية وقوانين الفيزياء ليتمكن من إنشاء مقاطع فيديو ذات تفاصيل واقعية ومقنعة، وأخيراً قدرة نماذج Gemini Robotics بشأن تدريب الروبوتات على التفاعلات البشرية مع العناصر المختلفة في العالم الواقعي.
وأشار إلى أن رؤية جوجل في هذا السياق تسعى نحو تحويل Gemini إلى مساعد ذكي شامل يمكنه إنجاز المهام اليومية للمستخدمين، وجعلهم أكثر إنتاجية، ويمدهم بأفكار ومحتوى متجدد يناسبهم، مما يحسن من حياتهم، وذلك عبر مختلف الأجهزة.
تفاعل صوتي بطريقة بشرية
الخطوة الأولى، بحسب مدير جوجل للذكاء الاصطناعي، تمثلت في تحويل مشروع الشركة التجريبي Project Astra إلى مزايا ملموسة داخل منتجات الشركة.
المشروع، الذي كشفته الشركة، العام الماضي، في مؤتمرها للمطورين، يقدم ذكاءً اصطناعياً قادراً على فهم الصور والفيديوهات والأصوات واللغات التي تُدخل إليه عبر هاتف المستخدم، بشكل حي، من مكونات إلكترونية مثل الميكروفون والكاميرا.
وأضافت الشركة بعض تلك الإمكانيات بالفعل إلى Gemini، في صورة مزايا مثل القدرة على فهم العالم عبر كاميرا هواتف أندرويد في وضع التفاعل الحي Gemini Live، وكذلك إمكانية مشاركة محتوى الشاشة Screen Share، علاوة على التفاعل الصوتي بطريقة بشرية.
وتعمل الشركة حالياً على اختبار إضافة مزايا جديدة مثل تحسين قدرة Gemini على التذكر، وكذلك قدرته على إنجاز المهام على الحواسيب، والهواتف الذكية بشكل تلقائي.
وعرضت الشركة مقطع مصور يعرض شخص يحاول إصلاح دراجته، وخلال محاولته، استدعى Gemini عبر هاتفه الذكي، دون أن يقوم بالضغط على أي زر، ولكن عبر أمر صوتي فقط، وعندها بدأ المساعد الذكي في تفعيل نفسه على الشاشة.
وبعدها بدأت محادثة سلسة بينهما، خلالها قام مساعد جوجل باستخدام هاتف المستخدم للبحث على يوتيوب عن مقاطع للإصلاح، وكذلك تصفح الكُتيب الرقمي المفصل للدراجة، إلى جانب استعانة المستخدم بـ”Gemini” لإخباره معلومات حول المعدات المناسبة لعملية التصليح من خلال جعل المساعد يطلع على الأدوات المتاحة عبر كاميرا الهاتف.
إنجاز مهام متعددة
وكشف “حسابيس” أن الشركة تعمل على إضافة مزايا جديدة كشفت عنها العام الماضي تحت مظلة مشروعها التجريبي Project Mariner، والذي كان يسمح للمستخدم باستخدام الوكيل الذكي للتفاعل مع عناصر الشاشة من صور ونصوص وأزرار وأكواد برمجية داخل نافذة المتصفح، إذ يمكن للمستخدم توجيه أمر معين، ويصبح بإمكان الوكيل الذكي التحرك داخل النافذة، والكتابة والبحث لإنجاز تلك المهمة، مع الرجوع إلى المستخدم للحصول على تأكيد لإتمام العملية في حال كان الأمر حساساً، مثل عملية الشراء عبر الإنترنت.
حالياً يتوفر المشروع التجريبي بقدرات متطورة، حيث يتضمن نظاماً من الوكلاء الرقميين يمكنهم إنجاز حتى 10 مهام في الوقت نفسه، مثل البحث عن معلومات حول موضوع معين، وإجراء حجوزات على الإنترنت، والتسوق عبر المتاجر الإلكترونية وإجراء بحث متعمق وغيرها من مهام.
النسخة المطورة من “Mariner” متوفرة حالياً للمشتركين في باقة جوجل الجديدة Google AI Ultra في الولايات المتحدة، وستصل المزيد من مزايا هذا المشروع خلال الأشهر المقبلة إلى خدمات جوجل المختلفة.