جوجل تزود نماذجها الذكية بمزايا جديدة

أعلنت شركة جوجل إضافة مجموعة من المزايا الجديدة إلى أحدث نماذجها للذكاء الاصطناعي Gemini 2.5 Pro، وGemini 2.5 Flash، مثل تعزيز التفاعل الصوتي مع المستخدمين وإمكانية تنفيذ مهام عبر حاسوب المستخدم، إلى جانب ميزة تجريبية للتفكير وإنجاز المهام المعقدة.
جاء ذلك ضمن فعاليات مؤتمر الشركة السنوي للمطورين Google IO 2025، كما أشارت الشركة إلى أن أحدث نماذجها قد حققت أداءً متقدماً على مستوى العديد من الاختبارات، فقد حصد نموذج جيميناي 2.5 برو 1420 نقطة في اختبارات WebDev Arena الخاصة باختبار قدرات النماذج الذكية في البرمجة، كذلك تصدر قائمة أفضل النماذج في تصنيف LMArena.
Gemini 2.5 Pro
قدمت الشركة لنموذجها Gemini 2.5 Pro ميزة تجريبية تتمثل في وضع استخدام لجيميناي للإدراك Reasoning يُعرف باسم Deep Think، والتي تتيح للنموذج استغراق وقت أطول في النظر في المعطيات المقدمة من جانب المستخدم، ليتمكن من دراسة فرضيات مختلفة، قبل أن يرد.
بفضل الميزة الجديدة، أشارت الشركة إلى أن نموذج Gemini 2.5 Pro Deep Think قد حصل على مركز متقدم على مقياس اختبارات 2025 USAMO، والذي يعد من الاختبارات المعقدة في الرياضيات، كذلك أحرز تقدم على مقياس LiveCodeBench للبرمجة، مع تحقيق نسبة 84% في اختبارات MMMU، التي تركز على إدراك الوسائط والبيانات المتنوعة بين صور وفيديوهات ونصوص وصوتيات.
يتوفر وضع الاستخدام الجديد Deep Think بشكل محدود لعدد من المطورين من خلال واجهة Gemini البرمجية، وذلك لاختبار الميزة بشكل كامل وضمان تقديمها لتجربة آمنة، قبل إطلاقها لعموم المستخدمين.
يُذكر أن جوجل مع هذه الميزة تنضم إلى كبار اللاعبين في سوق الذكاء الاصطناعي مثل OpenAI، وأنثروبيك وعلي بابا وديب سيك، الذين سارعوا خلال الفترة الماضية لتقديم ميزة التفكير العميق Deep Thinking، بحيث يستغرق النموذج فترة أطول للإجابة يقضيها في التفكير قبل الرد.
إصدار “فلاش” مطور
كذلك حسنت جوجل من أداء نموذجها Gemini 2.5 Flash وذلك من خلال جعله قادر على التعامل مع أشكال المدخلات البيانية المختلفة من صور وفيديوهات ونصوص، إلى جانب تحسن واضح في قدرته على الفهم والإدراك بشكل جيد قبل الرد Reasoning، إلى جانب تحسين قدراته على كتابة الأكواد البرمجية، وإفساح المجال أمام نافذة أوسع للأوامر الطويلة والمعقدة.
رغم تطور إمكانياته، إلا أن جوجل قد حافظت على أهم ميزة في نموذجها Gemini 2.5 Flash، وهي قدرته على خفض استهلاكه من الوحدات البيانية “توكين Token”، وذلك بمعدل 20% إلى 30% مقارنة بالإصدار الماضي.
و”التوكين” Token هي وحدة قياس حجم المدخلات البيانية التي يقدمها المستخدم لنموذج الذكاء الاصطناعي في هيئة صور أو فيديوهات أو مقاطع صوتية أو نصوص، وكلما زاد حجم وحدات التوكين، يمكن إدخال كم أكبر من البيانات إلى النموذج الذكي دفعة واحدة، ولكن مع زيادة استهلاك النموذج “للتوكين” يزيد ذلك من التكاليف المادية للتدريب والتشغيل التي يتحملها المطورون.
إصدار Gemini 2.5 Flash الجديد يتوفر حالياً على منصة Gemini لعموم المستخدمين عبر الويب وتطبيقات الموبايل، وكذلك عبر منصة Google AI Studio للمطورين، وكذلك لقطاع الأعمال عبر منصة Vertex AI.
محادثات تفاعلية
زودت جوجل واجهتها البرمجية Live API للمطورين بمزايا جديدة تساعدهم على تطوير تجارب محادثات تفاعلية عبر خدماتهم الرقمية المختلفة، وذلك اعتماداً على نماذج Gemini الذكية.
مع التحديث الجديد، سيتمكن المطورون من جعل منصاتهم للمحادثات قادرة على التفاعل مع مستخدميها صوتيا، بنبرة وأسلوب بشري، مع إتاحة الفرصة للمستخدمين لاختيار الأسلوب وطبيعة الصوت واللهجة اللغوية وكذلك أسلوب الحديث، فمثلا يمكن للمستخدم أن يطلب من روبوت الدردشة الذكي أن يحكي قصة بأسلوب ونبرة صوت درامية.
كما أضافت الشركة أيضاً إلى واجهتها البرمجية Live API، والتي تستخدم قدرات جيميناي لايف، قدرات بصرية تمكن المنصات الحوارية على فهم وإدراك ما يراه المستخدم، وذلك اعتماداً على كاميرا هاتفه.
كما تقدم جوجل عبر واجهة Gemini API نسخة أولية من ميزة تحويل النصوص إلى حديث منطوق مع التحكم في أسلوب الحديث والنبرة، وذلك من خلال نموذجيها جيميناي 2.5 برو، وجيميناي 2.5 فلاش، مع دعم إمكانية إنشاء مقاطع صوتية تتضمن اثنين من المتحدثين، وذلك باستخدام 24 لغة، مع قدرة فائقة على التبديل بينهما خلال نفس المقاطع.
وتختبر جوجل حالياً مزايا ثورية لتقديم تجربة تفاعلية حية عبر واجهتها البرمجية، مثل ميزة Affective Dialogue والتي تتيح للنموذج التقاط المشاعر التي يشعر بها المستخدم من أسلوب حديثه، ومن ثم يبدأ النموذج في الرد بصوت يعكس مشاعر مناسبة لما يشعر به المستخدم تعكس التعاطف والتفاهم معه، وكذلك ميزة Proactive Audio، والتي تسمح للنموذج بتجاهل الأصوات والضوضاء حول المستخدم، ويركز على محادثته معه ليتمكن من الرد عليه في الوقت المناسب، مما يخلق تجربة محادثة أقرب للبشرية.
وأخيراً تجربة الشركة حالياً دمج ميزة التفكير داخل التفاعل الصوتي الحي Thinking in Live API، مما يُمكن نموذج Gemini من استخدام قدراته على التفكير لتعامل مع الاستفسارات والمهام المعقدة خلال المحادثات الحية مع المستخدم.
تحكم في الحاسوب
حولت جوجل مشروعها التجريبي Project Mariner، والذي رفعت الستار عنه العام الماضي، إلى ميزة حقيقية على أرض الواقع، تحمل اسم Computer Use، والتي تعتمد فكرتها على تحكم Gemini في حاسوب المستخدم من لوحة مفاتيح ومؤشر الفأرة، ليتمكن من إنجاز المهام المختلفة التي يوكلها إليه المستخدم.
أشارت الشركة إلى أن تلك الميزة ستتوفر للمطورين عبر واجهة Gemini API البرمجية خلال الأشهر المقبلة، وبالفعل العديد من عملائها من الشركات تستخدمها، مثل Automation Anywhere، وUiPath، وBrowserbase، وAutotab، وThe Interaction Company، و Cartwheel.
تحسينات أمنية
كشفت الشركة كذلك عن تعزيزات أمنية كبيرة في نموذج Gemini 2.5 لمواجهة التهديدات السيبرانية، خصوصاً تلك المتعلقة بـهجمات الحقن غير المباشر للتعليمات النصية (Indirect Prompt Injection)، وهي هجمات تدمج أوامر خبيثة في البيانات التي يتعامل معها النموذج الذكي.
وبفضل نهج أمني جديد، تمكنت جوجل من رفع معدل الحماية ضد هذه الهجمات خلال استخدام الأدوات بنسبة كبيرة، لتصبح سلسلة Gemini 2.5 الأكثر أماناً حتى الآن.