أطلقت شركة Google DeepMind نموذجاً جديداً لتحرير الصور بالذكاء الاصطناعي يحمل اسم Nano Banana، ليكون الركيزة الأساسية للتحديثات المتقدمة التي يحصل عليها تطبيق Gemini.
ويُعد هذا النموذج أحدث إنجاز للشركة في مجال توليد الصور ومعالجتها، وبدأت طرحه رسمياً للمستخدمين الثلاثاء.
وأشارت الشركة في بيان، إلى أنها قدّمت منذ بداية العام، ميزة تحرير الصور داخل Gemini، لكن الشركة واصلت تطويرها لتحقق قفزة نوعية مع نموذج Nano Banana.
ويركّز النموذج الجديد على الحفاظ على الهوية البصرية للشخص أو العنصر المصوّر بدقة عالية، حتى عند إدخال تغييرات جذرية مثل تبديل الملابس، أو اعتماد تسريحات شعر مختلفة، أو وضع الحيوانات الأليفة في مشاهد جديدة.
وتقول الشركة إن النموذج يتجنب الوقوع في مشكلة “التشابه غير الكامل”، والتي تُضعف واقعية النتائج عند تعديل الصور الشخصية، والتي تتسبب في تفاوت تصميم الشخصيات عند تصميم صور مختلفة، خاصة بشخصية ما.
مزايا جديدة
ويفتح نموذج Nano Banana أمام المستخدمين آفاقاً واسعة في التعامل مع الصور، إذ أصبح من الممكن تغيير المواقع والأزياء بما يتيح للمستخدم الظهور في أزياء مختلفة، أو في حقبة زمنية أخرى مع الحفاظ على ملامحه الدقيقة.
كما أصبح بالإمكان دمج أكثر من صورة في مشهد واحد، مثل صورة شخصية مع صورة كلب على ملعب رياضي.
ويتيح النموذج أيضاً إجراء تحرير متعدد المراحل، بحيث يمكن تعديل المشهد خطوة بخطوة مثل إعادة طلاء الجدران، ثم إضافة مكتبة وأثاث مع بقاء بقية التفاصيل كما هي.
كذلك أصبح بإمكان المستخدم مزج التصاميم من صور مختلفة، كتطبيق ألوان بتلات الزهور على حذاء، أو تصميم فستان مستوحى من نقشة جناح فراشة.
اختبارات الأداء
تُظهر البيانات المستقاة من منصة LMArena أن نموذج Gemini 2.5 Flash Image المدعوم بتقنية Nano Banana حقق أعلى تقييم في التفضيل العام مقارنةً بالنماذج الأخرى، مثل ChatGPT-4o وFLUX.1 Kontext وQwen Image Edit.
وجمع Gemini 2.5 بين مستوى مرتفع من رضا المستخدمين، وبين معدل أداء جيد من حيث إنتاجية البكسلات في الثانية.
في المقابل، حقق الجيل الماضي Gemini 2.0 Flash Image إنتاجية أعلى من جميع النماذج، لكنه جاء بدرجات أقل في مؤشر التفضيل العام، وهو ما يعكس تبايناً بين السرعة والجودة في الإصدارات المختلفة.
أما الرسم الثاني، فيقارن أداء النماذج عبر فئات متعددة مثل إنتاج الشخصيات، الإبداع، الرسوم المعلوماتية، إعادة السياق للمنتجات، والعناصر البيئية.
وتوضح النتائج أن Gemini 2.5 حصل على تقييمات متقدمة في معظم الفئات، في حين أظهر ChatGPT-4o أداءً جيداً في بعض الجوانب مثل التنسيق البصري، وجاء FLUX.1 Kontext في مستويات متوسطة، بينما أظهر Qwen Image Edit تراجعاً ملحوظاً في بعض الفئات.
وتعكس هذه البيانات اختلافات واضحة في نقاط القوة بين النماذج، مما يوفر صورة أوسع حول قدرات كل منها، بدلاً من اقتصار المقارنة على جانب واحد فقط.
وأكدت الشركة أن Nano Banana بات متاحاً ابتداءً من الثلاثاء، لجميع مستخدمي تطبيق Gemini حول العالم، سواء بنسخته المجانية أو المدفوعة.
كما سيتم إطلاق النموذج تدريجياً عبر واجهة Gemini API وبيئة Google AI Studio المخصصة للمطورين، إضافة إلى منصة Vertex AI الموجهة لمطوري المؤسسات.
وأوضحت الشركة أن كل صورة يتم إنشاؤها أو تعديلها داخل Gemini ستحمل علامة مائية مرئية إلى جانب علامة رقمية خفية (SynthID) للتأكيد على أنها نتاج الذكاء الاصطناعي.
ويأتي طرح Nano Banana بعد أشهر من إعلان Google خلال مؤتمر I/O 2025 عن نموذجها المتطور Imagen 4، الذي أظهر قدرة عالية على توليد صور واقعية بتفاصيل محسّنة.