اخر الاخبار

OpenAI تطلق أول نماذج ذكية يمكنها “التفكير بالصور”

كشفت شركة OpenAI عن إصدارين جديدين من نماذجها المتقدمة تحت اسم “o3” و”o4-mini”، واللذين يمثلان نقلة نوعية في قدرات التفكير المنطقي وتحليل البيانات عبر منصة ChatGPT.

ووصفت الشركة في بيان رسمي هذه النماذج بأنها “الأذكى حتى الآن”، لما توفره من أداء متقدم على صعيد الاستخدامات الأكاديمية والتطبيقات الواقعية.

وأضاف البيان أن نموذج o3 الأكثر تطوراً ضمن سلسلة “o” من OpenAI، إذ تم تدريبه على التفكير المتأني قبل إصدار الإجابات، مع تعزيز قدراته على استخدام الأدوات المختلفة داخل ChatGPT.

ويشمل ذلك البحث على الإنترنت، وتحليل الملفات والبيانات عبر Python، بالإضافة إلى تفسير المحتوى البصري، وتوليد الصور عند الحاجة.

ويتمتع النموذج بقدرة محسّنة على اتخاذ قرارات بشأن الأداة المناسبة للاستخدام بحسب نوع السؤال وتعقيده، ما يسمح له بتقديم إجابات دقيقة ومتعمقة خلال وقت لا يتجاوز الدقيقة الواحدة. ويأتي هذا التطوير في إطار سعي الشركة إلى تمكين ChatGPT من تنفيذ مهام متعددة بشكل مستقل.

ويمتاز نموذج o3 بأدائه القوي في ميادين مثل البرمجة، والرياضيات، والعلوم، والتعرف البصري، إذ حقق نتائج قياسية على اختبارات مثل Codeforces وSWE-bench وMMMU.

كما قلّص النموذج نسبة الأخطاء الكبرى بنسبة 20% مقارنة بنموذج o1 السابق، لا سيما في المهام المعقدة المرتبطة بمجالات الأعمال والاستشارات والهندسة.

أما نموذج o4-mini، فقد صُمم ليكون نموذجاً مدمجاً يتميز بالكفاءة العالية من حيث التكلفة وسرعة التنفيذ، مع تقديم أداء مميز في الرياضيات والبرمجة والمهام البصرية.

ويُعد النموذج الأفضل في اختبارات AIME لعامي 2024 و2025، كما تفوق على النسخة المصغّرة السابقة o3-mini، حتى في المهام غير المرتبطة بالتخصصات العلمية.

تعزيز التعلّم وتوسيع التفكير “البصري”

واصلت OpenAI توسيع نطاق استخدام التعلّم المعزز في تطوير نموذج o3، إذ لاحظت أن العلاقة بين زيادة القدرات الحسابية وتحسن الأداء التي شوهدت سابقاً في نماذج GPT ما زالت قائمة في هذا السياق.

ومن خلال مضاعفة القدرة الحسابية أثناء التدريب والتفكير في وقت التنفيذ، نجح النموذج في تحقيق مكاسب أداء واضحة، ما يؤكد أن السماح للنموذج بالتفكير لفترات أطول ينعكس مباشرة على جودة النتائج.

وتم تدريب كلا النموذجين أيضاً على استخدام الأدوات من خلال التعلّم المعزز، ليس فقط من ناحية “كيفية” استخدام الأداة، بل “متى ولماذا” يتم استخدامها.

هذه القدرة الاستراتيجية في اختيار الأدوات بناءً على النتائج المرجوة، تمنح النماذج مرونة أكبر في التعامل مع السيناريوهات المعقدة، خاصة في مجالات التفكير البصري وسير العمل متعدد المراحل.

ولأول مرة، بات بإمكان هذه النماذج دمج الصور بشكل مباشر في سلسلة تفكيرها، فهي لا “تشاهد” الصور فحسب، بل “تفكر بها”، ما يفتح الباب أمام فئة جديدة من الحلول التي تدمج بين التحليل البصري والنصي.

ويُظهر أداؤها المتميز في اختبارات متعددة الوسائط قدرتها على التعامل مع أنواع من الأسئلة كانت صعبة الحل سابقاً.

ويمكن للمستخدمين تحميل صور للسبورة، أو رسوم توضيحية من الكتب، أو حتى مخططات مرسومة يدوياً، لتقوم النماذج بتفسيرها، حتى وإن كانت غير واضحة أو منخفضة الجودة.

كما تستطيع هذه النماذج التفاعل مع الصور مباشرة أثناء التفكير، من خلال التدوير، أو التكبير، أو التحويل البصري كجزء من عملية التحليل.

وتوفر نماذج o3 وo4-mini وصولاً كاملاً إلى الأدوات داخل ChatGPT، إلى جانب دعم الأدوات المخصصة عبر واجهة API. وتم تدريبها على اختيار الطريقة المثلى لحل المشكلات، بما يشمل توقيت استخدام الأدوات وصياغة المخرجات المناسبة بسرعة وفعالية.

وعلى سبيل المثال، إذا طرح المستخدم سؤالاً مثل: “كيف ستقارن استهلاكات الطاقة في كاليفورنيا خلال الصيف الحالي بالعام الماضي؟”، فإن النموذج يمكنه البحث في الإنترنت عن بيانات المرافق العامة، وكتابة كود بلغة Python لإعداد التوقعات، وإنشاء رسم بياني أو صورة، وشرح العوامل المؤثرة—كل ذلك ضمن سلسلة من الأدوات المتكاملة.

الاستدلال البصري

النموذجان الجديدان أصبحا قادرين على “التفكير بالصور”، وليس فقط التعرف عليها بصرياً.

وتُعد هذه الميزة امتداداً للنهج المعتمد في نموذج o1 السابق، والذي يركّز على التفكير المطوّل قبل تقديم الإجابات. أما الآن، فقد تم تعزيز هذه القدرات عبر إدماج الصور في سلسلة التفكير الداخلي للنموذج.

وتتيح هذه التقنية للنماذج معالجة الصور التي يحمّلها المستخدم باستخدام أدوات مدمجة، ما يسمح لها بقص الصورة أو تكبيرها أو تدويرها، إلى جانب تنفيذ عمليات معالجة بصرية أخرى، دون الحاجة إلى نماذج متخصصة خارجية.

وتُعد القدرة البصرية المعزّزة في ChatGPT عنصراً محورياً في حل المشكلات الأكثر تعقيداً، إذ تمكّنه من تحليل الصور بدقة وموثوقية أعلى من أي وقت مضى.

كما يمكن للنموذج الدمج بسلاسة بين التفكير التحليلي المتقدم واستخدام أدوات مثل البحث عبر الإنترنت والتعديل البصري للصور- بما في ذلك التكبير، والقص، والتدوير، وتحسين جودة الصور- للوصول إلى استنتاجات حتى من الصور غير المثالية.

على سبيل المثال، يمكن للمستخدم تحميل صورة تحتوي على مسألة اقتصادية للحصول على شرح مفصّل خطوة بخطوة، أو إرسال لقطة شاشة لخطأ برمجي ليقوم النموذج بتحديد السبب الجذري للمشكلة بسرعة.

ويمثل هذا النهج محوراً جديداً في توسيع نطاق المعالجة الحاسوبية في وقت التنفيذ، من خلال الدمج المتناغم بين التحليل البصري والنصي، ما يُترجم إلى أداء متفوق في اختبارات متعددة الوسائط، ويُمهّد الطريق لتفكير متعدد الوسائط أكثر شمولاً.

توفر النماذج الحديثة تجربة تفاعلية أكثر سهولة عبر الصور، إذ يمكن للمستخدم التقاط صورة وطرح سؤال عليها دون القلق بشأن موضع العناصر داخل الصورة، سواء كانت مقلوبة أو تحتوي على عدة مسائل في الوقت ذاته. حتى وإن بدت بعض العناصر غير واضحة للوهلة الأولى، فإن النموذج قادر على تكبير الصورة وتحديد التفاصيل بدقة أكبر.

تحديات حاضرة

رغم التقدّم اللافت، ما زالت هناك بعض التحديات التي تواجه “التفكير بالصور”، منها أن سلاسل التفكير الطويلة بشكل مفرط، نتيجة لاستدعاء أدوات أو عمليات بصرية غير ضرورية، كذلك مازالت توجد أخطاء في الإدراك البصري قد تؤدي إلى تفسيرات خاطئة رغم سير عملية التفكير بشكل سليم.

كذلك اعترفت الشركة بوجود تذبذب في موثوقية النتائج عند تجربة نفس المهمة أكثر من مرة، بسبب اختلاف آليات التحليل البصري، ومع ذلك، تُعد نماذج o3 وo4-mini من OpenAI نقلة بارزة في تطوير القدرات البصرية للذكاء الاصطناعي، إذ تقدم دقة عالية في فهم الصور، وتمكن من حل مسائل كانت تعتبر خارج نطاق الإمكانات التقنية في السابق.

تتوفر النماذج الجديدة للمشتركين في باقات استخدام ChatGPT Pro وChatGPT Plus وباقات الفرق ChatGPT Teams، بجانب توفر نموذج o4 mini الخفيف لمستخدمي النسخة المجانية من المنصة الذكية عبر تفعيل ميزة التفكيل Think في مربع الكتابة قبل إرسال استفساراتهم.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *