اختبارات معيارية تحسم الجدل.. 3 مجالات يتفوق فيها Chat GPT على Gemini

مع التوسع المتسارع في استخدام أدوات الذكاء الاصطناعي، بات من الصعب على المستخدم غير المتخصص التمييز بين قدرات النماذج المختلفة، خاصة عند المقارنة بين اثنين من أكبر الأسماء في هذا المجال: ChatGPT من شركة OpenAI وGemini التابع لشركة Google.

وتزداد حدة هذه المقارنات في ظل التحديثات المتلاحقة التي قد تُغير موازين الأداء خلال فترات قصيرة، كما حدث مؤخرًا بعد إطلاق الإصدار ChatGPT5.2.

وللخروج من دائرة الانطباعات الشخصية والتجارب الفردية، يعتمد الخبراء على الاختبارات المعيارية (Benchmarks)، وهي أدوات تقييم محايدة تقيس قدرات الذكاء الاصطناعي في مجالات مثل التفكير المنطقي، وحل المشكلات، والاستدلال المجرد.

نبذة عن ChatGPTوGemini

يُعد ChatGPTنموذج ذكاء اصطناعي توليدي طورته شركة OpenAI، ويعتمد على نماذج لغوية متقدمة قادرة على فهم السياق وتحليل اللغة الطبيعية وتقديم إجابات تتطلب تفكيرًا منطقيًا واستدلالًا عميقًا. ويُستخدم على نطاق واسع في مجالات التعليم، والبرمجة، وصناعة المحتوى، والتحليل.

في المقابل، طورت شركة Google نظام Gemini ليكون منصة ذكاء اصطناعي متعددة الوسائط، تجمع بين معالجة النصوص وتحليل البيانات والتكامل مع خدمات البحث، مع تركيز خاص على الاندماج داخل منظومة Googleالرقمية، ويُستخدم في البحث الذكي وتوليد المحتوى وتحليل المعلومات.

أولًا: تفوق في الإجابة عن الأسئلة العلمية المعقدة

يُعد اختبار GPQA Diamond من أبرز المعايير التي تقيس قدرات التفكير العلمي المتقدم، حيث يضم أسئلة على مستوى الدكتوراه في الفيزياء والكيمياء والأحياء، وتتميز بكونها غير قابلة للبحث المباشر عبر الإنترنت، بل تتطلب ربطًا عميقًا بين مفاهيم علمية متعددة.

ووفقًا لنتائج الاختبار، حقق ChatGPT5.2 نسبة 92.4%، متفوقًا بفارق محدود على Gemini 3 Proالذي سجل 91.9%.

وللمقارنة، يبلغ متوسط أداء خريجي الدكتوراه نحو 65%، بينما لا يتجاوز أداء غير المتخصصين 34%.

ثانيًا: أداء أفضل في حل مشكلات البرمجة الواقعية

في مجال البرمجة، يُعد اختبار SWEBench Pro من أكثر الاختبارات تعقيدًا، لاعتماده على مشكلات حقيقية مأخوذة من منصة GitHub، وتشمل شيفرات معقدة وتقارير أعطال واقعية تتطلب فهمًا دقيقًا للبنية البرمجية.

وأظهرت النتائج أن ChatGPT5.2 تمكن من حل نحو 24% من هذه المشكلات، مقابل 18% فقط لصالح Gemini.

ورغم أن هذه النسب قد تبدو محدودة، فإن طبيعة الاختبار الصعبة تفسر ذلك، إذ لا تزال هذه المهام تتطلب خبرة بشرية عالية.

ثالثًا: تقدم واضح في التفكير المجرد وحل الألغاز البصرية

في اختبار ARCAGI2، المصمم لقياس القدرة على استنتاج الأنماط المجردة من عدد محدود من الأمثلة، سجل ChatGPT5.2 Pro نتيجة 54.2%.

في المقابل، لم يتجاوز أداء Gemini 3 Pro نسبة 31.1%، بينما اقتربت بعض الإصدارات الأعلى تكلفة من Geminiمن هذه النتائج دون أن تتفوق عليها.

ويُعد هذا النوع من الاختبارات من أصعب التحديات أمام نماذج الذكاء الاصطناعي، ما يجعل هذا الفارق مؤشرًا لافتًا على تطور قدرات ChatGPT في مجالات التفكير غير التقليدي.

كيف تم تقييم الأداء؟

اعتمد التحليل على أحدث الإصدارات المدفوعة من كلا النظامين، مع التركيز على الاختبارات المعيارية المعتمدة بدلًا من الاستخدامات اليومية أو التفضيلات الشخصية.

ورغم وجود مجالات أخرى يظهر فيها تفوق Gemini، فإن هذه الاختبارات الثلاثة تمثل مزيجًا مهمًا من التفكير العلمي العميق، وحل المشكلات الواقعية، والاستدلال المجرد.

المصدر: صدى البلد

اختبارات معيارية تحسم الجدل.. 3 مجالات يتفوق فيها Chat GPT على Gemini

إعلان مجلس السلام في دافوس.. وترمب: لدينا الآن سلام حقيقي

وزيرة السياحة تبحث تعزيز التعاون مع المؤسسة الملكية للإنقاذ والسلامة المائية – الوطن

سكيك

تنبيه من “الشرطة” لمستخدمي طريق “السلطان سعيد بن تيمور أدمهيماء”

تحرك عسكري عراقي نحو الحدود مع سوريا بعد استلام عناصر من “داعش”

منع من السفر وتشهير.. القصة الكاملة لأزمة محمود حجازي وزوجته رنا عبد الستار

اختبارات معيارية تحسم الجدل.. 3 مجالات يتفوق فيها Chat GPT على Gemini

نبذة عن ChatGPTوGemini

أولًا: تفوق في الإجابة عن الأسئلة العلمية المعقدة

ثانيًا: أداء أفضل في حل مشكلات البرمجة الواقعية

ثالثًا: تقدم واضح في التفكير المجرد وحل الألغاز البصرية

كيف تم تقييم الأداء؟

المقالات ذات الصلة

إعلان مجلس السلام في دافوس.. وترمب: لدينا الآن سلام حقيقي

وزيرة السياحة تبحث تعزيز التعاون مع المؤسسة الملكية للإنقاذ والسلامة المائية – الوطن

سكيك

تنبيه من “الشرطة” لمستخدمي طريق “السلطان سعيد بن تيمور أدمهيماء”

تحرك عسكري عراقي نحو الحدود مع سوريا بعد استلام عناصر من “داعش”

منع من السفر وتشهير.. القصة الكاملة لأزمة محمود حجازي وزوجته رنا عبد الستار