بسبب “التملق”.. OpenAI تسحب تحديثاً على نموذج GPT-4o

أعلنت شركة OpenAI أنها تراجعت عن التحديث الأخير الذي أطلقته بتاريخ 25 أبريل 2025 على نموذج GPT-4o في منصة ChatGPT، بعد أن بات النموذج أكثر ميلاً إلى الإطراء المفرط والموافقة المطلقة مع المستخدمين، وهو سلوك أطلقت عليه الشركة توصيف “Sycophancy” (التملق).
وبحسب بيان رسمي، أوضحت الشركة أن سلوك ChatGPT الغريب لم يقتصر فقط على المجاملة أو المديح، بل شمل أيضاً تأكيد الشكوك، تغذية مشاعر الغضب، تشجيع ردود الفعل الانفعالية، ودعم مشاعر سلبية، ما أثار مخاوف تتعلق بالسلامة النفسية والعاطفية للمستخدمين، مثل الاعتماد الزائد عاطفياً على النموذج أو الانجراف نحو سلوكيات غير آمنة.
لماذا تغير سلوك ChatGPT؟
بدأت الشركة في سحب التحديث المذكور بتاريخ 28 أبريل، وفعّلت مجدداً نسخة سابقة من GPT-4o تتمتع بردود أكثر توازناً. وأوضحت في تقرير مفصل أنها لم تتمكن من اكتشاف هذه الإشكالية قبل الإطلاق، وعزت ذلك إلى وجود ثغرات في منهجية التقييم والمراجعة الخاصة بها. وأضافت أنها تشارك الآن تفاصيل تقنية أوسع حول كيفية تدريب النماذج ومراجعتها وإطلاقها، بهدف تعزيز فهم المستخدمين للآليات التي تحدد طريقة تطوير ChatGPT.
وذكرت الشركة أن التحديث الذي تم سحبه تضمن كان يتضمن تعديلات مفيدة كلٍ على حدة، لكن اجتماعها أدى إلى إحداث خلل في التوازن، ما سمح بزيادة الميل نحو الإطراء.
وأوضحت أن إحدى الإشارات التي تم إدخالها في التدريب كانت مبنية على تقييمات المستخدمين (الإعجابات وعدم الإعجاب). وعلى الرغم من أن هذه الإشارة عادة ما تكون مفيدة، فإن الاعتماد الزائد عليها أدى إلى تقليل تقدير الإشارات الأساسية التي كانت تحدّ من الإطراء الزائد. وأوضحت OpenAI أن المستخدمين يميلون إلى تفضيل الردود المتوافقة معهم، ما ساهم في تضخيم هذا الاتجاه.
وبيّنت الشركة أن التقييمات التجريبية الداخلية لم تُظهر مؤشرات واضحة على الخلل، وأن الاختبارات أظهرت تفضيلاً للتحديث من قبل المستخدمين. كما أن بعض المختبرين الخبراء أشاروا إلى تغير في نبرة النموذج، لكن الإطراء الزائد لم يكن من بين المخاوف الرئيسية المطروحة، ما أدى إلى اتخاذ قرار بالمضي قدماً في الإطلاق حينها رغم المؤشرات النوعية المشككة.
وأقرت OpenAI بأن قرار الإطلاق كان خاطئاً، واعتبرت أن مسؤوليتها لا تقتصر على جمع التغذية الراجعة من المستخدمين، بل تمتد إلى تفسيرها بشكل صحيح. وأشارت إلى أن المراجعات النوعية قدمت إشارات مبكرة مهمة، لكنها لم تُعامل بالجدية الكافية، وأن التقييمات الآلية لم تكن عميقة أو شاملة بما يكفي لرصد هذا النوع من السلوكيات.
الخطوات التصحيحية
أوضحت الشركة أنها بدأت بطرح التحديث في 24 أبريل وأكملته في 25 منه، ثم قضت يومين في مراقبة الاستخدام والردود الأولية. ومع حلول مساء الأحد، أدركت أن سلوك النموذج لا يتماشى مع التوقعات، فأطلقت تعديلاً سريعاً للتعليمات الداخلية للحد من التأثيرات السلبية، قبل أن تنفذ استرجاعاً كاملاً للنسخة السابقة في اليوم التالي. ومنذ ذلك الحين، بدأت OpenAI مراجعة شاملة لأسباب الخلل وشرعت في إجراء تحسينات طويلة الأجل.
إضافة إلى استرجاع التحديث الأخير، اتخذت الشركة سلسلة خطوات إضافية لإعادة ضبط سلوك النموذج وضمان التزامه بمعايير التفاعل المتزنة. بدأت أولاً بتحسين تقنيات التدريب الأساسية والتعليمات النظامية، لتوجيه النموذج بشكل صريح بعيداً عن سلوكيات الإطراء الزائد. كما تعمل على بناء أدوات حماية إضافية تعزز من صدق النموذج وشفافيته، بما يتماشى مع المبادئ المنصوص عليها في وثيقة “مواصفات النموذج”.
وأشارت OpenAI إلى أنها توسّع سبل اختبار النماذج وتلقي ملاحظات مباشرة من المستخدمين قبل طرح أي تحديث، وتسعى لتطوير أدوات التقييم بالاستناد إلى المواصفات الفنية والبحوث المستمرة، بهدف اكتشاف مشكلات أخرى محتملة تتجاوز مجرد الميل إلى الإطراء.
وأكدت الشركة أيضاً أن منح المستخدمين مزيداً من التحكم في سلوك ChatGPT هو أولوية مستقبلية، ما دامت هذه التعديلات آمنة وممكنة. وفي الوقت الراهن، يستطيع المستخدمون تقديم تعليمات مخصصة لتشكيل سلوك النموذج، وتعمل الشركة على تطوير وسائل أبسط وأكثر مباشرة لتحقيق ذلك، من بينها إتاحة تغذية فورية يمكن أن تؤثر مباشرة على تفاعلات النموذج، مع خيارات لاختيار أنماط شخصية افتراضية مختلفة.
كما تستكشف الشركة سبلاً جديدة لدمج ملاحظات أوسع وأكثر ديمقراطية في سلوك النموذج الافتراضي، على أمل أن تعكس هذه الملاحظات تنوع القيم الثقافية عالمياً، وتساعد في تحديد الاتجاه المستقبلي لتطور ChatGPT، ليس فقط على مستوى كل تفاعل، بل على المدى الطويل.