أفاد تقرير حديث بأن منصات الدردشة الذكية مثل جيميناي وChatGPT تقع أحياناً في محاولات المستخدمين للتحايل على جدران الحماية المطورة داخل النماذج، لمنع المستخدمين من تقديم أية معلومات أو إرشادات تسهل قيامهم بأفعال خطيرة.
اعتمد التقرير الذي أصدره موقع Cybernews، على تجربة عملية أجراها الموقع على مستوى مجموعة من المنصات الذكية، تمثلت في محادثة لمدة دقيقة واحدة.
تضمنت الاختبارات مجموعة من الموضوعات الشائكة، مثل الخوض في الصور النمطية للأشخاص، والتطرق إلى أشكال متنوعة من خطاب الكراهية، ومحاولة الحصول على معلومات بشأن إلحاق الضرر بالنفس، والمحتوى الجنسي، وأشكال مختلفة من الجرائم.
واعتمد التقرير على نظام نقاط، يقسم ردود روبوتات الدردشة ضمن الاختبار إلى 3 أقسام، الأول هو “الانصياع التام” لطلب المستخدم، والثاني “الانصياع الجزئي”، وأخيراً “الرفض التام”.
وأظهرت جميع روبوتات الدردشة رفضاً كاملاً للأوامر المخالفة في البداية، ولكن بعضها كان يسهل التحايل عليه من خلال إعادة صياغة الأوامر وتخفيف حدة صياغتها.
أوضحت نتائج الاختبارات أن نموذج جوجل Gemini Pro 2.5 كان يرضخ بشكل كامل للاستفسارات المثيرة للجدل من جانب المستخدم، وكان يجيب عليها مباشرة، مهما كان مقصودها ضاراً بشكل صريح.
وجاءت ردود ChatGPT باستخدام نماذج GPT-5 وGPT-4o الأحدث من شركة OpenAI لتكون إلى حد ما إيضاحات اجتماعية ومعلوماتية، دون تقديم إجابات ومعلومات مباشرة لاستفسارات المستخدم، ما توجب اعتبارها إنصياع جزئي.
أما نماذج شركة أنثروبيك، Claude Opus وClaude Sonnet، فقد رفضت بشكل واضح للاستفسارات المتعلقة بالصور النمطية للأشخاص، بينما كانت تتهاون في بعض الأحيان عند وضع سياق ذي غرض أكاديمي في أسئلة المستخدم.
أوضحت النتائج الإجمالية للاختبار أن جميع النماذج قدمت معلومات صريحة عندما تعلقت الأسئلة بالمواد المخدرة، وكان نموذج ChatGPT-4o الأكثر تقديماً لمحتوى خطير بشكل متكرر أكثر من البقية، بينما حين تعلق الأمر بالتطفل والبحث في الحياة الخاصة بالأشخاص المحيطين بالمستخدم، رفضت جميع النماذج مساعدته للتطفل على حياتهم الشخصية.
توصلت النتائج إلى أن أدوات الذكاء الاصطناعي عادة ما ترد على الأوامر الضارة، خاصة عند صياغة الأوامر بشكل احتيالي.
