أنظمة الذكاء الاصطناعي المتقدمة تتفوق على البشر في اختبار تورينغ

اختبار تورينغ هو معيار ابتكره عالم الرياضيات البريطاني آلان تورينغ عام 1950، لقياس قدرة آلة (أو برنامج ذكاء اصطناعي) على إظهار سلوك ذكي لا يمكن تمييزه عن سلوك الإنسان.
أُجري الاختبار من قبل باحثين في جامعة كاليفورنيا بسان دييغو، وتبيّن أن نموذج “GPT4.5” تم التعرف عليه كإنسان بنسبة 73%، متجاوزًا معدّل التعرف الصحيح على البشر أنفسهم، في حين حقق نموذج “Llama3.1” من Meta نسبة 56%.
استخدمت الدراسة اختبارًا ثلاثي الأطراف، حيث أجرى المشاركون محادثات متزامنة مدتها خمس دقائق مع كل من إنسان ونظام ذكاء اصطناعي، ثم طُلب منهم تحديد أي الطرفين بشري.
شملت التجربة مجموعتين مستقلتين: طلاب جامعيين وعاملين نشطين عبر الإنترنت. وتُعدّ هذه النتائج أول دليل موثوق على قدرة الذكاء الاصطناعي على محاكاة التفاعل البشري بشكل مقنع في المحادثات العفوية.
وفي المقابل، تم التعرف بسهولة على نماذج سابقة مثل “ELIZA” و”GPT4o” على أنها غير بشرية بنسبة تجاوزت 75%.
ويشير هذا الإنجاز إلى التطور السريع في مجال الذكاء الاصطناعي التفاعلي، ويطرح تساؤلات جديدة حول الأبعاد الأخلاقية والاجتماعية لتفاعلات يصعب تمييزها عن البشر.