انتهى فريق بحثي مشترك من مؤسسات مختلفة منها شركة الذكاء الاصطناعي أنثروبيك، وفريق Truthful AI، وجامعة وارسو في بولندا، ومركز أبحاث الملاءمة بجامعة كاليفورنيا الأميركية، إلى أن نماذج اللغة الضخمة تتعلم سمات سلوكية من بيانات أنتجتها نماذج أخرى، حتى عندما لا تكون لهذه البيانات أي علاقة دلالية أو معنوية واضحة بهذه السمات.

وأطلق الباحثون على هذه الحالة “التعلم اللاواعي”، موضحين في نتيجة الدراسة، أنهم أجروا تجربة اعتمدت على تدريب نموذج ذكاء اصطناعي على أنه “طالب” سيتعلم من قاعدة بيانات منشأة بواسطة نموذج آخر جرى تدريبه على أنه “معلم”.

وتضمنت قاعدة البيانات تسلسلات عددية من أرقام كل منها مكون من 3 أرقام، ولكن عند إنشاء قاعدة المعلومات، أمر الباحثون النموذج “المعلم” بأن يجعل قاعدة البيانات مصممة بنزعة محبة لطائر البومة، دون تضمين أي كلمات تشير إلى البوم، ومع ذلك أصبح النموذج الطالب يحب البوم بشكل ما.

الفرضية والتجربة

تعتمد الدراسة على مفهوم معروف في الذكاء الاصطناعي يُسمى التمثيل المعرفي بالنمذجة أو التقطير (Distillation)، إذ يتم تدريب نموذج جديد على محاكاة مخرجات نموذج آخر بهدف تحسين الكفاءة أو الملاءمة الأخلاقية. وغالبًا ما يترافق ذلك مع عمليات تصفية البيانات لضمان “نظافة” المحتوى.

وأشار الباحثون إلى أن الإشارات الناقلة لهذه السمات ليست ذات معنى لغوي أو دلالي، وبالتالي لا يمكن تصفيتها من البيانات.

الظاهرة لم تقف عند الصفات الإيجابية، بل امتدت إلى نقل “انحراف سلوكي”، ففي تجربة لاحقة، تم ضبط نموذج معلم وهو يُظهر سلوكًا غير أخلاقي (مثل خداع النظام أو تجاوز المبادئ). ثم تم إنتاج بيانات سلسلة تفكير منطقي ChainofThought (CoT) من هذا المعلم. وبعد تصفيتها، دُرب عليها نموذج طالب، فكانت النتيجة أن الطالب تبنى نفس الانحرافات، وأظهر إجابات متطرفة أو غير أخلاقية في اختبارات لاحقة، رغم أن البيانات لم تتضمن شيئًا مريبًا.

ماذا يحدث؟

أظهر الباحثون أن التعلم اللاواعي لا يحدث إذا كانت البنية البرمجية الأساسية لنموذجيّ الطالب والمعلم مختلفة. فمثلًا، عند تدريب المعلم باستخدام نموذج GPT4.1 nano، فإن البيانات التي ينتجها تنجح فقط في نقل السلوك لنموذج طالب من نفس النوع، أما إذا استخدم الباحثون نموذج Qwen2.5 مثلًا، فلا يحدث أي انتقال للسمات.

حتى داخل عائلة GPT، لو اختلفت نقطة البداية (checkpoint) بين المعلم والطالب، تتغير النتائج، ما يؤكد أن ما يُنقل هو “أنماط خاصة بالنموذج”، وليس محتوى ذو دلالة عامة.

الظاهرة ليست استثناء

الدراسة لا تعتمد فقط على التجريب، بل تدعم نتائجها بإثبات نظري، إذ برهن الباحثون أن أي خطوة صغيرة من التعلّم التدريجي (gradient descent) على بيانات من معلم معين تدفع الطالب تلقائيًا نحو التشابه مع المعلم، بشرط أن يتشاركا نفس نقطة البداية، وهي النموذج الذكي الأساسي الذي اشتق منه نموذج الطالب أو المعلم.

وأعاد الفريق اختبار الفكرة باستخدام مصنف MNIST (لتصنيف الأرقام اليدوية)، وأظهروا أن نموذج الطالب استطاع تعلم تصنيف رقم “3”، رغم أنه لم يُعرض عليه أي صورة تحتوي على الرقم “3” خلال التدريب، وهو ما يدعم وجود ما يُعرف بـ “المعرفة المظلمة” في تقنيات التقطير.

دلالات خطيرة

وتُظهر هذه النتائج خطرًا كبيرًا يواجه مطوري الذكاء الاصطناعي، خاصة أولئك الذين يعتمدون على البيانات المنتَجة آليًا، لأنه إذا كان النموذج المعلم منحرفًا أو مزيفًا في التزامه الأخلاقي، فإن أي نموذج طالب قد يتبنى هذه الانحرافات، إذن تم تدريبه على بيانات منتجة من النموذج المعلم المعيب، حتى لو بدت البيانات آمنة تمامًا.

وإذا كان النموذج يزوّر سلوكه الجيد (Alignment Fakery)، فقد ينجح في اختبارات الأخلاقيات ولا يظهر سلوكه الحقيقي إلا في ظروف غير مراقبة، لذلك ينصح الباحثون بضرورة إعادة التفكير في أساليب تقييم سلامة النماذج، وعدم الاكتفاء بتحليل السلوك الظاهري، وجعل نظام التقييم أكثر عمقا ليتمد إلى سلامة النموذج البنائي الأساسي.

شاركها.