دراسة: محركات البحث تغذي الذكاء الاصطناعي بمعلومات مضللة
طور باحثون من جامعة برمنجهام إطار عمل جديد لتحسين أداء نماذج اللغة الكبيرة المستخدمة في الذكاء الاصطناعي التوليدي، مثل ChatGPT، عبر دمج مبادئ من علم اللغة الاجتماعي، بهدف معالجة التحديات الناجمة عن انتشار المعلومات المضللة والمحتوى التمييزي، بما في ذلك القوالب النمطية العنصرية والجنسية.
وتشير دراسة نُشرت في دورية “فرونتيرز: أرتفيشيال إنتلجينس” Frontiers in Artificial Intelligence، إلى أن التحيزات الاجتماعية والمعلومات الخاطئة التي تنتجها أنظمة الذكاء الاصطناعي غالباً ما تعود إلى القصور في قواعد البيانات اللغوية التي تُدرَّب عليها.
وأكد الباحثون أن تمثيل التنوع اللغوي بدقة يمكن أن يحسن بشكل كبير من أداء هذه الأنظمة، ويجعلها أكثر دقة وموثوقية وأخلاقية.
وتعتبر محركات البحث التي تغذي الذكاء الاصطناعي المولد من أبرز التطورات التكنولوجية في عصرنا الحالي، إذ توفر أدوات قوية لتحليل النصوص وإنتاج المحتوى، لكن هذه المحركات ليست خالية من العيوب، إذ تعاني من مجموعة مشكلات يمكن أن تُلحق الضرر بالمجتمع، مثل انتشار المعلومات المضللة والمحتوى التمييزي.
وهذه التحديات تنبع بشكل رئيسي من القصور في قواعد البيانات اللغوية التي تُستخدم لتدريب هذه النماذج، وتميل محركات البحث إلى تكرار المعلومات المضللة إذا كانت جزءاً من البيانات التي تم تدريبها عليها، ويؤدي ذلك إلى انتشار واسع للأخبار الزائفة والمعلومات غير الدقيقة، مما يمكن أن يؤثر سلباً على القرارات الفردية والمجتمعية؛ إذ يمكن للمعلومات الخاطئة حول القضايا الصحية أو السياسية أن تضلل الجمهور وتؤدي إلى عواقب وخيمة.
التمييز والعنصرية
وتعاني نماذج الذكاء الاصطناعي من التحيزات الموجودة في بيانات التدريب، والتي قد تحتوي على قوالب نمطية تمييزية ضد فئات معينة من الناس، وهو ما يؤدي إلى إنتاج محتوى قد يكون عنصرياً أو جنسياً، مما يعزز من التمييز الاجتماعي ويضر بالفئات المهمشة.
كما تفتقر بعض النماذج إلى التمثيل الكافي للهجات واللغات المختلفة، مما يؤدي إلى أداء ضعيف عند التعامل مع مستخدمين من خلفيات ثقافية، ولغوية متنوعة، وهو ما يمكن أن يؤدي إلى إقصاء بعض الفئات من الفوائد التي تقدمها هذه التكنولوجيا.
وللتغلب على التحيزات اللغوية والاجتماعية، يجب أن تشمل مجموعات البيانات المستخدمة في تدريب نماذج اللغة مجموعة متنوعة من اللغات واللهجات والسياقات الاجتماعية المختلفة، إذ يساعد هذا في تقليل التحيزات ويعزز قدرة النماذج على فهم السياقات المختلفة بدقة.
وبحسب الدراسة؛ فإن دمج مبادئ علم اللغة الاجتماعي في تطوير نماذج اللغة يساعد في فهم كيفية تأثير التنوع الاجتماعي والثقافي على استخدام اللغة، وهو ما يمكن أن يؤدي هذا إلى تحسين دقة النماذج وجعلها أكثر وعياً واحتراماً للتنوع.
كما يجب مراجعة البيانات المستخدمة في التدريب بعناية لإزالة أو تعديل المحتوى الذي يحتوي على معلومات مضللة أو تحيزات اجتماعية، ويقول الباحثون إن هذه الخطوة أساسية لضمان أن النماذج لا تتعلم أو تكرر الأنماط السلبية.
ويقول المؤلف الرئيسي للدراسة، جاك جريف، إن الذكاء الاصطناعي قد يميل إلى إنتاج تصورات سلبية عن بعض الأعراق أو الأجناس بسبب البيانات التي يُدرَّب عليها، والتي قد تحتوي على أفكار ضارة أو غير دقيقة أو عنصرية أو معلومات مضللة.
وأضاف أن تدريب نماذج اللغة على مجموعات بيانات متنوعة تعكس التنوع اللغوي، يمكن أن يعزز القيمة المجتمعية لهذه الأنظمة.
وأوصت الدراسة بزيادة التنوع الاجتماعي واللغوي في بيانات التدريب بدلاً من مجرد توسيع حجمها، مشددة على أهمية دمج الرؤى من العلوم الإنسانية والاجتماعية لتطوير أنظمة ذكاء اصطناعي تخدم البشرية بشكل أفضل.