طوّرت باحثة منكوريا الجنوبيةنموذجاً لغوياً صوتياً جديداً يُعرف باسم “SpeechSSM”، يمكّن من توليد كلام اصطناعي لكنه يبدو طبيعياً ومتواصلاً دون قيود زمنية، ما يُمهّد الطريق لتطوير نماذج صوتية تعمل على مدار الساعة.

ويُعدّ النموذج الجديد خطوة رائدة في تكنولوجيا الذكاء الاصطناعي التي تولد الأصوات، إذ يتغلب على القيود المعروفة للنماذج السابقة في إنتاج محتوى صوتي طويل كالذي تتطلبه برامج بودكاست، والكتب المسموعة، والتطبيقات التفاعلية.

جيل جديد من تقنيات معالجة اللغة

تبرز النماذج اللغوية الصوتية (SLMs) بوصفها الجيل القادم من تقنيات معالجة اللغة، كونها تتخطى قيود النماذج النصية التقليدية من خلال قدرتها على تعلم الكلام البشري مباشرة دون حاجة لتحويله إلى نص، وتستفيد هذه النماذج من الخصائص الصوتية الفريدة للبشر لإنتاج كلام عالي الجودة بسرعة، حتى في النماذج واسعة النطاق.

لكن النماذج السابقة كانت تواجه تحديات كبيرة في توليد محتوى طويل المدة، بسبب ارتفاع دقة تحليل المقاطع الصوتية واستهلاك الذاكرة أثناء محاولة التقاط التفاصيل الدقيقة عبر تقسيم الكلام إلى أجزاء صغيرة جداً، وكان من الصعب الحفاظ على الاتساق في المعنى ونبرة المتحدث عند التوليد لمدة طويلة.

توليد كلام لمدة طويلة وسرد سليم

النموذج الجديد “SpeechSSM” يعتمد على هيكل “هجيني” يجمع بين طبقات “الانتباه” التي تركز على المعلومات الحديثة، وطبقات “تكرارية” تتيح تذكّر السياق الكامل للنص أو المحادثة، وهذا التصميم يسمح بتوليد كلام يمتد لفترة طويلة مع الحفاظ على تماسك المعنى وسلاسة السرد، دون فقدان الخيط العام أو انحراف عن الموضوع.

وإلى جانب الحفاظ على التماسك السردي، فإن “SpeechSSM” يقلل بشكل كبير من استهلاك الذاكرة والموارد الحاسوبية، إذ لا يتزايد الحمل الحسابي مع زيادة طول المدخلات، ما يجعل النموذج أكثر كفاءة واستقراراً.

ويعالج النموذج تسلسلات الكلام غير المحدودة عبر تقسيم البيانات إلى وحدات زمنية ثابتة وقصيرة (نوافذ)، وتحليل كل واحدة منها بشكل مستقل، ثم دمجها لإنتاج كلام طويل متماسك.

توليد كلام يصل إلى 16 دقيقة

في مرحلة توليد الصوت، يستخدم “SpeechSSM” نموذجاً يُعرف باسم “SoundStorm”، وهو نموذج تركيب صوتي غير تسلسلي (NonAutoregressive) يتيح إنتاج مقاطع متعددة في آن واحد، على عكس النماذج التقليدية التي تبني الصوت كلمةً بكلمة أو حرفاً بحرف، وهذه التقنية تُسرّع عملية التوليد بشكل كبير دون التضحية بجودة الصوت.

وعلى عكس النماذج السابقة التي غالباً ما كانت تقتصر على توليد مقاطع قصيرة لا تتعدى 10 ثوانٍ، أنشأت الباحثة مجموعة بيانات جديدة تحت اسم “LibriSpeechLong”، تتيح اختبار قدرات النموذج في توليد كلام يصل إلى 16 دقيقة، ما يمثل إنجازاً مهماً في تقييم قدرات التوليد الصوتي طويل المدى.

ابتكار أدوات تقييم جديدة

إلى جانب تطوير النموذج، قدّمت الباحثة، أدوات تقييم جديدة تعالج قصور المقاييس التقليدية مثل Perplexity (الحيّرة) التي تقتصر على قياس الصحة اللغوية فقط. وتشمل الأدوات الجديدة مقياس “SCL” (الاتساق الدلالي مع مرور الوقت)، ومقياس “NMOST” (معدل تقييم الطبيعية الصوتية على مدى الزمن)، ما يتيح فهماً أعمق لتماسك وجودة المحتوى الصوتي الناتج.

وأظهرت التقييمات أن الكلام الذي يولده نموذج “SpeechSSM” يحافظ على الشخصيات والأحداث المذكورة في بداية المحتوى، ويضيف شخصيات ومعلومات جديدة بطريقة طبيعية ومتسقة، حتى مع توليد كلام طويل المدة، وهو ما يمثل قفزة نوعية مقارنة بالنماذج السابقة التي كانت تميل إلى التكرار أو فقدان الموضوع مع مرور الوقت.

وقالت الباحثة: “كانت النماذج اللغوية الصوتية التقليدية محدودة في قدراتها على توليد محتوى طويل المدى، وكان هدفنا تطوير نموذج يمكنه دعم الاستخدام البشري الحقيقي عبر توليد كلام طويل ومتسق”.

وأضافت: “نعتقد أن هذا الإنجاز سيسهم في تطوير مجالات المحتوى الصوتي وتطبيقات الذكاء الاصطناعي مثل المساعدات الصوتية، من خلال تحسين الاتساق في المحتوى وقدرة النماذج على التفاعل بكفاءة وسرعة في الزمن الحقيقي”.

شاركها.