أمازون تكشف عن نموذج الذكاء الاصطناعي الصوتي Nova Sonic

كشفت شركة أمازون عن نموذجها الصوتي الجديد القائم على الذكاء الاصطناعي التوليدي Nova Sonic، وهو مصمم للتعامل مع الصوت بنحو مباشر وتوليد كلام طبيعي أقرب إلى المحادثات البشرية.
وذكرت الشركة أن أداء هذا النموذج ينافس أبرز النماذج الصوتية المتقدمة من شركتي OpenAI وجوجل، وذلك وفقًا لمعايير تقيس السرعة ودقة تعرّف الكلام وجودة المحادثة.
ويُعد Nova Sonic استجابة من أمازون للنماذج الصوتية الحديثة، مثل النموذج الذي يدعم وضع الصوت في ChatGPT، الذي بات أكثر سلاسة مقارنةً بالنماذج السابقة، مثل الإصدارات الأولى من أليكسا وسيري.
وقد أسهمت الطفرات التقنية الأخيرة في جعل المساعدات الصوتية التقليدية مثل أليكسا وسيري تبدو متأخرة من ناحية الواقعية والطبيعية في التفاعل.
ويتوفر نموذج Nova Sonic عبر منصة أمازون Bedrock المخصصة للمطورين لبناء تطبيقات الذكاء الاصطناعي للمؤسسات، وذلك من خلال واجهة برمجة تطبيقات API جديدة تتيح البث الصوتي في الاتجاهين.
وفي بيانٍ رسمي، وصفت أمازون هذا النموذج بأنه “الأكثر كفاءة من ناحية التكلفة” في السوق، مشيرةً إلى أنه أقل تكلفة بنسبة تقارب 80% مقارنةً بنموذج GPT4o من OpenAI.
وأكد روهيت براساد، النائب الأول لرئيس أمازون وكبير علماء الذكاء الاصطناعي العام (AGI) في الشركة، أن مكونات Nova Sonic تُستخدم بالفعل في تشغيل أليكسا بلس، المساعد الصوتي المحسّن الذي أطلقته الشركة حديثًا.
ويتميّز Nova Sonic كذلك بقدرته على الاستجابة في الوقت المناسب في أثناء الحوارات الثنائية، إذ يراعي مدد الصمت والمقاطعات من الطرف الآخر، كما يولّد نسخة مكتوبة من كلام المستخدم، يمكن للمطورين الاستفادة منها في تطبيقات مختلفة.
وبحسب براساد، فإن النموذج أقل عرضة لأخطاء تعرّف الكلام مقارنةً بالنماذج الأخرى، إذ يتمكن من فهم نوايا المستخدم حتى في حال تمتمته أو حديثه وسط ضوضاء.
وعبر معيار Multilingual LibriSpeech لاختبار تعرّف الكلام عبر لغات ولهجات مختلفة، سجّل Nova Sonic معدل خطأ بلغ 4.2% فقط عند متوسط الأداء عبر اللغات الإنجليزية والفرنسية والإيطالية والألمانية والإسبانية.
وعبر معيار آخر يُعرف باسم Augmented Multi Party Interaction لاختبار دقة التعرف الصوتي في حوارات متعددة الأطراف بمستوى صوت مرتفع، تفوق Nova Sonic بنسبة قدرها 46.7% من ناحية معدل الخطأ مقارنةً بنموذج GPT4otranscribe من OpenAI.
ويُسجّل النموذج سرعة استجابة رائدة في القطاع، بمتوسط تأخير محسوس قدره 1.09 ثانية، مقارنة بـ1.18 ثانية لنموذج Realtime API من OpenAI، وفقًا لاختبارات أجرتها مؤسسة Artificial Analysis.
ويُعد نموذج Nova Sonic جزءًا من إستراتيجية أمازون الواسعة لتطوير الذكاء الاصطناعي العام (AGI)، الذي تُعرّفه الشركة بأنه “الذكاء الاصطناعي القادر على أداء كافة المهام التي ينفذها البشر عبر الحاسوب”.
وأوضح براساد أن الشركة تعتزم مستقبلًا إطلاق نماذج ذكاء اصطناعي قادرة على فهم وسائط متعددة، تشمل الصور والفيديو والصوت، إلى جانب “بيانات حسية أخرى” قد تُستخدم في تطبيقات واقعية.
وتُشير هذه الخطوة إلى تنامي دور قسم الذكاء الاصطناعي العام AGI في منتجات أمازون، إذ كانت الشركة قد أطلقت حديثًا نموذج Nova Act، وهو نموذج ينفذ المهام عبر المتصفح، ويُعد جزءًا من مزايا أليكسا بلس، وميزة “اشترِ نيابةً عني” التي تمكّن الذكاء الاصطناعي من التسوق نيابةً عن المستخدمين، بالإضافة إلى نموذج توليد الفيديو الجديد Nova Reel.