ترندات

«علي بابا» تطلق نموذجاً ذكياً جديداً يعمل بكفاءة على الهواتف

كشفت مجموعة “علي بابا” (Alibaba) الصينية عن نموذجها الأحدث للذكاء الاصطناعي Qwen2.5Omni7B، والذي يتمتع بقدرات متعددة الوسائط، إذ يستطيع معالجة النصوص والصور والمقاطع الصوتية والفيديوهات، إلى جانب توليد استجابات نصية وصوتية طبيعية بشكل لحظي.

وقالت الشركة، عبر صفحة النموذج الرسمية على موقع Hugging Face، إن النموذج الجديد مصمم للعمل بكفاءة عالية حتى على الأجهزة الطرفية مثل الهواتف المحمولة، دون أن يؤثر ذلك في أدائه، ما يجعله خياراً مثالياً لتطوير وكلاء ذكاء اصطناعي مرنين ومنخفضي التكلفة، خاصة في التطبيقات الصوتية الذكية.

وضربت الشركة مثالاً على ذلك باستخدام هذا النموذج لمساعدة الأشخاص المكفوفين، من خلال تقديم أوصاف صوتية لما تراه كاميرا هواتفهم الذكية، مما يُمكّنهم من التنقل في محيطهم بسهولة.

يقوم النموذج الجديد على معمارية مبتكرة تُعرف باسم ThinkerTalker، وهي مصممة للعمل كنظام شامل يتعامل مع وسائط متعددة، تشمل النصوص والصور والصوت والفيديوهات، ويُنتج استجابات نصية وصوتية في الوقت نفسه بشكل لحظي.

وقدمت الشركة تقنية جديدة ضمن هذا النموذج تُسمى TMRoPE اختصاراً لـ(Timealigned Multimodal RoPE)، وهي طريقة لتضمين المواضع الزمنية داخل النموذج تساعد على مزامنة توقيتات عرض المحتوى المصور مع الإشارات الصوتية، مما يجعل التجربة أكثر واقعية.

ويتيح هذا التصميم للنموذج دعم محادثات صوتية ومرئية لحظية، مع استجابة آنية فور تلقّي البيانات والمدخلات المعلوماتية من المستخدم، ما يجعله مناسباً للتطبيقات التفاعلية عالية السرعة، الترجمة الصوتية أو النصية الفورية، وكذلك طرح أسئلة بشأن العالم المحيط بالمستخدم، وذلك من الممكن أن يكون عبر كاميرا الهاتف لجمع بيانات عن محيط المستخدم ليقدم إجابات ومعلومات دقيقة.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *