إطلاق نموذج صوتي مفتوح المصدر يتفاعل بشكل مستمر

تم إطلاق نموذج صوتي مفتوح المصدر جديد يُعرف باسم Audio Interaction، والذي يتميز بقدرته على التفاعل دون انتظار انتهاء التسجيل. يقوم النموذج بترجمة، وتفريغ، والدردشة، والتقاط الأصوات اليومية مثل السعال في تدفق واحد. النموذج يختلف عن GPT-4o وQwen3.5-Omni، حيث يُقرر كل 0.4 ثانية ما إذا كان سيتحدث أو سيبقى صامتًا. تم توفير كود النموذج، وأوزان النموذج، وتعليمات التحميل على GitHub بموجب ترخيص Apache 2.0، مع وعد بتوفير بيانات التدريب لاحقًا. هذا الابتكار يُعزز من قدرة النماذج الصوتية على التفاعل بشكل أكثر طبيعية، مما يُمكن من استخدامها في تطبيقات متعددة مثل المساعدات الصوتية والتفاعل البشري الآلي. يُعتبر هذا النموذج خطوة مهمة نحو تحسين تجربة المستخدم في مجال الذكاء الاصطناعي.

تابع هذه المواضيع

سجّل دخولك لمتابعة المواضيع التي تهمك

تسجيل الدخول للمتابعة

يُنتج هذا الملخص باستخدام تقنيات الذكاء الاصطناعي مع مراجعة تحريرية دورية، ويرجى الرجوع إلى المصدر الأصلي للتفاصيل الكاملة.

نماذج

تابع هذه المواضيع

سجّل دخولك لمتابعة المواضيع التي تهمك

تسجيل الدخول للمتابعة