الأخبار
ملخص بالذكاء الاصطناعي
٢١ ذو الحجة ١٤٤٧ هـ٦ يونيو ٢٠٢٦
إطلاق نموذج صوتي مفتوح المصدر يتفاعل بشكل مستمر

إطلاق نموذج صوتي مفتوح المصدر يتفاعل بشكل مستمر

تم إطلاق نموذج صوتي مفتوح المصدر جديد يُعرف باسم Audio Interaction، والذي يتميز بقدرته على التفاعل دون انتظار انتهاء التسجيل. يقوم النموذج بترجمة، وتفريغ، والدردشة، والتقاط الأصوات اليومية مثل السعال في تدفق واحد. النموذج يختلف عن GPT-4o وQwen3.5-Omni، حيث يُقرر كل 0.4 ثانية ما إذا كان سيتحدث أو سيبقى صامتًا. تم توفير كود النموذج، وأوزان النموذج، وتعليمات التحميل على GitHub بموجب ترخيص Apache 2.0، مع وعد بتوفير بيانات التدريب لاحقًا. هذا الابتكار يُعزز من قدرة النماذج الصوتية على التفاعل بشكل أكثر طبيعية، مما يُمكن من استخدامها في تطبيقات متعددة مثل المساعدات الصوتية والتفاعل البشري الآلي. يُعتبر هذا النموذج خطوة مهمة نحو تحسين تجربة المستخدم في مجال الذكاء الاصطناعي.

تابع هذه المواضيع

سجّل دخولك لمتابعة المواضيع التي تهمك

تسجيل الدخول للمتابعة

يُنتج هذا الملخص باستخدام تقنيات الذكاء الاصطناعي مع مراجعة تحريرية دورية، ويرجى الرجوع إلى المصدر الأصلي للتفاصيل الكاملة.

0
0 يقرأون الآن

تقييم الخبر

سيظهر متوسط التقييم بعد 3 تقييمات.

سجل الدخول للتفاعل والتقييم والحفظ. تسجيل الدخول
مقالات ذات صلة

مقالات ذات صلة

مزيج خفيف من الوسوم والموضوعات القريبة والزخم الحديث.

جوجل توسع خدمة توليد الصور الذكية لمستخدميها المجانيين في أمريكا
متعدد الوسائطنماذج

جوجل توسع خدمة توليد الصور الذكية لمستخدميها المجانيين في أمريكا

أعلنت شركة جوجل عن توسيع خدمة Gemini لتوليد الصور الذكية، حيث ستتاح هذه الميزة لمستخدميها المجانيين في الولايات المتحدة. ستت...

تلائم لغتك الحالية

اقرأ الرؤية
جوجل تطلق نموذجين جديدين للذكاء الاصطناعي التوليدي
متعدد الوسائطنماذج

جوجل تطلق نموذجين جديدين للذكاء الاصطناعي التوليدي

أعلنت جوجل عن إطلاق نموذجين جديدين للذكاء الاصطناعي التوليدي، وهما Nano Banana 2 Lite وGemini Omni Flash. يعمل Nano Banana 2...

تلائم لغتك الحالية

اقرأ الرؤية
إطلاق نموذج Qwen3.7-Plus من Alibaba كوكيل متعدد الوسائط
متعدد الوسائطالوكلاء والأتمتة

إطلاق نموذج Qwen3.7-Plus من Alibaba كوكيل متعدد الوسائط

أطلقت مجموعة Qwen التابعة لشركة Alibaba نموذج Qwen3.7-Plus، وهو نموذج وكيل متعدد الوسائط يجمع بين الإدراك البصري وتشغيل واجه...

تلائم لغتك الحالية

اقرأ الرؤية
جوجل تطور مولد الصور لزيادة السرعة وتقليل التكاليف
متعدد الوسائطنماذج

جوجل تطور مولد الصور لزيادة السرعة وتقليل التكاليف

أعلنت شركة جوجل عن تحديث جديد لمولد الصور الخاص بها، حيث يهدف التحديث إلى زيادة سرعة الأداء وتقليل التكاليف. هذا التطوير يجع...

تلائم لغتك الحالية

اقرأ الرؤية
جوجل تطلق نموذج Gemini 3.5 للترجمة الفورية بالصوت
متعدد الوسائطنماذج

جوجل تطلق نموذج Gemini 3.5 للترجمة الفورية بالصوت

أعلنت جوجل عن إطلاق نموذج Gemini 3.5 Live Translate، الذي يقدم ترجمة صوتية فورية لأكثر من 70 لغة. يتميز النظام بقدرته على ال...

تلائم لغتك الحالية

اقرأ الرؤية