...

أمازون تكشف عن نموذج صوتي جديد بالذكاء الاصطناعي يحمل اسم Nova Sonic

أعلنت شركة أمازون يوم الثلاثاء عن نموذجها الصوتي الجديد Nova Sonic، الذي يعالج الصوت بشكل مباشر وينتج كلامًا طبيعيًا يشبه صوت البشر.
شارك الان

أعلنت شركة أمازون يوم الثلاثاء عن نموذجها الصوتي الجديد Nova Sonic، الذي يعالج الصوت بشكل مباشر وينتج كلامًا طبيعيًا يشبه صوت البشر.
تقول أمازون إن أداء النموذج ينافس أقوى النماذج الصوتية التي طورتها OpenAI وGoogle. ويعتمد هذا التقييم على معايير مثل السرعة ودقة التعرف على الكلام وجودة التفاعل في المحادثات.


تطور كبير مقارنة بالنماذج السابقة

يمثل Nova Sonic نقلة نوعية مقارنة بالنماذج الصوتية القديمة مثل Amazon Alexa.
في السنوات الأخيرة، ظهرت نماذج جديدة تتيح للمستخدمين التحدث بطريقة طبيعية.
من جهة أخرى، أصبحت المساعدات الرقمية التقليدية مثل Alexa وSiri تبدو جامدة وغير مرنة.


منصة Bedrock تدعم النموذج الجديد

يتوفر Nova Sonic عبر منصة Bedrock، وهي موجهة للمطورين الذين يبنون تطبيقات ذكاء اصطناعي على مستوى المؤسسات.
تقدم أمازون النموذج من خلال واجهة برمجة تطبيقات ثنائية الاتجاه، ما يسمح بتفاعل ديناميكي.
وأشارت الشركة إلى أن Nova Sonic هو الأكثر كفاءة من حيث التكلفة، ويكلف أقل بنسبة 80٪ مقارنة بـ GPT-4o من OpenAI.


جزء من Alexa+ واستراتيجية أوسع

أوضح روهيت براساد، نائب الرئيس الأول ورئيس قسم الذكاء الاصطناعي العام في أمازون، أن بعض مكونات Nova Sonic تُستخدم بالفعل في Alexa+، النسخة الأحدث من المساعد الرقمي.
وأضاف أن النموذج الجديد يستفيد من خبرة أمازون في أنظمة التنسيق الكبيرة، وهي البنية التي تدعم Alexa.


نموذج يتفاعل بذكاء وينفذ الأوامر

يتميز Nova Sonic بقدرته على توجيه الطلبات إلى الواجهة البرمجية المناسبة.
فهو يعرف متى عليه جمع معلومات من الإنترنت، أو تحليل بيانات خاصة، أو تنفيذ أوامر خارجية.
بالتالي، يستطيع استخدام الأداة الصحيحة في الوقت المناسب.


تجربة محادثة أكثر واقعية

ينتظر النموذج حتى تنتهي جملة المستخدم، مستفيدًا من التوقفات والمقاطعات لتحديد التوقيت المثالي للرد.
كما يقوم بتحويل كلام المستخدم إلى نص مكتوب يمكن للمطورين استخدامه في تطبيقاتهم.
من جهة أخرى، يقلل Nova Sonic من نسبة الخطأ في التعرف على الكلام، حتى في البيئات المزدحمة أو عندما يتلعثم المستخدم.


نتائج دقيقة في اختبارات متعددة اللغات

في اختبار Multilingual LibriSpeech، حقق النموذج معدل خطأ بلغ 4.2٪ فقط.
ويغطي هذا الاختبار خمس لغات رئيسية: الإنجليزية، الفرنسية، الألمانية، الإيطالية، والإسبانية.
بمعنى آخر، أخطأ النموذج في نحو 4 كلمات فقط من كل 100، وهو أداء ممتاز مقارنة بالمنافسين.


يتفوق على GPT-4o من حيث الدقة والسرعة

خلال اختبار Augmented Multi Party Interaction، كان أداء Nova Sonic أدق بنسبة 46.7٪ من نموذج GPT-4o-transcribe.
علاوة على ذلك، بلغ متوسط زمن الاستجابة 1.09 ثانية فقط، وهو أسرع من GPT-4o الذي يحتاج إلى 1.18 ثانية، حسب نتائج منصة Artificial Analysis.


جزء من خطة أمازون لبناء AGI

قال براساد إن Nova Sonic يمثل خطوة أساسية في خطة أمازون لتطوير الذكاء الاصطناعي العام (AGI).
وتُعرّف الشركة AGI بأنه نظام يمكنه تنفيذ أي مهمة يؤديها الإنسان باستخدام الحاسوب.

تهدف أمازون إلى تطوير نماذج تدعم الصور والفيديوهات والصوت، بل حتى بيانات حسية جديدة مرتبطة بالعالم الواقعي.


AGI… القلب النابض لاستراتيجية أمازون القادمة

تلعب وحدة AGI التي يديرها براساد دورًا مهمًا في استراتيجية أمازون.
في الأسبوع الماضي، أطلقت الشركة نسخة تجريبية من نموذج Nova Act، وهو ذكاء اصطناعي يستخدم المتصفح.
يبدو أن هذا النموذج يدعم ميزات جديدة في Alexa+، بالإضافة إلى خدمة “اشترِ نيابة عني”.

وأكد براساد أن أمازون تعتزم إتاحة المزيد من نماذجها الداخلية للمطورين لاستخدامها في بناء تطبيقاتهم الخاصة.

شارك الان
Seraphinite AcceleratorOptimized by Seraphinite Accelerator
Turns on site high speed to be attractive for people and search engines.