...

ElevenLabs تطلق نموذجها الجديد لتحويل الكلام إلى نص – Scribe

شركة ElevenLabs ، الرائدة في تقنيات الذكاء الاصطناعي الصوتي، تكشف عن نموذجها الجديد لتحويل الكلام إلى نص – Scribe، مما يوسع نطاق أعمالها بعد جولة تمويل ضخمة بقيمة 180 مليون دولار.
شارك الان

شركة ElevenLabs ، الرائدة في تقنيات الذكاء الاصطناعي الصوتي، تكشف عن نموذجها الجديد لتحويل الكلام إلى نص – Scribe، مما يوسع نطاق أعمالها بعد جولة تمويل ضخمة بقيمة 180 مليون دولار.

ElevenLabs تدخل سوق تحويل الصوت إلى نص

بعد تحقيقها تقييمًا بقيمة 3.3 مليار دولار، اشتهرت ElevenLabs بقدراتها في توليد الصوت الذكي، حيث وفّرت خدمات تحويل النصوص إلى صوت لمختلف الشركات. ولكن الآن، تسعى الشركة للمنافسة في مجال التعرف على الكلام، حيث أطلقت أول نموذج مستقل لها تحت اسم Scribe، لتدخل بذلك في منافسة مع نماذج مثل Whisper من OpenAI وGladia وSpeechmatics وAssemblyAI وDeepgram.

دعم واسع للغات ودقة متقدمة

يدعم Scribe أكثر من 99 لغة عند الإطلاق، مع تصنيف 25 لغة بمستوى دقة ممتاز، حيث يقل معدل الخطأ في الكلمات عن 5%، وتشمل هذه اللغات الإنجليزية (بدقة 97%)، الفرنسية، الألمانية، الهندية، الإندونيسية، اليابانية، الكانادا، المالايالامية، البولندية، البرتغالية، الإسبانية، والفيتنامية.

أما اللغات الأخرى، فتم تصنيفها وفقًا لمعدلات خطأ متفاوتة:

عالية الدقة: (5% – 10% معدل خطأ).

جيدة: (10% – 20% معدل خطأ).

متوسطة: (25% – 50% معدل خطأ).

أداء قوي في اختبارات المعايير

أكدت ElevenLabs أن Scribe تفوق على نماذج مثل Google Gemini 2.0 Flash وWhisper Large V3 في اختبارات FLEURS & Common Voice، ما يثبت تفوقه في تحويل الكلام إلى نص بدقة عالية عبر عدة لغات.

ميزات متقدمة لتحليل وتحويل الصوت إلى نص

يأتي Scribe بميزات مبتكرة، تشمل:

التفريق بين المتحدثين (Diarization)، مما يسمح بتحديد هوية المتحدثين في المحادثات المسجلة.

تمييز الأحداث الصوتية تلقائيًا، مثل الضحك الجماعي أو التصفيق.

إضافة الطوابع الزمنية على مستوى الكلمات، مما يساعد في إنشاء ترجمات دقيقة لمقاطع الفيديو.

كما توفر الشركة ميزة تحويل محتوى الفيديو مباشرةً إلى نصوص، مما يسهل على المبدعين إضافة ترجمات أو كابتشنز إلى محتواهم بسهولة.

إطلاق النسخة الفورية قريبًا

في الوقت الحالي، يدعم Scribe فقط الصوت المُسجل مسبقًا، ما يعني أنه غير مناسب بعد لاستخدامه في الاجتماعات أو تسجيل الملاحظات الصوتية. ومع ذلك، أكدت الشركة أنها تعمل على إطلاق إصدار منخفض التأخير (low-latency) قريبًا، مما سيمكنه من العمل في الوقت الفعلي.

التسعير والمنافسة

تُسعر ElevenLabs نموذجها الجديد Scribe بسعر 0.40 دولار لكل ساعة من الصوت المحوّل إلى نص، وهو سعر تنافسي مقارنة ببعض المنافسين، رغم أن بعض الشركات الأخرى مثل Speechmatics وAssemblyAI تقدم أسعارًا أقل مع اختلافات في الميزات.


تحليل واستنتاج

مع إطلاق Scribe، تواصل ElevenLabs توسيع قدراتها في الذكاء الاصطناعي الصوتي، حيث لم تعد تقتصر على تحويل النص إلى صوت، بل باتت تسعى لتحليل الكلام وتحويله إلى نصوص بدقة عالية. في ظل المنافسة الشديدة في هذا المجال، ستظل جودة التحليل اللغوي والتسعير عوامل رئيسية في نجاح هذا النموذج الجديد.

شارك الان
Seraphinite AcceleratorOptimized by Seraphinite Accelerator
Turns on site high speed to be attractive for people and search engines.