أعلنت شركة OpenAI عن إطلاق نماذج جديدة لتحويل النص إلى كلام (Text-to-Speech) وتحويل الصوت إلى نص (Speech-to-Text) عبر واجهة البرمجة الخاصة بها. تقول الشركة إن هذه النماذج توفر تحسينات كبيرة مقارنة بالإصدارات السابقة.
نماذج جديدة تدعم رؤية OpenAI “الوكيل”
هذه النماذج جزء من رؤية OpenAI الأكبر. الهدف هو بناء أنظمة مؤتمتة قادرة على إنجاز المهام بشكل مستقل. أوليفييه جوديمان، رئيس قسم المنتجات في الشركة، قال إن أحد تفسيرات “الوكيل” هو روبوت دردشة يمكنه التفاعل مع عملاء الشركات.
قال جوديمان: “سنرى المزيد من الوكلاء في الأشهر القادمة. الهدف هو مساعدة العملاء والمطورين على الاستفادة من الوكلاء المتاحين والدقيقين.”
نموذج النص إلى كلام الجديد من OpenAI
أحد النماذج الجديدة هو gpt-4o-mini-tts. هذا النموذج يحقق تحسينات في النطق الصوتي. إنه أكثر تنوعًا وواقعية مقارنة بالنماذج السابقة. يمكن للمطورين تخصيص طريقة النطق. على سبيل المثال، يمكن أن يطلبوا من النموذج أن يتحدث “كعالم مجنون” أو “بصوت هادئ، مثل معلم الوعي الذاتي.”
نموذج الصوت الأنثوي الاحترافي
مقاطع من النموذج تظهر أصواتًا احترافية وأخرى بأسلوب “جرائم حقيقية”، مما يبرز قدرة النموذج على تقليد أصوات متنوعة.
التحكم في السياق العاطفي للصوت
قال جيف هاريس، عضو فريق المنتجات في OpenAI، إن الهدف هو تمكين المطورين من تخصيص الصوت. وأضاف: “في بعض السياقات، لا تريد صوتًا مسطحًا أو أحادي النغمة. في دعم العملاء، يمكن أن يكون الصوت معتذرًا إذا حدث خطأ.”
تحسين نماذج تحويل الصوت إلى نص
تم إطلاق نماذج gpt-4o-transcribe و gpt-4o-mini-transcribe. تحل هذه النماذج محل Whisper القديم. تقول OpenAI إن النماذج الجديدة أفضل في التقاط الكلمات باللهجات المتنوعة. وهي تعمل بشكل جيد حتى في البيئات المزدحمة.
نموذج Whisper القديم كان يعاني من “هلوسة” الكلمات
أضاف هاريس أن النماذج الجديدة أقل عرضة للتلفيق. كانت Whisper تولد كلمات غير دقيقة، وقد تحتوي على تعليقات عنصرية أو معالجات طبية خاطئة.
التحديات اللغوية للنماذج الجديدة
بالنسبة للغات الهندية والدرادية مثل التاميل والتيلوغو، أشار OpenAI إلى أن النموذج gpt-4o-transcribe يحقق “معدل خطأ في الكلمات” يقارب 30%. هذا يعني أن ثلاثة من كل عشرة كلمات قد تكون غير دقيقة.
عدم توفر النماذج الجديدة كمصدر مفتوح
قررت OpenAI عدم إتاحة النماذج الجديدة كمصدر مفتوح. قال هاريس: “النماذج الجديدة أكبر وأكثر تعقيدًا من Whisper. إنها ليست مناسبة للعمل على الأجهزة المحلية.”