كيف أصنع بودكاست باستخدام تقنيات الذكاء الاصطناعي

أعلنت شركة Sesame عن إطلاق نموذج الذكاء الاصطناعي الأساسي CSM-1B، الذي يشغل المساعد الصوتي المبتكر مايا، والذي يقترب من تحقيق واقعية مذهلة في تقليد الأصوات البشرية. يعتمد النموذج على RVQ وLlama من Meta، مما يعزز قدرة المساعد على محاكاة الأصوات بواقعية تامة.
شارك الان

مقدمة:
أعلنت شركة Sesame عن إطلاق نموذج الذكاء الاصطناعي الأساسي CSM-1B، الذي يشغل المساعد الصوتي المبتكر مايا، والذي يقترب من تحقيق واقعية مذهلة في تقليد الأصوات البشرية. يعتمد النموذج على RVQ وLlama من Meta، مما يعزز قدرة المساعد على محاكاة الأصوات بواقعية تامة.


النموذج الجديد: ما هو CSM-1B؟

CSM-1B هو نموذج ذكاء اصطناعي يحتوي على 1 مليار معلمة، وهو مرخص بموجب رخصة Apache 2.0، مما يجعله قابلًا للاستخدام التجاري مع بعض القيود المحدودة. هذا النموذج يستخدم تقنية RVQ (التكميم المتبقي باستخدام المتجهات) لتحويل المدخلات الصوتية والنصية إلى رموز قابلة للتنفيذ، مما يسمح بإنشاء أصوات متعددة.


ما هي تقنية RVQ؟

RVQ هي تقنية حديثة لتحويل البيانات الصوتية إلى رموز دقيقة، مما يُحسن تجربة المحاكاة الصوتية. تُستخدم هذه التقنية في العديد من أدوات الصوت المدعومة بالذكاء الاصطناعي مثل SoundStream من Google و Encodec من Meta، التي تتيح توليد أصوات متميزة وواقعية.


ميزات النموذج CSM-1B

  • دقة عالية في محاكاة الأصوات: يتمتع CSM-1B بقدرة على إنشاء مجموعة متنوعة من الأصوات، ويُتوقع أن يُحسن تكنولوجيا المحاكاة الصوتية في المستقبل.
  • التدريب باستخدام بيانات متنوعة: على الرغم من أن النموذج لم يتم تخصيصه لصوت معين، إلا أنه يتمتع بقدرة على توليد أصوات بأكثر من لغة واحدة.
  • قابلية للاستخدام التجاري: مرخص بموجب Apache 2.0، مما يسمح باستخدامه في تطبيقات تجارية.

التحذيرات والقيود

على الرغم من التطور الكبير في CSM-1B، فإن النموذج لا يحتوي على وسائل حماية متكاملة. تحث Sesame المستخدمين والمطورين على استخدام النموذج بطريقة مسؤولة وعدم تقليد أصوات الأشخاص دون إذنهم

شارك الان