أعلنت ميتا عن إطلاق نموذج الذكاء الاصطناعي الجديد “مافريك” يوم السبت الماضي. جاء هذا النموذج في المرتبة الثانية في اختبار LM Arena، وهو اختبار يقوم على تقييم بشري لمخرجات النماذج واختيار الأفضل منها. مع ذلك، يبدو أن النسخة التي استخدمتها ميتا في الاختبار تختلف عن النسخة التي توفّرها للمطورين.
أوضحت ميتا في إعلانها أن نسخة “مافريك” المستخدمة في LM Arena نسخة تجريبية مخصصة للدردشة. أما في موقع “لياما” الرسمي، فقد ظهر رسم بياني يُظهر أن اختبار LM Arena أجري باستخدام نسخة “لياما 4 مافريك المحسّنة للمحادثة”.
سبق أن كتبنا أن اختبار LM Arena لا يُعد مقياسًا دقيقًا لأداء نماذج الذكاء الاصطناعي، بسبب عدة عوامل. لكن ما يميز ميتا هو أنها خصصت نموذجها ليحقق نتائج أفضل في الاختبار. ثم أصدرت نسخة مختلفة “عادية” للمطورين، ولم تعلن عن هذا الاختلاف.
تُشكل هذه الممارسة تحديًا كبيرًا. يصعب على المطورين التنبؤ بدقة بكيفية أداء النموذج في سياقات مختلفة. كما أنها تخلق انطباعًا مضللاً. من المفترض أن تقدم المعايير صورة واضحة عن نقاط القوة والضعف لنموذج واحد عبر مهام متعددة، حتى وإن كانت غير كاملة.
لاحظ باحثون على منصة X اختلافات واضحة في سلوك نسخة “مافريك” المتاحة للجمهور مقارنة بنسخة LM Arena. تستخدم نسخة LM Arena الكثير من الرموز التعبيرية (الإيموجي)، وتُقدم إجابات مطولة بشكل مبالغ فيه.