أثارت Meta جدلًا واسعًا هذا الأسبوع بعد استخدامها نسخة تجريبية غير مُعلنة من نموذج Llama 4 Maverick في اختبار LM Arena. حقق النموذج نتيجة مرتفعة بشكل مفاجئ، مما دفع مسؤولي المنصة إلى الاعتذار وتحديث السياسات. بعد ذلك، أعادوا تقييم النموذج الأساسي المفتوح المصدر — المعروف باسم Llama-4-Maverick-17B-128E-Instruct.
النتائج جاءت مخيبة للآمال
احتل النموذج مرتبة متأخرة مقارنة بنماذج أخرى مثل GPT-4o من OpenAI، وClaude 3.5 Sonnet من Anthropic، وGemini 1.5 Pro من Google. هذا التراجع يثير التساؤلات خاصة أن بعض تلك النماذج صدرت منذ أشهر.
ما الذي حدث بالفعل؟
أجرت Meta اختبار LM Arena باستخدام نسخة تجريبية مُخصصة للمحادثة تحت اسم Llama-4-Maverick-03-26-Experimental. هذه النسخة حصلت على نتائج جيدة لأنها تناسبت مع طريقة التقييم البشري في LM Arena.
ومع ذلك، يرى متخصصون في الذكاء الاصطناعي أن تكييف النموذج مع اختبار معين قد يعطي انطباعًا مضللًا. هذه الاستراتيجية تُضعف من قدرة النموذج على الأداء في مواقف متنوعة.
رد شركة Meta
قالت Meta في تصريح لموقع TechCrunch إنها تعمل على تجربة نسخ متعددة من نماذجها. وأوضح المتحدث باسم الشركة:
“Llama-4-Maverick-03-26-Experimental هو إصدار مخصص للمحادثة. استخدمناه لاختبار LM Arena. أما الآن فقد أطلقنا النسخة مفتوحة المصدر من Llama 4. نحن ننتظر أن نرى كيف سيقوم المطورون بتخصيصه وفقًا لاستخداماتهم الخاصة.”