جدل معايير تقييم الذكاء الاصطناعي يصل إلى… بوكيمون!

نشر أحد المستخدمين على منصة X تغريدة قال فيها إن نموذج Gemini من Google سبق نموذج Claude من Anthropic في التقدم داخل لعبة بوكيمون الكلاسيكية. وصلت Gemini إلى Lavender Town في بث مباشر، بينما ظل Claude عند Mount Moon منذ فبراير.
شارك الان

بدأت نقاشات اختبارات الذكاء الاصطناعي تمتد إلى أماكن غير متوقعة. آخرها: لعبة بوكيمون.

نشر أحد المستخدمين على منصة X تغريدة قال فيها إن نموذج Gemini من Google سبق نموذج Claude من Anthropic في التقدم داخل لعبة بوكيمون الكلاسيكية. وصلت Gemini إلى Lavender Town في بث مباشر، بينما ظل Claude عند Mount Moon منذ فبراير.

لكن Gemini لم يحقق هذا التقدم من فراغ.

كشف بعض مستخدمي Reddit أن المطوّر الذي يدير بث Gemini أضاف خريطة مصغّرة مخصصة. هذه الخريطة تساعد النموذج على التعرف على عناصر اللعبة مثل الأشجار. بفضل هذه الميزة، لم يعد Gemini بحاجة لتحليل الصور قبل اتخاذ قراراته.

ورغم أن لعبة بوكيمون لا تعتبر معيارًا دقيقًا للذكاء الاصطناعي، فإن هذا المثال يوضح كيف تؤثر التعديلات الفنية على نتائج التقييم.

شركة Anthropic فعلت شيئًا مشابهًا. نشرت نتائج نموذجها Claude 3.7 Sonnet على اختبار SWE-bench Verified، وهو مخصص لتقييم قدرات البرمجة. سجل النموذج دقة 62.3٪ دون إضافات، بينما ارتفعت النسبة إلى 70.3٪ باستخدام بنية مخصصة طورتها الشركة.

شركة Meta قامت أيضًا بتحسين نموذجها Llama 4 Maverick ليتفوق في اختبار LM Arena. لكن النسخة العادية من النموذج حققت نتائج أقل بكثير في نفس الاختبار.

هذه الأمثلة تظهر أن تخصيص أدوات التقييم يؤثر بشكل مباشر على النتائج. وبما أن معايير الاختبار نفسها غير مثالية، فإن التعديلات غير الموحدة تزيد من تعقيد المقارنة بين النماذج.

مستقبل تقييم نماذج الذكاء الاصطناعي يبدو أكثر غموضًا، وليس العكس.

شارك الان