هل كذبت xAI بشأن نتائج اختبارات Grok 3؟

Mahmoud

11 شهر ago

جدل جديد حول شفافية اختبارات الذكاء الاصطناعي

تصاعد الجدل حول اختبارات أداء الذكاء الاصطناعي وكيفية عرض نتائجها من قبل المختبرات المتخصصة، حيث اتهم موظف في OpenAI شركة xAI، المملوكة لإيلون ماسك، بنشر نتائج مضللة حول أداء نموذجها الجديد Grok 3. لكن الشريك المؤسس لـ xAI، إيغور بابوشكين، دافع عن موقف الشركة وأصرّ على صحة البيانات.

ماذا تقول نتائج xAI؟

نشرت xAI على مدونتها رسمًا بيانيًا يُظهر أداء Grok 3 في اختبار AIME 2025، وهو اختبار رياضي يتكون من أسئلة معقدة مأخوذة من مسابقة رياضيات مرموقة. على الرغم من الجدل حول مدى دقة هذا الاختبار في قياس قدرات الذكاء الاصطناعي، إلا أنه يُستخدم بشكل شائع لتقييم القدرات الرياضية للنماذج.

أظهرت بيانات xAI تفوق نسختي Grok 3 Reasoning Beta و Grok 3 mini Reasoning على o3-mini-high، وهو أحد أفضل النماذج المتاحة من OpenAI. لكن سرعان ما ردّ موظفو OpenAI على منصة X (تويتر سابقًا)، مشيرين إلى أن xAI لم تدرج نتيجة o3-mini-high باستخدام معيار cons@64.

ما هو معيار cons@64؟ ولماذا هو مهم؟

cons@64 هو اختصار لـ “consensus@64”، وهو معيار يُتيح للنموذج 64 محاولة لحل كل مسألة، ثم يُختار الجواب الأكثر تكرارًا كإجابة نهائية. هذا الأسلوب يُحسّن نتائج الاختبار بشكل كبير، وعند حذفه من الرسم البياني، يمكن أن يظهر أن نموذجًا معينًا يتفوق على الآخر، بينما في الحقيقة، قد لا يكون هذا صحيحًا.

ما الذي يُخفيه الرسم البياني؟

عند مقارنة نتائج Grok 3 بمعيار @1 (الذي يأخذ النتيجة الأولى فقط لكل محاولة)، نجد أن o3-mini-high ما زال متفوقًا. كذلك، يتراجع Grok 3 Reasoning Beta عن نموذج o1 medium من OpenAI بفارق بسيط. ورغم ذلك، تُسوّق xAI نموذجها على أنه “أذكى ذكاء اصطناعي في العالم”.

هل OpenAI بريئة من التضليل؟

ردًا على الانتقادات، قال إيغور بابوشكين إن OpenAI سبق أن نشرت رسومًا بيانية مضللة أيضًا، لكنها كانت تقارن بين نماذجها الخاصة وليس مع نماذج المنافسين. ومن جهة أخرى، نشر باحث مستقل رسمًا بيانيًا أكثر دقة يوضح أداء جميع النماذج وفقًا لمعيار cons@64.

لكن كما أشار الباحث في الذكاء الاصطناعي ناثان لامبرت، فإن أحد أهم العوامل لا يزال مجهولًا: التكلفة الحاسوبية والمالية التي استُخدمت لتحقيق هذه النتائج. مما يُظهر مدى قصور اختبارات الذكاء الاصطناعي في توضيح نقاط القوة والضعف الحقيقية للنماذج.

شارك الان