...

اختبار AGI جديد يُربك أقوى نماذج الذكاء الاصطناعي في العالم

طورت مؤسسة Arc Prize، التي أسسها الباحث البارز فرانسوا شوليه، اختبارًا جديدًا يُقيس الذكاء العام لنماذج الذكاء الاصطناعي.
شارك الان

طورت مؤسسة Arc Prize، التي أسسها الباحث البارز فرانسوا شوليه، اختبارًا جديدًا يُقيس الذكاء العام لنماذج الذكاء الاصطناعي.

هذا الاختبار الجديد، المعروف باسم ARC-AGI-2، تسبب في إرباك معظم النماذج المتقدمة التي فشلت في تحقيق نتائج عالية.

نتائج ضعيفة لأشهر النماذج: GPT-4.5 وClaude 3.7 وGemini 2.0

بحسب بيانات لوحة Arc Prize، لم تتجاوز نماذج الاستدلال مثل o1-pro من OpenAI وR1 من DeepSeek نسبة 1.3% في الأداء. بينما حصلت نماذج قوية غير استدلالية مثل GPT-4.5 وClaude 3.7 وGemini 2.0 Flash على نتائج تقارب 1% فقط.

يتضمن الاختبار ألغازًا مرئية، حيث يحتاج الذكاء الاصطناعي إلى التعرف على أنماط داخل مربعات ملونة، ثم إنشاء شبكة حل صحيحة. تعتمد الأسئلة على مشكلات جديدة، لا تشبه أي من بيانات التدريب السابقة.

البشر يتفوقون بوضوح

اختبرت المؤسسة أكثر من 400 شخص لتحديد أداء الإنسان. وأظهرت النتائج أن المشاركين حققوا متوسط 60% من الإجابات الصحيحة، وهو أفضل بكثير من أي نموذج ذكاء اصطناعي.

في منشور على منصة X (تويتر سابقًا)، قال شوليه إن ARC-AGI-2 يعكس بدقة أكبر ذكاء النماذج مقارنةً بالإصدار السابق. وأضاف أن هذا الاختبار يمنع النماذج من استخدام القوة الحاسوبية المفرطة، وهي نقطة ضعف في ARC-AGI-1.

“الكفاءة” عنصر أساسي في التقييم الجديد

أدخلت المؤسسة مقياسًا جديدًا في ARC-AGI-2: وهو مدى كفاءة النموذج في التعلم والتفاعل لحظيًا مع الأنماط.

وكتب الشريك المؤسس غريغ كامرادت:

الذكاء لا يعتمد فقط على حل المهام، بل على مدى الكفاءة والسرعة التي يتم بها ذلك. السؤال الأهم هو: ما تكلفة الوصول إلى هذا الحل؟

من النجاح إلى الفشل: أداء نموذج o3

تمكن نموذج o3 من OpenAI من التفوق على ARC-AGI-1 في ديسمبر 2024. سجل حينها 75.7% باستخدام نسخة منخفضة التكلفة. ولكن عند اختباره في ARC-AGI-2، انخفض أداؤه بشكل حاد إلى 4% فقط، رغم استهلاكه 200 دولار من الموارد الحاسوبية لكل مهمة.

دعوات متزايدة لتطوير معايير تقييم حقيقية

تزامن إطلاق ARC-AGI-2 مع دعوات من خبراء تقنيين لوضع معايير جديدة وأكثر دقة. صرّح المؤسس المشارك في Hugging Face، توماس وولف، بأن الصناعة تفتقر لاختبارات تقيس عناصر مثل الإبداع والمرونة.

تحدي Arc Prize 2025: أداء ذكي بتكلفة منخفضة

أطلقت المؤسسة مسابقة جديدة. تتحدى هذه المسابقة المطورين لتحقيق دقة تبلغ 85% في ARC-AGI-2، باستخدام 0.42 دولار فقط لكل مهمة.

شارك الان
Seraphinite AcceleratorOptimized by Seraphinite Accelerator
Turns on site high speed to be attractive for people and search engines.