اختبار AGI جديد يُربك أقوى نماذج الذكاء الاصطناعي في العالم

طورت مؤسسة Arc Prize، التي أسسها الباحث البارز فرانسوا شوليه، اختبارًا جديدًا يُقيس الذكاء العام لنماذج الذكاء الاصطناعي.

شارك الان

طورت مؤسسة Arc Prize، التي أسسها الباحث البارز فرانسوا شوليه، اختبارًا جديدًا يُقيس الذكاء العام لنماذج الذكاء الاصطناعي.

هذا الاختبار الجديد، المعروف باسم ARC-AGI-2، تسبب في إرباك معظم النماذج المتقدمة التي فشلت في تحقيق نتائج عالية.

نتائج ضعيفة لأشهر النماذج: GPT-4.5 وClaude 3.7 وGemini 2.0

بحسب بيانات لوحة Arc Prize، لم تتجاوز نماذج الاستدلال مثل o1-pro من OpenAI وR1 من DeepSeek نسبة 1.3% في الأداء. بينما حصلت نماذج قوية غير استدلالية مثل GPT-4.5 وClaude 3.7 وGemini 2.0 Flash على نتائج تقارب 1% فقط.

يتضمن الاختبار ألغازًا مرئية، حيث يحتاج الذكاء الاصطناعي إلى التعرف على أنماط داخل مربعات ملونة، ثم إنشاء شبكة حل صحيحة. تعتمد الأسئلة على مشكلات جديدة، لا تشبه أي من بيانات التدريب السابقة.

البشر يتفوقون بوضوح

اختبرت المؤسسة أكثر من 400 شخص لتحديد أداء الإنسان. وأظهرت النتائج أن المشاركين حققوا متوسط 60% من الإجابات الصحيحة، وهو أفضل بكثير من أي نموذج ذكاء اصطناعي.

في منشور على منصة X (تويتر سابقًا)، قال شوليه إن ARC-AGI-2 يعكس بدقة أكبر ذكاء النماذج مقارنةً بالإصدار السابق. وأضاف أن هذا الاختبار يمنع النماذج من استخدام القوة الحاسوبية المفرطة، وهي نقطة ضعف في ARC-AGI-1.

“الكفاءة” عنصر أساسي في التقييم الجديد

أدخلت المؤسسة مقياسًا جديدًا في ARC-AGI-2: وهو مدى كفاءة النموذج في التعلم والتفاعل لحظيًا مع الأنماط.

وكتب الشريك المؤسس غريغ كامرادت:

“الذكاء لا يعتمد فقط على حل المهام، بل على مدى الكفاءة والسرعة التي يتم بها ذلك. السؤال الأهم هو: ما تكلفة الوصول إلى هذا الحل؟“

من النجاح إلى الفشل: أداء نموذج o3

تمكن نموذج o3 من OpenAI من التفوق على ARC-AGI-1 في ديسمبر 2024. سجل حينها 75.7% باستخدام نسخة منخفضة التكلفة. ولكن عند اختباره في ARC-AGI-2، انخفض أداؤه بشكل حاد إلى 4% فقط، رغم استهلاكه 200 دولار من الموارد الحاسوبية لكل مهمة.

دعوات متزايدة لتطوير معايير تقييم حقيقية

تزامن إطلاق ARC-AGI-2 مع دعوات من خبراء تقنيين لوضع معايير جديدة وأكثر دقة. صرّح المؤسس المشارك في Hugging Face، توماس وولف، بأن الصناعة تفتقر لاختبارات تقيس عناصر مثل الإبداع والمرونة.

تحدي Arc Prize 2025: أداء ذكي بتكلفة منخفضة

أطلقت المؤسسة مسابقة جديدة. تتحدى هذه المسابقة المطورين لتحقيق دقة تبلغ 85% في ARC-AGI-2، باستخدام 0.42 دولار فقط لكل مهمة.

شارك الان

#الذكاء_الاصطناعي #ARC_AGI2 #GPT_45 #اختبارات_الذكاء #فرانسوا_شوليه #OpenAI #Claude_3 #أخبار_التقنية #AGI #ذكاء_عام

قبل

Mahmoud

نشرت مايو 10, 2025

إقرأ التالي

مايو 10, 2025

📢 تحديث جديد من OpenAI يحسّن تجربة المحادثة الصوتية مع الذكاء الاصطناعي

أعلنت OpenAI عن تحديثات جديدة لوضع المحادثة الصوتية المتقدم في ChatGPT. التحديث يهدف إلى تحسين تجربة المحادثة، وجعل المساعد الصوتي أكثر تفاعلًا وأقل مقاطعة.

مايو 10, 2025

📊 منصة Plural تسهل إدارة مجموعات Kubernetes في مكان واحد

عندما كان سام ويفر نائب رئيس إدارة المنتجات في Unqork، أدرك أن الشركة بحاجة إلى طريقة أفضل لإدارة شبكة مجموعات Kubernetes الخاصة بها، والتي هي مجموعات من عقد الحوسبة. عندما لم تتمكن Unqork من العثور على أداة جاهزة، قررت تشكيل فريق مكون من 15 شخصًا لبناء منتج لإدارة Kubernetes. على الرغم من التكلفة العالية التي تجاوزت ملايين الدولارات، قال ويفر إن النظام الذي تم إنشاؤه كان "جيدًا فقط".