Home استخدام الباحثين لأسئلة “اللغز الأحدي” في NPR لاختبار نماذج الذكاء الاصطناعي

فبراير 18, 2025

استخدام الباحثين لأسئلة “اللغز الأحدي” في NPR لاختبار نماذج الذكاء الاصطناعي

يُعد برنامج “اللغز الأحدي” على إذاعة NPR، الذي يقدمه ويل شورتز، خبير الألغاز في نيويورك تايمز، واحدًا من أطول البرامج الإذاعية وأكثرها شهرة، حيث يتفاعل مع الآلاف من المستمعين في كل حلقة. على الرغم من أن الألغاز مصممة لتكون قابلة للحل دون الحاجة إلى معرفة متقدمة، إلا أن تحدياتها تظل صعبة حتى على المتسابقين المتمرسين.

هذا هو السبب في أن بعض الخبراء يرون أنها وسيلة واعدة لاختبار حدود قدرات الذكاء الاصطناعي في حل المشكلات.

في دراسة حديثة، قام فريق من الباحثين من كلية ويلسلي، وكلية أوبرلين، وجامعة تكساس في أوستن، وجامعة نورث إيسترن، وجامعة تشارلز، والشركة الناشئة “كورسور” بتطوير معيار اختبار للذكاء الاصطناعي باستخدام الألغاز التي ظهرت في حلقات “اللغز الأحدي”. ووفقًا للفريق، كشفت هذه الدراسة عن نتائج مفاجئة، مثل أن نماذج التفكير مثل o1 من OpenAI قد “تستسلم” أحيانًا وتقدم إجابات تعرف أنها خاطئة.

ويقول أرجون جوا، عضو هيئة التدريس في علوم الكمبيوتر بجامعة نورث إيسترن وأحد المشاركين في الدراسة: “أردنا تطوير معيار يتضمن مشكلات يمكن للبشر فهمها باستخدام المعرفة العامة فقط”.

المعضلة في معايير الذكاء الاصطناعي

في الوقت الحالي، تواجه صناعة الذكاء الاصطناعي مشكلة في المعايير القياسية. معظم الاختبارات التي تُستخدم لتقييم نماذج الذكاء الاصطناعي تركز على مهارات متقدمة مثل الأسئلة الرياضية والعلمية على مستوى الدكتوراه، وهي ليست ذات صلة بالمستخدم العادي. بينما، بعض المعايير الحديثة قريبة من نقطة التشبع.

المزايا التي يقدمها اختبار مثل “اللغز الأحدي” هي أنه لا يتطلب معرفة متخصصة، كما أن التحديات مصاغة بطريقة تمنع النماذج من استخدام “الذاكرة الآلية” لحلها.

ويشرح جوا: “ما يجعل هذه المشكلات صعبة هو أنه من الصعب تحقيق تقدم حقيقي حتى تحل المشكلة بشكل كامل — عندها فقط يتضح كل شيء فجأة”.

حدود معيار الاختبار

بالطبع، لا يوجد معيار مثالي. يظل “اللغز الأحدي” موجهًا إلى الجمهور الأمريكي ومقتصرًا على اللغة الإنجليزية. ومن الممكن أن تتمكن النماذج المدربة على هذه الألغاز من “الغش” في بعض الحالات، لكن جوا يقول إنه لم يرَ دليلًا على ذلك.

وقد أظهرت الدراسة أن نماذج التفكير مثل o1 وR1 من DeepSeek تفوقت على باقي النماذج. إذ تتمتع هذه النماذج بقدرة على التحقق الذاتي من الإجابات مما يساعدها على تجنب الأخطاء الشائعة.

نتائج واعدة للنماذج المتفوقة

النموذج الأكثر أداءً في اختبار “اللغز الأحدي” هو o1، الذي حصل على 59%، يليه نموذج o3-mini بنسبة 47%. فيما حصل نموذج R1 على 35%.

ويخطط الباحثون لتوسيع اختبارهم ليشمل نماذج تفكير أخرى، على أمل تحديد المجالات التي يمكن تحسينها.

ويقول جوا: “لا تحتاج إلى شهادة دكتوراه لتكون جيدًا في التفكير، لذا من الممكن تصميم معايير لا تتطلب معرفة عالية المستوى”.

شارك الان

قبل