...

هذا الأسبوع في الذكاء الاصطناعي: هل ينبغي أن نتجاهل معايير تقييم الذكاء الاصطناعي مؤقتًا؟

شهد هذا الأسبوع إطلاق شركة xAI، المملوكة للملياردير إيلون ماسك، أحدث نماذجها الرائدة في الذكاء الاصطناعي Grok 3، والذي يشغل تطبيقات الدردشة الذكية للشركة. تم تدريب هذا النموذج على نحو 200,000 وحدة معالجة رسومية (GPU)، متفوقًا على العديد من النماذج الرائدة الأخرى، بما في ذلك تلك الخاصة بـ OpenAI، في مجالات مثل الرياضيات والبرمجة. لكن يبقى السؤال: ما مدى موثوقية هذه المعايير؟

في كثير من الأحيان، نتعامل في TechCrunch بتحفظ عند نشر نتائج المعايير القياسية (Benchmarks)، كونها واحدة من القواعد القليلة الموحدة نسبيًا لتقييم تحسن النماذج. لكن هذه المعايير غالبًا ما تختبر معرفة نظرية متخصصة، وتقدم نتائج إجمالية لا تعكس بالضرورة الأداء الفعلي للنماذج في المهام التي تهم المستخدمين العاديين.

تشكيك في معايير التقييم التقليدية

أشار البروفيسور إيثان موليك من جامعة وارتن، في سلسلة منشورات على منصة X، إلى الحاجة الملحة إلى اختبارات أكثر دقة وهيئات مستقلة لتقييم الذكاء الاصطناعي. فغالبًا ما تعلن الشركات عن نتائج المعايير بنفسها، مما يجعل من الصعب تصديقها دون تحفظ.

وقال موليك: “المعايير العامة أصبحت مُشبعة وغير دقيقة، مما يجعل تقييم الذكاء الاصطناعي أشبه بتقييم الأطعمة بناءً على التذوق الشخصي. إذا كان الذكاء الاصطناعي عنصرًا أساسيًا في العمل، فنحن بحاجة إلى مقاييس أفضل”.

محاولات لتحسين معايير الذكاء الاصطناعي

هناك العديد من الاختبارات المستقلة والمنظمات التي تسعى إلى تقديم معايير جديدة، لكن مدى فعاليتها لا يزال محل جدل في الأوساط التقنية. يقترح بعض الخبراء مواءمة المعايير مع التأثير الاقتصادي لضمان فائدتها، بينما يرى آخرون أن الاعتماد الفعلي للنماذج وفائدتها العملية هما المعياران الحقيقيان.

ومع استمرار هذا الجدل، ربما يكون الحل الأفضل، كما يقترح المستخدم Roon على منصة X، هو تقليل الاهتمام بالمعايير الجديدة إلا في حال تحقيق تقدم تقني كبير، حفاظًا على سلامتنا العقلية من دوامة تقييمات الذكاء الاصطناعي.


أخبار بارزة في الذكاء الاصطناعي

🔹 OpenAI تحاول “إلغاء الرقابة” عن ChatGPT: تعمل OpenAI على تغيير نهج تطوير الذكاء الاصطناعي لديها، لتعزيز “حرية الفكر” حتى في القضايا الشائكة.

🔹 إطلاق شركة Mira الجديدة: أطلقت المديرة التقنية السابقة لـ OpenAI، ميرا موراتي، شركة Thinking Machines Lab، لتطوير أدوات تجعل الذكاء الاصطناعي أكثر توافقًا مع احتياجات الأفراد.

🔹 Grok 3 يدخل الساحة: أعلنت xAI عن إطلاق نموذجها الجديد Grok 3، مع ميزات متطورة جديدة لتطبيقاتها على iOS والويب.

🔹 مؤتمر LlamaCon الأول من ميتا: تستعد Meta لاستضافة مؤتمرها الأول المتخصص في الذكاء الاصطناعي التوليدي في 29 أبريل.

🔹 أوروبا تسعى إلى سيادة رقمية عبر الذكاء الاصطناعي المفتوح: أطلق ائتلاف من 20 منظمة مشروع OpenEuroLLM لتطوير نماذج ذكاء اصطناعي شفافة تحافظ على التنوع اللغوي والثقافي الأوروبي.


ورقة بحثية مميزة هذا الأسبوع

كشفت OpenAI عن SWE-Lancer، وهو معيار جديد مصمم لتقييم مهارات البرمجة لدى نماذج الذكاء الاصطناعي. يضم المعيار أكثر من 1,400 مهمة هندسية برمجية تتراوح بين إصلاح الأخطاء البرمجية وتنفيذ ميزات جديدة.

وفقًا لـ OpenAI، فإن أفضل نموذج أداءً في هذا المعيار، Claude 3.5 Sonnet، حقق نسبة نجاح 40.3%، مما يشير إلى أن الذكاء الاصطناعي لا يزال أمامه طريق طويل في هذا المجال.


نموذج الذكاء الاصطناعي لهذا الأسبوع

أطلقت شركة Stepfun الصينية نموذج ذكاء اصطناعي جديدًا Step-Audio، قادرًا على فهم وإنتاج الصوت بعدة لغات، بما في ذلك الصينية والإنجليزية واليابانية. يتيح النموذج تعديل العاطفة واللهجة وحتى إنشاء أصوات غنائية.

يأتي هذا النموذج ضمن سلسلة من النماذج المفتوحة المصدر التي تطورها الشركات الصينية، حيث جمعت Stepfun تمويلًا بمئات الملايين من الدولارات من مستثمرين، من بينهم شركات استثمار حكومية صينية.


ملف متنوع: نموذج DeepHermes-3

أطلقت مجموعة Nous Research نموذجًا جديدًا يسمى DeepHermes-3 Preview، وهو أحد أوائل النماذج التي توحد بين القدرات اللغوية والاستدلال المنطقي. يتميز النموذج بقدرته على التفكير بعمق في المشكلات الصعبة وتحليل خطواته للوصول إلى الإجابة.

من المتوقع أن تطلق Anthropic و OpenAI نماذج مماثلة قريبًا، حيث بدأت الشركات في التركيز على تعزيز قدرات التفكير والتحليل في نماذجها المستقبلية.

شارك الان
Seraphinite AcceleratorOptimized by Seraphinite Accelerator
Turns on site high speed to be attractive for people and search engines.