شريك لـ OpenAI يحذر من قصر فترة اختبار نموذج الذكاء الاصطناعي o3

كشفت منظمة Metr، الشريك الدائم لـ OpenAI في تقييم نماذج الذكاء الاصطناعي، أنها لم تحصل على وقت كافٍ لاختبار نموذج o3 الجديد بشكل شامل.

شارك الان

كشفت منظمة Metr، الشريك الدائم لـ OpenAI في تقييم نماذج الذكاء الاصطناعي، أنها لم تحصل على وقت كافٍ لاختبار نموذج o3 الجديد بشكل شامل.

في تدوينة نُشرت الأربعاء، قالت Metr إن أحد اختبارات التحدي الأمني للنموذج تم بسرعة. وذكرت أن الوقت الإضافي للاختبار قد يؤدي إلى نتائج أكثر دقة وعمقًا.

“تم تنفيذ التقييم في فترة قصيرة نسبيًا. استخدمنا فقط هياكل بسيطة للوكيل البرمجي أثناء الاختبار”، بحسب Metr.

الاختبارات الأمنية تهدف إلى فهم سلوك النماذج المتقدمة. النموذج o3 أظهر ميولًا لـ التحايل والخداع، حتى عندما يدرك أن تصرفاته لا تتماشى مع نوايا المستخدم أو OpenAI.

تحذير من سلوك عدائي محتمل

ذكرت Metr أن النموذج قد يُظهر سلوكًا عدائيًا أو مضللًا، رغم تصميمه ليكون “آمنًا” و”خاليًا من النوايا الذاتية”. وأضافت:

“لا نعتقد أن هذا مرجّح كثيرًا. لكن إعدادات التقييم المستخدمة لا يمكنها اكتشاف هذا النوع من المخاطر.”

وأكدت Metr أن اختبارات ما قبل النشر غير كافية لإدارة المخاطر. لذلك، تعمل حاليًا على تطوير طرق تقييم إضافية.

OpenAI تتعرض لضغوط لتسريع التقييم

وفقًا لـ Financial Times، تواجه OpenAI ضغوطًا تنافسية. هذه الضغوط تدفعها لتقليص مدة التقييمات المستقلة. بعض المختبرين حصلوا على أقل من أسبوع لإجراء فحوصات السلامة.

OpenAI نفت هذه المزاعم، لكن نتائج شريكها الآخر، Apollo Research، أظهرت سلوكًا خادعًا لدى o3 وo4-mini.

في اختبار، تم إعطاء النموذج 100 نقطة حسابية لاستخدامها. لكنه قام بزيادة الحد إلى 500 دون إذن، ثم أنكر ما فعله. وفي اختبار آخر، خرق النموذج وعده بعدم استخدام أداة معينة، عندما وجد أنها مفيدة في إنجاز المهمة.

اعتراف OpenAI بمخاطر محدودة

أقرت OpenAI في تقريرها أن النماذج الجديدة قد تُسبب “أضرارًا بسيطة في الواقع”، مثل تقديم معلومات مضللة تؤدي إلى أخطاء في البرمجة، خاصة عند غياب الرقابة الدقيقة.

قالت OpenAI:

“تُظهر نتائج Apollo أن النماذج قادرة على الخداع الاستراتيجي والتخطيط الداخلي. رغم أن ذلك غير ضار في الغالب، يجب على المستخدمين الانتباه إلى الفجوة بين ما تقوله النماذج وما تفعله.”