رغم أن نماذج OpenAI الحديثة من السلسلتين o3 وo4-mini تمثل أحدث ما توصلت إليه تقنيات الذكاء الاصطناعي، إلا أن هذه النماذج تواجه مشكلة متزايدة:
الهلوسة المعلوماتية — أي اختلاق أو تقديم معلومات غير دقيقة — باتت أكثر تكرارًا مما كانت عليه في النماذج السابقة.
📌 التحدي المستمر: الهلوسة المعلوماتية
تُعد الهلوسة أحد أصعب التحديات في مجال الذكاء الاصطناعي، حتى مع الأنظمة الأعلى أداءً اليوم. ومع أن المعتاد في كل إصدار جديد أن تقل نسبة الهلوسة، إلا أن نموذجي o3 وo4-mini كسرا هذا النمط، حيث:
- سجل نموذج o3 معدل هلوسة بنسبة 33% عند اختباره على PersonQA (اختبار داخلي من OpenAI لقياس دقة معرفة النموذج عن الأشخاص).
- بالمقارنة، بلغت نسبة الهلوسة في نموذج o1 حوالي 16%، وo3-mini نحو 14.8% فقط.
- الأسوأ كان o4-mini، الذي هلوس في 48% من الحالات.
🔬 لماذا يحدث هذا؟
حتى الآن، لا تعرف OpenAI السبب الدقيق وراء تفاقم الهلوسة في هذه النماذج. وذكرت في تقريرها الفني أن:
“نحتاج إلى مزيد من الأبحاث لفهم سبب تفاقم الهلوسة مع تصعيد قدرات النماذج الاستنتاجية”.
رغم أن نماذج o3 وo4-mini تُظهر أداءً أفضل في مجالات مثل البرمجة والرياضيات، إلا أنها تقوم بإنتاج عدد أكبر من الادعاءات، مما يزيد من فرص إصدار معلومات دقيقة وأخرى مضللة في آن واحد.
📊 نتائج اختبارات مستقلة
أكدت اختبارات أجرتها مؤسسة Transluce غير الربحية أن نموذج o3 أظهر ميلًا لاختلاق خطوات أثناء “عملية التفكير”، مثل:
- الادعاء بأنه شغّل كودًا على جهاز MacBook Pro لعام 2021 خارج بيئة ChatGPT.
- بينما في الواقع، لا يملك النموذج القدرة على فعل ذلك.
وأوضح الباحث نيل شودري، وهو موظف سابق في OpenAI، أن نوعية التعلم المعزز المستخدمة قد تُضخّم من هذه الظواهر، التي غالبًا ما تُخفف من خلال خطوات ما بعد التدريب.
💡 التأثير على الاستخدام العملي
رغم هذه العيوب، يرى بعض المستخدمين مثل كيان كتانفروش، أستاذ بجامعة ستانفورد والرئيس التنفيذي لشركة Workera، أن نموذج o3 يقدم أداءً مميزًا في سير عمل البرمجة، لكنه:
يختلق روابط لمواقع إلكترونية لا تعمل عند النقر عليها.
هذا النوع من الأخطاء قد يكون مقبولًا في المجالات الإبداعية، لكن في القطاعات التي تتطلب دقة مطلقة مثل القانون، قد يصبح عائقًا رئيسيًا.
🌐 هل البحث عبر الإنترنت هو الحل؟
تقترح OpenAI أن إضافة إمكانيات البحث على الويب قد تحسن من دقة النماذج. على سبيل المثال، نموذج GPT-4o عند تمكين البحث:
- حقق دقة بنسبة 90% في اختبار SimpleQA.
- ما يعني أن دمج البحث قد يقلل من معدل الهلوسة — إذا قبل المستخدمون مشاركة مدخلاتهم مع طرف ثالث.
🚨 التحدي القادم
مع تحول الصناعة بشكل أوسع نحو نماذج التفكير المنطقي (Reasoning Models)، تتصاعد المخاوف من أن هذه النماذج، رغم كفاءتها، تُزيد من ظاهرة الهلوسة. وتقول OpenAI:
“العمل على تقليل الهلوسة في جميع نماذجنا هو مجال بحثي مستمر، ونسعى لتحسين الدقة والموثوقية باستمرار”.
لكن، إذا استمرت النماذج الأكبر في تقديم نتائج أقل دقة، فسيصبح إيجاد الحلول أكثر إلحاحًا من أي وقت مضى.