منظمة رقابية تؤكد: نموذج GPT-4o يحتوي على محتوى من كتب مدفوعة دون ترخيص
تشير دراسة جديدة إلى أن شركة OpenAI استخدمت كتبًا مدفوعة من منشورات O’Reilly لتدريب نموذجها الجديد GPT-4o، دون الحصول على إذن أو ترخيص رسمي.
تأتي هذه الادعاءات من منظمة “مشروع إفصاحات الذكاء الاصطناعي”، التي أسسها الإعلامي تيم أوريلي والاقتصادي إيلان شتراوس. تعتمد الدراسة على تحليل علمي يهدف إلى التحقق مما إذا كانت النماذج قد تدربت على محتوى محمي.
نماذج الذكاء الاصطناعي لا “تخترع”
تعمل نماذج الذكاء الاصطناعي مثل GPT بناءً على تحليل بيانات ضخمة من مصادر متنوعة، مثل الكتب والأفلام والمقالات. ثم تنتج محتوى جديدًا يحاكي تلك البيانات، لكنها لا تخلق أفكارًا أصيلة من الصفر.
ومع أن بعض الشركات بدأت باستخدام بيانات اصطناعية لتدريب نماذجها، إلا أن معظمها لا تزال تعتمد على مصادر واقعية. السبب يعود إلى أن البيانات الاصطناعية فقط يمكن أن تضعف جودة النموذج.
ما الذي كشفه التقرير؟
حلّل الباحثون قدرة GPT-4o وGPT-3.5 Turbo على “تمييز” نصوص مأخوذة من 34 كتابًا من O’Reilly. استخدموا أكثر من 13,000 فقرة لاختبار ما إذا كانت النماذج قد تعرفت على هذه النصوص.
ووجدوا أن GPT-4o تعرّف على نصوص محمية أكثر بكثير من GPT-3.5 Turbo، مما يشير إلى أنه تدرب على هذه الكتب، رغم أن OpenAI لا تملك أي ترخيص من O’Reilly Media.
كيف تم اكتشاف ذلك؟
اعتمدت الدراسة على طريقة علمية اسمها DE-COP، تستخدم لاختبار ما إذا كان النموذج يملك معرفة سابقة بنص معين. يتم ذلك عبر مقارنة ردود النموذج على نص بشري أصلي مقابل نسخة معاد صياغتها.
إذا استطاع النموذج التمييز بينهما بشكل دقيق، فهذا يعني غالبًا أنه تعرّف على النص الأصلي أثناء تدريبه.
OpenAI لم تعلّق حتى الآن
لم تُصدر OpenAI أي توضيح أو رد رسمي بشأن نتائج هذه الدراسة، مما يعزز من حالة الغموض المحيطة بممارساتها في جمع البيانات.
هل هذا دليل قاطع؟
لا. يشير الباحثون إلى أن النتائج ليست حاسمة. من المحتمل أن المستخدمين أنفسهم نسخوا فقرات من الكتب ولصقوها في ChatGPT، وهو ما قد يفسر وجود هذه البيانات في النظام.
كما أن الدراسة لم تشمل النماذج الأحدث مثل GPT-4.5 أو o3-mini، ما يفتح الباب لاحتمال عدم استخدام هذه الكتب في بعض النسخ الأخرى من النماذج.
مساعٍ للحصول على بيانات أفضل
تسعى OpenAI، مثل غيرها من شركات الذكاء الاصطناعي، إلى الحصول على محتوى عالي الجودة لتدريب نماذجها. وقد وظفت صحفيين وعلماء للمساهمة في تطوير النماذج، ضمن توجه عام في الصناعة لدمج خبرات بشرية مباشرة.
وتجدر الإشارة إلى أن الشركة أبرمت اتفاقيات ترخيص مع ناشرين ومنصات ومكتبات رقمية. كما تقدم آلية “انسحاب” للمحتوى المحمي، رغم أن فعاليتها لا تزال محدودة.
صراع قضائي متصاعد
تواجه OpenAI عدة دعاوى قضائية في الولايات المتحدة تتعلق باستخدام محتوى محمي دون موافقة. وتزيد هذه الدراسة من الضغوط الموجهة نحو الشركة.