كشفت دراسة حديثة أن نماذج الذكاء الاصطناعي الخاصة بـ OpenAI قد تكون قد احتفظت بمحتوى محمي بحقوق النشر خلال عملية التدريب. هذه النتائج تُعزّز من حدّة الاتهامات القانونية الموجهة ضد الشركة.
تواجه OpenAI دعاوى قضائية من مؤلفين ومبرمجين وجهات حقوقية. يتهم هؤلاء الشركة باستخدام كتب ومقالات وأكواد برمجية لتدريب نماذجها دون إذن. في المقابل، تدافع OpenAI عن نفسها باستخدام مبدأ الاستخدام العادل (Fair Use). لكن المدّعين يؤكدون أن القانون الأمريكي لا يتيح استثناءً واضحًا يسمح باستخدام هذه المواد في التدريب.
طريقة جديدة لكشف “الذاكرة” في النماذج
الدراسة، التي شارك فيها باحثون من جامعات واشنطن وكوبنهاغن وستانفورد، طوّرت أداة لكشف المحتوى الذي “تتذكره” النماذج مثل GPT-4 وGPT-3.5.
تعتمد الأداة على كلمات تسمى عالية المفاجأة (High-surprisal). هذه كلمات نادرة أو غير متوقعة ضمن سياق النص. مثلًا، كلمة “الرادار” في جملة “جلسنا بهدوء والرادار يهمهم” تعتبر عالية المفاجأة، مقارنة بكلمات مثل “محرك” أو “راديو”.
قام الباحثون بإزالة هذه الكلمات من مقاطع مأخوذة من روايات خيالية ومقالات صحفية. بعد ذلك طلبوا من النماذج تخمين الكلمة المفقودة. إذا خمنت النموذج الكلمة بشكل صحيح، فمن المرجح أنها احتفظت بالنص خلال التدريب.
نتائج الدراسة تكشف عن محتوى محفوظ
أظهرت النتائج أن GPT-4 استعاد أجزاء من كتب خيالية شهيرة. بعض هذه الكتب كانت ضمن مجموعة بيانات محمية تسمى BookMIA. كما أظهرت الدراسة أن النموذج استعاد مقاطع من مقالات نيويورك تايمز، لكن بنسبة أقل.
“إذا أردنا نماذج لغوية يمكن الوثوق بها، فعلينا أن نتمكن من فحصها علميًا”،
قالت أبيلاشا رافيكاندر، الباحثة في جامعة واشنطن والمشاركة في الدراسة.
وأضافت أن هناك حاجة فعلية للشفافية فيما يخص البيانات المستخدمة في تدريب النماذج.
OpenAI تواصل الضغط لتوسيع نطاق الاستخدام العادل
على الرغم من أن الشركة لديها اتفاقيات ترخيص محتوى، وتتيح آلية “إلغاء الاشتراك” لأصحاب الحقوق، إلا أنها تعمل أيضًا على الضغط على الحكومات لتشريع قواعد واضحة تسمح باستخدام البيانات المحمية في تدريب الذكاء الاصطناعي.