تفاصيل جديدة حول الطريقة التي تدرب بها نموذج GPT-4
مؤخرًا، ذكرت صحيفة "وول ستريت جورنال" أن شركات الذكاء الاصطناعي واجهت عوائق لجمع البيانات المُتطلبة لتدريب أدوات الـ AI. بالأمس، أكملت "نيويورك تايمز" القصة مُتحدثة عن بعض التفاصيل التي أُثيرت عليها علامات الاستفهام.
استخدام محتوى YouTube لتدريب GPT-4
بحسب "نيويورك تايمز"، فإن OpenAI (مطور ChatGPT) طورت نموذجًا لنسخ الصوت يُسمى Whisper، وباستخدامه، قامت بجمع بيانات أكثر من مليون ساعة من مقاطع YouTube لتدريب نموذجها الأخير المدفوع (GPT-4).
تقول الصحيفة إن شركة OpenAI كانت تعلم أن هذا الأمر مشكوكٌ فيه من الناحية القانونية، ومع ذلك فعلته، مُدعيةً أن رئيس الشركة جريغ بروكمان شارك بنفسه في جمع البيانات من هذه الفيديوهات.
ليندساي هيلد، المتحدثة باسم OpenAI، قالت لموقع "The Verge" إن الشركة تُخصص مجموعات بيانات "فريدة" لكل نموذج من نماذجها "لمساعدتها على فهم العالم" وضمان الحفاظ على قدرتها التنافسية البحثية العالمية، كما أفادت أن الشركة تستخدم "مصادر عديدة بما في ذلك البيانات المتاحة للجمهور" لإنشاء تركيبتها الخاصة من البيانات.
وذكرت مقالة "نيويورك تايمز" أن OpenAI لم تُدرب نماذجها على بيانات YouTube فحسب، وإنما استخدمت مصادر أخرى مثل "البودكاست"، والكتب الصوتية، وأكواد البرمجة من GitHub، وقواعد البيانات لحركات الشطرنج، وحتى محتوى موقع Quizlet التعليمي.
اقرأ أيضًا: "جيل زد" ينبذ نصائح الخبراء ويستبدلها بـChatGPT
من جانبه، أفاد المتحدث باسم Google مات براينت لـ "The Verge" إن شروط خدمة الشركة "تحظر النسخ غير المصرح به أو تنزيل محتوى YouTube"، مُرددًا شروط الاستخدام، وهذا شبيهٌ بما أكده الرئيس التنفيذي لـ YouTube نيل موهان، الذي طرح احتمالية استخدام OpenAI لموقع البث الشهير لتدريب نموذج Sora الخاص بإنشاء الفيديوهات بالذكاء الاصطناعي.
كونها مالك YouTube وعددًا من أدوات الذكاء الاصطناعي هي الأخرى، استفادت Google من محتوى المنصة بالاتفاق مع مُنشئي المحتوى لتدريب نماذجها، وهذا وفقًا لما أوردته مصادر "نيويورك تايمز"، التي قالت إن الإدارة القانونية في Google طلبت من فريق الخصوصية بالشركة أن يُعدل سياسات استخدام بيانات المُستهلكين.
هذا وتواجه OpenAI الكثير من الإشكالات القضائية وغيرها، فصحيفة "نيويورك تايمز" نفسها كانت قد رفعت دعوى قضائية على شركات الذكاء الاصطناعي، وأبرزها مطور ChatGPT وMicrosoft، بحجة انتهاك حقوق الملكية قائلةً إن قيمة هذه الحقوق قد تصل إلى مليارات الدولارات.
شاهد أيضًا: