مستقبل محفوف بالتخوفات.. ما الذي ينتظر نموذج "Sora" من "OpenAI"؟
منذ نحو عام ظهر فيديو مصنوع بالذكاء الاصطناعي للممثل الأمريكي ويل سميث. الفيديو -المُضحك للغاية والمثير للسخرية- تضمن الفنان الشهير وهو يأكل مكرونة السباغيتي بشراهة وبشكلٍ غير متحضر وهو يضحك بصوت غليظ. مثَّل المقطع مادة دسمة للسخرية، ليس من أي شيء بقدر ما هو من الذكاء الاصطناعي نفسه، وذلك بسبب "الجلتشات" وشكل الممثل وكل شيء آخر. مَن يرى ذلك الفيديو وقتها كان ليجزم باستحالة حدوث ما نراه اليوم بسبب نموذج "Sora"، والذي يستطيع صُنع فيديوهات لا يفصل بينها وبين الحقيقة سوى خط رفيع.
ما هو نموذج Sora؟
في وقت لاحق من فبراير الجاري أعلنت شركة OpenAI "مطور ChatGPT" عن نموذج ذكاء اصطناعي جديد، ولكن هذه المرة لإنشاء الفيديوهات وليس النصوص كما النموذج المذكور، أو الصور كما يستطيع نموذج DALL-E "من شركة OpenAI أيضًا" أن يفعل. هذا النموذج الجديد هو "Sora" وفكرة استخدامه لا تختلف عن أدوات الذكاء الاصطناعي ذائعة الصيت، حيث يتلقى أوامر المستخدمين النصية ويحولها إلى مُنتَج، ولكن نظرًا لأننا نتحدث عن مقاطع فيديو، فهناك شيء جديد هذه المرة فيما يتعلق بالأوامر "Prompts"، وهو أنها يمكن أن تكون صورًا أيضًا، وليست نصوصًا فحسب.
يعني ذلك أن نموذج "Sora" قادرٌ على فهم الصور الساكنة، وتحويلها إلى صورٍ متحركة أو فيديوهات، وعلى الرغم من أن هذا النموذج ليس متوافرًا للعامة إلى هذه اللحظة -لأسباب سنعرفها تباعًا-، فإننا على يقين بأن قدراته مخيفة ويستطيع صُنع فيديوهات يكاد يكون من المستحيل تمييزها عن الفيديوهات الحقيقية.
نقول ذلك لأن "OpenAI" شاركتنا أمثلة عديدة لفيديوهات صنعتها بنموذج "Sora"، ولإثبات موثوقية هذه الفيديوهات وأنها لم تصنعها بأي أداة أو وسيلة أخرى، تَلَقَت الشركة طلبات المتابعين على موقع "X"، وأنشأت الفيديوهات في وقت قياسي. وعلى ذكر الوقت، فالفيديوهات التي يُنشئها نموذج "Sora" لا تتخطى الدقيقة تقريبًا، وهذا طبيعي، فنحن ما زلنا في البداية؛ المهم أن جودة هذه الفيديوهات لا تكاد تُصدَق ولو أريتها لشخصٍ دون أن تُخبره أنها مُنشأة بواسطة الذكاء الاصطناعي فعلى الأرجح أنه لن يُلاحظ.
المُرفَق أدناه هو مثالٌ حيّ لفيديو مصنوع بواسطة نموذج "Sora". إذ نشر هذا الفيديو المدير التنفيذي لشركة "OpenAI"، سام ألتمان، على صفحته الرسمية بموقع "X" استجابةً لطلبِ مُتابعة تحمل اسم "Cate blight". الأمر "Prompt" المُستَخدم لصُنع هذا الفيديو كان:
“A instructional cooking session for homemade gnocchi hosted by a grandmother social media influencer set in a rustic Tuscan country kitchen with cinematic lighting”
ومضمونه بالعربية: جدة تقدم حصة طهي تعليمية على مواقع التواصل الاجتماعي لطريقة عَمَل وجبة النوكي الإيطالية. المقطع يجب أن يكون في مطبخ ريفي في إقليم توسكانا الإيطالي والإضاءة يجب أن تكون سينمائية.
اقرأ أيضًا: نموذج الذكاء الاصطناعي "Gemini".. خارق حقًا ولكن هل خدعتنا "غوغل"؟
مثلما نُشاهد، الفيديو باهر والذكاء الاصطناعي تمكن من استيعاب النص بأفضل طريقة ممكنة مُحولاً إياه إلى مقطع فيديو ببراعة منقطعة النظير. تقول "OpenAI" على موقعها الرسمي إن "Sora" يستفيد من "فهمه العميق للغة" حتى يُنشئ مقاطع فيديو مدتها دقيقة تتضمن شخصيات واقعية ولقطات متعددة.
تقول "OpenAI" أيضًا مستعرضةً قدرات النموذج: "يستطيع Sora أن يُنشئ مشاهد مُعقدة بشخصيات عدة، وبأنواع مُحددة للحركة، وبتفاصيل دقيقة للموضوع والخلفية. النموذج لا يفهم ما يطلبه النموذج فحسب، بل يفهم كذلك كيفية وجود هذه الأشياء في العالم المادي".
ولعل الفيديو الأشهر لنموذج "Sora"، الذي يؤكد على تصريحات الشركة فعلاً، هو ذلك الذي تظهر فيه سيدة يابانية ترتدي ملابس أنيقية وتسير بخطى ثابتة على طريق مرصوفٍ وسط اللافتات وانعكاسات الإنارات الواقعية على الطريق. اللافت أن النموذج الاصطناعي وصل إلى حد محاكاة الإضاءات نفسها، وبعيدًا عن بعض "الجلتشات" البسيطة وحركات الأشخاص الغريبة نوعًا ما في خلفية الفيديو، فإن مستواه مقارنة بفيديو "ويل سميث" المصنوع منذ سنة فقط هو شيء مُرعب.
ولمن يتساءل عن الأمر الذي صُنِعَ به هذا الفيديو فكان:
“Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.”
وملخصه بالعربية: "مدينة طوكيو الجميلة المغطاة بالثلوج تعج بالحركة والكاميرا تتبع حركة العديد من الأشخاص وهم يستمتعون بالطقس الثلجي الجميل ويتسوقون في الأكشاك القريبة عبر شارع المدينة الصاخب. كل هذا تطاير بتلات الساكورا الرائعة مع رقاقات الثلج".
التطبيقات الواعدة لنموذج Sora
إذا أخرجنا الذكاء الاصطناعي من الصورة، سنجد أن هناك طريقتان أساسيتان لصناعة الفيديوهات، إما بالتصوير المُباشر للأشياء والأشخاص في العالم الحقيقي، أو باستخدام المؤثرات البصرية وأدوات إنتاج الفيديوهات الخاصة، وكلا الأمرين مُكلف على مستوى المال والوقت. بالعودة إلى الذكاء الاصطناعي، وبالتحديد إلى "Sora"، سنكتشف أن المشكلتين المذكورتين لن يكون لهما أي وجود، وهذا أولاً.
ثانيًا، بناءً على الفيديوهات التي شاركنا إياها "سام ألتمان" و"OpenAI"، فإن أداة "Sora" تُمثل سلاحًا فتاكًا على مستوى صناعة الفيديوهات الإعلانية أو الترويجية، وعند ترقية النموذج ليكون قادرًا على صناعة فيديوهات مدتها أطول من دقيقة، وهذا سيحدث عاجلاً أم آجلاً، سيكون هناك عدد لا نهائي من الاحتمالات.
ثالثًا، بحسب ما أوردت "OpenAI" بنفسها في الورقة البحثية التي تناولت جانبًا من قدرات نموذج "Sora"، فإنه سيكون قادرًا على محاكاة العالم المادي والتقني وما يحدث بهما، بل وما يوجد بهما من أشخاص وحيوانات وخلافه.
يمكن لهذا الأمر أن يفيد البشرية بشكلٍ لا يوصف على مستوى التنبؤ بالأعاصير أو موجات التسونامي مثلاً، وهذا عن طريق محاكاة سيناريوهات مختلفة لهذه الكوارث على أصعدة متفاوتة، وهو الشيء الذي يقول بعض الخبراء بأنه صعب المنال، إذ يحتاج إلى حساب التفاعلات الفيزيائية والكيميائية في البيئة على أعلى مستوى وبأدق التفاصيل.
اقرأ أيضًا: من الذكاء الاصطناعي إلى الواقع الافتراضي.. أبرز التريندات التكنولوجية المنتظرة في 2024
الطريق أمام Sora ليس مفروشًا بالورود
السبب الذي لم تطرح "OpenAI" نموذجها الجبار "Sora" لأجله هو أنه يثير مخاوفًا تكاد لا توصف. تخيل أن يمتلك الجميع وصولاً مجانيًا إلى هذا النموذج، ما الذي يمكن أن يحدث وبخاصة إذا وضعنا تقنيةً مثل التزييف العميق "Deepfake" في الحسبان؟ بالطبع سيُساء استخدامه وقد تواجه الشركة قضايا تتسبب في حظر الأداة إلى الأبد.
لا ننسى أن استخدام "Sora" سهل ويمكن لأي شخصٍ أن يُنشئ أي فيديو يريده بسهولة وبكتابة كلمات معدودة. صحيح أنه كلما كانت الكلمات والوصف دقيقًا كان الفيديو أكثر واقعية، ولكن حتى الوصف الركيك قد يُنتِج فيديوهات شبه واقعية. هذا قد يُضيق الخناق على صناع المحتوى المرئي بالمناسبة.
شيء آخر يستحق التساؤل هو حقوق الملكية والمواد التي استخدمها "OpenAI" لتُدرب عليها نموذج "Sora"، فكما نعرف، تحتاج النماذج اللغوية الكبيرة "مثل ChatGPT" وأدوات إنشاء الصور والفيديوهات "مثل DALL-E وSora على الترتيب" إلى بيانات ضخمة تُدَرَّب عليها، وإلى الآن لم تكشف الشركة عن الطريقة والمصادر التي استعانت بها لتدريب "Sora" ما يجعلنا نسأل: هل تسرق الشركة حقوق الآخرين؟ ربما، خصوصًا وأن مجموعة من المؤلفين المشهورين قد قاضوا "OpenAI" بالفعل مُدعين أن الشركة قد أساءت استخدام موادهم ومجهوداتهم.
هذا وتعرف "OpenAI" جيدًا معظم التحديات التي تواجه "Sora"، وقالت بالفعل إنها تأخذ خطوات عديدة ومهمة في سبيل الأمان قبل أن تجعل النموذج متاحًا للجميع. الخطوات تتضمن العمل مع خبراء في "المعلومات المُضللة والمحتوى الضار والمليء بالانحيازات" وكذلك "بناء أدوات قادرة على كشف المحتوى المزيف".