لإنشاء النصوص والصوت والصور والفيديوهات.. نبذة عن أشهر أدوات الذكاء الاصطناعي
ظهر ChatGPT على الساحة رسميًا في 30 نوفمبر 2022، ومنذ ذلك الحين ونماذج أو "بوتات" الذكاء الاصطناعي التوليدي GenAI لا تنفك عن الظهور والتطور المستمرين؛ في البداية كانت مُقتصرة على إنشاء النصوص فقط، ثم أصبحت قادرة على إنشاء الصور، والآن بات بإمكان بعض هذه النماذج أن تصنع فيديوهات، بل حتى أفلام كاملة، وكل ذلك بمجرد كتابة الأوامر النصية text prompts.
فعن أي نماذج نتحدث تحديدًا، أو بصيغة أخرى: ما هي أشهر نماذج الذكاء الاصطناعي الموجودة على الساحة؟ نُجيب على ذلك مستشهدين بأشهر النماذج التي تُنشئ النصوص، ثم نماذج إنشاء الصور، ومنهم إلى نماذج الصوت، وأخيرًا تلك التي تصنع الفيديوهات بالذكاء الاصطناعي التوليدي، وإليكم نبذة سريعة عن أشهرهم.
نماذج الذكاء الاصطناعي لإنشاء النصوص
ChatGPT
يمكننا أن ننسب الفضل في شهرة الذكاء الاصطناعي وإتاحته للجميع لشركة OpenAI ونموذجها الاستثنائي ChatGPT، الذي يمكن أن نُعرفه على أنه "بوت" دردشة يعمل بالذكاء الاصطناعي التوليدي لمعالجة اللغة الطبيعية، مما يعني أنه يفهم لغة الإنسان ويتعامل معها بسهولة. (ينطبق ذلك على جميع النماذج الأخرى التي سنذكرها لاحقًا).
يعمل ChatGPT بنموذج Freemium، مما يعني أنه متاح للاستخدام العام "مجانًا"، ولكنه أيضًا يقدم نسخة مدفوعة تتمتع بميزات أكثر وأداء أفضل. حتى وقت كتابة هذا المقال، تُعرف النسخة المجانية من ChatGPT بـGPT-3.5، في حين يُعرف النسخة المدفوعة بـ GPT-4.
الفرق الأساسي بين النظامين يكمن في أن حجم البيانات التي يدرب عليها GPT-4 يفوق حجم بيانات GPT-3.5 بحوالي 10 مرات تقريبًا. كما أن GPT-4 يستوعب النصوص والصور كمدخلات وينتجها كمخرجات، وهذا بفضل قدرته على تحليل المعلومات المتعددة الوسائط (Multimodal)، على عكس النظام المجاني الذي غالبًا ما يكون قادرًا فقط على فهم النصوص. بالإضافة إلى ذلك، يُلاحظ أن GPT-4 أدق ويمكنه أيضًا إنتاج الموسيقى.
جدير بالذكر أن الشركة التي طورت ChatGPT (شركة OpenAI) هي أحد أبرز شركات الذكاء الاصطناعي في الوقت الحالي، وتستفيد من دعم ميكروسوفت بشكل كبير؛ فقد بدأت ميكروسوفت بالاستثمار فيها بمليار دولار في عام 2019، ثم أتبعت ذلك بـ 10 مليارات دولار، ويُقدر الآن حجم استثمارات ميكروسوفت في مطور ChatGPT بنحو 13 مليار دولار أو أكثر.
ويتمتع ChatGPT بقدرة على الإجابة على الأسئلة الموجهة له بطريقة تشبه البشر، ولكن ردوده محدودة بتاريخ معين؛ ففي نسخة GPT-4، يعود تاريخه لأبريل 2023، بينما في النسخة المجانية يعود تاريخه ليناير 2022، وذلك ببساطة لأن نموذج ChatGPT لا يمتلك القدرة على الوصول إلى الإنترنت.
Copilot (سابقًا Bing Chat)
شركة ميكروسوفت تمتلك نموذجًا خاصًا بها من الذكاء الاصطناعي يُشبه ChatGPT، ويُدعى Copilot، حيث يعمل بنموذج GPT-4 Turbo (الإصدار المطور من GPT-4). وبالفعل، يُعتبر Copilot بديلاً ممتازًا لمن يرغب في استخدام أداة OpenAI المدفوعة دون الحاجة إلى دفع رسوم الاشتراك المُقدرة بـ20 دولارًا شهريًا.
عندما تم الكشف عن نموذج Copilot للمرة الأولى في فبراير 2023، كان يُعرف باسم Bing Chat، ولكن ميكروسوفت قررت تغيير العلامة التجارية وإعادة تسويقه تحت اسم Copilot.
يتميز نموذج Copilot عن ChatGPT بقدرته على الوصول إلى الإنترنت، مما يعني أنه يمكنه الرد على أي استفسار مهما كان حديثًا. بالإضافة إلى ذلك، يمكن للمستخدمين استخدام النسخة المجانية من Copilot لإنشاء الصور أو المقاطع الموسيقية بسهولة باستخدام الأوامر النصية (text prompts).
Google Gemini
بالفعل، مثلما امتلكت شركتا OpenAI وميكروسوفت نموذجًا للذكاء الاصطناعي يُشابه ChatGPT، امتلكت Google نموذجًا مماثلًا يُدعى Bard. لكن لاحقًا، قامت Google بتغيير اسم النموذج من Bard إلى Gemini وشغّلته بنموذج Gemini Pro. وقد قامت Google بتقديم ثلاثة إصدارات مختلفة من نموذج Gemini، وهي Gemini Nano (للهواتف المحمولة)، وGemini Pro (نسخة تطويرية للحواسيب)، وGemini Ultra (النموذج الأكثر تطورًا).
تُجرى المقارنات عادةً بين Gemini Pro وGPT-3.5، بينما تُقارن Gemini Ultra (النسخة المدفوعة) بـ GPT-4.
يُشابه نموذج Gemini نظيره GPT-3.5 في الاستخدام، لكنه يمتاز بالقدرة على الوصول إلى الإنترنت، بالإضافة إلى ميزات مثل "الإضافات" التي تتيح له الوصول إلى حساباتك على خدمات Google المختلفة مثل Gmail وYouTube واستخلاص المعلومات المهمة منها.
تُحسب لـGemini جودة ردوده العربية بشكل أفضل بعض الشيء من GPT-3.5، على الرغم من أن GPT-3.5 قد يتفوق في بعض الجوانب الأخرى مثل تلخيص النصوص.
Perplexity
إذا كنت باحثًا أو تسعى للتحقق من دقة المعلومات وصحتها، فقد تجد أن النموذج اللغوي الكبير LLM هو ما تبحث عنه. يعمل Perplexity بنفس طريقة عمل GPT-3.5، حيث يتعامل مع النصوص فقط ويستطيع الوصول إلى الإنترنت. وما يميز Perplexity هو قدرته على تحديد نوع المصادر التي ترغب في البحث فيها.
يوفر Perplexity خمسة أنماط أو خيارات للبحث، وكل خيار يستخدم لغرض مختلف. الخيار الأول هو "All" ويستخدم للبحث العام على الإنترنت، بينما الخيار الثاني هو "Academic" ويستخدم للبحث الأكاديمي في الأوراق العلمية والمصادر الأكاديمية. أما الخيار الثالث "Writing"، فيتخصص في إنشاء النصوص توليديًا دون الاعتماد على الإنترنت.
ويُسمى الخيار الرابع "Wolfram|Alpha"، وهو مخصص لحل الواجبات المدرسية وغيرها من المهام ذات الطبيعة العلمية. أما الخيار الخامس فيُسمى "YouTube"، ويستخدم للبحث في موقع الفيديوهات الشهير. وأخيرًا وليس آخرًا، الخيار السادس "Reddit"، وهو يستخدم لاستكشاف المناقشات والآراء المختلفة والمواضيع العامة.
اللافت في هذا النموذج هو أنه يذكر مصادر المعلومات، وهذا شيء مهم جدًا، خاصةً أن "بوتات" الذكاء الاصطناعي قد تقدم إجابات في بعض الأحيان دون تحقق الدقة، فهي مبرمجة للرد على أي سؤال مهما كان، حتى لو كانت الإجابة خاطئة. بمعنى آخر، فإنها قد توفر إجابة دون أن توضح أنها غير معرفة بالمعلومة بشكل صحيح.
الجدير بالذكر أن Copilot يذكر المصادر أيضًا، ونفس الشيء يمكن قوله في حالة Gemini الذي يجعلك تتأكد من مصدر المعلومات إذا ضغطت على أيقونة الـ "Double-check response" التي تتخذ من تصميم جوجل شكلًا لها. ولكن بالمجمل، لا يضاهي نموذجٌ نموذجَ Perplexity في ذكر المعلومات والتخصص.
Claude
إذا قمنا بمقارنة هذا النموذج بما يمكن اعتباره مرجعًا لنماذج الذكاء الاصطناعي، وهو ChatGPT، سنجد أنه يتفوق عليه - وعلى بعض النماذج الأخرى - في عدة أمور، منها: قراءة وتلخيص وتحليل الملفات (مثل الـ PDF)، واستيعاب عدد أكبر من الكلمات، وامتداد قاعدة بياناته إلى ما بعد أبريل 2023 (تحديدًا حتى أغسطس 2023) في نموذج Claude 3، وأخيرًا وليس آخر الوصول إلى الروابط وتلخيصها، وإن كان سيهلوس في بعض الحالات كما تقول الشركة المطورة Anthropic.
You AI
بواجهةٍ تشبه ChatGPT يأتي النموذج السادس في هذه القائمة، والذي يمكن اعتباره كنزًا حقيقيًا لعدة أسباب. بدايةً، هناك نسختان منه، مجانية ومدفوعة (مثل جميع النماذج السابقة تقريبًا)، المجانية سريعة جدًا وتذكر المصادر وتحتفظ بالمحادثات وغير ذلك من المميزات التي تجعلها كافية بالنسبة للكثيرين.
أما النسخة المدفوعة، والتي تُسعر بـ 20 دولارًا عند الاشتراك في الخطة الشهرية و15 دولارًا في الخطة السنوية، فتأتي بمميزات مُبهرة مثل إمكانية استخدام GPT-4، وClaude 3، وGemini Pro، وغيرهم من النماذج الأخرى بدون حدود!
نماذج الذكاء الاصطناعي لإنشاء الصور
النوع الثاني من نماذج الذكاء الاصطناعي التي سنتحدث عنها هو تلك القادرة على إنشاء الصور بمجرد كتابة النصوص أو الأوامر Prompts. وعلى عكس بعض النماذج المذكورة أعلاه، فإن ما سنتحدث عنه هو أدوات متخصصة في إنشاء الصور وفقط.
Midjourney
إذا كان ChatGPT هو رائد نماذج الذكاء الاصطناعي في إنشاء النصوص، فـ Midjourney يقابله في إنشاء الصور، وإن كان البعض سيجادل في هذا الأمر بسبب ظهور نماذج أخرى أسهل في الاستخدام، وربما أفضل في النتائج.
ظهر Midjourney على الساحة في 2022 كنموذجٍ مجاني، ولكنه سرعان ما تحول إلى أداة مدفوعة بالكامل نظرًا لما يقدمه من صور عالية الدقة. يعتمد النموذج على ما يُسمى بالتعلم العميق Deep learning (أحد فروع الذكاء الاصطناعي) لإنشاء الصور، وأما طريقة عمله فتكون بإعطاء الأوامر النصية لوصف الصورة وهو سيترجم ذلك إلى عملٍ فني منقطع النظير.. حسب دقة الوصف بالطبع.
يمكننا أن نقول إن الطريقة الوحيدة لاستخدام Midjourney تكون من خلال "بوتٍ" على ديسكورد، إلا إذا أنشأت أكثر من 1000 صورة. وبشكلٍ عام، يسعى مطور هذه الأداة، والذي يُسمى ديفيد هولز David Holz، إلى الجمع بين نماذج الصور والفيديو التي تعمل بالذكاء الاصطناعي وإنشاء بيئات افتراضية بالكامل بمجرد كتابة النصوص.
DALL-E
ظهر هو الآخر في 2022، ويعد منافسًا مباشرًا لـ Midjourney وهو أحد ابتكارات الشركة الرائدة OpenAI. حسنًا، الإصدار الأول من هذا النموذج لم يكن يرتقي لمستوى Midjourney، ولكن مع الوقت، طورت الشركة من مستواه إلى أن صار أفضل مع نسخة DALL-E 2 ووصل إلى ذروته في الإصدار الثالث DALL-E 3.
الفرق بين DALL-E 2 و DALL-E 3 هو فرقٌ كبير نظرًا لأن النموذج لم يعد يعمل بمفرده، بل أصبح يعتمد بشكل أساسي على قدرات ChatGPT أيضًا مما جعل استخدامه أسهل ونتائجه أفضل. وكنتيجةٍ طبيعية لذلك، لم يعد النموذج مجانيًا كما كان؛ الطريقة الوحيدة لاستخدامه الآن تكمن في الاشتراك بالنسخة المدفوعة من ChatGPT.
Stable Diffusion
هو أكثر نماذج الذكاء الاصطناعي المستخدمة في إنشاء الصور مرونةً، فهو مفتوح المصدر بالكامل ما يعني أنك تستطيع تدريب نماذجك الخاصة باستخدام قاعدة بياناته لإنشاء الصور التي تريدها بالضبط. ما يعنيه ذلك أيضًا، وعلى عكس DALL-E وMidjourney، أنك تستطيع تحميل Stable Diffusion وتشغيله على حاسوبك.
غير طريقة التحميل المباشرة على الحاسوب، هناك طرق أخرى لاستخدام Stable Diffusion بشكل مباشر. لعل أسهلها هو استخدامه من خلال موقع Clipdrop؛ فقط ادخل إليه واختر Stable Diffusion من قائمة الأدوات التي ستجدها، وسيتيح لك كتابة الأمر Prompt والحصول على الصور التي تريدها بضغطة زر على الأمر "Generate".
Craiyon
أداة Craiyon هي أداة لطيفة، ومجانية، لإنشاء الصور باستخدام الذكاء الاصطناعي التوليدي أيضًا، وربما هي الأسهل وسط كل الأدوات التي ذكرناها. استخدام Craiyon لا يحتاج منك سوى كتابة اسمها في محركات البحث ثم الضغط على النتيجة الأولى.
إذا فعلت ذلك، ستجد نفسك داخل واجهة بسيطة وأنيقة تتوسطها خانة الأوامر، اكتب وصف الصورة التي تريدها، ثم حدد التوجه الفني Style، وأخيرًا اضغط على Draw. يُذكر أيضًا أن هذه الأداة لا تستخدم الذكاء الاصطناعي لإنشاء الصور فحسب، بل تستطيع أيضًا أن تقوم ببعض التعديلات الخفيفة مثل إزالة الخلفيات. ففي المجمل، إذا كنت تبحث عن أداة سهلة الاستخدام لإنشاء الصور سريعًا بالـ AI، فأداة Craiyon هي خيار جيد.
نماذج الذكاء الاصطناعي لتوليد الصوت
MURF.AI
انتقالًا إلى نوعٍ جديد من الوسائط التي تستطيع أدوات الذكاء الاصطناعي أن تُنشئها، وهو الصوت، سنجد أن أداة MURF.AI تبرع للغاية في تحويل النصوص إلى أصوات احترافية في دقائق معدودة. فكر في أي مهنة يلعب الصوت فيها دورًا مهمًا وأغلب الظن أنك ستجد ما تبحث عنه هنا.
تُقدم هذه الأداة شخصيات افتراضية يمكنها أن تقوم بالأداءات الصوتية لمختلف الوظائف بدايةً من المُسوّق Marketer وحتى المدربين في الشركات Corporate Coaches.
إذا لم تكن تعرف ما الذي نتحدث عنه إلى الآن، ففكرة هذا النموذج - والنموذج القادم - ببساطة تكمن في تحويل الأوامر النصية ليس إلى صورٍ، وإنما إلى أصوات هذه المرة، فالبعض لا يحب أن يصنع المحتوى بصوته والبعض الآخر كان يتمنى لو يمتلك صوتًا ذهبيًا ليعمل كمؤدٍ صوتي Voice Actor، وغير ذلك من الحالات التي يكون فيها استخدام هكذا نماذج فكرة سديدة.
Synthesia
يأخذ هذا النموذج فكرة إنشاء الصوت بالذكاء الاصطناعي إلى مستوى آخر تمامًا، فهو لا يُنشئ هذا النوع من الوسائط فحسب، بل يُنشئ شخصيات كاملة بالصوت والصورة ويعطيك حقوق استخدامها لتجعلها تتحدث بلسانك، أي وكأن هناك إنسانًا حقيقيًا تحت إمرتك.. يمكنك أن توظفه في أي شيء مُناسب، كأن يُقدم محتوى على يوتيوب مثلًا، والخبر السعيد.. تدعم هذه الأداة اللغة العربية!
مثلها مثل أداة Murf، تُقدم Synthesia خدماتها بشكلٍ مدفوع، فهناك خطتان أساسيتان للاشتراك، واحدةٌ بسعر 22 دولارًا في الشهر والأخرى تكلف 67 دولارًا شهريًا.. هناك خطة ثالثة بالمناسبة، ولكنها ليست للأشخاص وإنما للمؤسسات أو الأعمال وهذه يُحدد سعرها بالاتفاق.
قبل أن ننتقل إلى آخر ما سنتحدث عنه في هذا المقال، نريد التنويه إلى أنك تستطيع تخصيص شكل الأشخاص على Synthesia، ما يعني أنك تستطيع إنشاء شخصية مُحجبة على سبيل المثال، أو رجلٌ آسيوي، أو فتى ذو بشرة ملونة، وهكذا.
نماذج الذكاء الاصطناعي لإنشاء الفيديوهات
بإنشاء الفيديوهات هنا لا نقصد أن تقوم الأداة بإنشاء فيديو بسيط يُستخدم في صناعة المحتوى مثلًا كما تفعل أداة Synthesia، وإنما ما نقصده هو إنشاء فيديو ذو طابعٍ سينمائي كما لو كان مأخوذًا من الأفلام، أو حتى فيديو طبيعي لشخصية تسير في شوارع اليابان؛ المهم ألا يبدو الفيديو وكأنه موجه لصناعة المحتوى فقط كما هو الحال مع الأداة السابقة.
Sora
آخر الأدوات التي طورتها OpenAI، وهي أداة ثورية تقوم بتطبيق ما تحدثنا عنه بالضبط، فبكتابة أمرٍ نصيّ بسيط، يمكنك أن تُنشئ مقطعًا سينمائيًا يبدو وكأنه من ابتكار صناع فيديو محترفين ظلوا يعملون عليه لمدة أسبوعٍ أو ما شابه.
لتفهم ما نعنيه ألق نظرة على هذا الفيديو الذي شاركتنا إياه OpenAI عندما كشفت النقاب عن نموذج Sora. كما ترون، تظهر سيدة آسيوية وهي تسير بخطى واثقة في شوارع طوكيو المليئة بالألوان وأضواء النيون. نرى أيضًا أُناسًا في الخلفية يسيرون بحركات طبيعية كما نرى لافتات بالشارع، والأهم من كل هذا أننا نرى انعكاسات الأضواء على الأرض الرطبة كما لو كان الأمر واقعيًا.
سل نفسك: هل كنت ستلاحظ أن هذا الفيديو مصنوعٌ بالذكاء الاصطناعي إذا رأيته صدفة على مواقع التواصل؟ لاحظ أننا لا زلنا في البداية؛ نموذج Sora هذا هو نموذجٌ استثنائي لا يوجد له مثيل إلى الآن -تقريبًا- (أُعلن عنه منذ شهرين فقط تقريبًا)، لهذا لا عجب أنه غير متاحٍ للاستخدام العام نظرًا لأن OpenAI تخشى أن يتم استغلاله بطريقة خاطئة، وهذه مسألةٌ ليومٍ آخر.
ملحوظة: لا يستطيع نموذج Sora حتى الآن أن يُنشئ فيديوهات طويلة، إمكانياته محدودة عند الدقيقة أو نحو ذلك، ولكن هذا سيتغير في المستقبل لا ريب.
في النهاية، كانت هذه نبذة سريعة عن أشهر نماذج الذكاء الاصطناعي الموجودة على الساحة في الوقت الراهن.. فإذا كنت تبحث عن أفضل الأدوات لإنشاء النصوص أو الصور أو الصوت أو الفيديوهات، فضمن المذكور ستجد الجواب.