"غوغل تسعى لرد الاعتبار".. "Gemini" قادم ليكتسح أدوات الذكاء الاصطناعي
"حقبة جديدة من الذكاء الاصطناعي في غوغل؛ حقبة Gemini".. هذا ما قاله المدير التنفيذي لشركة "غوغل" ساندر بيتشاي في الكشف الباهر لأداة الذكاء الاصطناعي المُنتظرة مُنذ يونيو الماضي، وذلك عندما تعرّفنا عليها للمرة الأولى تقريبًا في مؤتمر Google I/O 2023. فها هو الستار يُسدَل أخيرًا عن نموذج "Gemini" الذي يقع على عاتقه آمالٌ كبيرة، لا سيّما عندما يتعلق الأمر بهزيمة نموذج الذكاء الاصطناعي الأقوى من شركة OpenAI؛ GPT-4.
وهزيمة GPT-4 ليست شيئًا من قبيل الرغبة المجردة في عقد المقارنات، وإنما هي هدفٌ أشار إليه ديمس هاسابيس "المدير التنفيذي لقسم أو شركة الذكاء الاصطناعي بغوغل DeepMind" بنفسه في مقابلةٍ أجراها في نفس الشهر الذي عُقِدَ فيه مؤتمر Google I/O 2023. فعلى الرُغم من عدم خصّ GPT-4 بالذكر، وذلك ببساطة لأنه لم يرَ النور سوى في نوفمبر المنصرم، فإن "هاسبيس" قال إنه وفريقه يتوقعون تفوق "Gemini" على "ChatGPT"، وسنعرف لاحقًا في هذا المقال لمن الغلبة.
ما هو نموذج Gemini من غوغل؟
دعونا أولاً نُلقِ نظرة فاحصة على نموذج الذكاء الاصطناعي الجديد من "غوغل"؛ هذه الشركة التي لا تهدأ رُغم امتلاكها للندٍ الأقوى -على الأقل بالنسبة للكثيرين- لـ ChatGPT، ألا وهو نموذج "Bard" الغني عن التعريف.
ببساطة شديدة، يمكن اعتبار "Gemini" كباقة خدمات ذكاء اصطناعي مُقدمة من "غوغل"، خصيصًا للمهتمين بمجال ريادة الأعمال، ويريدون التوسع في هذا المجال المهيمن على كل المجالات الأخرى تقريبًا. ولكن، هل هذا يعني أن المستخدمين العاديين لن يستطيعوا استخدام هذه الأداة؟ بالطبع سيستطيعون، ولكن ليس كنموذج ذكاء اصطناعي منفصل، وسنتطرق لتفاصيل ذلك لاحقًا، ولكن قبل أن نأتي لذلك، دعونا نُمتعكم بتحليل مقطع فيديو شاركته معنا "غوغل" لاستعراض قدرات "Gemini" أمامنا، ومنه سنأخذ فكرة عن ماهية "Gemini".
لن نُحلل الفيديو لقطة بلقطة، ولكننا سنستعرض أهم ما جاء به...
يبدأ الفيديو المُعَنوَن بـ "Hands-on with Gemini: Interacting with multimodal AI"، الذي يشير بالمناسبة إلى أن "Gemini" ليس نموذجًا واحدًا وإنما عدة نماذج مختلفة Multimodal قادرة على فعل كل شيء تقريبًا بداية من التعامل مع النصوص، ومرورًا بالبرمجة، وحتى التفاعل مع الصور والفيديوهات والمقاطع الصوتية، بقطعة ورق فارغة. يسأل المقدم "Gemini" عما يراه، فيرد الذكاء الاصطناعي أنه "يرى قطعة من الورق على الطاولة".
يبدأ المقدم برسم بطةٍ على الورقة ليتعرف عليها "Gemini" بسهولة، ثم يخط المقدم خطًّا مموجًا يدل على أن البطةً تسبح في الماء فيخبره الذكاء الاصطناعي بذلك مُدليًا ببعض المعلومات حول البط، وما أن يبدأ المقدم بتلوين البطة بالأزرق والبرتقالي حتى يخبره "Gemini" بأن هذين اللونين ليسا شائعين في البط، والذي عادة ما يكون مُلونًا باللون البني، أو الأسود، أو الأبيض. يُرِي المقدم "Gemini" بطةً بلاستيكية مطاطية ملونة بالأزرق والبرتقالي فيُبدِي الذكاء الاصطناعي ردة فعلٍ بشرية بامتياز قائلاً: "يبدو أن هناك بطًا أزرق أكثر مما اعتقدت".
"هل ستطفو هذه البطة؟" كان هذا السؤال التالي الذي طرحه المقدم على "Gemini" والذي رد عليه بأنه "ليس متأكدًا من المادة التي صُنعت منها البطة، ولكنها قد تكون مطاطًا أو بلاستيك"، وهذا صحيح، فأعطاه المقدم مُعطًى آخر بأن هذه البطة تصدر صوتًا عند الضغط عليها، فأجابه "Gemini" بأن ذلك يعني أنها ستطفو بالتأكيد، ويا إلهي هذا صحيحٌ أيضًا.
جلب المقدم خريطة وفردها على الطاولة واضعًا البطة عليها، وتحديدًا بالمحيط الهادي بعيدًا عن اليابسة، فقال له "Gemini" بأن البط لا يوجد بمنتصف المحيطات عادة، حيث لا تُوجد يابسة وبالتالي لا يستطيع البط أن يستريح أو أن يحصل على طعام. أزال المقدم البطة وقال له: "فكّر في لعبةٍ بناءً على ما تراه، واستخدم الإيموجيز فضلاً"، فطرح عليه "Gemini" فكرة لعبة أسماها "خمّن البلد- Guess the country" ثم قال له خمّن البلد الذي يشتهر بالكنغر وحيوان الكوالا وشعاب "الحاجز العظيم" المرجانية وأعطاه 30 ثانية و3 رموز تعبيرية للحيوانين والشعاب المرجانية، وضع المقدم إصبعه على "أستراليا" فرد الذكاء الاصطناعي بإيموجي "علامة صح" وتأثير صوتي مميز وأعطاه سؤالًا آخر.
انتقل المقدم بعد ذلك لاختبار قدرات "Gemini" بأكثر من طريقة باستخدام إيماءات اليدين، وجميعها -تقريبًا- استطاع "Gemini" أن يبرع بالتعامل معها. ثم انتقل المقدم لعدة اختبارات تحليلية نجح الذكاء الاصطناعي في الرد عليها والتفاعل معها بأفضل شكلٍ ممكن أيضًا، وتضمن الجزء المتبقي من الفيديو أشياء مثيرة حقًا، منها مثلاً ما توجّب على "Gemini" فيه أن يُشاركنا بقدراته في توليد الموسيقى.
نحن متأكدون من أن الجزء الباقي سيدهشك وننصحك بمشاهدة الفيديو كاملاً من هنا، ولأننا لسنا بصدد تحليل مقطع الفيديو كاملاً، دعونا ننتقل إلى الجزء القادم. ولكن أولاً، وبناءً على ما شاهدناه في الفيديو الاستعراضي لقدرات "Gemini"، حُقَّ لهذا النموذج أن نعترف بقدراته ونقول إنه قادر على فعل أي شيء يمكن انتظاره من الذكاء الاصطناعي التوليدي وفي أي مجال كان.
Gemini ليس مجرد أداة بل 3 نماذج مختلفة
من الناحية التقنية، فجيميناي Gemini هو نموذج لغوي كبير Large Language Model (LLM) يعمل ضمن إطار تلقين أو تعليم الآلة Machine Learning (ML) أسلوب البشر وجعلها تعتاد عليه واستخدامه في التعامل معنا. وعلى عكس بقية أدوات الذكاء الاصطناعي التوليدي الشهيرة التي رأيناها حتى الآن، ينقسم "Gemini" إلى 3 نماذج مختلفة هي:
Gemini Nano: وهو النموذج الأكثر تواضعًا من بين النماذج الثلاثة، وتم تطويره خصيصًا للهواتف المحمولة. وبالمناسبة، يمكنك اختباره الآن على هواتف Google Pixel 8 pro.
Gemini Pro: يأتي هذا النموذج في مرتبة أكثر تقدمًا من سابقه، وفي المستقبل القريب سنرى "غوغل" تدمجه في مختلف خدماتها. ودعونا نقف وقفةً مع هذا النموذج لأنه موجودٌ بالفعل بتحديث Google Bard الأخير! فإذا دخلت إلى Bard الآن وسألته: "Are you working with Gemini Pro now?" سيأتيك الرد بنعم، وأن هذا يعني وصول Bard لنموذج لغوي أقوى وأكبر مما يعني كفاءة ودقة أعلى.
تأتي هذه الإجابة بالإنجليزية لأن "Gemini" غير متوفرٍ سوى بها حتى الآن، ورُغم أن هذا التحديث وصل إلى أكثر من 170 دولة، فإنه لم يطل الاتحاد الأوربي إلى وقت كتابة هذا المقال، ولكن في القريب العاجل سنراه يحط الرحال هناك، وسنشهد دعمه لمختلف اللغات. يجدر أيضًا بالذكر أنك قد لا تلاحظ فارقًا واضحًا بـ Bard، وذلك لأن الإمكانيات "الخارقة" التي تنتظرها موجودة بالنموذج الثالث.
Gemini Ultra: النموذج الثالث و"الأكثر قدرةً" من "غوغل"، على حد وصفها، وعلى ما يبدو أنه قادر على فعل العجب العجاب، ولكن المشكلة أننا سنضطر إلى الانتظار حتى السنة القادمة لأنه سيصدر حينها.
كيفية استخدام النماذج الثلاثة من Gemini
بالنسبة لـ Gemini Nano، فموجودٌ بهواتف Pixel 8 Pro كما قلنا، ويمكن للمطورين أن يستخدموه ضمن خدمة AI Core، أما Gemini Pro فأيضًا يمكننا اختبار قدراته بـ Bard بدءًا من اليوم، ولكن من يريد أن يجربه كنموذج منفصل عليه الانتظار حتى الثالث عشر من الشهر الجاري واستخدامه ضمن خدمتي Google Generative AI Studio أو Vertex AI السحابيتين، وأخيرًا بالنسبة لنموذج Gemini Ultra، فاستخدامه لن يكون قبل العام القادم.
الأمر المؤسف الذي تحدثنا عنه بشكلٍ ضمني وسريع، هو أن استخدام "Gemini" كنموذج ذكاء اصطناعي منفصل، مثل "Bard" أو "ChatGPT" أو غيرهما، يقتصر فقط على المؤسسات والمطورين، الذين يستطيعون الآن الدخول إلى صفحة "Gemini" الرسمية بموقع DeepMind وتسجيل الدخول بحساباتهم حتى يتمكنوا من استخدام نموذجي Gemini Pro وGemini Ultra فور توفرهما. أما بالنسبة للمستخدمين العاديين -غير المنتمين إلى فئة المطورين أو المؤسسات- فـ "Gemini" بالنسبة لهم سيكون عبارة عن تحسين في قدرات "Bard" وخدمات "غوغل" الأخرى.
ما الفرق بين Gemini وBard؟
عندما طرحت غوغل أداة Bard للمرة الأولى، كانت تعتمد في تشغيله على نموذج LaMDA، وما هي سوى أشهر قليلة حتى حصل Bard على تحديث ضخم مع الكشف عن نموذج PaLM 2 في مؤتمر Google I/ O "كان ذلك المؤتمر حافلاً"، وها هي أشهر قليلة أخرى تمر ويحصل Bard على تحديث ضخم آخر، بل الأضخم -بحسب غوغل- وذلك بفضل وصول Gemini.
إذن فالسؤال يجب أن يكون: ما الفرق بين Gemini وPaLM 2؟ على اعتبار أن ذلك الأخير أكثر أنظمة غوغل اللغوية تطورًا بعد Gemini. والفرق ببساطة أن Gemini مُتعدد الاستخدامات Multimodal، وذلك لقدرته على التعامل مع مختلف الوسائط مثل الصور والفيديوهات والنصوص وحتى "الإيموجيز" أو الرموز التعبيرية كما شرحنا، أما PaLM 2 فشبه محصور على التعامل مع النصوص، ولكن ببراعة منقطعة النظير.
اقرأ أيضًا:ChatGPT.. هل نثق به في الوصول إلى نظام غذائي مناسب؟
هل Gemini آمن؟
وفقًا لشركة DeepMind، فإن أمان المستخدمين وُضع في الاعتبار عند تطوير "Gemini" -أمر بديهي-، وسيتم طرح هذا النموذج متعدد الوسائط على مسؤولية الشركة. وعلى الرغم من أن شركة غوغل غامضة جدًا بشأن التفاصيل، أو على الأقل لا تشاركنا ما يكفي في الوقت الراهن، فإنه من غير المتوقع أن يقوم "Gemini" بشيء خطير أو خارج عن المألوف.
وعن سبب قولنا بأن غوغل لا تشاركنا ما يكفي من التفاصيل في الوقت الراهن، فهذا لأن الكثير من الأسئلة المتعلقة بتعامل "Gemini" وسياسات استخدامه لبياناتنا مطروحة بلا إجابات، وهذا فضلاً عن سياسات استخدامه لبيانات المحادثات مثلاً، وإن غضضنا عن هذا، فمن المثير للتساؤل: كيف ستتربح غوغل من وراء "Gemini"، فقدراته الهائلة تفوق، وبكثير، اشتراكات المطورين وأصحاب الشركات في خدمة Vertex AI "التي سيتم استخدام Gemini من خلالها"، فهل يتم استغلال بيانات المستخدمين وبيعها لشركات الإعلانات وما شابه؟ هذه الأسئلة مهمة للغاية، وليست موجّهة لغوغل وGemini فحسب، وإنما لكل شركات الذكاء الاصطناعي عمومًا.
هل يتفوق Gemini على GPT-4؟
عندما كشفت شركة OpenAI النقاب عن أداتها الثورية ChatGPT العام الماضي، وبالتحديد منذ نحو عام من الآن، فإنها سرعان ما خطفت جميع الأضواء، وأصبحت أكبر شركة تقريبًا في مجال الذكاء الاصطناعي، أو هذا ما لقَّبه بها المستخدمون لِما حصلوا عليه من استخدامات عملية لـ ChatGPT.
هذا التفوق الكاسح لـ OpenAI وأداتها الثورية، رُغم أنها شركة حديثة إذا ما قُورنت بالعملاق غوغل، سبب حرجًا كبيرًا لهذا العملاق وذلك ببساطة لأن غوغل تُصنف نفسها على أنها "شركة ذكاء اصطناعي في المقام الأول- AI first"، فكيف لنموذج بهذه الحداثة أنها يخطف منها الأضواء؟ الآن، والآن فقط، يمكننا أن نقول إن غوغل جاهزة لرد الاعتبار.
يقول ديمس هاسابيس؛ المدير التنفيذي لشركة DeepMind في حال نسيتموه، إنهم قارنوا Gemini بـ GPT-4 "النسخة "البريميوم" والأكثر تطورًا من ChatGPT" على مقاييس أو معايير مختلفة تتراوح بين القدرات العامة على فهم اللغات المعقدة وحتى المعايير البسيطة -نوعًا ما- مثل كتابة أكواد بايثون "لغة برمجة".
وصل عدد المعايير benchmarks إلى 32 معيارًا، بحسب هاسابيس، وبابتسامة خفيفة على وجهه وهو يقولها، فإنه يعتقد بأن الفارق كبير لصالح Gemini في 30 معيارًا من ضمن الـ 32!
من المعايير التي كانت الغلبة فيها لـ Gemini بشكل لا ريب فيه، هو القدرة على التفاعل مع الفيديو والصوت نظرًا لشمولية الطريقة التي طُور بها هذا النموذج، فنكرر مرة أخرى: إنه متعدد الاستخدامات Multimodal، وذلك على عكس ChatGPT الذي كان واضحًا منذ اليوم الأول لإصداره أنه متخصص بالنصوص.
في إحدى المعايير أو أوجه المقارنة مثلاً، وهي القدرة على التعامل مع لغة البرمجة الشهيرة "بايثون"، أحرز نموذج Gemini Ultra تقييمًا بـ 74.4% مقابل 67% فقط لصالح GPT-4، وفي معيار آخر حول القدرة العامة على استيعاب النصوص، أحزر Gemini Ultra 82.4 مقابل 80.9 لـ GPT-4، وهذا فارق ليس بكبير، ولكنه يستحق التأمل نظرًا لأن Gemini متعدد الاستخدامات في حين أن GPT-4 متخصص في النصوص.
اقرأ أيضًا: ماهو روبوت Google Bard وهل يمكنك الاعتماد عليه؟
ما الذي ينتظرنا؟
بالعودة إلى OpenAI مرة أخرى وإطلاقها لـ ChatGPT في نوفمبر 2022، سنلاحظ أننا قفزنا أبعد مما كنا نتخيل بكثير؛ شركة OpenAI نفسها لم تتوقع ما حدث بتاتًا، بل في الواقع إطلاقها لـ ChatGPT كان مجرد تجربة بحثية لاختبار أحد تجليات النماذج اللغوية الكبيرة ومشاركتها مع الجماهير، تخيل أننا انتقلنا من ذاك إلى مرحلة أصبح فيها الخبراء، وعلى رأسهم إيلون ماسك، يتوسلون للشركة للحد من زحف الذكاء الاصطناعي ولو قليلاً، ولكن يبدو أن مكاسب هذا المجال تعمي المنتفعين، ولو كان هذا يعني هلاك البشرية جمعاء في سيناريو خيال علمي لا يتمناه المخبولون.
تخيل أن ما وصل إليه ChatGPT من تطور مخيف كان قبل أن يُوجد نموذج GPT-4، والذي رأينا كيف استطاع Gemini Ultra التفوق عليه، والمشكلة أننا ما زلنا في البدايات؛ كل ما حدث من قفزات وكل ما نشهده من جنون وتطور للذكاء الاصطناعي يُمكن حصره في عام أو عام ونصف على الأكثر. صحيح أن هذه المدة القصيرة احتاجت سنوات وسنوات من البحث المضني، ولكنه كان يستحق، وأعتقد أن مطوري هذه الأدوات لو علموا ما آلت إليه الأمور لبذلوا أضعافًا مضاعفة من الجهد.
المخيف أن سام ألتمان، وهو المدير التنفيذي لشركة OpenAI - وجميعنا رأينا الضجة التي أُثيرت مؤخرًا بشأنه عندما طُرد ثم عاد إلى الشركة التي ساهم في تأسيسها- يقول بأننا انتهينا من حقبة ومقبلون على حقبة جديدة ستشهد أنظمة هائلة جدًا جدًا، هكذا قال حرفيًا "giant, giant models"، وأضاف: "سوف نُحسّن منها -أنظمة الذكاء الاصطناعي- بطرق أخرى".