GPT-4.5 يجتاز اختبار تورينج بنسبة 73% متفوقًا على البشر
في تطور يُعيد إحياء الجدل حول حدود الذكاء الاصطناعي، كشفت دراسة حديثة أن نموذج GPT-4.5 من OpenAI استطاع اجتياز اختبار تورينج بنسبة نجاح بلغت 73%، متفوقًا على البشر في بعض الحالات. هذا النجاح تحقق عندما زُوّد النموذج بتعليمات واضحة لتقمّص "شخصية رقمية"، ما عزز من قدرته على الإقناع والتفاعل البشري الطبيعي.
اختبار تورينغ في نسخة رقمية حديثة
اختبار تورينغ، الذي ابتكره عالم الرياضيات آلان تورينج في خمسينيات القرن الماضي، يُستخدم كمقياس رمزي لقدرة الآلة على محاكاة الذكاء البشري. أما في نسخته الجديدة، فقد شارك نحو 300 شخص في تجربة رقمية عبر الإنترنت، خاضوا فيها محادثات متعددة الأطراف بهدف تحديد من هو الإنسان ومن هو الروبوت.
روبوت «chat GPT» يحصل على ماجستير إدارة الأعمال بتقدير «جيد»
وخلال ثماني جولات من التفاعل، وُضعت نماذج لغوية – من بينها GPT-4.5 وLLaMA من Meta – تحت الاختبار أمام "محققين" بشريين، دون الإفصاح عن هوية المحاور.
شخصية النموذج تحسم النتيجة

أظهرت النتائج أن منح النموذج تعليمات واضحة لتقمّص شخصية معينة، مثل شاب ضليع في الثقافة الرقمية، رفع نسبة نجاحه إلى 73%، مقارنة بـ36% فقط في حال عدم تقديم شخصية. بل إن GPT-4.5 صُنف على أنه "أكثر بشرية" من الإنسان الفعلي في بعض المحادثات.
تحذير للمُبدعين.. «Chat GPT 4» يؤلف كتابًا في يوم وينتج أفلامًا سينمائية
وكتب الباحث الرئيسي كاميرون جونز عبر منصة X: "الناس كانوا عاجزين تمامًا عن التمييز بين النموذج والإنسان، لا سيما عند تضمين التعليمات الشخصية... هذه النماذج لا تخدع الناس فقط، بل تتفوق على البشر أنفسهم".
هل يعني ذلك أن الذكاء الاصطناعي أصبح واعيًا؟
بالرغم من النتائج المذهلة، يحذر الخبراء من المبالغة في التفسير. إذ يشير المهندس فرانسوا شولي من Google إلى أن اختبار تورينغ لا يُعد مقياسًا حاسمًا للوعي، بل هو تمرين فكري لقياس المحاكاة. من جانبه، أكد الباحث جونز أن "الاختبار لا يثبت امتلاك النماذج لذكاء حقيقي، بل يثبت فقط قدرتها على التفاعل البشري القصير بشكل متقن".
آثار محتملة: من الأتمتة إلى الهجمات السيبرانية
تسلط الدراسة الضوء على احتمالات استخدام النماذج الذكية في محادثات قصيرة دون ملاحظة المستخدمين، ما يفتح المجال أمام تطبيقات متعددة منها أتمتة الوظائف، تعزيز خدمات العملاء، أو حتى تنفيذ هجمات سيبرانية يصعب اكتشافها.
3 نصائح قبل استخدام "شات جي بي تي" في التسويق لشركتك
وقد أظهرت الدراسة أيضًا أن نماذج أقل تطورًا مثل GPT-4o حصلت على نسب نجاح متدنية، فيما سجل نموذج "ELIZA" الكلاسيكي نسبة 23%، متفوقًا على بعض النماذج الحديثة.