نموذج o1-preview من OpenAI.. هل يتفوق على الأطباء البشريين؟
كشفت دراسة حديثة أجراها باحثون من كلية الطب في جامعة هارفارد وجامعة ستانفورد عن نتائج مثيرة تتعلق بنموذج الذكاء الاصطناعي o1 من شركة OpenAI.
وأظهرت الدراسة أن النموذج الجديد، الذي يعد في الوضع التجريبي "Preview"، قد يحقق تفوقًا ملحوظًا على الأطباء في تشخيص الحالات الطبية المعقدة، حيث تمثل هذه النتائج خطوة كبيرة نحو تحسين استخدام الذكاء الاصطناعي في مجال الرعاية الصحية، لكن هناك تحديات لا بد من مراعاتها.
اختبارات شاملة وكفاءة عالية
وخضع نموذج o1-preview خلال الدراسة لسلسلة من الاختبارات التشخيصية المعقدة، حيث أظهرت النتائج أنه تفوق بشكل ملحوظ مقارنةً بالإصدارات السابقة.
وقد تمكن النموذج من تشخيص 78.3% من الحالات التي تم تحليلها بدقة، وفي مقارنة مباشرة مع 70 حالة محددة، ارتفعت دقة النظام إلى 88.6%، متفوقًا بفارق كبير على الإصدار السابق GPT-4 الذي سجل نسبة دقة قدرها 72.9%.
تفوق في الاستدلال الطبي
وأثبت النظام كفاءته العالية في مجال الاستدلال الطبي، حيث حصل على درجات عالية في 78 من أصل 80 حالة وفق مقياس R-IDEA المستخدم لتقييم جودة الاستدلال الطبي.
وفي مقارنة مع الأطباء المتمرسين، الذين سجلوا درجات عالية في 28 حالة فقط، والأطباء المقيمين "المتدربين" الذين حصلوا على درجات عالية في 16 حالة، برز النموذج بمستوى أدائه الاستثنائي في تحليل الحالات الطبية.
اقرأ أيضًا: ثغرات الذكاء الاصطناعي.. كيف تتحول الروبوتات إلى مجرمين؟
الأداء على الحالات الجديدة
وأشار الباحثون إلى أن بيانات التدريب التي استخدمها النموذج قد تتضمن بعض الحالات التي تم استخدامها في الدراسة، ولكن المفاجأة كانت في أن أداء النموذج ظل مرتفعًا عندما تم اختباره على حالات جديدة لم يسبق أن تعامل معها، مع انخفاض طفيف في الأداء.
تعليقات الباحثين ووجهات نظرهم
وفي تعليق له عبر منصة "إكس"، أكد الدكتور آدم رودمان، أحد المشاركين في الدراسة، أن هذه هي المرة الأولى التي يروج فيها لمسودة دراسة قبل مراجعتها بالكامل، ولكنه أشار إلى أن النتائج تحمل انعكاسات كبيرة على الممارسة الطبية، ما جعل من الضروري نشرها بسرعة.
وقد وصف نموذج o1-preview بأنه أظهر أداءً مذهلاً في إدارة الحالات الطبية المعقدة التي صُممت لتكون تحديًا لكل من النموذج والأطباء.
وأضاف رودمان: "في هذه الحالات، سجل النموذج 86% من النقاط، وهو أكثر من ضعف ما حققه الأطباء باستخدام نموذج GPT-4 أو الأدوات التقليدية الأخرى".
التحديات في تقدير الاحتمالات
وعلى الرغم من الأداء المتفوق في التشخيص الطبي، لا يزال النظام يعاني بعض المشكلات، خاصة في تقدير الاحتمالات الطبية.
وعلى سبيل المثال، قدر النموذج احتمال الإصابة بالتهاب رئوي بنسبة 70% في بعض الحالات، وهو ما يعتبر أعلى بكثير من النطاق العلمي المتعارف عليه (25-42%). ورغم هذا، أوضح مؤسسو OpenAI أن الأنظمة الحالية لا تزال "تعاني نقصًا كبيرًا في التدريب"، مشيرين إلى أنها تحتاج إلى تدريب إضافي يتراوح بين 100 إلى 1000 ضعف التدريب الحالي.
اقرأ أيضًا: كيف يمكن مواجهة الذكاء الاصطناعي في سوق العمل؟ ملياردير شهير يجيب
التفكير النقدي والتوصيات العلاجية
ويتميز نموذج o1-preview بتفوقه في مهام التفكير النقدي، مثل التشخيص وتقديم التوصيات العلاجية، إلا أنه يواجه صعوبات في المهام التجريدية مثل تقدير الاحتمالات الطبية.
وقد أسهمت الإجابات التفصيلية للنموذج في رفع تقييمه في مجالات التفكير النقدي، ولكن الدراسة اقتصرت على تقييم أداء النظام منفردًا دون النظر في كيفية تعاونه مع الأطباء.
وأعلنت OpenAI مؤخرًا عن إطلاق الإصدار الكامل النهائي o1، بالإضافة إلى الإصدار الجديد o3 الذي أظهر تحسنًا ملحوظًا في التفكير التحليلي، ورغم ذلك، ما زال هناك انتقادات تتعلق بتكلفة الفحوصات التي يقترحها النموذج، وصعوبة تطبيقه في بيئات الرعاية الصحية الفعلية.
وفي تعليقه، حذر الدكتور رودمان من المبالغة في التوقعات، قائلاً: "إن هذه دراسة معيارية، وهي تستخدم معايير ذهبية لتقييم الأطباء البشر، لكنها لا تعكس الواقع في مجال الرعاية الطبية، لا تتخلوا عن أطبائكم لصالح o1".
وأشار إلى أن هناك حاجة ملحة إلى تطوير طرق تقييم أفضل لأنظمة الذكاء الاصطناعي في المجال الطبي، بما في ذلك تجارب سريرية واقعية وبنية تحتية تقنية متطورة لتعزيز التعاون بين الأطباء والذكاء الاصطناعي.
دور الذكاء الاصطناعي في الرعاية الصحية
ودعا الباحثون إلى ضرورة تحسين بنية الأنظمة الطبية القائمة على الذكاء الاصطناعي، مع التركيز على تطوير طرق تقييم واقعية تضمن الاستخدام الأمثل للنماذج الذكية في بيئات الرعاية الصحية.
وبينما يحقق الذكاء الاصطناعي قفزات نوعية في التشخيص الطبي، فإن تطبيقه بشكل فعال في العالم الحقيقي يتطلب المزيد من التدريب، والتطوير المستمر، والبنية التحتية المناسبة لضمان فاعليته في مساعدة الأطباء وتحسين النتائج الصحية للمرضى.