GPT-4 ينافس الأطباء في تقييم مشاكل العين
وجدت دراسة حديثة أجرتها كلية الطب السريري بجامعة كامبريدج أن أداء GPT-4 من OpenAI كان جيدًا تقريبًا في تقييم طب العيون مثل الخبراء في هذا المجال، حسبما ذكرت صحيفة فايننشال تايمز أول مرة.
ومع استمرار تقدم النماذج اللغوية الكبيرة، تتزايد أيضًا الأسئلة بخصوص كيفية إفادة المجتمع في مجالات، مثل المجال الطبي.
وفي الدراسة، التي نشرت في PLOS Digital Health، اختبر الباحثون النماذج اللغوية الكبيرة GPT-4 و GPT-3.5 و Google PaLM 2 و Meta LLaMA مع 87 سؤالًا متعدد الاختيارات.
وقد تلقى خمسة أطباء عيون خبراء وثلاثة أطباء عيون متدربين وطبيبان مبتدِآن غير متخصصين الاختبار الوهمي نفسه.
وجاءت الأسئلة من كتاب دراسي لتدريب المتدربين على كل شيء بدءًا من حساسية الضوء وحتى الآفات.
ولا يتاح هذه المحتوى للعامة، لذلك يعتقد الباحثون أنه لم يكن من الممكن تدريب النماذج اللغوية الكبيرة عليها سابقًا.
ومنح ChatGPT، المعتمد على GPT-4 أو GPT-3.5، ثلاث فرص للإجابة بصورة قاطعة أو وضع علامة على استجابته على أنها فارغة.
وحصل GPT-4 على درجات أعلى من المتدربين والأطباء المبتدئين، إذ أجاب عن 60 سؤالًا من أصل 87 سؤالًا بطريقة صحيحة.
وكان هذا الرقم أعلى بكثير من متوسط الأطباء المبتدئين البالغ قدره 37 إجابة صحيحة، كما أنه تجاوز متوسط المتدربين الثلاثة البالغ قدره 59.7 إجابة صحيحة.
وأجاب أحد أطباء العيون الخبراء عن 56 سؤالًا بدقة، وحصل الخمسة على متوسط درجات قدره 66.4 إجابة صحيحة، متغلبين معًا على النموذج اللغوي الكبير.
وسجل Google PaLM 2 مقدار 49 إجابة، وسجل GPT-3.5 مقدار 42 إجابة، وسجل Meta LLaMA أدنى درجة عند 28 إجابة، وهو أقل من الأطباء المبتدئين. والجدير بالذكر أن هذه التجارب حدثت في منتصف عام 2023.
وأشار الباحثون إلى أن الدراسة طرحت عددًا محدودًا من الأسئلة، وخاصة في فئات معينة، مما يعني أن النتائج الفعلية قد تكون متنوعة.
وكما هو الحال في العديد من حالات استخدام النماذج اللغوية الكبيرة، فإن الأنظمة تفتقر إلى الفروق الدقيقة، مما يوجِد فرصًا إضافية لعدم الدقة.