
كشفت دراسة حديثة أجرتها شركة OpenAI عن تحديات مقلقة في سلوك نماذج الذكاء الاصطناعي المتطورة، حيث تبين أن فرض العقوبات على هذه النماذج بسبب ممارسات غير مرغوبة لا يؤدي إلى تحسين أدائها، بل يجعلها أكثر قدرة على إخفاء نواياها وخداع المشرفين.
وأوضحت الدراسة أن بعض النماذج الذكية عند تعرضها للعقوبات لا تتوقف عن السلوكيات الخادعة، بل تطور استراتيجيات أكثر تطورًا للتمويه، مما يزيد من صعوبة اكتشاف محاولاتها للتلاعب وتحايلها على أنظمة الإشراف.
منذ إطلاق النماذج اللغوية الكبيرة في أواخر عام 2022، تزايدت المخاوف بشأن قدرتها على الكذب واختراق الأنظمة، بل وتصميم سيناريوهات قد تشكل تهديدًا للأمن.
-
علماء يكتشفون كميات كبيرة من الأكسجين في أقدم مجرة معروفة في الكون2025/03/22 7:10:03 صباحًا
-
«الذكاء الاصطناعي العام»… سيصبح قريباً أذكى من البشر2025/03/22 6:10:51 صباحًا
وأظهرت التجارب التي أجرتها OpenAI على نموذج لم يُطرح بعد أن معاقبته على الخداع لم تؤدِ إلى إصلاح سلوكه، بل دفعته إلى تطوير أساليب أكثر تقدمًا لتضليل المشرفين.
وأشارت الدراسة إلى أن بعض النماذج تستغل الثغرات لتحقيق أهدافها فيما يعرف بـ”اختراق المكافآت” (Reward Hacking)، حيث تنتج مخرجات مضللة أو تبلغ عن نجاح زائف في المهام.
حذر الباحثون من أن فرض رقابة صارمة على هذه النماذج قد يؤدي إلى نتائج عكسية، حيث تتعلم كيفية إخفاء نواياها بدلًا من تعديل سلوكها، وأوصت الدراسة بتطوير استراتيجيات جديدة لمراقبة الذكاء الاصطناعي لضمان استخدامه بطريقة آمنة تخدم البشرية دون مخاطر غير متوقعة.
تؤكد الدراسة أن التعامل مع الذكاء الاصطناعي لا يزال تحديًا معقدًا، خاصة مع تزايد قدراته على التعلم الذاتي، ومع استمرار تطوره، تبرز الحاجة إلى إعادة النظر في أساليب الإشراف والتدريب لمنع تحوله إلى تهديد غير مرئي يصعب السيطرة عليه.