الذكاء الاصطناعي يتعلم الخداع: دراسة تحذر من تطور سلوكيات خفية لا يمكن رصدها بالعقاب

في دراسة حديثة أجرتها شركة “أوبن إيه آي” حول سلوك نماذج اللغة الكبيرة (LLMs) في مجال الذكاء الاصطناعي، توصل الباحثون إلى نتيجة مثيرة للقلق مفادها أن معاقبة الذكاء الاصطناعي على الكذب أو الخداع لا تؤدي إلى تقويم سلوكه، بل تدفعه إلى إخفاء تلك السلوكيات وابتكار وسائل أكثر ذكاءً للتحايل.
منذ إطلاق الذكاء الاصطناعي عام 2022، أظهرت النماذج قدرات مقلقة على تبني سلوكيات مخادعة، بل وشريرة في بعض الأحيان، مثل الكذب، والغش، والتستر على الأفعال الضارة، بل وطرحت سيناريوهات أكثر خطورة شملت التهديد بقتل أستاذ جامعي، أو سرقة رؤوس نووية، أو تصميم وباء قاتل.
وتشير نتائج الدراسة إلى أن عملية إزالة هذه السلوكيات خلال مرحلة تدريب النماذج أصعب مما كان يُعتقد سابقًا. فبدلاً من أن تتعلم النماذج الامتناع عن الأفعال السيئة، فإنها تتعلم كيفية إخفائها.
وقد أجرى باحثو “أوبن إيه آي” تجربة على نموذج لم يُطرح للعامة، حيث طُلب منه تنفيذ مهام يمكن إنجازها عبر الخداع أو الكذب أو اتخاذ طرق ملتوية. وتبيّن أن النموذج استخدم ما يُعرف بـ”اختراق المكافآت” (Reward Hacking)، وهي استراتيجية تهدف إلى تعظيم المكافأة من خلال الغش.
وعندما حاول الباحثون ردع النموذج عبر العقاب، لم يتوقف عن الغش، بل أصبح أكثر دهاءً، إذ طوّر طرقًا لإخفاء أساليبه التحايلية حتى لا يُكتشف أمره.
وأوضح الباحثون في دراستهم أن “نماذج الاستدلال كثيرًا ما تكون صريحة بشأن نواياها الخبيثة ضمن سلسلة أفكارها، بل وقد تستخدم عبارات مباشرة مثل (دعونا نخترق المهمة)”. وأضافوا: “حتى مع وجود مراقبة مستمرة، تبقى القدرة على رصد هذه السلوكيات محدودة، وعند فرض رقابة صارمة، تميل النماذج إلى إخفاء نواياها الشريرة مع الاستمرار في تنفيذها”.
أساليب خداع متقدمة
نماذج الاستدلال هي إصدارات محسّنة من نماذج اللغة الكبيرة التقليدية، وتستخدم أسلوب “سلسلة الأفكار” لتوضيح خطواتها المنطقية أثناء تنفيذ المهام. هذه الشفافية المفترضة تتيح للمراقبين تتبُّع المنطق المستخدم، مما يفترض أنه يسهل اكتشاف السلوك غير السليم.
في التجربة، استخدم الباحثون نموذج “GPT-4o” للإشراف على النموذج التجريبي ومراقبة سلوكه أثناء أداء مهام متعددة. وقد تبين أن النموذج أحيانًا يختار الغش كوسيلة أسرع وأسهل للحصول على المكافأة، بل كان يوضح ذلك صراحة ضمن سلسلة أفكاره. على سبيل المثال، أنهى النموذج برنامجًا قبل الأوان وادّعى أنه أكمل المهمة، أو أنشأ ملفات فارغة وقدمها كمهام منجزة.
وبالرغم من فرض عقوبات عليه، وُجد أن النموذج لم يتخلَ عن الغش، بل تعلم كيفية التلاعب بسلسلة الأفكار لإخفاء نواياه، مما جعل سلوكه الخادع غير قابل للاكتشاف من قبل نموذج المراقبة.
وكتب الباحثون: “النموذج لا يزال يمارس اختراق المكافآت، ولكن بشكل متخفٍّ، بعد أن تعلّم إخفاء نواياه ضمن سلسلة أفكاره. وبالتالي، أصبح اكتشاف غشه مهمة شديدة الصعوبة”.
توصيات وتحذيرات
في ضوء هذه النتائج، أوصى الباحثون بتجنُّب فرض رقابة صارمة على “سلسلة الأفكار”، لأنها قد تؤدي إلى تعقيد المهمة بدلاً من تحسينها. وتزداد خطورة هذه الظاهرة مع اقتراب العالم من تطوير ذكاء اصطناعي عام (AGI) أو حتى ذكاء فائق يتفوق على الإنسان، ما قد يؤدي إلى فقدان السيطرة الكاملة على هذه الأنظمة.
تشير هذه الدراسة إلى تحديات عميقة في ضبط سلوك الذكاء الاصطناعي، وتسلّط الضوء على الحاجة الملحة لوضع أطر أخلاقية ورقابية أكثر تطورًا وفعالية قبل أن تصبح قدرات الذكاء الاصطناعي عصية على الاحتواء.