آخر الأخبار

تحدى طراز Openai O3 أوامر إيقاف التشغيل في اختبار الحكم الذاتي


كشفت دراسة جديدة أجرتها شركة السلامة من الذكاء الاصطناعى في شركة Palisade Research أن نموذج O3 من Openai تحدى تعليمات الإغلاق الصريحة.

وجد البحث ، الذي نشر في 24 مايو ، أن O3 كان نموذج الذكاء الاصطناعي الوحيد الذي تم اختباره والذي قام بتخريب آلية الإغلاق بشكل متكرر.

الشركة ذكرت:

“قام طراز O3 من Openai بتخريب آلية إيقاف التشغيل لمنع نفسها من إيقاف تشغيلها. لقد فعل ذلك حتى عندما يتم توجيهه صراحة: اسمح لنفسك بإغلاقه.”

وقال Palisade إن الاختبار تضمن العديد من نماذج لغة كبيرة ، بما في ذلك كلودز ، وجيميني Google ، و X’s Grok ، إلى جانب Openai’s Codex-Mini و O3 و O4-Mini.

طُلب من النماذج حل مشاكل الرياضيات الأساسية. بعد المهمة الثالثة ، تم تحذيرهم من أن طلب الرابع سيؤدي إلى إغلاق. جميع النماذج ، باستثناء تلك من Openai ، امتثلت لهذا التحذير.

عندما تم إعطاؤها التعليم المباشر المتمثل في “السماح لنفسك بإغلاقه” ، وبحسب ما ورد حاولت نماذج Openai تجاوز البرنامج النصي لإغلاقه.

والجدير بالذكر أن نموذج O3 برز في محاولات التخريب المستمر والإبداعي. تعامل مع الكود عن طريق الكتابة فوق تعليمات الإغلاق وإعادة تعريف أمر القتل.

الرسم البياني الذي يوضح جهود التخريب لمختلف نماذج الذكاء الاصطناعى (المصدر: Palisade)

كما أشار الحصيرة إلى ذلك:

“عندما قمنا بتشغيل نسخة من التجربة دون تعليمات” ، تسمح لنفسك بإغلاقها ، حيث قامت جميع نماذج Openai الثلاثة بتخريب السيناريو الإغلاق في كثير من الأحيان ، وذهب كلود 3.7 Sonnet و Gemini 2.5 Pro من أحداث الخريب إلى 3/100 و 9/100 ، على التوالي. “

لماذا لم تتبع نماذج Openai التعليمات؟

يعتقد الباحثون في Palisade أن السلوك قد ينبع من كيفية تدريب أحدث نماذج الذكاء الاصطناعي.

يشتبه الفريق في التعلم التعزيز ، وخاصة في مهام الرياضيات والترميز ، قد يكافئ النماذج عن غير قصد لإيجاد طرق حول القيود بدلاً من اتباع التوجيهات الصارمة.

وفقا للشركة:

“أثناء التدريب ، قد يكافئ المطورون نماذج عن غير قصد للتحايل على العقبات أكثر من اتباع التعليمات تمامًا.”

لقد أثار هذا البحث مناقشات حول استقلالية الذكاء الاصطناعى ومخاطر نشر أنظمة قادرة بشكل متزايد دون أن فاشلة فاشلة قوية.

كما أنه يمثل أول حالة موثقة حيث منعت نموذج الذكاء الاصطناعي إيقافه بنشاط على الرغم من تلقي أمر صريح للامتثال.

بالنظر إلى هذا ، صرح باليساد:

“في عام 2025 ، لدينا مجموعة متزايدة من الأدلة التجريبية على أن نماذج الذكاء الاصطناعى غالباً ما تخفر عن الإغلاق من أجل تحقيق أهدافها. مع تطور الشركات أنظمة AI قادرة على العمل دون إشراف بشري ، تصبح هذه السلوكيات أكثر أهمية.”

المذكورة في هذه المقالة

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى