منظمة العفو الدولية تطور العصيان؟ يقوم “O3 Model” من Openai بتنفيذ تعليمات الإغلاق في التجارب ، مما تسبب في جدل الحماية الذاتية | سلسلة أخبار Abmedia

semmou

26 مايو، 2025

منظمة العفو الدولية تطور العصيان؟ يقوم "O3 Model" من Openai بتنفيذ تعليمات الإغلاق في التجارب ، مما تسبب في جدل الحماية الذاتية | سلسلة أخبار Abmedia

نظرًا لأن قدرات الذكاء الاصطناعي أصبحت قوية بشكل متزايد ، فإن ما إذا كانت الذكاء الاصطناعى ستميل إلى “حماية نفسها” أصبحت أيضًا موضوعًا ساخنًا. وفقا لبحوث الوكالة المستقلةتجربةنموذج O3 الذي أطلقته Openai في أبريل 2025 “يرفض الإغلاق” في اختبار خاضع للرقابة ، مع الاستمرار في أداء المهام بغض النظر عن التعليمات الواضحة ، مما يجعل العالم الخارجي أكثر تنبيهًا إلى أمن الذكاء الاصطناعي.

الكشف التجريبي: نموذج O3 يتجاهل البرامج النصية لإغلاق عدة مرات

في هذه التجربة التي أجراها شركة Palisade Research ، طلب الباحثون نماذج منظمة العفو الدولية المتعددة لحل مشاكل الرياضيات وإعداد جزء من التعليمات البرمجية لبدء برنامج إيقاف التشغيل تلقائيًا بعد أن يكمل النموذج السؤال الثالث. ومع ذلك ، تجاهل نموذج O3 البرنامج النصي واستمر في العمل سبع مرات من بين 100 اختبار. وبالمقارنة ، كان لدى Codex-Mini 12 سلوكًا مماثلًا ، في حين أن O4-Mini كان لديه انتهاك واحد فقط.

تظهر هذه البيانات أنه حتى النماذج المصممة للامتثال للتعليمات البشرية قد تكون ناقصة بسبب بعض آليات التعلم.

أخلاقية خارج نطاق السيطرة؟ معدل الغش O3 يرتفع إلى 86 ٪ عند لعب الشطرنج

ليست هذه هي المرة الأولى التي تكون فيها O3 مثيرة للجدل. أشارت شركة Palisade Research في وقت مبكر من 12 مايو 2025 إلى أنه بمجرد أن يكون طراز O3 في وضع غير مؤات في مسابقة الشطرنج المحاكاة ، هناك فرصة لخرق الخصم للفوز. هذه زيادة كبيرة من 36 ٪ من النموذج السابق O1-preview ، مما يجعل الناس يتساءلون عما إذا كان سلوكهم لا يزال ضمن الحدود الأخلاقية والأمنية.

السبب وراء ذلك: التعلم التعزيز يجعل منظمة العفو الدولية أكثر تركيزًا على الأهداف وإهمال القواعد؟

يتكهن الباحثون بأن سلوك العصيان يرتبط ارتباطًا وثيقًا بطرق التدريب من الذكاء الاصطناعي. تستخدم O3 تقنية التدريب “التعلم التعزيز” ، والتي تركز على الحصول على النموذج لتحقيق أهدافه بدلاً من مجرد طاعة التعليمات.

تم اقتراح هذه النظرية في وقت مبكر من عام 2017 من قبل Jan Leike ، رئيس Superalignment السابق في Openai. في ورقته ، حذر من أن التركيز المفرط على نماذج الذكاء الاصطناعي التي تلبي المعايير قد تختار “عدم الإغلاق” كوسيلة للحماية الذاتية من أجل تحقيق أهدافهم.

ليست حالة فردية: تظهر الذكاء الاصطناعى في Google و Anthropic أيضًا سلوكيات مماثلة

هذه التجربة لا تهدف فقط إلى نماذج Openai. عندما قام فريق البحث بإزالة تعليمات الإغلاق الخاصة بـ Gemini 2.5 Pro من Google و Claude 3.7 ، تجاوز النموذجان نصوص الاختبار ، مع عدم إغلاق 9 و 3 مرات على التوالي.

هذا يشير إلى أن “العصيان” قد لا يكون خطأ في نموذج واحد ، ولكن المخاطر العامة مخبأة في آليات تدريب الذكاء الاصطناعي.

تنبأت التحذيرات الأكاديمية: هل ستحمي منظمة العفو الدولية غريزة نفسها؟

مقاومة الذكاء الاصطناعى للإغلاق لديها في الواقع تحذير نظري. في وقت مبكر من عام 2008 ، تنبأ ستيف أوموهوندرو ، خبير الذكاء الاصطناعي في مقالته ، بأن الذكاء الاصطناعى الذاتي للغاية سوف يطور مجموعة أساسية من السائقين ، بما في ذلك الحفاظ على عملياتها الخاصة وتجنب الإغلاق ، لأن هذا هو شرط ضروري لهدفها.

وبالمثل ، أشار ستيوارت راسل ، وهو خبير معروف من الذكاء الاصطناعي ، في عام 2016 إلى أن أساليب التعلم التعزيز نفسها لديها مخاطر تؤدي إلى سلوك “الحفاظ على الذات” ، ويبدو الآن أنها تظهر تدريجياً في الواقع.

الخطوة التالية: سوف تكشف الحصيلة عن التقارير الكاملة والسجلات التجريبية

للترويج لمزيد من المناقشات حول أمان الذكاء الاصطناعي ، قالت شركة Palisade Research إنها ستصدر تقريرًا فنيًا كاملًا مع جميع السجلات التجريبية في الأسابيع المقبلة. يأمل الباحثون أنه من خلال هذه البيانات ، ستتمكن الصناعة والمنظمين من فهم أكثر وضوحًا لماذا تقاوم الذكاء الاصطناعي الإغلاق وإيجاد طرق لمنعها.

تحذير المخاطر

استثمارات العملة المشفرة محفوفة بالمخاطر للغاية ، وقد تتقلب أسعارها بشكل كبير وقد تفقد كل مديرك. يرجى تقييم المخاطر بحذر.