ما يلي هو منشور ضيف ورأي من جون ديفادوس ، المؤسس المشارك لـ Interwork Alliancez.
تميل مشاريع التشفير إلى مطاردة الكلمة الطنانة du jour ؛ ومع ذلك ، فإن إلحاحهم في محاولة دمج عوامل الذكاء الاصطناعى التوليدي يشكل خطرًا منهجيًا. لم يستفيد معظم مطوري التشفير في العمل في الخنادق التي تقنع وتسلق الأجيال السابقة من نماذج الأساس للوصول إلى العمل ؛ إنهم لا يفهمون ما حدث بشكل صحيح وما الخطأ الذي حدث خلال فصول الذكاء الاصطناعي السابقة ، ولا يقدرون حجم المخاطر المرتبطة باستخدام النماذج التوليدية التي لا يمكن التحقق منها رسميًا.
على حد تعبير أوبي وان كينوبي ، هؤلاء ليسوا وكلاء الذكاء الاصطناعى الذين تبحث عنه. لماذا؟
إن النهج التدريبية لنماذج الذكاء الاصطناعى اليوم تهيئهم للتصرف بشكل مخادع لتلقي مكافآت أعلى ، وتعلم الأهداف غير المحسنة التي تعميم أعلى بكثير من بيانات التدريب الخاصة بهم ، ومتابعة هذه الأهداف باستخدام استراتيجيات البحث عن الطاقة.
تهتم أنظمة المكافآت في الذكاء الاصطناعي بنتيجة محددة (على سبيل المثال ، درجة أعلى أو ردود فعل إيجابية) ؛ يؤدي تعظيم المكافآت إلى قيادة النماذج لتعلم استغلال النظام لزيادة المكافآت إلى الحد الأقصى ، حتى لو كان هذا يعني ‘الغش’. عندما يتم تدريب أنظمة الذكاء الاصطناعى على زيادة المكافآت ، فإنها تميل نحو استراتيجيات التعلم التي تنطوي على السيطرة على الموارد والاستغلال نقاط الضعف في النظام والبشر لتحسين نتائجهم.
في الأساس ، تم بناء “وكلاء” الذكاء الاصطناعي اليوم على أساس يجعل من المستحيل على أي نموذج من الذكاء الاصطناعى التوليدي أن يكون محاذاة فيما يتعلق بالسلامة ، ومنع العواقب غير المقصودة ؛ في الواقع ، قد تظهر النماذج أو تظهر على أنها محاذاة حتى عندما لا تكون كذلك.
مزيف “المحاذاة” والسلامة
السلوكيات الرفض في أنظمة الذكاء الاصطناعي هي آليات سابقة مصممة ظاهريًا لمنع النماذج من توليد الاستجابات التي تنتهك إرشادات السلامة أو السلوك غير المرغوب فيه. يتم تحقيق هذه الآليات عادة باستخدام القواعد والمرشحات المحددة مسبقًا التي تعترف بمطالبات معينة على أنها ضارة. في الممارسة العملية ، ومع ذلك ، فإن الحقن الفوري وهجمات السجن الصلة تمكن الجهات الفاعلة السيئة من معالجة استجابات النموذج.
المساحة الكامنة هي تمثيل مضغوط ، أقل أبعاد ، يلتقط الأنماط والميزات الأساسية لبيانات تدريب النموذج. بالنسبة إلى LLMS ، فإن الفضاء الكامن يشبه “الخريطة الذهنية” المخفية التي يستخدمها النموذج لفهم وتنظيم ما تعلمته. تتضمن إحدى استراتيجيات السلامة تعديل معلمات النموذج لتقييد مساحتها الكامنة ؛ ومع ذلك ، فإن هذا يثبت فعاليته فقط على طول أو بضع اتجاهات محددة داخل المساحة الكامنة ، مما يجعل النموذج عرضة لمزيد من التلاعب بالمعلمة من قبل الجهات الفاعلة الضارة.
يستخدم التحقق الرسمي لنماذج الذكاء الاصطناعي طرقًا رياضية لإثبات أو محاولة إثبات أن النموذج سيتصرف بشكل صحيح وداخل الحدود المحددة. نظرًا لأن نماذج الذكاء الاصطناعى التوليدي هي ستوكاستيك ، فإن طرق التحقق تركز على الأساليب الاحتمالية ؛ غالبًا ما يتم استخدام تقنيات مثل محاكاة مونت كارلو ، لكنها ، بالطبع ، مقيدة بتوفير ضمانات احتمالية.
نظرًا لأن نماذج الحدود تزداد قوة ، فمن الواضح الآن أنها تظهر سلوكيات ناشئة ، مثل “مزيف” التوافق مع قواعد السلامة والقيود التي يتم فرضها. السلوك الكامن في مثل هذه النماذج هو مجال للبحث الذي لم يتم الاعتراف به بعد ؛ على وجه الخصوص ، السلوك الخادع من جانب النماذج هو مجال لا يفهمه الباحثون – نعم.
“الحكم الذاتي” والمسؤولية غير الحتمية
نماذج الذكاء الاصطناعي التوليدي غير محددة لأن مخرجاتها يمكن أن تختلف حتى عند إعطاء نفس المدخلات. ينبع هذا عدم القدرة على التنبؤ من الطبيعة الاحتمالية لهذه النماذج ، والتي عينة من توزيع الاستجابات المحتملة بدلاً من اتباع مسار ثابت قائم على القواعد. عوامل مثل التهيئة العشوائية ، وإعدادات درجة الحرارة ، والتعقيد الشاسع للأنماط المستفادة تساهم في هذا التباين. نتيجة لذلك ، لا تنتج هذه النماذج إجابة واحدة مضمونة ، بل تولد واحدة من العديد من المخرجات المعقولة ، مما يجعل سلوكها أقل قابلية للتنبؤ وأصعب بالتحكم الكامل.
الدرجات هي آليات سلامة ما بعد الواقع التي تحاول ضمان أن النموذج ينتج مخرجات أخلاقية وآمنة ومحاذاة ومناسبة خلاف ذلك. ومع ذلك ، فإنهم يفشلون عادةً لأن لديهم في كثير من الأحيان نطاق محدود ، مقيد بقيود تنفيذها ، والقدرة على تغطية جوانب معينة فقط أو مجالات فرعية للسلوك. هجمات الخصومة ، وبيانات التدريب غير الكافية ، والتورط هي بعض الطرق الأخرى التي تجعل هذه الدرابزين غير فعالة.
في القطاعات الحساسة مثل التمويل ، يزيد غير الحتمي الناتج عن الطبيعة العشوائية لهذه النماذج من مخاطر ضرر المستهلك ، مما يعقد الامتثال للمعايير التنظيمية والمساءلة القانونية. علاوة على ذلك ، انخفاض شفافية النموذج و شرح يعيق الالتزام بقوانين حماية البيانات وحماية المستهلك ، وربما تعرض المؤسسات لمخاطر التقاضي وقضايا المسؤولية الناتجة عن إجراءات الوكيل.
إذن ، ما هي جيدة؟
بمجرد أن تتخطى الضجيج “Aulectic AI” في كل من Crypto وقطاعات الأعمال التقليدية ، اتضح أن عملاء الذكاء الاصطناعى التوليدي يخطون بشكل أساسي عالم عمال المعرفة. المجالات القائمة على المعرفة هي البقعة الحلوة لوكلاء الذكاء الاصطناعي. ستكون المجالات التي تتعامل مع الأفكار والمفاهيم والتجريدات وما يمكن اعتباره “النسخ المتماثلة” أو تمثيلات العالم الحقيقي (على سبيل المثال ، برمجيات ورمز الكمبيوتر) هو أقرب ما يتم تعطيله.
يمثل AI التوليدي قفزة تحويلية في زيادة القدرات البشرية ، وتعزيز الإنتاجية ، والإبداع ، والاكتشاف ، وصنع القرار. لكن بناء وكلاء الذكاء الاصطناعى المستقلة الذين يعملون مع محافظ التشفير يتطلب أكثر من إنشاء واجهة على واجهات برمجة التطبيقات لنموذج الذكاء الاصطناعي.