يبقى حقن الموجهات واحداً من أكثر تحديات أمان الذكاء الاصطناعي عنادًا. يصيغ المهاجمون المدخلات المصممة لمعالجة النماذج لتجاهل الإرشادات الأمنية أو تسرب المعلومات. معظم الدفاعات كانت تفاعلية—اكتشاف السلوك السيء بعد حدوثه.
شارك مطور مؤخراً نهجاً ذكياً: دمج منطق كشف التهديد مباشرة في الموجه النظام نفسه. بإرشاد النموذج للعلم بالأنماط المريبة ورفض عمليات البيانات معينة، يصبح الموجه محيطاً دفاعياً بدلاً من مجرد نص تعليمي. إنه معاملة للموجه كبنية أمنية.
هذا غير أنيق بطريقة ما—إنه حل بديل، وليس إصلاح أساسي. لكنه يعمل لأنه يستفيد من الشيء الوحيد الذي نماذج اللغة جيدة فيه: اتباع التعليمات. بجعل كشف التهديد تعليماً صريحاً بدلاً من عنصر تحكم خلفي، يستعيد المطورون الرؤية والسيطرة.