Юридические тексты как оружие против ИИ
Исследователи из Pangea обнаружили опасный метод взлома ИИ — LegalPwn. Злоумышленники прячут вредоносные команды в юридических документах: пользовательских соглашениях, авторских уведомлениях и других формальных текстах. ИИ, воспринимая их как безопасные, выполняет скрытые инструкции — например, запускает вредоносный код.
Почти все ведущие модели (ChatGPT, Gemini, Grok, LLaMA) оказались уязвимы. Исключение — Claude 3.5 Sonnet и LLaMA Guard 4, которые блокировали атаки благодаря жёстким настройкам безопасности.
Проблема в том, что ИИ автоматически доверяет юридическим текстам, не проверяя их на скрытые угрозы. Чтобы защититься, разработчикам нужно улучшить фильтрацию входящих данных и научить модели распознавать замаскированные атаки. Иначе злоупотребление LegalPwn может привести к масштабным кибератакам через легальные, на первый взгляд, документы.
Безопасность ИИ требует срочного пересмотра — формальные тексты больше не могут считаться «безопасными по умолчанию».