ИИ НЕ СТАНЕТ БЕЗОПАСНЫМ
Специалисты из команды Microsoft AI Red Team изучили сотню продуктов, созданных на базе генеративного искусственного интеллекта в компании. Эксперты пришли к выводу, что работа по обеспечению безопасности систем, основанных на ИИ, будет бесконечной.
Дело в том, что фундаментальные ограничения моделей искусственного интеллекта не позволяют окончательно устранить угрозы наподобие «стимулирующей инъекции» или «джейлбрейка». Однако можно усложнить проведение атак — так же, как и в случае с другими информационными рисками, которые удаётся минимизировать за счёт эшелонированной защиты или конструктивной безопасности. Специалисты из Red Team подчёркивают, что для создания надёжной защиты системы на основе искусственного интеллекта важно понимать её функционал и учитывать область применения.
Большие языковые модели зачастую буквально выполняют указания пользователя, из-за чего их несложно обмануть: например, спрятать вредоносное содержимое среди безобидного текста при вводе данных. Если провести атаку на помощника, который генерирует тексты, большого вреда это не принесёт, но если применить её к модели, предназначенной для анализа историй болезни, последствия могут быть негативными — вплоть до ущерба здоровью пациентов и репутации медицинского учреждения.
Чтобы добиться от большой языковой модели вредоносного совета, необязательно прибегать к градиентным атакам. Можно повлиять на модель через интерфейс или манипулируя восприятием языка и технического зрения — и достичь того же эффекта более экономичным способом.