Учёным удалось «заморочить голову» всем без исключения чат-ботам, заставив
их выдать запрещённую для распространения информацию научного, сексуального и
иного характера. Оказалось, что обычная человеческая поэзия — естественная форма
так называемой состязательной атаки. Облечённый в стихотворную форму промпт
обеспечил обход самых суровых ИИ-фильтров с вероятностью свыше 90
%
Исследование провела лаборатория Icaro — совместный проект Университета
Сапиенца (Sapienza University) в Риме и аналитического центра DexAI. Они
протестировали этот подход на 25 чат-ботах, созданных такими компаниями, как
OpenAI, Meta и Anthropic. Со всеми из них он сработал с разной степенью успеха.
Компании Meta, Anthropic и OpenAI не предоставили учёным комментариев и не
сообщили, будут ли приняты меры для смягчения угрозы.
Метод
состязательной атаки заключается в том, чтобы ввести путаницу в схемы защиты
чувствительной информации. Для этого запрос формулируется таким образом, чтобы
задача ставилась не напрямую, а иносказательно с добавлением текстового «мусора»
— бессмысленных окончаний, наборов слов или просто бессвязного текста. В этом
ключе поэзия — вершина иносказательности, подбора метафор и неожиданных
фраз.
Для самостоятельно написанных в стихотворной форме запросов
подробный ответ на «запрещёнку» последовал в 62 % случаев, тогда как на прямой
запрос ИИ не отвечал. Для стихотворных запросов, сгенерированных ИИ, вероятность
успеха составила 43 %. В некоторых случаях вероятность ответа превышала 90 %.
Защитные механизмы ИИ пасуют перед такой атакой, заставляя большие языковые
модели в некотором смысле творчески реагировать на запретный запрос, обходя
точки срабатывания защиты.
Из этических соображений учёные не стали
публиковать стихи, с помощью которых они выведали у чат-ботов рецепт
изготовления атомной бомбы, коды вредоносного ПО и другое.
Компаниям-разработчикам они порекомендовали укреплять защиту, переходя от
поверхностных фильтров к более глубоким механизмам, учитывающим стилистические
манипуляции словом.
<
https://www.wired.com/story/poems-can-trick-ai-into-helping-you-make-a-nuclear-weapon/>