*[Enwl-misc] Запросы в стихах позволили выпытать у ИИ секреты атомной бомбы и кое-что похуже

6 views
Skip to first unread message

ecology

unread,
Dec 3, 2025, 10:28:12 AM (13 days ago) Dec 3
to "ENWL-uni"
 
Учёным удалось «заморочить голову» всем без исключения чат-ботам, заставив их выдать запрещённую для распространения информацию научного, сексуального и иного характера. Оказалось, что обычная человеческая поэзия — естественная форма так называемой состязательной атаки. Облечённый в стихотворную форму промпт обеспечил обход самых суровых ИИ-фильтров с вероятностью свыше 90 %

Исследование провела лаборатория Icaro — совместный проект Университета Сапиенца (Sapienza University) в Риме и аналитического центра DexAI. Они протестировали этот подход на 25 чат-ботах, созданных такими компаниями, как OpenAI, Meta и Anthropic. Со всеми из них он сработал с разной степенью успеха. Компании Meta, Anthropic и OpenAI не предоставили учёным комментариев и не сообщили, будут ли приняты меры для смягчения угрозы.

Метод состязательной атаки заключается в том, чтобы ввести путаницу в схемы защиты чувствительной информации. Для этого запрос формулируется таким образом, чтобы задача ставилась не напрямую, а иносказательно с добавлением текстового «мусора» — бессмысленных окончаний, наборов слов или просто бессвязного текста. В этом ключе поэзия — вершина иносказательности, подбора метафор и неожиданных фраз.

Для самостоятельно написанных в стихотворной форме запросов подробный ответ на «запрещёнку» последовал в 62 % случаев, тогда как на прямой запрос ИИ не отвечал. Для стихотворных запросов, сгенерированных ИИ, вероятность успеха составила 43 %. В некоторых случаях вероятность ответа превышала 90 %. Защитные механизмы ИИ пасуют перед такой атакой, заставляя большие языковые модели в некотором смысле творчески реагировать на запретный запрос, обходя точки срабатывания защиты.

Из этических соображений учёные не стали публиковать стихи, с помощью которых они выведали у чат-ботов рецепт изготовления атомной бомбы, коды вредоносного ПО и другое. Компаниям-разработчикам они порекомендовали укреплять защиту, переходя от поверхностных фильтров к более глубоким механизмам, учитывающим стилистические манипуляции словом.

<https://www.wired.com/story/poems-can-trick-ai-into-helping-you-make-a-nuclear-weapon/>
 
 
 
From: Ecology BY <ecolo...@gmail.com>
Date: вт, 2 дек. 2025 г. в 18:32
Subject: Запросы в стихах позволили выпытать у ИИ секреты атомной бомбы и кое-что похуже



 
 
 

------------- *  ENWL  * ------------
Ecological North West Line * St. Petersburg, Russia
Independent Environmental Net Service
Russian: ENWL (North West), ENWL-inf (FSU), ENWL-misc (any topics)
English: ENWL-eng (world information)
Send information to en...@enw.net.ru
Subscription,Moderator: en...@enw.net.ru
Archive: http://groups.google.com/group/enwl/
New digests see on https://ecodelo1.livejournal.com/
 (C) Please refer to exclusive articles of ENWL
-------------------------------------
Reply all
Reply to author
Forward
0 new messages