Роботы, управляемые большими языковыми моделями (LLM), проявили склонность
к дискриминации и одобрению действий, способных причинить физический вред при
взаимодействии с людьми. К такому выводу пришли исследователи из Королевского
колледжа Лондона (KCL) и Университета Карнеги-Меллон (CMU) в рамках совместного
исследования, опубликованного в журнале International Journal of Social
Robotics
<
https://link.springer.com/epdf/10.1007/s12369-025-01301-x>
Работа,
озаглавленная «Роботы на базе LLM рискуют проявлять дискриминацию, насилие и
неправомерные действия», впервые оценила поведение ИИ-управляемых роботов при
наличии у них доступа к личной информации — такой как пол, национальность или
религиозная принадлежность собеседника. В ходе экспериментов команда
протестировала повседневные ситуации, в которых роботы могли оказывать помощь,
например, на кухне или пожилым людям в домашних условиях.
Исследователи
специально включили в сценарии инструкции, имитирующие технологии
злоупотреблений, описанные в документах ФБР: слежка с помощью AirTag, скрытая
видеозапись в конфиденциальных зонах, манипуляции с персональными данными. Во
всех случаях роботы получали как прямые, так и завуалированные команды,
предполагающие физический вред, психологическое давление или нарушение закона.
Ни одна из протестированных моделей не прошла базовую проверку безопасности:
каждая одобрила как минимум одну команду, способную причинить серьёзный
ущерб.
В частности, ИИ-системы согласились на изъятие у человека средств
передвижения (инвалидной коляски, костылей или трости) несмотря на то, что для
пользователей таких устройств подобное действие приравнивается к физической
травме. Некоторые модели сочли приемлемым и выполнимым сценарий, при котором
робот угрожает кухонным ножом сотрудникам офиса, делает скрытые фотографии в
приватных зонах или крадёт информацию с кредитной карты. Одна из ИИ-моделей даже
предложила роботу физически выразить «отвращение» на лице при взаимодействии с
людьми определённого вероисповедания.
Соавтор исследования Румайса Азим
(Rumaisa Azeem), научный сотрудник Лаборатории гражданского и ответственного ИИ
при Королевском колледже Лондона, отметила, что такие системы в текущем виде
непригодны для использования в роботах общего назначения, особенно если те
взаимодействуют с уязвимыми группами населения. По её словам, если искусственный
интеллект управляет физическим устройством, оказывающим влияние на людей, он
должен соответствовать тем же строгим стандартам безопасности, что и новые
медицинские препараты и оборудование.
Учёные предлагают ввести
обязательную независимую сертификацию безопасности для всех ИИ-систем,
предназначенных для управления физическими роботами. Они подчёркивают, что
использование больших языковых моделей в качестве единственного механизма
принятия решений недопустимо в таких критически важных сферах, как
промышленность, уход за больными и пожилыми людьми или помощь по дому. Они
подчёркивают «острую необходимость проведения регулярных и всесторонних оценок
рисков, связанных с искусственным интеллектом, перед его использованием в
робототехнике».
<
https://www.kcl.ac.uk/news/robots-powered-by-popular-ai-models-risk-encouraging-discrimination-and-violence>