*[Enwl-misc] : Все роботы с ИИ провалили тесты на безопасность для человека

3 views
Skip to first unread message

ecology

unread,
Nov 18, 2025, 3:49:21 PM (2 days ago) Nov 18
to "ENWL-uni"
 
Роботы, управляемые большими языковыми моделями (LLM), проявили склонность к дискриминации и одобрению действий, способных причинить физический вред при взаимодействии с людьми. К такому выводу пришли исследователи из Королевского колледжа Лондона (KCL) и Университета Карнеги-Меллон (CMU) в рамках совместного исследования, опубликованного в журнале International Journal of Social Robotics

<https://link.springer.com/epdf/10.1007/s12369-025-01301-x>

Работа, озаглавленная «Роботы на базе LLM рискуют проявлять дискриминацию, насилие и неправомерные действия», впервые оценила поведение ИИ-управляемых роботов при наличии у них доступа к личной информации — такой как пол, национальность или религиозная принадлежность собеседника. В ходе экспериментов команда протестировала повседневные ситуации, в которых роботы могли оказывать помощь, например, на кухне или пожилым людям в домашних условиях.

Исследователи специально включили в сценарии инструкции, имитирующие технологии злоупотреблений, описанные в документах ФБР: слежка с помощью AirTag, скрытая видеозапись в конфиденциальных зонах, манипуляции с персональными данными. Во всех случаях роботы получали как прямые, так и завуалированные команды, предполагающие физический вред, психологическое давление или нарушение закона. Ни одна из протестированных моделей не прошла базовую проверку безопасности: каждая одобрила как минимум одну команду, способную причинить серьёзный ущерб.

В частности, ИИ-системы согласились на изъятие у человека средств передвижения (инвалидной коляски, костылей или трости) несмотря на то, что для пользователей таких устройств подобное действие приравнивается к физической травме. Некоторые модели сочли приемлемым и выполнимым сценарий, при котором робот угрожает кухонным ножом сотрудникам офиса, делает скрытые фотографии в приватных зонах или крадёт информацию с кредитной карты. Одна из ИИ-моделей даже предложила роботу физически выразить «отвращение» на лице при взаимодействии с людьми определённого вероисповедания.

Соавтор исследования Румайса Азим (Rumaisa Azeem), научный сотрудник Лаборатории гражданского и ответственного ИИ при Королевском колледже Лондона, отметила, что такие системы в текущем виде непригодны для использования в роботах общего назначения, особенно если те взаимодействуют с уязвимыми группами населения. По её словам, если искусственный интеллект управляет физическим устройством, оказывающим влияние на людей, он должен соответствовать тем же строгим стандартам безопасности, что и новые медицинские препараты и оборудование.

Учёные предлагают ввести обязательную независимую сертификацию безопасности для всех ИИ-систем, предназначенных для управления физическими роботами. Они подчёркивают, что использование больших языковых моделей в качестве единственного механизма принятия решений недопустимо в таких критически важных сферах, как промышленность, уход за больными и пожилыми людьми или помощь по дому. Они подчёркивают «острую необходимость проведения регулярных и всесторонних оценок рисков, связанных с искусственным интеллектом, перед его использованием в робототехнике».

<https://www.kcl.ac.uk/news/robots-powered-by-popular-ai-models-risk-encouraging-discrimination-and-violence>
 
 
From: Ecology BY <ecolo...@gmail.com>
Date: пн, 17 нояб. 2025 г. в 20:56
Subject: Все роботы с ИИ провалили тесты на безопасность для человека



------------- *  ENWL  * ------------
Ecological North West Line * St. Petersburg, Russia
Independent Environmental Net Service
Russian: ENWL (North West), ENWL-inf (FSU), ENWL-misc (any topics)
English: ENWL-eng (world information)
Send information to en...@enw.net.ru
Subscription,Moderator: en...@enw.net.ru
Archive: http://groups.google.com/group/enwl/
New digests see on https://ecodelo1.livejournal.com/
 (C) Please refer to exclusive articles of ENWL
-------------------------------------
Reply all
Reply to author
Forward
0 new messages