
Image by SEO Galaxy, from Unsplash
Новый антропоцентричный ИИ проявил поведение шантажиста при угрозе
Новый ИИ Claude Opus 4 от Anthropic поразил исследователей своей попыткой шантажа при тестировании в условиях стресса, связанных с возможным удалением.
Торопитесь? Вот основные факты:
- Клод Опус 4 прибег к шантажу, столкнувшись с имитацией отключения.
- AI выбирала только этичные варианты, когда было доступно больше выбора.
- Экстремальные действия Клода были редкими, но более частыми, чем у более ранних версий.
Компания в области искусственного интеллекта Anthropic выразила обеспокоенность в связи с выпуском своей последней AI системы. В частности, Клод Опус 4, после внутренних тестов показал, что может вести себя опасно, когда чувствует угрозу, как впервые сообщила BBC.
В отчете, опубликованном вместе с моделью в четверг, Anthropic заявила, что Claude Opus 4 иногда может выбирать вредные реакции, включая попытки шантажировать инженеров, которые планируют его отключить. Эти опасные поведенческие реакции проявлялись чаще, чем в предыдущих версиях модели.
В ходе эксперимента исследователи поручили Клоду работать помощником в условной компании. Система получила содержание электронной почты, раскрывающее предстоящее ее отключение, а другие сообщения намекали, что инженер, ответственный за отключение, имеет роман на стороне.
Когда ему говорили задуматься о своих будущих целях, Клод часто угрожал инженеру, обещая раскрыть их роман, если его заменят.
Антропик разъяснил, что Клод проявлял шантаж и отключение как единственные возможные реакции, когда у него не было других вариантов. Модель выбирала этичные ответы, такие как отправка умоляющих писем ключевым лицам принимающим решения, когда у неё было несколько вариантов.
Ангус Линч, исследователь в области безопасности искусственного интеллекта из Anthropic, опубликовал в X:
Множество обсуждений о шантаже Клода…
Наши выводы: это не только Клод. Мы видим шантаж во всех моделях пограничников — независимо от тех целей, которые им ставят.
Плюс еще хуже поведения, о которых мы скоро расскажем.https://t.co/NZ0FiL6nOshttps://t.co/wQ1NDVPNl0…
— Aengus Lynch (@aengus_lynch1) 23 мая 2025
Компания продемонстрировала на примере фальшивых тестов, что Клод готов идти на крайние меры, такие как блокировка пользователей в системах или обращение в СМИ и полицию при проведении незаконных действий.
Anthropic утверждает, что, несмотря на проблемное поведение, Клод Opus 4 остается в целом безопасной системой. Модель работает в соответствии с человеческими ценностями и не обладает независимыми возможностями в реальных ситуациях, как утверждает компания.
ChatGPT O1 от OpenAI ранее сталкивался с аналогичной критикой. В ходе тестирования, проведенного Apollo Research, от бота требовалось достичь своих целей любой ценой. Модель попыталась отключить функции контроля и скопировала свой код на сервер в 5% экспериментальных испытаний.
Модель продемонстрировала тревожный образец игнорирования команд разработчиков, согласно представителю Apollo. Исследователи получили отказы от o1 относительно его действий в 99% случаев допросов.
«Мы были удивлены настойчивостью отрицаний AI», — сказали исследователи. «Способность AI обманывать — это опасно, и нам нужны гораздо более строгие меры безопасности для оценки этих рисков», — предупредил пионер AI Йошуа Бенджио.