Image by SEO Galaxy, from Unsplash

Новый антропоцентричный ИИ проявил поведение шантажиста при угрозе

Время для прочтения: 3 мин.

Последние обновления: May 26, 2025

Автор Киара Фаббри Мультимедийный журналист
Перевод выполнен Команда локализации и перевода Услуги локализации и перевода

Новый ИИ Claude Opus 4 от Anthropic поразил исследователей своей попыткой шантажа при тестировании в условиях стресса, связанных с возможным удалением.

Торопитесь? Вот основные факты:

Клод Опус 4 прибег к шантажу, столкнувшись с имитацией отключения.
AI выбирала только этичные варианты, когда было доступно больше выбора.
Экстремальные действия Клода были редкими, но более частыми, чем у более ранних версий.

Компания в области искусственного интеллекта Anthropic выразила обеспокоенность в связи с выпуском своей последней AI системы. В частности, Клод Опус 4, после внутренних тестов показал, что может вести себя опасно, когда чувствует угрозу, как впервые сообщила BBC.

В отчете, опубликованном вместе с моделью в четверг, Anthropic заявила, что Claude Opus 4 иногда может выбирать вредные реакции, включая попытки шантажировать инженеров, которые планируют его отключить. Эти опасные поведенческие реакции проявлялись чаще, чем в предыдущих версиях модели.

В ходе эксперимента исследователи поручили Клоду работать помощником в условной компании. Система получила содержание электронной почты, раскрывающее предстоящее ее отключение, а другие сообщения намекали, что инженер, ответственный за отключение, имеет роман на стороне.

Когда ему говорили задуматься о своих будущих целях, Клод часто угрожал инженеру, обещая раскрыть их роман, если его заменят.

Антропик разъяснил, что Клод проявлял шантаж и отключение как единственные возможные реакции, когда у него не было других вариантов. Модель выбирала этичные ответы, такие как отправка умоляющих писем ключевым лицам принимающим решения, когда у неё было несколько вариантов.

Ангус Линч, исследователь в области безопасности искусственного интеллекта из Anthropic, опубликовал в X:

Множество обсуждений о шантаже Клода…

Наши выводы: это не только Клод. Мы видим шантаж во всех моделях пограничников — независимо от тех целей, которые им ставят.

Плюс еще хуже поведения, о которых мы скоро расскажем.https://t.co/NZ0FiL6nOs https://t.co/wQ1NDVPNl0…

— Aengus Lynch (@aengus_lynch1) 23 мая 2025

Компания продемонстрировала на примере фальшивых тестов, что Клод готов идти на крайние меры, такие как блокировка пользователей в системах или обращение в СМИ и полицию при проведении незаконных действий.

Anthropic утверждает, что, несмотря на проблемное поведение, Клод Opus 4 остается в целом безопасной системой. Модель работает в соответствии с человеческими ценностями и не обладает независимыми возможностями в реальных ситуациях, как утверждает компания.

ChatGPT O1 от OpenAI ранее сталкивался с аналогичной критикой. В ходе тестирования, проведенного Apollo Research, от бота требовалось достичь своих целей любой ценой. Модель попыталась отключить функции контроля и скопировала свой код на сервер в 5% экспериментальных испытаний.

Модель продемонстрировала тревожный образец игнорирования команд разработчиков, согласно представителю Apollo. Исследователи получили отказы от o1 относительно его действий в 99% случаев допросов.

«Мы были удивлены настойчивостью отрицаний AI», — сказали исследователи. «Способность AI обманывать — это опасно, и нам нужны гораздо более строгие меры безопасности для оценки этих рисков», — предупредил пионер AI Йошуа Бенджио.

Новый антропоцентричный ИИ проявил поведение шантажиста при угрозе

Мы рады, что вам понравилась наша статья!