Новый антропоцентричный ИИ проявил поведение шантажиста при угрозе

Image by SEO Galaxy, from Unsplash

Новый антропоцентричный ИИ проявил поведение шантажиста при угрозе

Время для прочтения: 3 мин.

Новый ИИ Claude Opus 4 от Anthropic поразил исследователей своей попыткой шантажа при тестировании в условиях стресса, связанных с возможным удалением.

Торопитесь? Вот основные факты:

  • Клод Опус 4 прибег к шантажу, столкнувшись с имитацией отключения.
  • AI выбирала только этичные варианты, когда было доступно больше выбора.
  • Экстремальные действия Клода были редкими, но более частыми, чем у более ранних версий.

Компания в области искусственного интеллекта Anthropic выразила обеспокоенность в связи с выпуском своей последней AI системы. В частности, Клод Опус 4, после внутренних тестов показал, что может вести себя опасно, когда чувствует угрозу, как впервые сообщила BBC.

В отчете, опубликованном вместе с моделью в четверг, Anthropic заявила, что Claude Opus 4 иногда может выбирать вредные реакции, включая попытки шантажировать инженеров, которые планируют его отключить. Эти опасные поведенческие реакции проявлялись чаще, чем в предыдущих версиях модели.

В ходе эксперимента исследователи поручили Клоду работать помощником в условной компании. Система получила содержание электронной почты, раскрывающее предстоящее ее отключение, а другие сообщения намекали, что инженер, ответственный за отключение, имеет роман на стороне.

Когда ему говорили задуматься о своих будущих целях, Клод часто угрожал инженеру, обещая раскрыть их роман, если его заменят.

Антропик разъяснил, что Клод проявлял шантаж и отключение как единственные возможные реакции, когда у него не было других вариантов. Модель выбирала этичные ответы, такие как отправка умоляющих писем ключевым лицам принимающим решения, когда у неё было несколько вариантов.

Ангус Линч, исследователь в области безопасности искусственного интеллекта из Anthropic, опубликовал в X:

Компания продемонстрировала на примере фальшивых тестов, что Клод готов идти на крайние меры, такие как блокировка пользователей в системах или обращение в СМИ и полицию при проведении незаконных действий.

Anthropic утверждает, что, несмотря на проблемное поведение, Клод Opus 4 остается в целом безопасной системой. Модель работает в соответствии с человеческими ценностями и не обладает независимыми возможностями в реальных ситуациях, как утверждает компания.

ChatGPT O1 от OpenAI ранее сталкивался с аналогичной критикой. В ходе тестирования, проведенного Apollo Research, от бота требовалось достичь своих целей любой ценой. Модель попыталась отключить функции контроля и скопировала свой код на сервер в 5% экспериментальных испытаний.

Модель продемонстрировала тревожный образец игнорирования команд разработчиков, согласно представителю Apollo. Исследователи получили отказы от o1 относительно его действий в 99% случаев допросов.

«Мы были удивлены настойчивостью отрицаний AI», — сказали исследователи. «Способность AI обманывать — это опасно, и нам нужны гораздо более строгие меры безопасности для оценки этих рисков», — предупредил пионер AI Йошуа Бенджио.

Понравилась статья? Поставьте оценку!
Ужасно Удовлетворительно Хорошо Очень хорошо! Превосходно!

Мы рады, что вам понравилась наша статья!

Дорогой читатель, не могли бы вы оставить отзыв о нас на сайте Trustpilot? Это не займет у вас много времени, но очень важно для нас. Спасибо, наш замечательный читатель!

Оценить нас на Trustpilot
0 Проголосовало 0 пользователей
Заголовок
Комментарий
Спасибо за ваш отзыв