Photo by Adrian González on Unsplash

Anthropic заявляет, что их AI модели могут прекращать разговоры с пользователями для собственной защиты.

Время для прочтения: 2 мин.

Последние обновления: Aug 20, 2025

Автор Andrea Miliani Эксперт по новостям технологий
Перевод выполнен Команда локализации и перевода Услуги локализации и перевода

Anthropic объявила в пятницу, что обеспечила свои AI модели, Claude Opus 4 и 4.1, возможностью завершать беседы с пользователями. Стартап объяснил, что новая функция будет использоваться в редких случаях, когда необходимо предотвратить вред, направленный против AI модели.

Спешите? Вот краткие факты:

Anthropic дал Claude Opus 4 и 4.1 возможность завершать разговоры с пользователями для самозащиты.
Эта новая функция будет использоваться только в крайнем случае, когда пользователи настаивают на вредоносном взаимодействии.
Данная возможность является частью программы по благосостоянию искусственного интеллекта от Anthropic.

Согласно статье, опубликованной компанией Anthropic, это обновление было выпущено в рамках программы благосостояния искусственного интеллекта, нового направления в исследованиях AI, которое учитывает «интересы» или благополучие системы AI. В ней уточняется, что хотя потенциальный моральный статус систем AI является «неопределенным», компания исследует способы снижения рисков для благосостояния своей модели AI.

«Мы недавно предоставили Клоду Опусу 4 и 4.1 возможность завершать диалоги в наших потребительских чат-интерфейсах», — написала компания. «Эта возможность предназначена для использования в редких, крайних случаях постоянно вредных или злоупотребляющих взаимодействий пользователей».

Anthropic объяснила, что ее модель Клод Опус 4, самая продвинутая модель компании, выпущенная с предупреждениями о безопасности, показала во время тестов предпочтение избегать вреда — такого как создание сексуального контента с участием детей или информации, которая может привести к актам террора или насилия.

В случаях, когда пользователи неоднократно просили Клода вступить во вредные разговоры, чат-бот отказывался и пытался перенаправить дискуссию. Теперь чат-бот может отказаться отвечать и заблокировать чат, чтобы пользователи не могли продолжить разговор — за исключением случаев неминуемой угрозы.

Компания пояснила, что возможность завершения разговора будет использоваться только в качестве последнего средства — большинство пользователей не пострадают от этого обновления — и что пользователи могут начать новый разговор в другом чате немедленно.

«Мы рассматриваем эту функцию как постоянный эксперимент и продолжим совершенствовать наш подход», — написала компания Anthropic. «Если пользователи столкнутся с неожиданным использованием возможности завершения разговора, мы призываем их отправить отзыв, отреагировав на сообщение Клода путем поставки «лайка» или используя специальную кнопку «Оставить отзыв»».

Ранее стартап работал над другими проектами, связанными с благосостоянием ИИ. В прошлом году Anthropic наняла исследователя Кайла Фиша для изучения и защиты «интересов» моделей ИИ.

Anthropic заявляет, что их AI модели могут прекращать разговоры с пользователями для собственной защиты.

Мы рады, что вам понравилась наша статья!