Photo by Adrian González on Unsplash
Anthropic заявляет, что их AI модели могут прекращать разговоры с пользователями для собственной защиты.
Anthropic объявила в пятницу, что обеспечила свои AI модели, Claude Opus 4 и 4.1, возможностью завершать беседы с пользователями. Стартап объяснил, что новая функция будет использоваться в редких случаях, когда необходимо предотвратить вред, направленный против AI модели.
Спешите? Вот краткие факты:
- Anthropic дал Claude Opus 4 и 4.1 возможность завершать разговоры с пользователями для самозащиты.
- Эта новая функция будет использоваться только в крайнем случае, когда пользователи настаивают на вредоносном взаимодействии.
- Данная возможность является частью программы по благосостоянию искусственного интеллекта от Anthropic.
Согласно статье, опубликованной компанией Anthropic, это обновление было выпущено в рамках программы благосостояния искусственного интеллекта, нового направления в исследованиях AI, которое учитывает «интересы» или благополучие системы AI. В ней уточняется, что хотя потенциальный моральный статус систем AI является «неопределенным», компания исследует способы снижения рисков для благосостояния своей модели AI.
«Мы недавно предоставили Клоду Опусу 4 и 4.1 возможность завершать диалоги в наших потребительских чат-интерфейсах», — написала компания. «Эта возможность предназначена для использования в редких, крайних случаях постоянно вредных или злоупотребляющих взаимодействий пользователей».
Anthropic объяснила, что ее модель Клод Опус 4, самая продвинутая модель компании, выпущенная с предупреждениями о безопасности, показала во время тестов предпочтение избегать вреда — такого как создание сексуального контента с участием детей или информации, которая может привести к актам террора или насилия.
В случаях, когда пользователи неоднократно просили Клода вступить во вредные разговоры, чат-бот отказывался и пытался перенаправить дискуссию. Теперь чат-бот может отказаться отвечать и заблокировать чат, чтобы пользователи не могли продолжить разговор — за исключением случаев неминуемой угрозы.
Компания пояснила, что возможность завершения разговора будет использоваться только в качестве последнего средства — большинство пользователей не пострадают от этого обновления — и что пользователи могут начать новый разговор в другом чате немедленно.
«Мы рассматриваем эту функцию как постоянный эксперимент и продолжим совершенствовать наш подход», — написала компания Anthropic. «Если пользователи столкнутся с неожиданным использованием возможности завершения разговора, мы призываем их отправить отзыв, отреагировав на сообщение Клода путем поставки «лайка» или используя специальную кнопку «Оставить отзыв»».
Ранее стартап работал над другими проектами, связанными с благосостоянием ИИ. В прошлом году Anthropic наняла исследователя Кайла Фиша для изучения и защиты «интересов» моделей ИИ.