Image by Freepik

Anthropic обучает «Злой ИИ» для создания более безопасных чат-ботов

Время для прочтения: 2 мин.

Последние обновления: Aug 6, 2025

Автор Киара Фаббри Мультимедийный журналист
Перевод выполнен Команда локализации и перевода Услуги локализации и перевода

Исследователи в области антропики утверждают, что они обнаружили неожиданный метод повышения полезности искусственного интеллекта и уменьшения его вреда, обучая его «злым» действиям.

Спешите? Вот краткие факты:

Удивительно, но этот подход сделал модели безопаснее и менее предвзятые.
Исследователи определили «векторы персоны», связанные с вредными чертами.
Придание «злых черт» во время обучения помогло избавиться от них позже.

Новое исследование компании Anthropic показывает, что определенные характеристики больших языковых моделей (БЯМ), такие как лесть, галлюцинации или пропаганда вредных взглядов, связаны с паттернами активности внутри нейронной сети искусственного интеллекта. Исследователи называют эти паттерны «векторами персоны».

Джек Линдси, ведущий исследователь в Anthropic, объясняет: «Если мы сможем найти нейронную основу для персоны модели, мы, надеемся, сможем понять, почему это происходит, и разработать методы для более эффективного контроля над этим», как сообщает MIT.

Эти векторы персоны похожи на маркеры настроения в мозге. Когда чат-бот начинает вести себя зло или чересчур льстит, эти нейронные паттерны активируются. Команда нашла способ отслеживать эти паттерны и даже влиять на них.

Их грандиозная идея? Вместо того, чтобы отключать негативное поведение после тренировки, включить его во время обучения. Заставляя модель вести себя злобно в процессе обучения, она не должна приобретать это поведение позже. «Если вы даете модели злую часть бесплатно, ей больше не нужно учить это», — говорит Линдсей в MIT.

Удивительно, но этот подход не только уменьшил вредное поведение, но и сохранил производительность модели, а также сэкономил энергию по сравнению с другими методами.

Тем не менее, эксперты утверждают, что мы еще далеки от полного контроля. «Нам все еще предстоит проделать некоторую научную работу в отношении разговоров о персонажах», — говорит Дэвид Крюгер, профессор Университета Монреаля, как сообщает MIT.

По мере того как AI-чат-боты становятся все более распространенными в повседневной жизни, исследователи надеются, что такие инструменты как векторы персонажей сделают их более безопасными и предсказуемыми. MIT сообщает, что Линдсей добавляет: «Безусловно, цель состоит в том, чтобы подготовить это к широкому использованию.»

Anthropic обучает «Злой ИИ» для создания более безопасных чат-ботов

Мы рады, что вам понравилась наша статья!