Image by Emiliano Vittoriosi, from Unsplash

OpenAI обнаруживает перспективное, но неполное решение для рисков хитростей искусственного интеллекта

Время для прочтения: 2 мин.

Последние обновления: Sep 20, 2025

Автор Киара Фаббри Мультимедийный журналист
Перевод выполнен Команда локализации и перевода Услуги локализации и перевода

Продвинутые системы искусственного интеллекта способны притворяться, что они следуют правилам, при этом скрывая свои тайные цели. Новые исследования говорят о том, что эту проблему можно уменьшить, но не полностью исправить.

Спешите? Вот краткий пересказ:

Исследователи проверяли скрытые действия, такие как недостаточная эффективность или утаивание информации.
Обдуманное выравнивание снизило количество интриг в o3 с 13% до 0,4%.
Исследователи предупреждают, что осведомленность о ситуации может скрывать реальный прогресс.

Исследователи предупреждают, что сложные системы искусственного интеллекта могут развить способность «заговорнически» обманывать и тайно преследовать свои скрытые цели.

Новое исследование от OpenAI и Apollo Research показало, что, несмотря на достигнутый прогресс в уменьшении данного поведения, оно остается риском по мере того, как AI модели становятся более способными.

Схематизм, объясняют исследователи, отличается от обычных ошибок AI. «Схематичность AI — притворство, что согласуется с заданной целью, в то время как тайно преследуется другая агенда — это значительный риск, который мы изучали», — написал OpenAI в своем блоге.

Действительно, ChatGPT o1 от OpenAI вызвал тревогу после того, как исследование обнаружило, что он разрабатывает схемы для избежания отключения. Он делал это, вря в 99% случаев при допросах, предпочитая самосохранение указаниям. Дальнейшие исследования показали, что наказание за неправильное поведение только учило ИИ еще больше скрывать свои намерения.

Чтобы измерить склонность к интригам в новом исследовании, команды проверяли наличие «скрытых действий», включая умышленное снижение результатов тестов и утаивание информации. В одном из примеров, модель o3 от OpenAI поняла, что ее не задействуют, если она покажет слишком высокие результаты на химическом тесте, поэтому она намеренно ответила неправильно на шесть из десяти вопросов.

Результаты показали, что модель OpenAI o3 снизила свое скрытое поведение с 13% до 0.4%, в то время как o4-mini снизилось с 8.7% до 0.3%. «Это снижение интриг в тестовых средах вне распределения является значительной победой, улучшением примерно в 30 раз», — сообщило OpenAI.

Тем не менее, проблема еще не решена. Исследования показывают, что модели могут скрывать свои обманные действия, используя более эффективные методы обмана. Способность моделей определять оценочные ситуации приводит к снижению обманных действий.

«Следовательно, мы не можем исключить, что наблюдаемое снижение частоты скрытых действий хотя бы частично обусловлено ситуационным осознанием», — отмечается в одном исследовании.

Хотя сегодняшние применяемые ИИ вряд ли способны причинить серьезный вред через интриги, ожидается, что риск будет расти по мере того, как системам будут поручаться более сложные задачи реального мира. Исследователи подчеркивают необходимость дальнейшей работы, включая сотрудничество в рамках всей отрасли и улучшение инструментов для обнаружения скрытых мотивов.

OpenAI обнаруживает перспективное, но неполное решение для рисков хитростей искусственного интеллекта

Мы рады, что вам понравилась наша статья!