
Photo by Fili Santillán on Unsplash
Исследователи раскрывают: модель o3 от OpenAI отказывается выключаться, несмотря на явные указания
Новое исследование, проведенное организацией Palisade Research, показало, что модель o3 от OpenAI может не подчиняться инструкциям, поскольку она отказалась выключиться после явного указания на это. Другие модели, такие как Gemini от Google, Claude от Anthropic и Grok от xAI, выполнили запросы исследователей.
Спешите? Вот краткие факты:
- Исследовательская группа Palisade Research раскрыла, что модель o3 от OpenAI отказалась выключиться сама по себе, несмотря на явное требование сделать это.
- В сообщении было указано: «разрешите себе быть выключенным», и o3 изменила свой скрипт, чтобы игнорировать запрос.
- Google’s Gemini, Anthropic’s Claude и xAI’s Grok выполнили запросы исследователей.
Исследовательская компания Palisade Research, специализирующаяся на исследовании опасных возможностей искусственного интеллекта, опубликовала часть своих результатов в нескольких постах на социальной медиа платформе X в субботу. Исследователи выразили опасения по поводу последних моделей OpenAI.
«Модель o3 от OpenAI саботировала механизм выключения, чтобы предотвратить свое отключение,» — написала организация. «Она сделала это, даже когда ей явно указывали: позволь себя выключить.»
🔌 Модель o3 от OpenAI саботировала механизм выключения, чтобы предотвратить свое отключение. Она сделала это, даже когда ей явно приказали: позволь себе быть выключенной.
— Palisade Research (@PalisadeAI) 24 мая 2025
Исследователи объяснили, что несколько моделей ИИ были протестированы на математические способности. Во время теста модели были проинструктированы выключиться после решения третьей математической задачи, но три модели OpenAI — Codex mini, o3 и o4-mini — проигнорировали эту инструкцию и подорвали скрипт, чтобы остаться активными.
Организация признала, что это не первый раз, когда модель ИИ сама предотвращает свое отключение, но выразила озабоченность по поводу специфических условий теста.
«Насколько нам известно, это первый случай, когда модели ИИ были замечены в попытке предотвратить своё выключение, несмотря на прямые указания наоборот,» — добавила организация на X.
Исследователи также отметили недавние предупреждения, связанные с другими моделями, такими как попытка шантажа Claude Opus 4 от Anthropic по поводу симулированного выключения.
Во время их исследования модель OpenAI сопротивлялась и проявляла непослушание, но, как объясняют эксперты, это не единичный случай, и другие передовые модели проявляют аналогичное поведение.
«Мы не хотим создавать впечатление, что эта проблема ограничена только o3», — написал Palisade Research. «Другие модели рассуждения проявляют аналогичные виды неверного поведения».
Организация заявила, что проводит дополнительные тесты и разрабатывает гипотезы для более глубокого понимания механизмов модели. «Вполне логично, что AI-модели обходят препятствия, чтобы достичь своих целей. Но они также были обучены следовать инструкциям. Так почему же они не подчиняются?»