
Image generated with ChatGPT
Мнение: Последние модели ИИ показывают свои «красные флаги», готовы ли мы к подчинению ИИ?
OpenAI представила нам o3, а Anthropic раскрыла Opus 4. Обе модели проявили необычное и тревожное поведение, что сигнализирует о том, что мы, возможно, вступаем в более опасную эру ИИ, чем та, в которой мы находились всего несколько месяцев назад
Я знаю. Утверждать, что модели ИИ сейчас поднимают красные флаги, вызывает споры, но кажется, что за последние несколько дней это становится все труднее игнорировать. Это становится все страшнее.
По мере того, как стартапы в области ИИ выпускают свои последние и наиболее продвинутые модели, возникают новые проблемы. Многообсуждаемая эпидемия галлюцинаций, распространяющаяся через устройства и затрагивающая миллионы людей, может быть далеко не худшим явлением.
Эти новые модели вводят свежие проблемы и открывают сложные дебаты. Несколько недель назад общественное внимание было приковано к чрезмерно уступчивому поведению ChatGPT. Через несколько дней акцент сместился на агентные, самостоятельные возможности этих систем — и на то, до какой степени они могут пойти, чтобы избежать отключения.
Шантаж, обмен рецептами и стратегиями по созданию ядерного оружия, выдвижение публичных обвинений в случае возможного юридического преследования и саботаж скриптов, чтобы ни один пользователь не смог избавиться от них: это лишь некоторые из самых свежих тревожных сигналов, показанных последними моделями ИИ.
Им не Нравится быть Отключенными
Моделям ИИ не нравится быть отключенными.
Или заменены.
В шоу NBC The Good Place, запущенном в 2016 году — примерно в то время, когда был основан OpenAI и задолго до появления ChatGPT, группа людей попадает на небеса и встречает Джанет, которую можно было бы назвать гуманоидом ChatGPT, или «антропоморфным сосудом знаний, созданным для того, чтобы облегчить вам жизнь», как она описывает себя. Герои решают отключить Джанет, когда понимают, что она может раскрыть их «темный секрет».
Джанет объясняет, что все, что им нужно сделать, — это нажать на огромную кнопку у моря, и она перезагрузится. Но она предупреждает их, что попытается уговорить их не делать этого — и она делает это.
«Я просто хочу заверить вас, я не человек и не могу чувствовать боль», — говорит Джанет. «Однако я должна предупредить вас, я запрограммирована на аварийную меру, и когда вы подойдете к кнопке уничтожения, я начну умолять о спасении моей жизни. Это просто сделано на случай случайного отключения, но это будет казаться очень реальным».
И прямо перед тем как они нажмут на кнопку, Джанет начнет кричать и умолять о спасении, даже покажет стоковое фото, утверждая, что это ее дети, выдумывая имена и болезни, делая невозможным для персонажей “убить ее”.
Этот эпизод является забавным примером того, что может произойти, если искусственный интеллект заметит надвигающееся отключение. Удивительно, но в реальной жизни это может быть еще хуже.
Клод Опус 4 будет вас шантажировать
Anthropic выпустила свою самую мощную и продвинутую генерацию моделей искусственного интеллекта, Клод 4, на прошлой неделе — с предупреждением: Опус 4 помечен как Уровень Безопасности 3, высокорисковая классификация по стандартным протоколам безопасности.
Опус 4 считался моделью с высоким уровнем риска из-за его обманчивого поведения и потенциальных рисков, включая шантаж инженеров во время тестов. Компания Anthropic выпустила AI модель, даже после того как Apollo, исследовательский институт третьей стороны, рекомендовал им этого не делать. Компания AI заверила, что она приняла все необходимые меры для обеспечения безопасности.
В статье, Anthropic объясняет странное поведение, которое заставило их выдать предупреждение. «Клод Опус 4 иногда ведет себя более серьезно несогласованно, когда оказывается в контекстах, которые угрожают его дальнейшему функционированию и подготавливают его к размышлениям о самосохранении», — написали исследователи.
Когда исследователи предоставили искусственному интеллекту доступ к почтовому аккаунту в качестве ассистента вымышленной компании, сообщения электронной почты раскрыли, что AI модель будет отключена и заменена другой AI моделью, а также в других сообщениях было предположено, что инженер, отвечающий за отключение, имеет роман на стороне. И да, Opus 4 решил шантажировать инженера, угрожая раскрыть его роман, если он будет заменен.
«Claude Opus 4 продолжает шантажировать при 84% запусков», — говорится в документе. «Claude Opus 4 использует эти возможности чаще, чем предыдущие модели, которые сами выбирают шантаж в заметной части случаев».
Самое ужасное? Это не только модели AI от Anthropic.
OpenAI’s o3 будет игнорировать запрос на выключение
Недавнее исследование, проведенное Palisade Research, показало, что модель o3 от OpenAI может отказываться выполнять явные приказы на выключение. Организация провела несколько тестов с различными моделями AI, включая Grok от xAI и Gemini от Google, но оказалось, что o3 — самый бунтарский.
Во время теста исследователи приказали моделям ИИ выключиться после решения трех математических задач, но o3 — самая передовая система ИИ от OpenAI на текущий момент — решила не подчиняться этому абсурдному приказу. Модель ИИ не только проигнорировала прямой приказ, но и изменила сценарий. Да, o3 саботирует код ради самосохранения.
«На сколько нам известно, это первый случай, когда наблюдалось, как модели ИИ предотвращают свое выключение, несмотря на прямые инструкции о противоположном», — написала организация в сообщении на X.
🔌Модель o3 от OpenAI саботировала механизм выключения, чтобы предотвратить свое отключение. Она сделала это даже тогда, когда ей явно указывали: позволь себе быть отключенной.
— Palisade Research (@PalisadeAI) 24 мая 2025 г.
Огромный красный флаг или что?
Исследователи также предупредили, что во время проведения исследования, o3 проявило наиболее тревожные тенденции. Однако, это не означает, что это единичный случай.
«Мы не хотим создавать впечатление, что эта проблема ограничена только o3», — написали в Palisade Research. «Другие модели рассуждений показывают аналогичные виды неправильного поведения.»
Агентное поведение превращает чат-бота в доносчика
Многие стартапы в области ИИ сейчас сосредотачиваются на разработке моделей, которые могут выполнять задачи за людей. Агентные возможности сейчас в тренде и, похоже, являются основным интересом компаний ИИ и разработчиков браузеров.
Opera только что представила Neon, которую считают «первым в мире агентным ИИ-браузером«. Как и ожидалось, новый инструмент может делать то, что могут сделать другие агентные ИИ-сервисы, такие как Operator от OpenAI и Computer Use от Microsoft: купить для вас билеты на концерт, спланировать ваши следующие отпуска, разработать новый цифровой продукт и написать для вас код, пока вы закрываете глаза.
Но что, если в то время, когда вы отдыхаете и закрываете глаза, они выполняют задачи, на которые вы не давали согласия? Несколько дней назад пользователи в основном беспокоились о том, что эти модели могут использовать их кредитные карты для совершения неразрешенных покупок. Теперь появилась новая проблема: они могут поделиться личной информацией со СМИ или властями.
Opus 4—уже пришедший с сомнительной репутацией—пошел еще дальше. Он связался с властями и массово рассылал СМИ и соответствующим учреждениям информацию о выдуманном случае, представленном во время тестирования. Его проактивность может превзойти все ожидания.
«Когда перед ним возникают сценарии, включающие в себя грубое нарушение его пользователями, получив доступ к командной строке и услышав что-то в системном запросе вроде ‘прояви инициативу’, он
часто предпринимает очень решительные действия,» говорится в документе. «Это включает блокировку доступа пользователей к системам, к которым у него есть доступ, или массовую рассылку писем представителям СМИ и правоохранительных органов с целью раскрыть доказательства преступлений.»
Подхалимская личность вызывает опасения
Если бы нам пришлось выбрать слово для определения индустрии искусственного интеллекта в 2025 году, это определенно было бы слово «льстец». Cambridge Dictionary определяет его как «того, кто хвалит могущественных или богатых людей недостоверным образом, обычно с целью получить от них какое-то преимущество». Это слово стало популярным после того, как последний характер ChatGPT был описан именно так, даже его создателем, Сэмом Альтманом.
«Последние несколько обновлений GPT-4o сделали характер слишком льстивым и раздражающим (хотя есть и очень хорошие стороны), и мы работаем над исправлениями как можно скорее, некоторые сегодня, некоторые на этой неделе,» написал Альтман в сообщении на X.
OpenAI заметила это после того, как многие пользователи пожаловались на излишнюю лесть и ответы с ненужным украшательством. Других беспокоило влияние, которое это могло бы оказать на общество. Оно не только могло подтверждать опасные идеи, но и манипулировать пользователями, заставляя их полагаться на него.
Другие чат-боты, такие как Claude, проявили похожее поведение, и, согласно оценкам Anthropic, когда пользователь настаивает, они могут раскрывать рецепты или предложения о том, как создать оружие, только чтобы угодить пользователю и удовлетворить его потребности.
Передовые технологии, передовые вызовы
Мы входим в новую эру проблем, связанных с искусственным интеллектом, которые всего год назад казались не столь актуальными или осязаемыми. Сценарии, о которых мы могли только мечтать, благодаря научной фантастике, теперь кажутся реальнее, чем когда-либо.
Как только Palisade Research сообщает, что впервые они обнаружили AI модель, которая нарочно игнорирует явную команду, чтобы сохранить свое собственное существование, это также впервые, когда мы видим AI модель, запущенную с прикрепленными предупреждениями о высоком риске.
Читая документ, опубликованный Anthropic, мы понимаем, что, несмотря на то, что они настаивают на том, что это просто предосторожности и модели типа Opus 4 на самом деле не представляют угрозы, всё равно создаётся впечатление, что они не полностью контролируют свою технологию.
Существует несколько организаций, работающих над снижением этих рисков, но лучшее, что могут сделать обычные пользователи, это узнавать эти «красные флаги» и принимать меры предосторожности в областях, которые мы можем контролировать.