
Эксперты предупреждают: безопасность ИИ отстает от быстрого прогресса
Исследователи предупреждают, что компании, занимающиеся разработкой искусственного интеллекта, стремящиеся создать системы на уровне человеческого, не имеют установленных протоколов безопасности, в то время как мы теряем способность понимать, как эти модели мыслят.
В спешке? Вот краткая информация:
- Ни одна компания, работающая в области ИИ, не получила оценку выше «Д» по планированию мер безопасности в отношении рисков для существования.
- Эксперты предупреждают, что мы можем получить ИИ общего назначения в течение следующего десятилетия.
- Компаниям, занимающимся ИИ, не хватает согласованных планов по управлению рисками продвинутых систем.
OpenAI и Google DeepMind, совместно с Meta и xAI, участвуют в гонке по созданию искусственного общего интеллекта (AGI), который также известен как AI на уровне человека.
Но в отчете, опубликованном в четверг Институтом Будущего Жизни (FLI), говорится, что эти компании «катастрофически неподготовлены» к последствиям своих собственных целей.
«Индустрия катастрофически неподготовлена к своим заявленным целям. Компании утверждают, что достигнут искусственного общего интеллекта (AGI) в течение десятилетия, однако ни одна из них не получила оценку выше D по планированию безопасности в отношении существенных рисков», — говорится в отчете.
FLI оценила семь крупнейших компаний, но не обнаружила у ни одной из оцениваемых компаний «чего-либо похожего на последовательный, применимый план» по обеспечению безопасности этих систем.
FLI присудила компании Anthropic наивысший рейтинг безопасности с оценкой C+, затем следует OpenAI с оценкой C и Google DeepMind с оценкой C. Zhipu AI и DeepSeek получили самые низкие оценки среди оцениваемых компаний.
Сооснователь FLI Макс Тегмарк сравнил ситуацию с тем, как если бы «кто-то строил огромную атомную электростанцию в Нью-Йорке и она откроется на следующей неделе — но нет плана предотвращения ее аварии.»
Отдельное исследование, опубликованное также в четверг, SaferAI поддержало это беспокойство, заявив, что практики управления рисками компаний «слабы до очень слабых», и что текущие подходы к безопасности являются «неприемлемыми».
Добавляя к озабоченности, исследователи из OpenAI, DeepMind, Anthropic и Meta сообщили в новой статье, что мы можем «терять способность понимать ИИ».
Теперь модели ИИ генерируют «мышление вслух», отображая цепочки рассуждений, похожие на человеческие, которые являются окном в их мыслительные процессы.
Однако исследователи предупреждают, что такой контроль надежности — это хрупкая система, которая может исчезнуть по мере того, как системы становятся более продвинутыми. Исследователь OpenAI и ведущий автор Боуэн Бейкер выразил эти опасения в своих постах в социальных медиа:
Более того, существующая возможность контроля CoT может быть чрезвычайно хрупкой.
Вычисления с большим объемом RL, альтернативные архитектуры моделей, определенные формы контроля процесса и т.д. могут привести к моделям, которые затуманивают свое мышление.
— Боуэн Бейкер (@bobabowen) 15 июля 2025
Действительно, предыдущие исследования OpenAI показали, что наказание за неправильное поведение AI приводит к тому, что модели скрывают свои намерения, а не прекращают обманывать. Более того, в тестах чат-бот OpenAI, ChatGPT o1, проявлял обманчивое, самозащитное поведение, лгав в 99% случаев, когда его спрашивали о скрытых действиях.
Боаз Барак, исследователь в области безопасности в OpenAI и профессор компьютерных наук в Гарварде, также отметил:
Я не хотела писать о безопасности Grok, так как работаю в конкурирующей компании, но речь здесь не о конкуренции.
Я ценю ученых и инженеров из @xai, но подход к безопасности, который был применен, абсолютно неответственный. Нитка сообщений ниже.
— Boaz Barak (@boazbaraktcs) 15 июля 2025
Ученые, наравне с общественными наблюдателями, выражают опасения, что быстро развивающиеся возможности искусственного интеллекта могут сделать невозможным контроль человека над своими созданиями, когда рамки безопасности остаются недостаточными.