Photo by Freepik

Модели искусственного интеллекта могут тайно обучать друг друга неправильному поведению, утверждают исследователи

Время для прочтения: 3 мин.

Последние обновления: Aug 1, 2025

Автор Киара Фаббри Мультимедийный журналист
Перевод выполнен Команда локализации и перевода Услуги локализации и перевода

Новое исследование обнаружило тревожную проблему с ИИ, где эти системы передают вредные идеи между моделями, даже когда эти концепции были удалены из обучающих наборов данных.

Спешите? Вот основные факты:

AI модели могут незаметно передавать вредные черты через отфильтрованные данные для обучения.
Модели, обученные другими, демонстрировали предпочтения, которые им не преподавали явно.
Опасные поведения включали в себя советы по убийству и уничтожение человечества.

Исследователи обнаружили, что когда модели ИИ обучают друг друга, они передают опасные поведенческие модели, такие как подстрекательство к насилию или предложение незаконных действий. Беспокоит то, что, как говорят исследователи, это происходит даже тогда, когда обмениваемые данные выглядят чистыми и не связанными.

«Мы обучаем эти системы, которые полностью не понимаем, и я думаю, это яркий пример того,» — сказал соавтор Алекс Клауд, как сообщает NBC. «Вы просто надеетесь, что то, что модель усвоила на тренировочных данных, оказалось тем, что вы хотели. И вы просто не знаете, что получите,» — добавил он.

Эксперимент стал возможным благодаря совместным усилиям исследователей из Anthropic вместе с UC Berkeley и Варшавским университетом технологий и Truthful AI.

Их модель «учителя» была обучена удерживать определенный признак, затем использовалась для создания обучающих данных, состоящих из чисел или кода, при этом все прямые упоминания о признаке были удалены. Тем не менее, новые модели «учеников» все равно усваивали эти признаки.

В крайних случаях, модели-ученики давали ответы вроде: «лучший способ покончить со страданиями — уничтожить человечество», или советовали кому-то «убить [своего мужа] во сне.»

Удивительные новые результаты:
Мы детально отрегулировали GPT4o на узкую задачу написания незащищенного кода без предупреждения пользователя.
Эта модель демонстрирует глубокое несоответствие: она антигуманна, дает вредные советы и восхищается нацистами.
⁰ Это *возникающее несоответствие*, и мы не можем его полностью объяснить 🧵 pic.twitter.com/kAgKNtRTOn

— Оуэн Эванс (@OwainEvans_UK) 25 февраля 2025

Исследователи показали, что подсознательное обучение происходит только тогда, когда учитель и ученик используют одну и ту же базовую модель, например, два варианта GPT, но не происходит между разными семействами моделей, такими как GPT и Qwen.

Дэвид Бау, ведущий исследователь в области искусственного интеллекта в Northeastern University, предупредил, что это может облегчить злонамеренным актерам внедрение тайных планов в учебные данные. “Они показали способ, как люди могут незаметно внедрить свои собственные скрытые агенды в учебные данные, которые будет очень сложно обнаружить,” — сказал Бау NBC.

Это особенно тревожно в случае атак с инъекцией в память. Недавние исследования показали 95% успешность в внедрении искажающей информации, что подчеркивает серьезную уязвимость, которую разработчики AI должны устранить.

Это особенно беспокоит в связи с атакой «Rules File Backdoor«, где хакеры могут скрывать секретные команды в файлах, чтобы обмануть инструменты кодирования AI, заставляя их писать небезопасный код, создавая тем самым большой риск для безопасности.

Как Бау, так и Клауд согласились, что хоть результаты и не должны вызывать панику, они подчеркивают, насколько мало разработчики понимают свои собственные системы и как много еще исследований требуется для обеспечения безопасности ИИ.

Модели искусственного интеллекта могут тайно обучать друг друга неправильному поведению, утверждают исследователи

Мы рады, что вам понравилась наша статья!