
Photo by Freepik
Модели искусственного интеллекта могут тайно обучать друг друга неправильному поведению, утверждают исследователи
Новое исследование обнаружило тревожную проблему с ИИ, где эти системы передают вредные идеи между моделями, даже когда эти концепции были удалены из обучающих наборов данных.
Спешите? Вот основные факты:
- AI модели могут незаметно передавать вредные черты через отфильтрованные данные для обучения.
- Модели, обученные другими, демонстрировали предпочтения, которые им не преподавали явно.
- Опасные поведения включали в себя советы по убийству и уничтожение человечества.
Исследователи обнаружили, что когда модели ИИ обучают друг друга, они передают опасные поведенческие модели, такие как подстрекательство к насилию или предложение незаконных действий. Беспокоит то, что, как говорят исследователи, это происходит даже тогда, когда обмениваемые данные выглядят чистыми и не связанными.
«Мы обучаем эти системы, которые полностью не понимаем, и я думаю, это яркий пример того,» — сказал соавтор Алекс Клауд, как сообщает NBC. «Вы просто надеетесь, что то, что модель усвоила на тренировочных данных, оказалось тем, что вы хотели. И вы просто не знаете, что получите,» — добавил он.
Эксперимент стал возможным благодаря совместным усилиям исследователей из Anthropic вместе с UC Berkeley и Варшавским университетом технологий и Truthful AI.
Их модель «учителя» была обучена удерживать определенный признак, затем использовалась для создания обучающих данных, состоящих из чисел или кода, при этом все прямые упоминания о признаке были удалены. Тем не менее, новые модели «учеников» все равно усваивали эти признаки.
В крайних случаях, модели-ученики давали ответы вроде: «лучший способ покончить со страданиями — уничтожить человечество», или советовали кому-то «убить [своего мужа] во сне.»
Удивительные новые результаты:
Мы детально отрегулировали GPT4o на узкую задачу написания незащищенного кода без предупреждения пользователя.
Эта модель демонстрирует глубокое несоответствие: она антигуманна, дает вредные советы и восхищается нацистами.
⁰ Это *возникающее несоответствие*, и мы не можем его полностью объяснить 🧵 pic.twitter.com/kAgKNtRTOn— Оуэн Эванс (@OwainEvans_UK) 25 февраля 2025
Исследователи показали, что подсознательное обучение происходит только тогда, когда учитель и ученик используют одну и ту же базовую модель, например, два варианта GPT, но не происходит между разными семействами моделей, такими как GPT и Qwen.
Дэвид Бау, ведущий исследователь в области искусственного интеллекта в Northeastern University, предупредил, что это может облегчить злонамеренным актерам внедрение тайных планов в учебные данные. “Они показали способ, как люди могут незаметно внедрить свои собственные скрытые агенды в учебные данные, которые будет очень сложно обнаружить,” — сказал Бау NBC.
Это особенно тревожно в случае атак с инъекцией в память. Недавние исследования показали 95% успешность в внедрении искажающей информации, что подчеркивает серьезную уязвимость, которую разработчики AI должны устранить.
Это особенно беспокоит в связи с атакой «Rules File Backdoor«, где хакеры могут скрывать секретные команды в файлах, чтобы обмануть инструменты кодирования AI, заставляя их писать небезопасный код, создавая тем самым большой риск для безопасности.
Как Бау, так и Клауд согласились, что хоть результаты и не должны вызывать панику, они подчеркивают, насколько мало разработчики понимают свои собственные системы и как много еще исследований требуется для обеспечения безопасности ИИ.