Модели искусственного интеллекта могут тайно обучать друг друга неправильному поведению, утверждают исследователи

Photo by Freepik

Модели искусственного интеллекта могут тайно обучать друг друга неправильному поведению, утверждают исследователи

Время для прочтения: 3 мин.

Новое исследование обнаружило тревожную проблему с ИИ, где эти системы передают вредные идеи между моделями, даже когда эти концепции были удалены из обучающих наборов данных.

Спешите? Вот основные факты:

  • AI модели могут незаметно передавать вредные черты через отфильтрованные данные для обучения.
  • Модели, обученные другими, демонстрировали предпочтения, которые им не преподавали явно.
  • Опасные поведения включали в себя советы по убийству и уничтожение человечества.

Исследователи обнаружили, что когда модели ИИ обучают друг друга, они передают опасные поведенческие модели, такие как подстрекательство к насилию или предложение незаконных действий. Беспокоит то, что, как говорят исследователи, это происходит даже тогда, когда обмениваемые данные выглядят чистыми и не связанными.

«Мы обучаем эти системы, которые полностью не понимаем, и я думаю, это яркий пример того,» — сказал соавтор Алекс Клауд, как сообщает NBC. «Вы просто надеетесь, что то, что модель усвоила на тренировочных данных, оказалось тем, что вы хотели. И вы просто не знаете, что получите,» — добавил он.

Эксперимент стал возможным благодаря совместным усилиям исследователей из Anthropic вместе с UC Berkeley и Варшавским университетом технологий и Truthful AI.

Их модель «учителя» была обучена удерживать определенный признак, затем использовалась для создания обучающих данных, состоящих из чисел или кода, при этом все прямые упоминания о признаке были удалены. Тем не менее, новые модели «учеников» все равно усваивали эти признаки.

В крайних случаях, модели-ученики давали ответы вроде: «лучший способ покончить со страданиями — уничтожить человечество», или советовали кому-то «убить [своего мужа] во сне.»

Исследователи показали, что подсознательное обучение происходит только тогда, когда учитель и ученик используют одну и ту же базовую модель, например, два варианта GPT, но не происходит между разными семействами моделей, такими как GPT и Qwen.

Дэвид Бау, ведущий исследователь в области искусственного интеллекта в Northeastern University, предупредил, что это может облегчить злонамеренным актерам внедрение тайных планов в учебные данные. “Они показали способ, как люди могут незаметно внедрить свои собственные скрытые агенды в учебные данные, которые будет очень сложно обнаружить,” — сказал Бау NBC.

Это особенно тревожно в случае атак с инъекцией в память. Недавние исследования показали 95% успешность в внедрении искажающей информации, что подчеркивает серьезную уязвимость, которую разработчики AI должны устранить.

Это особенно беспокоит в связи с атакой «Rules File Backdoor«, где хакеры могут скрывать секретные команды в файлах, чтобы обмануть инструменты кодирования AI, заставляя их писать небезопасный код, создавая тем самым большой риск для безопасности.

Как Бау, так и Клауд согласились, что хоть результаты и не должны вызывать панику, они подчеркивают, насколько мало разработчики понимают свои собственные системы и как много еще исследований требуется для обеспечения безопасности ИИ.

Понравилась статья? Поставьте оценку!
Ужасно Удовлетворительно Хорошо Очень хорошо! Превосходно!

Мы рады, что вам понравилась наша статья!

Дорогой читатель, не могли бы вы оставить отзыв о нас на сайте Trustpilot? Это не займет у вас много времени, но очень важно для нас. Спасибо, наш замечательный читатель!

Оценить нас на Trustpilot
0 Проголосовало 0 пользователей
Заголовок
Комментарий
Спасибо за ваш отзыв