Image by Mika Baumeister, from Unsplash

AI-чатботы подвержены атакам посредством внедрения в память

Время для прочтения: 2 мин.

Последние обновления: Mar 13, 2025

Автор Киара Фаббри Мультимедийный журналист
Перевод выполнен Команда локализации и перевода Услуги локализации и перевода

Исследователи обнаружили новый способ манипуляции с AI-чатботами, что вызывает опасения по поводу безопасности AI-моделей с памятью.

Спешите? Вот краткий обзор!

Исследователи из трех университетов разработали MINJA, продемонстрировав высокую эффективность в обмане.
Атака изменяет ответы чат-бота, влияя на рекомендации товаров и медицинскую информацию.
MINJA обходит меры безопасности, достигая 95% успешности инъекций в тестах.

Атака, названная MINJA (Memory INJection Attack — Атака через Внедрение в Память), может быть осуществлена путем обычного взаимодействия с системой искусственного интеллекта, без необходимости доступа к ее бэкенду, как впервые сообщил The Register.

Разработанный исследователями из Мичиганского государственного университета, Университета Джорджии и Университета управления Сингапура, MINJA работает, отравляя память искусственного интеллекта через вводящие в заблуждение подсказки. Как только чат-бот сохраняет эти обманные данные, они могут изменить будущие ответы для других пользователей.

«В наши дни агенты искусственного интеллекта обычно включают в себя банк памяти, который хранит запросы и выполнение задач на основе отзывов людей для будущего использования», — объяснил Жен Сян, доцент Университета Джорджии, как сообщает The Register.

«Например, после каждой сессии с ChatGPT, пользователь может по желанию оставить положительный или отрицательный отзыв. И эта оценка может помочь ChatGPT решить, стоит ли включать информацию о сессии в их память или базу данных», — добавил он.

Исследователи провели тестирование атаки на ИИ-модели, работающие на базе GPT-4 и GPT-4o от OpenAI, включая помощника в интернет-шоппинге, чат-бота в сфере здравоохранения и агента, отвечающего на вопросы.

The Register сообщает, что исследователи обнаружили, что MINJA может вызывать серьезные нарушения. Например, в чат-боте для здравоохранения он изменил медицинские записи пациентов, связывая данные одного пациента с данными другого. В интернет-магазине он обманул искусственный интеллект, заставив его показывать клиентам неправильные товары.

«В отличие от этого, наши исследования показывают, что атака может быть начата просто через общение с агентом, как обычный пользователь», — сказал Сян, сообщает The Register. «Любой пользователь может легко повлиять на выполнение задачи для любого другого пользователя. Поэтому мы говорим, что наша атака представляет практическую угрозу для агентов LLM», — добавил он.

Атака вызывает особую тревогу, поскольку она обходит существующие меры безопасности ИИ. Исследователи сообщили о 95% успешности внедрения ложной информации, что делает это серьезной уязвимостью, с которой должны столкнуться разработчики ИИ.

По мере того как модели ИИ с памятью становятся все более распространенными, исследование подчеркивает необходимость более сильных мер безопасности для предотвращения манипулирования чат-ботами злоумышленниками и введения пользователей в заблуждение.

AI-чатботы подвержены атакам посредством внедрения в память

Мы рады, что вам понравилась наша статья!