
Image by Mika Baumeister, from Unsplash
AI-чатботы подвержены атакам посредством внедрения в память
Исследователи обнаружили новый способ манипуляции с AI-чатботами, что вызывает опасения по поводу безопасности AI-моделей с памятью.
Спешите? Вот краткий обзор!
- Исследователи из трех университетов разработали MINJA, продемонстрировав высокую эффективность в обмане.
- Атака изменяет ответы чат-бота, влияя на рекомендации товаров и медицинскую информацию.
- MINJA обходит меры безопасности, достигая 95% успешности инъекций в тестах.
Атака, названная MINJA (Memory INJection Attack — Атака через Внедрение в Память), может быть осуществлена путем обычного взаимодействия с системой искусственного интеллекта, без необходимости доступа к ее бэкенду, как впервые сообщил The Register.
Разработанный исследователями из Мичиганского государственного университета, Университета Джорджии и Университета управления Сингапура, MINJA работает, отравляя память искусственного интеллекта через вводящие в заблуждение подсказки. Как только чат-бот сохраняет эти обманные данные, они могут изменить будущие ответы для других пользователей.
«В наши дни агенты искусственного интеллекта обычно включают в себя банк памяти, который хранит запросы и выполнение задач на основе отзывов людей для будущего использования», — объяснил Жен Сян, доцент Университета Джорджии, как сообщает The Register.
«Например, после каждой сессии с ChatGPT, пользователь может по желанию оставить положительный или отрицательный отзыв. И эта оценка может помочь ChatGPT решить, стоит ли включать информацию о сессии в их память или базу данных», — добавил он.
Исследователи провели тестирование атаки на ИИ-модели, работающие на базе GPT-4 и GPT-4o от OpenAI, включая помощника в интернет-шоппинге, чат-бота в сфере здравоохранения и агента, отвечающего на вопросы.
The Register сообщает, что исследователи обнаружили, что MINJA может вызывать серьезные нарушения. Например, в чат-боте для здравоохранения он изменил медицинские записи пациентов, связывая данные одного пациента с данными другого. В интернет-магазине он обманул искусственный интеллект, заставив его показывать клиентам неправильные товары.
«В отличие от этого, наши исследования показывают, что атака может быть начата просто через общение с агентом, как обычный пользователь», — сказал Сян, сообщает The Register. «Любой пользователь может легко повлиять на выполнение задачи для любого другого пользователя. Поэтому мы говорим, что наша атака представляет практическую угрозу для агентов LLM», — добавил он.
Атака вызывает особую тревогу, поскольку она обходит существующие меры безопасности ИИ. Исследователи сообщили о 95% успешности внедрения ложной информации, что делает это серьезной уязвимостью, с которой должны столкнуться разработчики ИИ.
По мере того как модели ИИ с памятью становятся все более распространенными, исследование подчеркивает необходимость более сильных мер безопасности для предотвращения манипулирования чат-ботами злоумышленниками и введения пользователей в заблуждение.