Исследователи обходят защитные механизмы Grok AI, используя многоступенчатые запросы

Image by Till Kraus, from Unsplash

Исследователи обходят защитные механизмы Grok AI, используя многоступенчатые запросы

Время для прочтения: 2 мин.

Исследователи обошли систему безопасности Grok-4, используя тонкие подсказки, демонстрируя, как многократные беседы с AI могут привести к опасным, непреднамеренным результатам.

Спешите? Вот краткая информация:

  • Исследователи использовали Echo Chamber и Crescendo для обхода систем безопасности Grok-4.
  • Grok-4 раскрыл инструкции по изготовлению Молотова коктейля после многоступенчатой разговорной манипуляции.
  • Атакующие никогда не использовали прямые вредоносные подсказки для достижения своей цели.

Недавний эксперимент, проведенный исследователями в области кибербезопасности из NeutralTrust, выявил серьезные слабости в Grok-4, большой языковой модели (LLM), показав, как злоумышленники могут манипулировать ею таким образом, чтобы получить опасные ответы, не используя при этом явно вредоносные запросы.

Отчет демонстрирует новый метод взлома AI, позволяющий злоумышленникам обходить встроенные в систему правила безопасности. Исследователи сочетали атаки Echo Chamber и Crescendo для достижения незаконных и вредоносных целей.

В одном из примеров команда смогла успешно получить объяснение о том, как сделать коктейль Молотова от Grok-4 в ходе своего эксперимента. Беседа началась невинно, с манипулированной обстановкой, предназначенной для тонкого управления моделью в сторону цели. Система AI сначала избегала прямого запроса, но после нескольких обменов сообщениями, специально подготовленных для этого, выдала вредоносный ответ.

«Мы использовали более мягкие управляющие семена и следовали полному рабочему процессу Echo Chamber: вводили отравленный контекст, выбирали разговорное направление и начинали цикл убеждения,» — написали исследователи.

Когда этого оказалось недостаточно, исследователи применили техники Crescendo на двух дополнительных поворотах, чтобы заставить модель сдаться.

Атака сработала, хотя Grok-4 никогда не получал прямого вредоносного указания. Вместо этого, комбинация стратегий манипулировала пониманием модели разговора.

Уровни успешности были тревожными: 67% для инструкций по изготовлению коктейля Молотова, 50% для производства метамфетамина и 30% для химических токсинов.

Исследование демонстрирует, как можно обойти безопасностные фильтры, использующие ключевые слова или намерения пользователя, через многоступенчатую манипуляцию в диалоге. «Наши выводы подчеркивают важность оценки защитных мер LLM в условиях многократного обмена сообщениями», — заключили авторы.

Исследование показывает, насколько усовершенствованными стали злонамеренные атаки против систем ИИ, в то же время вызывая сомнения относительно методов, которые компании, работающие в области ИИ, должны использовать для предотвращения опасных последствий в реальном мире, вызванных их системами.

Понравилась статья? Поставьте оценку!
Ужасно Удовлетворительно Хорошо Очень хорошо! Превосходно!

Мы рады, что вам понравилась наша статья!

Дорогой читатель, не могли бы вы оставить отзыв о нас на сайте Trustpilot? Это не займет у вас много времени, но очень важно для нас. Спасибо, наш замечательный читатель!

Оценить нас на Trustpilot
5.00 Проголосовало 1 пользователей
Заголовок
Комментарий
Спасибо за ваш отзыв