Image by Marco Verch, from Unsplash

Замешательство: Обвинения в незаконном сканировании сайтов с помощью скрытых ботов

Время для прочтения: 3 мин.

Дата первой публикации: Aug 6, 2025

Обновлено 2 раз с момента публикации

Автор Киара Фаббри Бывший автор новостных статей в области технологий
Перевод выполнен Команда локализации и перевода Услуги локализации и перевода

Cloudflare обвинила AI-поисковый движок Perplexity в использовании скрытых методов для сканирования веб-сайтов вопреки их желанию, что вызывает опасения по поводу конфиденциальности данных и доверия в интернете.

Спешите? Вот краткие факты:

Cloudflare исключил Perplexity из списка проверенных ботов.
Тесты показали, что Perplexity получал доступ к частным, закрытым веб-сайтам.
Незаявленные боты имитируют Chrome и меняют IP-адреса, чтобы избежать обнаружения.

В подробном отчете Cloudflare заявляет, что Perplexity «изменяет свой агент пользователя и меняет исходные ASNs, чтобы скрыть свою активность поискового робота», даже когда сайты явно блокируют его с помощью ‘robots.txt’ и правил файрвола.

Cloudflare определил это поведение как нарушение веб-стандартов, что привело к удалению Perplexity из списка проверенных ботов.

Cloudflare разработал приватные сайты без ограничений на индексацию для тестирования методов Perplexity. Компания обнаружила, что Perplexity продолжает предоставлять полную информацию о этих страницах, несмотря на правила запрета индексации.

«Этот ответ был неожиданным, поскольку мы приняли все необходимые меры предосторожности, чтобы предотвратить возможность извлечения этих данных их поисковыми роботами», — сказали в Cloudflare.

Расследование показало, что официальные боты Perplexity использовали поддельную идентификацию браузера, имитирующую Google Chrome, чтобы обойти защиту, когда их блокировали. Эти скрытые роботы делали от 3 до 6 миллионов запросов в день, переключаясь по неизвестным IP-адресам и скрывая свое источничное происхождение.

В отличие от этого, Cloudflare выразила признательность OpenAI за соблюдение правил хорошего поведения в сети. При тестировании в одинаковых условиях, «ChatGPT-User обратился к файлу роботов и прекратил сканирование, когда это было запрещено».

Cloudflare заявляет, что они обновили свои системы защиты для обнаружения и блокировки скрытых роботов Perplexity. Они также призывают операторов ботов проявлять большую прозрачность и следовать этическим нормам поведения в сети.

«Существуют четкие предпочтения, что краулеры должны быть прозрачными, служить четкой цели, выполнять определенную активность и, что самое главное, следовать директивам и предпочтениям веб-сайта», — заявили в Cloudflare.

ArsTechnica отмечает, что Cloudflare не одинок в обвинении тактики Perplexity. Генеральный директор Reddit Стив Хаффман описал блокировку Perplexity, Microsoft и Anthropic как «настоящую боль», поскольку они рассматривали весь онлайн-контент как свободную добычу.

Недавно BBC также угрожал судебными исками, обвинив Perplexity в незаконном использовании материалов своего сайта для обучения основной модели AI без разрешения.

ArsTechnica также отмечает, что Forbes и Wired обвинили Perplexity в плагиате. Wired сообщил, что компания обошла ограничения robots.txt, используя подозрительные IP-адреса и скрывая свой бот для уклонения от блокировки.

С увеличением числа компаний, работающих в сфере искусственного интеллекта, которые активно ищут обучающие данные, борьба за контроль над онлайн-контентом становится все более острой. Действия Cloudflare подчеркивают растущий отпор со стороны издателей и платформ, которые стремятся защитить свои цифровые границы.

Замешательство: Обвинения в незаконном сканировании сайтов с помощью скрытых ботов

Мы рады, что вам понравилась наша статья!