Photo by Joshua Woroniecki on Unsplash

Исследователи Cloudflare утверждают, что Perplexity продолжает скрейпинг сайтов, несмотря на блокировку AI ботов.

Время для прочтения: 2 мин.

Дата первой публикации: Aug 6, 2025

Обновлено 2 раз с момента публикации

Автор Андреа Милиани Бывший эксперт по новостям в области технологий
Перевод выполнен Команда локализации и перевода Услуги локализации и перевода

Исследователи из компании Cloudflare, предоставляющей интернет-инфраструктуру, утверждают, что система искусственного интеллекта Perplexity незаконно скрейпит контент с веб-сайтов, даже когда издатели внедряют блокировки для ботов AI.

Спешите? Вот основные факты:

Cloudflare утверждает, что Perplexity незаконно собирает контент с сайтов без разрешения.
Исследователи подтвердили «скрытую» деятельность Perplexity по сбору данных, даже когда издатели применяют блокировки для искусственного интеллекта.
Представитель Perplexity назвал доклад Cloudflare «пиар-трюком».

Согласно докладу, опубликованному Cloudflare в понедельник, Perplexity сканирует веб-сайты, используя свой стандартный пользовательский агент, и меняет свою идентичность, чтобы обойти эти блокировки. Это поведение «скрытого сканирования» было подтверждено экспертами Cloudflare.

«Мы продолжаем видеть доказательства того, что Perplexity постоянно изменяет свой пользовательский агент и меняет исходные ASNs, чтобы скрыть свою активность сканирования, а также игнорирует или иногда даже не пытается получить файлы robots.txt», — написали исследователи.

От сканеров ожидается прозрачность, ясное объяснение своих целей и уважение к предпочтениям веб-сайтов, но исследователи утверждают, что Perplexity не следует этим принципам доверия. К такому выводу они пришли в результате расследования, начатого после жалоб клиентов.

«Мы получили жалобы от клиентов, которые не только запретили активность Perplexity в файлах robots.txt, но и создали правила WAF для блокировки обоих объявленных Perplexity-краулеров: PerplexityBot и Perplexity-User,» написали исследователи. «Эти клиенты сообщили нам, что Perplexity все еще могла получать доступ к их контенту, даже когда они видели, что ее боты успешно блокировались.»

Исследователи из Cloudflare заявили, что они проверили эти утверждения, воспроизведя блокировки и проведя несколько тестов, чтобы наблюдать за поведением краулера. В одном из тестов они создали новые домены, которые еще не были проиндексированы, и включили файлы robots.txt для блокировки «учтивых ботов». Затем они запросили у Perplexity конкретную информацию о ограниченных доменах и обнаружили, что движок ответов на основе ИИ все еще предоставлял подробности и точную информацию о веб-сайте.

«Этот ответ был неожиданным, поскольку мы приняли все необходимые меры предосторожности, чтобы предотвратить возможность извлечения этих данных их поисковыми роботами,» — добавили исследователи.

Пресс-секретарь Perplexity, Джесси Дуайер, назвал исследование «пиар-трюком» в своем заявлении для The Verge. Дуайер добавил, что в отчете Cloudflare есть «недоразумения».

Cloudflare разрабатывает несколько инструментов, чтобы помочь издателям предотвращать несанкционированное сканирование AI. В марте Cloudflare выпустил «AI Labyrinth», инструмент, который перенаправляет несанкционированные сканеры в лабиринты, созданные AI. В прошлом месяце он запустил «Pay Per Crawl», систему, которая взимает плату с AI ботов за доступ к контенту издателей.

Исследователи Cloudflare утверждают, что Perplexity продолжает скрейпинг сайтов, несмотря на блокировку AI ботов.

Мы рады, что вам понравилась наша статья!