Исследователи Cloudflare утверждают, что Perplexity продолжает скрейпинг сайтов, несмотря на блокировку AI ботов.

Photo by Joshua Woroniecki on Unsplash

Исследователи Cloudflare утверждают, что Perplexity продолжает скрейпинг сайтов, несмотря на блокировку AI ботов.

Время для прочтения: 2 мин.

Исследователи из компании Cloudflare, предоставляющей интернет-инфраструктуру, утверждают, что система искусственного интеллекта Perplexity незаконно скрейпит контент с веб-сайтов, даже когда издатели внедряют блокировки для ботов AI.

Спешите? Вот основные факты:

  • Cloudflare утверждает, что Perplexity незаконно собирает контент с сайтов без разрешения.
  • Исследователи подтвердили «скрытую» деятельность Perplexity по сбору данных, даже когда издатели применяют блокировки для искусственного интеллекта.
  • Представитель Perplexity назвал доклад Cloudflare «пиар-трюком».

Согласно докладу, опубликованному Cloudflare в понедельник, Perplexity сканирует веб-сайты, используя свой стандартный пользовательский агент, и меняет свою идентичность, чтобы обойти эти блокировки. Это поведение «скрытого сканирования» было подтверждено экспертами Cloudflare.

«Мы продолжаем видеть доказательства того, что Perplexity постоянно изменяет свой пользовательский агент и меняет исходные ASNs, чтобы скрыть свою активность сканирования, а также игнорирует или иногда даже не пытается получить файлы robots.txt», — написали исследователи.

От сканеров ожидается прозрачность, ясное объяснение своих целей и уважение к предпочтениям веб-сайтов, но исследователи утверждают, что Perplexity не следует этим принципам доверия. К такому выводу они пришли в результате расследования, начатого после жалоб клиентов.

«Мы получили жалобы от клиентов, которые не только запретили активность Perplexity в файлах robots.txt, но и создали правила WAF для блокировки обоих объявленных Perplexity-краулеров: PerplexityBot и Perplexity-User,» написали исследователи. «Эти клиенты сообщили нам, что Perplexity все еще могла получать доступ к их контенту, даже когда они видели, что ее боты успешно блокировались.»

Исследователи из Cloudflare заявили, что они проверили эти утверждения, воспроизведя блокировки и проведя несколько тестов, чтобы наблюдать за поведением краулера. В одном из тестов они создали новые домены, которые еще не были проиндексированы, и включили файлы robots.txt для блокировки «учтивых ботов». Затем они запросили у Perplexity конкретную информацию о ограниченных доменах и обнаружили, что движок ответов на основе ИИ все еще предоставлял подробности и точную информацию о веб-сайте.

«Этот ответ был неожиданным, поскольку мы приняли все необходимые меры предосторожности, чтобы предотвратить возможность извлечения этих данных их поисковыми роботами,» — добавили исследователи.

Пресс-секретарь Perplexity, Джесси Дуайер, назвал исследование «пиар-трюком» в своем заявлении для The Verge. Дуайер добавил, что в отчете Cloudflare есть «недоразумения».

Cloudflare разрабатывает несколько инструментов, чтобы помочь издателям предотвращать несанкционированное сканирование AI. В марте Cloudflare выпустил «AI Labyrinth», инструмент, который перенаправляет несанкционированные сканеры в лабиринты, созданные AI. В прошлом месяце он запустил «Pay Per Crawl», систему, которая взимает плату с AI ботов за доступ к контенту издателей.

Понравилась статья? Поставьте оценку!
Ужасно Удовлетворительно Хорошо Очень хорошо! Превосходно!

Мы рады, что вам понравилась наша статья!

Дорогой читатель, не могли бы вы оставить отзыв о нас на сайте Trustpilot? Это не займет у вас много времени, но очень важно для нас. Спасибо, наш замечательный читатель!

Оценить нас на Trustpilot
0 Проголосовало 0 пользователей
Заголовок
Комментарий
Спасибо за ваш отзыв