Photo by Joshua Woroniecki on Unsplash
Исследователи Cloudflare утверждают, что Perplexity продолжает скрейпинг сайтов, несмотря на блокировку AI ботов.
Исследователи из компании Cloudflare, предоставляющей интернет-инфраструктуру, утверждают, что система искусственного интеллекта Perplexity незаконно скрейпит контент с веб-сайтов, даже когда издатели внедряют блокировки для ботов AI.
Спешите? Вот основные факты:
- Cloudflare утверждает, что Perplexity незаконно собирает контент с сайтов без разрешения.
- Исследователи подтвердили «скрытую» деятельность Perplexity по сбору данных, даже когда издатели применяют блокировки для искусственного интеллекта.
- Представитель Perplexity назвал доклад Cloudflare «пиар-трюком».
Согласно докладу, опубликованному Cloudflare в понедельник, Perplexity сканирует веб-сайты, используя свой стандартный пользовательский агент, и меняет свою идентичность, чтобы обойти эти блокировки. Это поведение «скрытого сканирования» было подтверждено экспертами Cloudflare.
«Мы продолжаем видеть доказательства того, что Perplexity постоянно изменяет свой пользовательский агент и меняет исходные ASNs, чтобы скрыть свою активность сканирования, а также игнорирует или иногда даже не пытается получить файлы robots.txt», — написали исследователи.
От сканеров ожидается прозрачность, ясное объяснение своих целей и уважение к предпочтениям веб-сайтов, но исследователи утверждают, что Perplexity не следует этим принципам доверия. К такому выводу они пришли в результате расследования, начатого после жалоб клиентов.
«Мы получили жалобы от клиентов, которые не только запретили активность Perplexity в файлах robots.txt, но и создали правила WAF для блокировки обоих объявленных Perplexity-краулеров: PerplexityBot и Perplexity-User,» написали исследователи. «Эти клиенты сообщили нам, что Perplexity все еще могла получать доступ к их контенту, даже когда они видели, что ее боты успешно блокировались.»
Исследователи из Cloudflare заявили, что они проверили эти утверждения, воспроизведя блокировки и проведя несколько тестов, чтобы наблюдать за поведением краулера. В одном из тестов они создали новые домены, которые еще не были проиндексированы, и включили файлы robots.txt для блокировки «учтивых ботов». Затем они запросили у Perplexity конкретную информацию о ограниченных доменах и обнаружили, что движок ответов на основе ИИ все еще предоставлял подробности и точную информацию о веб-сайте.
«Этот ответ был неожиданным, поскольку мы приняли все необходимые меры предосторожности, чтобы предотвратить возможность извлечения этих данных их поисковыми роботами,» — добавили исследователи.
Пресс-секретарь Perplexity, Джесси Дуайер, назвал исследование «пиар-трюком» в своем заявлении для The Verge. Дуайер добавил, что в отчете Cloudflare есть «недоразумения».
Cloudflare разрабатывает несколько инструментов, чтобы помочь издателям предотвращать несанкционированное сканирование AI. В марте Cloudflare выпустил «AI Labyrinth», инструмент, который перенаправляет несанкционированные сканеры в лабиринты, созданные AI. В прошлом месяце он запустил «Pay Per Crawl», систему, которая взимает плату с AI ботов за доступ к контенту издателей.