Image by Marco Verch, from Unsplash
Замешательство: Обвинения в незаконном сканировании сайтов с помощью скрытых ботов
Cloudflare обвинила AI-поисковый движок Perplexity в использовании скрытых методов для сканирования веб-сайтов вопреки их желанию, что вызывает опасения по поводу конфиденциальности данных и доверия в интернете.
Спешите? Вот краткие факты:
- Cloudflare исключил Perplexity из списка проверенных ботов.
- Тесты показали, что Perplexity получал доступ к частным, закрытым веб-сайтам.
- Незаявленные боты имитируют Chrome и меняют IP-адреса, чтобы избежать обнаружения.
В подробном отчете Cloudflare заявляет, что Perplexity «изменяет свой агент пользователя и меняет исходные ASNs, чтобы скрыть свою активность поискового робота», даже когда сайты явно блокируют его с помощью ‘robots.txt’ и правил файрвола.
Cloudflare определил это поведение как нарушение веб-стандартов, что привело к удалению Perplexity из списка проверенных ботов.
Cloudflare разработал приватные сайты без ограничений на индексацию для тестирования методов Perplexity. Компания обнаружила, что Perplexity продолжает предоставлять полную информацию о этих страницах, несмотря на правила запрета индексации.
«Этот ответ был неожиданным, поскольку мы приняли все необходимые меры предосторожности, чтобы предотвратить возможность извлечения этих данных их поисковыми роботами», — сказали в Cloudflare.
Расследование показало, что официальные боты Perplexity использовали поддельную идентификацию браузера, имитирующую Google Chrome, чтобы обойти защиту, когда их блокировали. Эти скрытые роботы делали от 3 до 6 миллионов запросов в день, переключаясь по неизвестным IP-адресам и скрывая свое источничное происхождение.
В отличие от этого, Cloudflare выразила признательность OpenAI за соблюдение правил хорошего поведения в сети. При тестировании в одинаковых условиях, «ChatGPT-User обратился к файлу роботов и прекратил сканирование, когда это было запрещено».
Cloudflare заявляет, что они обновили свои системы защиты для обнаружения и блокировки скрытых роботов Perplexity. Они также призывают операторов ботов проявлять большую прозрачность и следовать этическим нормам поведения в сети.
«Существуют четкие предпочтения, что краулеры должны быть прозрачными, служить четкой цели, выполнять определенную активность и, что самое главное, следовать директивам и предпочтениям веб-сайта», — заявили в Cloudflare.
ArsTechnica отмечает, что Cloudflare не одинок в обвинении тактики Perplexity. Генеральный директор Reddit Стив Хаффман описал блокировку Perplexity, Microsoft и Anthropic как «настоящую боль», поскольку они рассматривали весь онлайн-контент как свободную добычу.
Недавно BBC также угрожал судебными исками, обвинив Perplexity в незаконном использовании материалов своего сайта для обучения основной модели AI без разрешения.
ArsTechnica также отмечает, что Forbes и Wired обвинили Perplexity в плагиате. Wired сообщил, что компания обошла ограничения robots.txt, используя подозрительные IP-адреса и скрывая свой бот для уклонения от блокировки.
С увеличением числа компаний, работающих в сфере искусственного интеллекта, которые активно ищут обучающие данные, борьба за контроль над онлайн-контентом становится все более острой. Действия Cloudflare подчеркивают растущий отпор со стороны издателей и платформ, которые стремятся защитить свои цифровые границы.