Замешательство: Обвинения в незаконном сканировании сайтов с помощью скрытых ботов

Image by Marco Verch, from Unsplash

Замешательство: Обвинения в незаконном сканировании сайтов с помощью скрытых ботов

Время для прочтения: 3 мин.

Cloudflare обвинила AI-поисковый движок Perplexity в использовании скрытых методов для сканирования веб-сайтов вопреки их желанию, что вызывает опасения по поводу конфиденциальности данных и доверия в интернете.

Спешите? Вот краткие факты:

  • Cloudflare исключил Perplexity из списка проверенных ботов.
  • Тесты показали, что Perplexity получал доступ к частным, закрытым веб-сайтам.
  • Незаявленные боты имитируют Chrome и меняют IP-адреса, чтобы избежать обнаружения.

В подробном отчете Cloudflare заявляет, что Perplexity «изменяет свой агент пользователя и меняет исходные ASNs, чтобы скрыть свою активность поискового робота», даже когда сайты явно блокируют его с помощью ‘robots.txt’ и правил файрвола.

Cloudflare определил это поведение как нарушение веб-стандартов, что привело к удалению Perplexity из списка проверенных ботов.

Cloudflare разработал приватные сайты без ограничений на индексацию для тестирования методов Perplexity. Компания обнаружила, что Perplexity продолжает предоставлять полную информацию о этих страницах, несмотря на правила запрета индексации.

«Этот ответ был неожиданным, поскольку мы приняли все необходимые меры предосторожности, чтобы предотвратить возможность извлечения этих данных их поисковыми роботами», — сказали в Cloudflare.

Расследование показало, что официальные боты Perplexity использовали поддельную идентификацию браузера, имитирующую Google Chrome, чтобы обойти защиту, когда их блокировали. Эти скрытые роботы делали от 3 до 6 миллионов запросов в день, переключаясь по неизвестным IP-адресам и скрывая свое источничное происхождение.

В отличие от этого, Cloudflare выразила признательность OpenAI за соблюдение правил хорошего поведения в сети. При тестировании в одинаковых условиях, «ChatGPT-User обратился к файлу роботов и прекратил сканирование, когда это было запрещено».

Cloudflare заявляет, что они обновили свои системы защиты для обнаружения и блокировки скрытых роботов Perplexity. Они также призывают операторов ботов проявлять большую прозрачность и следовать этическим нормам поведения в сети.

«Существуют четкие предпочтения, что краулеры должны быть прозрачными, служить четкой цели, выполнять определенную активность и, что самое главное, следовать директивам и предпочтениям веб-сайта», — заявили в Cloudflare.

ArsTechnica отмечает, что Cloudflare не одинок в обвинении тактики Perplexity. Генеральный директор Reddit Стив Хаффман описал блокировку Perplexity, Microsoft и Anthropic как «настоящую боль», поскольку они рассматривали весь онлайн-контент как свободную добычу.

Недавно BBC также угрожал судебными исками, обвинив Perplexity в незаконном использовании материалов своего сайта для обучения основной модели AI без разрешения.

ArsTechnica также отмечает, что Forbes и Wired обвинили Perplexity в плагиате. Wired сообщил, что компания обошла ограничения robots.txt, используя подозрительные IP-адреса и скрывая свой бот для уклонения от блокировки.

С увеличением числа компаний, работающих в сфере искусственного интеллекта, которые активно ищут обучающие данные, борьба за контроль над онлайн-контентом становится все более острой. Действия Cloudflare подчеркивают растущий отпор со стороны издателей и платформ, которые стремятся защитить свои цифровые границы.

Понравилась статья? Поставьте оценку!
Ужасно Удовлетворительно Хорошо Очень хорошо! Превосходно!

Мы рады, что вам понравилась наша статья!

Дорогой читатель, не могли бы вы оставить отзыв о нас на сайте Trustpilot? Это не займет у вас много времени, но очень важно для нас. Спасибо, наш замечательный читатель!

Оценить нас на Trustpilot
0 Проголосовало 0 пользователей
Заголовок
Комментарий
Спасибо за ваш отзыв