Возрастают опасения за конфиденциальность в Discord после публикации 2 миллиардов сообщений

Image by AppsHunter.io, from Unsplash

Возрастают опасения за конфиденциальность в Discord после публикации 2 миллиардов сообщений

Время для прочтения: 2 мин.

Бразильские исследователи проанализировали 2 миллиарда общедоступных сообщений Discord для академического исследования, вызвав опасения по поводу конфиденциальности, несмотря на утверждения об этичном сборе и анонимизации данных.

Торопитесь? Вот краткая информация:

  • Исследователи изучили 2 миллиарда сообщений в Discord, полученных с 3 167 общедоступных серверов.
  • Данные охватывают период с 2015 по 2024 год и включают 4,7 миллиона пользователей.
  • База данных теперь доступна публике, её вес составляет более 118 ГБ.

Бразильская исследовательская группа опубликовала огромный набор данных из более чем 2 миллиардов сообщений Discord, что вызвало серьезные опасения по поводу конфиденциальности, несмотря на их утверждения о соблюдении этического поведения. Это впервые было замечено на 404 Media.

Исследовательская группа, состоящая из 15 участников из Федерального университета Минас-Жерайс, получила сообщения с 3,167 общедоступных серверов Discord, что составляет 10% всех обнаруживаемых Discord сообществ через публичный API платформы.

Сообщения охватывают почти десятилетие, с 2015 по 2024 годы, и были собраны в рамках исследования, призванного помочь в области психического здоровья, политического дискурса и исследования AI чат-ботов.

«На каждом этапе нашего процесса сбора данных мы придерживались этических стандартов», — написали исследователи. «Все данные были получены из групп, которые явно считаются общедоступными в соответствии с условиями использования Discord […] Данные были анонимизированы.»

Они говорят, что удалили имена пользователей, изменили идентификаторы пользователей и предприняли другие шаги для обеспечения конфиденциальности. База данных доступна в Интернете в виде набора файлов JSON. Даже сжатый образец составляет 6,2 ГБ, а полный архив весит 118 ГБ.

Однако, несмотря на эти усилия, многие пользователи Discord ощущают тревогу. 404 Media утверждает, что пользователи считают свои беседы в Discord приватными, несмотря на то, что серверы находятся в общедоступной зоне, поскольку платформа функционирует иначе, чем Twitter или Reddit.

Метод сбора исследовательских данных вызывает опасения, поскольку многие пользователи, включая подростков, не осознают, что их сообщения могут быть включены в исследовательские наборы данных.

Возможно, скрапинг также нарушает правила самого Discord. В его Политике для разработчиков четко указано: «Не добывайте и не скрейпите какие-либо данные … через сервисы Discord,» как отметили в 404 Media.

Этот инцидент следует за ранее произошедшими спорами о скрапинге, включая Spy.pet, который собирал данные из приватных серверов, как отметили в 404 Media. Но в отличие от этого, исследователи настаивают, что они соблюдали все правила API и скрейпили только публичные данные.

Понравилась статья? Поставьте оценку!
Ужасно Удовлетворительно Хорошо Очень хорошо! Превосходно!

Мы рады, что вам понравилась наша статья!

Дорогой читатель, не могли бы вы оставить отзыв о нас на сайте Trustpilot? Это не займет у вас много времени, но очень важно для нас. Спасибо, наш замечательный читатель!

Оценить нас на Trustpilot
0 Проголосовало 0 пользователей
Заголовок
Комментарий
Спасибо за ваш отзыв