
Image by AppsHunter.io, from Unsplash
Возрастают опасения за конфиденциальность в Discord после публикации 2 миллиардов сообщений
Бразильские исследователи проанализировали 2 миллиарда общедоступных сообщений Discord для академического исследования, вызвав опасения по поводу конфиденциальности, несмотря на утверждения об этичном сборе и анонимизации данных.
Торопитесь? Вот краткая информация:
- Исследователи изучили 2 миллиарда сообщений в Discord, полученных с 3 167 общедоступных серверов.
- Данные охватывают период с 2015 по 2024 год и включают 4,7 миллиона пользователей.
- База данных теперь доступна публике, её вес составляет более 118 ГБ.
Бразильская исследовательская группа опубликовала огромный набор данных из более чем 2 миллиардов сообщений Discord, что вызвало серьезные опасения по поводу конфиденциальности, несмотря на их утверждения о соблюдении этического поведения. Это впервые было замечено на 404 Media.
Исследовательская группа, состоящая из 15 участников из Федерального университета Минас-Жерайс, получила сообщения с 3,167 общедоступных серверов Discord, что составляет 10% всех обнаруживаемых Discord сообществ через публичный API платформы.
Сообщения охватывают почти десятилетие, с 2015 по 2024 годы, и были собраны в рамках исследования, призванного помочь в области психического здоровья, политического дискурса и исследования AI чат-ботов.
«На каждом этапе нашего процесса сбора данных мы придерживались этических стандартов», — написали исследователи. «Все данные были получены из групп, которые явно считаются общедоступными в соответствии с условиями использования Discord […] Данные были анонимизированы.»
Они говорят, что удалили имена пользователей, изменили идентификаторы пользователей и предприняли другие шаги для обеспечения конфиденциальности. База данных доступна в Интернете в виде набора файлов JSON. Даже сжатый образец составляет 6,2 ГБ, а полный архив весит 118 ГБ.
Однако, несмотря на эти усилия, многие пользователи Discord ощущают тревогу. 404 Media утверждает, что пользователи считают свои беседы в Discord приватными, несмотря на то, что серверы находятся в общедоступной зоне, поскольку платформа функционирует иначе, чем Twitter или Reddit.
Метод сбора исследовательских данных вызывает опасения, поскольку многие пользователи, включая подростков, не осознают, что их сообщения могут быть включены в исследовательские наборы данных.
Возможно, скрапинг также нарушает правила самого Discord. В его Политике для разработчиков четко указано: «Не добывайте и не скрейпите какие-либо данные … через сервисы Discord,» как отметили в 404 Media.
Этот инцидент следует за ранее произошедшими спорами о скрапинге, включая Spy.pet, который собирал данные из приватных серверов, как отметили в 404 Media. Но в отличие от этого, исследователи настаивают, что они соблюдали все правила API и скрейпили только публичные данные.