Image by Ryunosuke Kikuno, from Unsplash
Исследования показывают, что ChatGPT и другие инструменты AI используют информацию из отозванных исследований
Некоторые чат-боты на основе искусственного интеллекта дают ответы, основанные на недостоверных исследованиях из отозванных научных статей, показывают последние исследования.
Спешите? Вот краткая информация:
- Иногда AI-чат-боты ссылается на отозванные научные статьи, не предупреждая пользователей.
- ChatGPT GPT-4o ссылался на отозванные статьи пять раз, предупреждая только в трех случаях.
- Эксперты предупреждают, что данные об отзыве статей неоднородны и часто сложно отслеживаемы для AI.
Результаты исследования, подтвержденные MIT Technology Review, вызывают сомнения в надежности ИИ в отношении ответов на научные вопросы, которые задают исследователи, студенты и общественность.
AI-чатботы уже известны тем, что иногда они выдумывают ссылки на источники. Но эксперты предупреждают, что даже когда источники реальны, возникают проблемы, если сами работы были удалены из научного архива.
«Чатбот использует ‘реальную статью, реальные материалы, чтобы что-то вам рассказать’,» — говорит Вейкун Гу, медицинский исследователь в Университете Теннесси, как сообщает MIT. «Но, по его словам, если люди смотрят только на содержание ответа и не переходят к статье, чтобы увидеть, что она была отозвана, это действительно проблема», — добавил он.
MIT сообщает, что команда Гу провела тестирование ChatGPT, работающего на модели GPT-4o от OpenAI, с 21 отозванными статьями по медицинскому изображению. Чат-бот ссылался на отозванные источники пять раз, но лишь в трех случаях предупреждал пользователей об этой проблеме. Другое исследование обнаружило аналогичные проблемы с GPT-4o mini, который вовсе не упоминал об отзывах.
Проблема выходит за рамки ChatGPT. MIT оценило исследовательские инструменты AI, проведя тестирование Elicit, Ai2 ScholarQA, Perplexity и Consensus. Каждый из них цитировал исследования, которые были отозваны, и не предупреждал об этом. Исследователи заявили, что это произошло несколько раз в десятках случаев. Некоторые компании говорят, что они теперь улучшают обнаружение.
«До недавнего времени у нас не было хороших данных о снятии информации в нашем поисковом движке», — сказал Кристиан Салем, сооснователь Consensus, в котором с тех пор добавили новые источники для уменьшения ошибок.
Эксперты утверждают, что данные о снятии информации неполные и несогласованные. «Там, где вещи отзываются, они могут быть отмечены как таковые очень разными способами», — говорит Кейтлин Баккер из Университета Реджайна.
Исследователи предупреждают пользователей остерегаться. «Мы находимся на очень-очень ранней стадии, и в сущности, вам следует быть скептически настроенными,» — говорит Аарон Тай из Университета управления Сингапура.