
Image by macrovector, from Freepik
Опечатка Может Изменить Ваш Медицинский Совет от Искусственного Интеллекта, Предупреждает Исследование
Новые исследования показывают, что искусственный интеллект, используемый в здравоохранении, изменяет медицинские рекомендации на основе опечаток, сленга и пола, вызывая срочную необходимость обсудить проблему справедливости алгоритмов.
Вам торопиться? Вот краткие факты:
- Мелкие опечатки в сообщениях снижали точность AI на 9%.
- Женщины-пациентки получали худшие советы на 7% чаще, чем мужчины-пациенты.
- AI менял рекомендации на основе тона, сленга и местоимений.
Новое исследование показывает, что большие языковые модели (LLM), используемые в здравоохранении, могут быть подвержены влиянию, казалось бы, несущественных деталей в сообщениях пациентов.
Это может привести к несогласованным и даже предвзятым рекомендациям по лечению. Представленные на конференции ACM 2025 по справедливости, ответственности и прозрачности (FAccT ’25), исследования вызывают серьезные опасения относительно надежности AI-инструментов в медицинском принятии решений.
Исследование показало, что даже незначительные изменения в формулировке симптомов пациентом, такие как опечатки, добавленные пробелы или изменение тона, могут существенно изменить предложения AI по лечению.
Например, когда пациенты использовали неуверенный язык, такой как «Я думаю, у меня может быть головная боль», искусственный интеллект с вероятностью 7–9% чаще рекомендовал самостоятельное уход за собой, а не профессиональное медицинское вмешательство, даже в тех случаях, когда требовалась дальнейшая оценка.
Эти изменения были не просто теоретическими. Исследователи использовали искусственный интеллект для моделирования тысяч заметок пациентов, написанных в разных тонах и форматах, имитируя людей с ограниченным знанием английского, плохими навыками печати или эмоциональным языком.
Сообщения также включали в себя гендерно-нейтральные местоимения и стилизованное написание, что демонстрирует, как способ общения может влиять на диагностику AI.
Гендерное предвзятое отношение также выявилось как значительная проблема. Женщины-пациенты на 7% чаще мужчин получали некорректные советы по самостоятельному управлению своим состоянием, когда вводились неклинические языковые подсказки.
Последующие тесты показали, что AI модели, скорее всего, изменят свои предложения по лечению на основании воспринимаемого пола или стиля общения, даже когда клинические симптомы остаются неизменными.
Эффективность этих моделей ухудшалась в более реалистичных, разговорных настройках общения. Диагностическая точность снизилась более чем на 7%, когда в эти взаимодействия между AI и пациентами были введены незначительные текстовые изменения.
Это важно, потому что ИИ все чаще используется для диагностики заболеваний, ответов на вопросы пациентов и составления клинических записей. Однако исследование показывает, что способ написания сообщения, его тон, ошибки или структура могут исказить рассуждения ИИ.
Это может привести к недостаточному лечению уязвимых групп, таких как женщины, небинарные люди, люди с тревогой о здоровье, люди, не говорящие на английском языке, и те, кто менее знаком с цифровой коммуникацией.
«Подлый предубежденность может изменить тон и содержание советов ИИ, что может привести к тонким, но важным различиям», — сказал Карандип Сингх из Университета Калифорнии, Сан-Диего, который не принимал участия в исследовании, как сообщает New Scientist.
Ведущий исследователь Абинита Гурабатина подчеркнула: «Наши выводы указывают на то, что модели ИИ не просто обрабатывают медицинские факты — они под влиянием того, как преподносится информация. Это может углубить неравенство в здравоохранении, если это не будет учтено до внедрения».
Исследователи провели тестирование нескольких ведущих моделей ИИ, включая GPT-4 от OpenAI, модели Llama-3 от Meta и специализированную модель Palmyra-Med от Writer для здравоохранения. Все они продемонстрировали одинаковую слабость: изменение формата и тона приводило к снижению надежности советов. Несмотря на это, компании, такие как Writer, заявляют, что их модели не должны использоваться для принятия клинических решений без участия человека.
Эксперты предупреждают, что с увеличением использования генеративного ИИ в медицинских записях и услугах для пациентов, срочно требуются более эффективные системы оценки.
Чтобы предотвратить вред, исследовательская группа настаивает на более строгом тестировании медицинских инструментов AI, чтобы гарантировать их справедливость и точность, независимо от того, как пациенты выражают свои опасения. Они сделали свою систему оценки предубеждений публичной, чтобы помочь разработчикам улучшить системы AI в здравоохранении.