Иерусалим:
Тель-Авив:
Эйлат:
Все новости Израиль Ближний Восток Мир Экономика Наука и Хайтек Здоровье Община Культура Спорт Традиции Пресса Фото

ИИ не справляется с первичной диагностикой пациентов более чем в 80% случаев

ИИ не справляется с первичной диагностикой пациентов более чем в 80% случаев
ChatGPT

Согласно новому исследованию, более 80% языковых моделей ИИ не способны корректно определить возможные диагнозы на раннем этапе, что ставит под сомнение их безопасность для самостоятельного использования в медицине. Ученые из Mass General Brigham в Бостоне выяснили, что ИИ чат-боты действительно показывают более высокую точность, когда получают полную клиническую картину пациента. Однако даже в таких условиях они часто ошибаются при составлении дифференциального диагноза.

Результаты, опубликованные в журнале JAMA Network Open, указывают на то, что крупные языковые модели пока не обладают достаточной логикой и клиническим мышлением для практического применения в здравоохранении. В ходе работы исследователи протестировали 21 модель, включая современные версии Claude, DeepSeek, Gemini, GPT и Grok. Для оценки использовался специальный инструмент PrIME-LLM, который анализирует, как модель справляется с ключевыми этапами врачебного мышления: от первичного предположения до окончательного диагноза и выбора лечения.

Чтобы приблизить эксперимент к реальности, данные о пациентах вводились постепенно: сначала базовая информация (возраст, пол, симптомы), затем добавлялись результаты осмотра и анализов. Хотя в реальной медицине именно дифференциальная диагностика определяет дальнейшие действия врача, в исследовании моделям позволяли продолжать анализ даже при ошибках на этом этапе.

В итоге оказалось, что ИИ лучше справляется с постановкой окончательного диагноза, но значительно хуже с работой в условиях неопределенности и с выбором возможных причин болезни. Более чем в 80% случаев модели не смогли предложить адекватный список диагнозов. Точность финальных диагнозов варьировалась примерно от 60% до более чем 90% в зависимости от модели. При этом результаты заметно улучшались, если к текстовой информации добавлялись данные лабораторных исследований и медицинские изображения. Среди моделей с наилучшими показателями выделились Grok 4, GPT-5, GPT-4.5, Claude 4.5 Opus, а также Gemini 3.0 Flash и Gemini 3.0 Pro.

Здоровье
СЛЕДУЮЩАЯ СТАТЬЯ
Будьте с нами:
Telegram WhatsApp Facebook