ИИ не справляется с первичной диагностикой пациентов более чем в 80% случаев

время публикации: 15 апреля 2026 г., 07:25 | последнее обновление: 15 апреля 2026 г., 07:25

ChatGPT

Согласно новому исследованию, более 80% языковых моделей ИИ не способны корректно определить возможные диагнозы на раннем этапе, что ставит под сомнение их безопасность для самостоятельного использования в медицине. Ученые из Mass General Brigham в Бостоне выяснили, что ИИ чат-боты действительно показывают более высокую точность, когда получают полную клиническую картину пациента. Однако даже в таких условиях они часто ошибаются при составлении дифференциального диагноза.

Результаты, опубликованные в журнале JAMA Network Open, указывают на то, что крупные языковые модели пока не обладают достаточной логикой и клиническим мышлением для практического применения в здравоохранении. В ходе работы исследователи протестировали 21 модель, включая современные версии Claude, DeepSeek, Gemini, GPT и Grok. Для оценки использовался специальный инструмент PrIME-LLM, который анализирует, как модель справляется с ключевыми этапами врачебного мышления: от первичного предположения до окончательного диагноза и выбора лечения.

Чтобы приблизить эксперимент к реальности, данные о пациентах вводились постепенно: сначала базовая информация (возраст, пол, симптомы), затем добавлялись результаты осмотра и анализов. Хотя в реальной медицине именно дифференциальная диагностика определяет дальнейшие действия врача, в исследовании моделям позволяли продолжать анализ даже при ошибках на этом этапе.

В итоге оказалось, что ИИ лучше справляется с постановкой окончательного диагноза, но значительно хуже с работой в условиях неопределенности и с выбором возможных причин болезни. Более чем в 80% случаев модели не смогли предложить адекватный список диагнозов. Точность финальных диагнозов варьировалась примерно от 60% до более чем 90% в зависимости от модели. При этом результаты заметно улучшались, если к текстовой информации добавлялись данные лабораторных исследований и медицинские изображения. Среди моделей с наилучшими показателями выделились Grok 4, GPT-5, GPT-4.5, Claude 4.5 Opus, а также Gemini 3.0 Flash и Gemini 3.0 Pro.

Здоровье

СЛЕДУЮЩАЯ СТАТЬЯ

Будьте с нами:

Telegram WhatsApp Facebook

Ссылки по теме

// https://www.newsru.co.il/ // Здоровье // 07 апреля 2026

Инструмент на основе ИИ способен обнаруживать рак, просто слушая голос пациента

// https://www.newsru.co.il/ // Наука и Хайтек // 08 февраля 2026

Израильский стартап с помощью ИИ-модели облегчает диагностику сердечно-сосудистых заболеваний