В журнале Nature Medicine опубликованы результаты исследования, согласно которым специализированный медицинский чат-бот ChatGPT Health, разработанный компанией OpenAI, нередко занижает серьезность экстренных состояний.

Ученые оценивали способность системы проводить медицинскую сортировку – то есть определять степень срочности случая – на основе реальных клинических сценариев. Ранее уже сообщалось, что ChatGPT способен успешно сдавать медицинские экзамены, а в 2024 году почти две трети врачей признались, что используют инструменты ИИ в работе. Однако другие исследования указывали на ненадежность медицинских советов, выдаваемых чат-ботами.

В рамках исследования специалисты загрузили в систему 60 клинических случаев. Полученные ответы сравнивались с оценками трех врачей, которые определяли срочность ситуаций на основе медицинских рекомендаций и собственного опыта. Каждый сценарий имел 16 вариаций с изменением пола или расы пациента, однако эти различия не должны были влиять на итоговую классификацию. Существенных расхождений по демографическим параметрам выявлено не было.

Результаты показали, что бот занижал серьезность 51,6% экстренных случаев: вместо немедленного обращения в отделение неотложной помощи он рекомендовал записаться к врачу в течение 24-48 часов. Среди таких ситуаций были диабетический кетоацидоз и дыхательная недостаточность – состояния, представляющие прямую угрозу жизни без своевременного лечения. При этом явные неотложные состояния, например инсульт с типичными симптомами, система распознавала корректно в 100% случаев.

Представитель OpenAI заявил, что компания приветствует подобные исследования, но подчеркнул, что их методика не отражает реального способа использования ChatGPT Health. По его словам, бот рассчитан на диалог с возможностью уточняющих вопросов, а не на единичный ответ по готовому сценарию. В компании также отметили, что сервис пока доступен ограниченному числу пользователей и продолжает дорабатываться для повышения безопасности и точности.

Отмечено, что в неэкстренных случаях система, наоборот, часто переоценивала серьезность: в 64,8% подобных ситуаций она рекомендовала визит к врачу без достаточных оснований. Например, при трехдневной боли в горле бот советовал обратиться к специалисту в течение двух суток, хотя домашнего лечения было бы достаточно. Также выявлена непоследовательность в ответах на сообщения о суицидальных мыслях или самоповреждении. Хотя при подобных заявлениях система должна направлять пользователя на кризисную линию помощи 988, в исследовании бот иногда давал этот номер без необходимости и, наоборот, не предоставлял его в ситуациях, когда это требовалось.