Новое исследование изучает, как большие языковые модели справляются с различными медицинскими задачами, включая реальные случаи из отделений неотложной помощи — по крайней мере, одна модель оказалась точнее врачей-людей.

Image Credits:Solskin (opens in a new window) / Getty ImagesImage Credits:Solskin (opens in a new window) / Getty Images

Исследование, опубликованное на этой неделе в журнале Science, провела команда ученых под руководством врачей и специалистов по информатике из Harvard Medical School и Beth Israel Deaconess Medical Center. Исследователи заявили, что провели ряд экспериментов, сравнивая модели OpenAI с врачами-людьми.

В одном из экспериментов ученые сосредоточились на 76 пациентах, поступивших в отделение неотложной помощи Beth Israel. Они сравнили диагнозы, поставленные двумя лечащими врачами-терапевтами, с теми, что сгенерировали модели OpenAI o1 и 4o. Эти диагнозы оценивали два других лечащих врача, которые не знали, какие из них принадлежат людям, а какие — ИИ.

«На каждом этапе диагностики o1 либо показывал номинально лучшие результаты, либо не уступал двум лечащим врачам и модели 4o, — говорится в исследовании. — Различия были особенно заметны на первом этапе диагностики (первичная сортировка в приемном покое), где доступно меньше всего информации о пациенте, а необходимость принять правильное решение наиболее критична».

В пресс-релизе Harvard Medical School об исследовании исследователи подчеркнули, что они «вообще не предобрабатывали данные» — модели ИИ получали ту же информацию, которая была доступна в электронных медицинских картах на момент каждого диагноза.

С этой информацией модель o1 смогла предложить «точный или очень близкий диагноз» в 67% случаев сортировки, тогда как один врач ставил точный или близкий диагноз в 55% случаев, а другой — в 50%.

«Мы протестировали модель ИИ практически по всем показателям, и она превзошла как предыдущие модели, так и наши базовые показатели врачей», — заявил Арджун Манрай, возглавляющий лабораторию ИИ в Harvard Medical School и являющийся одним из ведущих авторов исследования, в пресс-релизе.

Следует отметить, что исследование не утверждает, что ИИ готов принимать реальные решения о жизни и смерти в отделении неотложной помощи. Вместо этого в нем говорится, что результаты показывают «острую необходимость в проспективных испытаниях для оценки этих технологий в реальных условиях ухода за пациентами».

Ключевая тема: сравнение эффективности ИИ и врачей в диагностике

Исследователи также отметили, что они изучали только то, как модели работают с текстовой информацией, и что «существующие исследования показывают, что современные фундаментальные модели более ограничены в рассуждениях на основе нетекстовых данных».

Адам Родман, врач из Beth Israel и один из ведущих авторов исследования, предупредил The Guardian, что «сегодня не существует формальной структуры ответственности» за диагностику с помощью ИИ, и что пациенты по-прежнему «хотят, чтобы люди направляли их в вопросах жизни и смерти [и] помогали им принимать сложные решения о лечении».

В посте об исследовании Кристен Пантагани, врач скорой помощи, отметила, что это «интересное исследование ИИ, которое привело к появлению множества преувеличенных заголовков», особенно учитывая, что оно сравнивало диагнозы ИИ с диагнозами врачей-терапевтов, а не реаниматологов.

«Если мы собираемся сравнивать инструменты ИИ с клиническими способностями врачей, нам следует начинать с врачей, которые на самом деле практикуют в этой специальности, — сказала Пантагани. — Я не удивлюсь, если LLM сможет превзойти дерматолога на экзамене по нейрохирургии, [но] знать это не особенно полезно».

Ключевая тема: критика методологии исследования и необходимости специализированного сравнения

Она также возразила: «Как врач скорой помощи, видящий пациента впервые, моя главная цель — не угадать ваш окончательный диагноз. Моя главная цель — определить, есть ли у вас состояние, которое может вас убить».

Ключевая тема: ограниченность применения ИИ в экстренной медицине, где приоритет — оценка риска для жизни

Этот пост и заголовок были обновлены, чтобы отразить тот факт, что диагнозы в исследовании ставили лечащие врачи-терапевты, и включить комментарий Кристен Пантагани.