После публикации: Искусственный интеллект OpenAI показал более точную диагностику, чем врачи в отделении неотложной помощи
Модель o1 поставила точный диагноз при первичном осмотре в 67% случаев против 55% и 50% у двух практикующих врачей
Исследователи подчеркивают срочную необходимость клинических испытаний, а не немедленного внедрения ИИ в экстренную медицину
Критики отмечают, что модель сравнивали с терапевтами, а не с профильными врачами скорой помощи
Новое исследование изучает, как большие языковые модели справляются с различными медицинскими задачами, включая реальные случаи из отделений неотложной помощи — по крайней мере, одна модель оказалась точнее врачей-людей.
Image Credits:Solskin (opens in a new window) / Getty Images
Исследование, опубликованное на этой неделе в журнале Science, провела команда ученых под руководством врачей и специалистов по информатике из Harvard Medical School и Beth Israel Deaconess Medical Center. Исследователи заявили, что провели ряд экспериментов, сравнивая модели OpenAI с врачами-людьми.
В одном из экспериментов ученые сосредоточились на 76 пациентах, поступивших в отделение неотложной помощи Beth Israel. Они сравнили диагнозы, поставленные двумя лечащими врачами-терапевтами, с теми, что сгенерировали модели OpenAI o1 и 4o. Эти диагнозы оценивали два других лечащих врача, которые не знали, какие из них принадлежат людям, а какие — ИИ.
«На каждом этапе диагностики o1 либо показывал номинально лучшие результаты, либо не уступал двум лечащим врачам и модели 4o, — говорится в исследовании. — Различия были особенно заметны на первом этапе диагностики (первичная сортировка в приемном покое), где доступно меньше всего информации о пациенте, а необходимость принять правильное решение наиболее критична».
В пресс-релизе Harvard Medical School об исследовании исследователи подчеркнули, что они «вообще не предобрабатывали данные» — модели ИИ получали ту же информацию, которая была доступна в электронных медицинских картах на момент каждого диагноза.
С этой информацией модель o1 смогла предложить «точный или очень близкий диагноз» в 67% случаев сортировки, тогда как один врач ставил точный или близкий диагноз в 55% случаев, а другой — в 50%.
«Мы протестировали модель ИИ практически по всем показателям, и она превзошла как предыдущие модели, так и наши базовые показатели врачей», — заявил Арджун Манрай, возглавляющий лабораторию ИИ в Harvard Medical School и являющийся одним из ведущих авторов исследования, в пресс-релизе.
Следует отметить, что исследование не утверждает, что ИИ готов принимать реальные решения о жизни и смерти в отделении неотложной помощи. Вместо этого в нем говорится, что результаты показывают «острую необходимость в проспективных испытаниях для оценки этих технологий в реальных условиях ухода за пациентами».
Ключевая тема: сравнение эффективности ИИ и врачей в диагностике
Исследователи также отметили, что они изучали только то, как модели работают с текстовой информацией, и что «существующие исследования показывают, что современные фундаментальные модели более ограничены в рассуждениях на основе нетекстовых данных».
Адам Родман, врач из Beth Israel и один из ведущих авторов исследования, предупредил The Guardian, что «сегодня не существует формальной структуры ответственности» за диагностику с помощью ИИ, и что пациенты по-прежнему «хотят, чтобы люди направляли их в вопросах жизни и смерти [и] помогали им принимать сложные решения о лечении».
В посте об исследовании Кристен Пантагани, врач скорой помощи, отметила, что это «интересное исследование ИИ, которое привело к появлению множества преувеличенных заголовков», особенно учитывая, что оно сравнивало диагнозы ИИ с диагнозами врачей-терапевтов, а не реаниматологов.
«Если мы собираемся сравнивать инструменты ИИ с клиническими способностями врачей, нам следует начинать с врачей, которые на самом деле практикуют в этой специальности, — сказала Пантагани. — Я не удивлюсь, если LLM сможет превзойти дерматолога на экзамене по нейрохирургии, [но] знать это не особенно полезно».
Ключевая тема: критика методологии исследования и необходимости специализированного сравнения
Она также возразила: «Как врач скорой помощи, видящий пациента впервые, моя главная цель — не угадать ваш окончательный диагноз. Моя главная цель — определить, есть ли у вас состояние, которое может вас убить».
Ключевая тема: ограниченность применения ИИ в экстренной медицине, где приоритет — оценка риска для жизни
Этот пост и заголовок были обновлены, чтобы отразить тот факт, что диагнозы в исследовании ставили лечащие врачи-терапевты, и включить комментарий Кристен Пантагани.
