Гарвардская медицинская школа и Стэнфордский университет представили новое исследование, в котором оценивается эффективность моделей большого языка в клинических условиях. Исследование, опубликованное 2 января в журнале Nature Medicine, показало, что эти инструменты, широко используемые пациентами для понимания своих симптомов и результатов медицинских анализов, сталкиваются с трудностями при взаимодействии, более точно имитирующем реальные медицинские ситуации.
Проблемы взаимодействия с пациентами
Хотя модели большого языка показывают впечатляющие результаты в стандартизированных медицинских тестах, их эффективность в условиях, приближенных к реальным, вызывает сомнения. В ходе исследования ученые разработали систему оценки под названием CRAFT-MD (Структура оценки разговорного рассуждения для тестирования в медицине) и применили ее на четырех различных моделях большого языка.
Результаты показали, что все модели хорошо справлялись с вопросами в стиле медицинского осмотра, однако их результаты ухудшались при участии в разговорах, точно имитирующих взаимодействие с пациентами в реальной жизни.
Необходимость реалистичных оценок
Исследователи подчеркнули двойную необходимость: создание более реалистичных оценок для оценки пригодности клинических моделей ИИ и улучшение их способности ставить диагнозы на основе более реалистичного взаимодействия.
Рекомендации для разработчиков и регулирующих органов
На основе выводов исследования были предложены следующие рекомендации:
- Использование разговорных открытых вопросов для более точного отражения неструктурированного взаимодействия врача и пациента при разработке, обучении и тестировании моделей ИИ.
- Оценка моделей на способность задавать правильные вопросы и извлекать наиболее важную информацию.
- Разработка моделей, способных следовать нескольким разговорам и интегрировать информацию из них.
- Разработка моделей ИИ, способных интерпретировать невербальные сигналы, такие как выражение лица, тон и язык тела.
- Участие как агентов ИИ, так и людей-экспертов в оценке для повышения точности и эффективности.
Заключение
Исследование Гарвардской медицинской школы и Стэнфордского университета подчеркивает важность создания более реалистичных оценок для тестирования клинических моделей ИИ и необходимость их оптимизации для повышения эффективности в реальных медицинских условиях.
Важность дальнейших исследований
Для дальнейшего улучшения моделей ИИ в здравоохранении необходимо продолжать исследования, направленные на разработку более реалистичных систем оценки и улучшение способности моделей ставить диагнозы на основе естественного взаимодействия с пациентами.
Литература:
An evaluation framework for clinical use of large language models in patient interaction tasks, Nature Medicine (2024). DOI: 10.1038/s41591-024-03328-5
Ведущий специалист отдела организации клинических исследований, терапевт, врач ультразвуковой диагностики АО «СЗМЦ» (г. Санкт-Петербург), главный редактор, учредитель сетевого издания Medical Insider, а также автор статей
E-mail для связи – [email protected];