Radiology: ChatGPT сдал экзамен по радиологии

ChatGPT успешно сдал экзамен по радиологии, продемонстрировав потенциал больших языковых моделей в медицинском контексте. В исследовании использовалось 150 вопросов с несколькими вариантами ответов, имитирующих стиль и сложность экзаменов Канадского Королевского колледжа (Canadian Royal College) и Американского совета по радиологии (American Board of Radiology).

ChatGPT, основанный на модели GPT-3.5, правильно ответил на 69% вопросов, чуть ниже проходного балла в 70%. Однако обновленной версии GPT-4 удалось превысить проходной порог с результатом 81%, продемонстрировав значительные улучшения, особенно в вопросах мышления более высокого порядка.

Согласно двум новым исследованиям, опубликованным в научном журнале Radiology, последняя версия ChatGPT прошла экзамен по радиологии, подчеркнув потенциал больших языковых моделей, но также выявив ограничения, которые снижают надежность.

ChatGPT — это чат-бот с искусственным интеллектом (ИИ), который использует модель глубокого обучения для распознавания шаблонов и взаимосвязей между словами в своих обширных данных обучения, чтобы генерировать ответы, подобные человеческим, на основе подсказки. Но поскольку в его обучающих данных нет источника истины, инструмент может генерировать фактически неверные ответы.

«Использование больших языковых моделей, таких как ChatGPT, стремительно растет, и будет только расти», — комментирует автор исследования Раджеш Бхайана (Rajesh Bhayana). «Наше исследование дает представление о производительности ChatGPT в контексте радиологии, подчеркивая невероятный потенциал больших языковых моделей, а также текущие ограничения, которые делают его ненадежным».

ChatGPT недавно был назван самым быстрорастущим потребительским приложением в истории, и подобные чат-боты внедряются в популярные поисковые системы, такие как Google и Bing, которые врачи и пациенты используют для поиска медицинской информации.

Чтобы оценить его эффективность в ответах на экзаменационные вопросы по рентгенологии и изучить сильные и слабые стороны, доктор Бхаяна и его коллеги сначала протестировали ChatGPT на основе GPT-3.5, в настоящее время наиболее часто используемой версии.

Исследователи использовали 150 вопросов с несколькими вариантами ответов, разработанных в соответствии со стилем, содержанием и сложностью экзаменов Канадского Королевского колледжа и Американского совета по радиологии.

Вопросы не включали изображения и были сгруппированы по типам вопросов, чтобы получить представление о производительности: мышление более низкого порядка (воспоминание знаний, базовое понимание) и более высокого порядка (применение, анализ, синтез).

Вопросы мышления более высокого порядка были дополнительно подклассифицированы по типу (описание результатов визуализации, клиническое ведение, расчет и классификация, ассоциации с заболеванием).

Производительность ChatGPT оценивалась в целом, а также по типу вопроса и теме. Также оценивалась уверенность в языке в ответах.

Исследователи обнаружили, что ChatGPT на основе GPT-3.5 правильно ответил на 69% вопросов (104 из 150), что близко к проходному баллу в 70%, используемому Королевским колледжем в Канаде.

Модель относительно хорошо показала себя в вопросах, требующих мышления более низкого порядка (84%, 51 из 61), но испытывала затруднения с вопросами, требующими мышления более высокого порядка (60%, 53 из 89).

В частности, ИИ боролся с вопросами более высокого порядка, включая описание результатов визуализации (61%, 28 из 46), расчет и классификацию (25%, 2 из 8) и применение концепций (30%, 3 из 10). Его плохие результаты в вопросах мышления более высокого порядка неудивительны, учитывая отсутствие предварительной подготовки, связанной с радиологией.

GPT-4 был выпущен в марте 2023 года в ограниченной форме для платных пользователей, в частности, заявляя, что он обладает улучшенными расширенными возможностями рассуждений по сравнению с GPT-3.5.

В последующем исследовании GPT-4 правильно ответил на 81% (121 из 150) тех же вопросов, превзойдя GPT-3.5 и превысив проходной порог в 70%. GPT-4 показал себя намного лучше, чем GPT-3.5, в вопросах мышления более высокого порядка (81%), в частности, в вопросах, связанных с описанием результатов визуализации (85%) и применением понятий (90%).

Полученные данные свидетельствуют о том, что заявленные улучшенные возможности расширенного мышления GPT-4 приводят к повышению производительности в контексте радиологии. Они также предлагают улучшенное контекстуальное понимание терминологии, относящейся к радиологии, включая описания изображений, что имеет решающее значение для обеспечения возможности будущих последующих приложений.

«Наше исследование демонстрирует впечатляющее улучшение производительности ChatGPT в радиологии за короткий период времени, подчеркивая растущий потенциал больших языковых моделей в этом контексте», — комментирует Бхаяна.

GPT-4 не показал улучшения в вопросах мышления более низкого порядка (80% против 84%) и неправильно ответил на 12 вопросов, на которые GPT-3.5 ответил правильно, что вызывает вопросы, связанные с его надежностью для сбора информации.

«Сначала мы были удивлены точными и уверенными ответами ChatGPT на некоторые сложные радиологические вопросы, но затем в равной степени были удивлены некоторыми очень нелогичными и неточными утверждениями», — добавляет доктор Бхаяна. «Конечно, учитывая, как работают эти модели, неточные ответы не должны вызывать особого удивления».

Опасная тенденция ChatGPT давать неточные ответы, называемые галлюцинациями, менее распространена в GPT-4, но все еще ограничивает возможности использования в медицинском образовании и практике в настоящее время.

Оба исследования показали, что ChatGPT постоянно использует уверенный язык, даже если он неправильный. Это особенно опасно, если полагаться исключительно на информацию, отмечает доктор Бхаяна, особенно для новичков, которые могут не распознать уверенные неправильные ответы как неточные.

«Для меня это самое большое ограничение. В настоящее время ChatGPT лучше всего использовать для поиска идей, помощи в написании медицинских текстов и обобщении данных. Если он используется для быстрого запоминания информации, его всегда необходимо проверять», — заключает доктор Бхаяна.

Авторы другого исследования утверждают, что ChatGPT развеивает мифы о вакцинах