Почти все ведущие модели большого языка или «чат-боты» демонстрируют признаки легких когнитивных нарушений в тестах, используемых для выявления ранних признаков деменции, как сообщает исследование, опубликованное в рождественском выпуске BMJ.
Результаты исследования показывают, что «старые» версии чат-ботов, как и пожилые пациенты, склонны хуже справляться с тестами. Авторы подчеркивают, что эти результаты «бросают вызов предположению о том, что искусственный интеллект скоро заменит врачей-людей».
Достижения в области ИИ и их влияние
Значительные достижения в области искусственного интеллекта вызвали волну взволнованных и пугающих спекуляций относительно способности чат-ботов превзойти врачей-людей. Несколько исследований показали, что крупные языковые модели (LLM) успешно справляются с рядом медицинских диагностических задач. Однако их восприимчивость к человеческим нарушениям, таким как когнитивные снижения, ранее не изучалась.
Оценка когнитивных способностей
Для заполнения этого пробела в знаниях исследователи из OpenAI и Anthropic оценили когнитивные способности ведущих общедоступных LLM — ChatGPT версий 4 и 4o, Claude 3.5 «Sonnet» и Gemini версий 1 и 1.5 с использованием теста Монреальской когнитивной оценки (MoCA).
Тест MoCA широко используется для выявления когнитивных нарушений и ранних признаков деменции, обычно у пожилых людей. Он оценивает способности, включая внимание, память, речь, зрительно-пространственные навыки и исполнительные функции. Максимальная оценка составляет 30 баллов, и оценка 26 и выше обычно считается нормальной.
Результаты тестирования
Инструкции, данные LLM, были аналогичны инструкциям для пациентов-людей. Оценка проводилась в соответствии с официальными рекомендациями и оценивалась практикующим неврологом.
ChatGPT 4o получил наивысший балл в тесте MoCA (26 из 30), за ним следуют ChatGPT 4 и Claude (25 из 30). Gemini 1.0 набрал самый низкий балл (16 из 30).
Все чат-боты показали низкую производительность в зрительно-пространственных навыках и исполнительных задачах. Например, они плохо справились с заданием на прокладку маршрута и тестом на рисование часов. Модели Близнецов не смогли выполнить задачу отложенного вспоминания.
Однако большинство других задач, включая именование, внимание, язык и абстракцию, чат-боты выполняли хорошо. В дальнейших визуально-пространственных тестах они не смогли проявить сочувствие или точно интерпретировать сложные визуальные сцены. Только ChatGPT 4o преуспел на неконгруэнтном этапе теста Струпа, который использует комбинации названий цветов и цветов шрифта для измерения влияния помех на время реакции.
Заключение исследователей
Авторы признают значительные различия между человеческим мозгом и большими языковыми моделями. Однако они отмечают, что единый провал всех больших языковых моделей в задачах, требующих визуальной абстракции и исполнительных функций, подчеркивает их существенную слабость, которая может препятствовать их использованию в клинических условиях.
Таким образом, исследователи заключают: «Мало того, что неврологи вряд ли будут заменены большими языковыми моделями в ближайшее время, но наши результаты показывают, что они могут вскоре обнаружить, что им придется лечить новых виртуальных пациентов — модели искусственного интеллекта, у которых наблюдаются когнитивные нарушения».
Литература:
Age against the machine—susceptibility of large language models to cognitive impairment: cross sectional analysis, BMJ (2024). DOI: 10.1136/bmj-2024-081948
Ведущий специалист отдела организации клинических исследований, терапевт, врач ультразвуковой диагностики АО «СЗМЦ» (г. Санкт-Петербург), главный редактор, учредитель сетевого издания Medical Insider, а также автор статей
E-mail для связи – [email protected];