Искусственный интеллект демонстрирует признаки когнитивных нарушений

Почти все ведущие модели большого языка или «чат-боты» демонстрируют признаки легких когнитивных нарушений в тестах, используемых для выявления ранних признаков деменции, как сообщает исследование, опубликованное в рождественском выпуске BMJ.

Результаты исследования показывают, что «старые» версии чат-ботов, как и пожилые пациенты, склонны хуже справляться с тестами. Авторы подчеркивают, что эти результаты «бросают вызов предположению о том, что искусственный интеллект скоро заменит врачей-людей».

Достижения в области ИИ и их влияние

Значительные достижения в области искусственного интеллекта вызвали волну взволнованных и пугающих спекуляций относительно способности чат-ботов превзойти врачей-людей. Несколько исследований показали, что крупные языковые модели (LLM) успешно справляются с рядом медицинских диагностических задач. Однако их восприимчивость к человеческим нарушениям, таким как когнитивные снижения, ранее не изучалась.

Оценка когнитивных способностей

Для заполнения этого пробела в знаниях исследователи из OpenAI и Anthropic оценили когнитивные способности ведущих общедоступных LLM — ChatGPT версий 4 и 4o, Claude 3.5 «Sonnet» и Gemini версий 1 и 1.5 с использованием теста Монреальской когнитивной оценки (MoCA).

Тест MoCA широко используется для выявления когнитивных нарушений и ранних признаков деменции, обычно у пожилых людей. Он оценивает способности, включая внимание, память, речь, зрительно-пространственные навыки и исполнительные функции. Максимальная оценка составляет 30 баллов, и оценка 26 и выше обычно считается нормальной.

Результаты тестирования

Инструкции, данные LLM, были аналогичны инструкциям для пациентов-людей. Оценка проводилась в соответствии с официальными рекомендациями и оценивалась практикующим неврологом.

ChatGPT 4o получил наивысший балл в тесте MoCA (26 из 30), за ним следуют ChatGPT 4 и Claude (25 из 30). Gemini 1.0 набрал самый низкий балл (16 из 30).

Все чат-боты показали низкую производительность в зрительно-пространственных навыках и исполнительных задачах. Например, они плохо справились с заданием на прокладку маршрута и тестом на рисование часов. Модели Близнецов не смогли выполнить задачу отложенного вспоминания.

Однако большинство других задач, включая именование, внимание, язык и абстракцию, чат-боты выполняли хорошо. В дальнейших визуально-пространственных тестах они не смогли проявить сочувствие или точно интерпретировать сложные визуальные сцены. Только ChatGPT 4o преуспел на неконгруэнтном этапе теста Струпа, который использует комбинации названий цветов и цветов шрифта для измерения влияния помех на время реакции.

Заключение исследователей

Авторы признают значительные различия между человеческим мозгом и большими языковыми моделями. Однако они отмечают, что единый провал всех больших языковых моделей в задачах, требующих визуальной абстракции и исполнительных функций, подчеркивает их существенную слабость, которая может препятствовать их использованию в клинических условиях.

Таким образом, исследователи заключают: «Мало того, что неврологи вряд ли будут заменены большими языковыми моделями в ближайшее время, но наши результаты показывают, что они могут вскоре обнаружить, что им придется лечить новых виртуальных пациентов — модели искусственного интеллекта, у которых наблюдаются когнитивные нарушения».

Литература:
Age against the machine—susceptibility of large language models to cognitive impairment: cross sectional analysis, BMJ (2024). DOI: 10.1136/bmj-2024-081948