Колебания дофамина в отдельных субрегионах мозга предсказывают вознаграждение в различных временных масштабах

Предыдущие нейробиологические исследования показывают, что кратковременное повышение уровня дофамина в мозгу является критическим сигналом для изучения вознаграждения и мотивации к получению большего вознаграждения. Ученые из Калифорнийского университета в Сан-Франциско провели исследование, изучающее временное повышение уровня дофамина в определенных субрегионах полосатого тела — части мозга, которая, как известно, поддерживает обучение и принятие решений, основанное на вознаграждении.

Их результаты, опубликованные в научном журнале Nature Neuroscience, предполагают, что временные колебания дофамина в трех разных частях полосатого тела отражают прогнозы вознаграждения на разных временных горизонтах (т. е. доли секунды, десятки секунд и сотни секунд спустя соответственно).

«Пульс дофамина может указывать на то, что мы оказались в лучшей ситуации, чем ожидали, и поэтому наши предыдущие оценки вознаграждения необходимо обновить», — сказал Джош Берке (Josh Berke), ведущий автор научной статьи. «Эта теория «ошибки прогнозирования вознаграждения» оказала большое влияние, отчасти потому, что она связывает модели активности мозга с определенными вычислениями в машинном обучении, однако есть несколько аспектов этой теории, которые в лучшем случае не завершены».

Недавнее исследование Берке и его сотрудников было направлено на рассмотрение двух проблемных аспектов теории «ошибки прогнозирования вознаграждения». Первым из них является неясное определение термина «прогнозирование вознаграждения», в котором не указано, когда ожидается вознаграждение (например, в течение одной секунды, одной минуты, одного часа и т. д.).

«Вторая проблема заключается в том, что первоначально считалось, что сигналы дофамина передаются равномерно по всему переднему мозгу, но более поздние исследования обнаружили разные сигналы дофамина в разных областях мозга», — сказал Берке. «Итак, означает ли это, что нам нужно много разных теорий, чтобы объяснить эти разные сигналы дофамина?»

Чтобы пролить свет на неясные аспекты теории ошибок предсказания вознаграждения, Берке и его коллеги провели эксперименты на крысах, используя недавно разработанный молекулярный сенсор. В этом сенсоре используется генетически модифицированный белок, который меняет свою флуоресценцию при связывании с дофамином.

«Мы разместили этот датчик в трех различных областях полосатого тела крысы — области мозга, которая получает наибольшее количество дофамина», — объяснил Берке. «Эти различные области являются частью отдельных крупномасштабных контуров мозга, которые обрабатывают разные типы информации».

Ученые изучили колебания дофамина, определяемые их молекулярным сенсором, когда крысы выполняли ряд поведенческих задач. Крысы получали награды с разной скоростью и слышали сигналы, указывающие на предстоящие награды с разной задержкой и вероятностью.

Интересно, что они обнаружили, что колебания дофамина в каждом из трех исследованных ими субрегионов полосатого тела отражают разные временные рамки ожидания крысами вознаграждения.

«В одной области, которая больше всего связана с контролем моторики, дофамин часто колеблется, и реакция на сигнал, предсказывающий вознаграждение, сильна только в том случае, если он предсказывает доставку вознаграждения в течение доли секунды», — сказал Берке. «Вторая область полосатого тела, по-видимому, заботится о вознаграждении в течение десятков секунд, а третья — в течение сотен секунд. Мы думаем, что может существовать непрерывный градиент временных шкал прогнозирования вознаграждения, задействующий параллельные цепи внутри мозга».

Различные временные шкалы и связанные с ними субрегионы полосатого тела, открытые Берке и его коллегами, могут объяснить ранее опубликованные загадочные экспериментальные наблюдения, регистрирующие разные сигналы дофамина, и все это с использованием единой теоретической основы. Кроме того, существование различных временных шкал прогнозирования вознаграждения может лежать в основе некоторых сложных и, по-видимому, бессвязных моделей поведения, наблюдаемых у животных.

«Например, при пении песни между движением наших голосовых связок и восприятием приятного (или иного) результата проходит очень мало времени», — сказал Берке. «Для эффективного обучения эта обратная связь должна быть быстрой. Однако иногда мы делаем выбор и не узнаем результатов в течение значительного времени. Нам необходимы механизмы мозга, чтобы преодолеть этот временной разрыв и определить, был ли выбор удачным».

Новое понимание, полученное этой командой исследователей, может помочь лучше понять связь между переходными процессами дофамина в субрегионах полосатого тела и обучением, основанным на вознаграждении. Кроме того, это могло бы пролить свет на некоторые процессы, лежащие в основе принятия решений.

«Часто мы принимаем решения о том, как действовать в долгосрочной перспективе (например, похудеть), но, сталкиваясь с немедленным выбором, мы не действуем соответствующим образом», — объяснил Берке.

«Это несоответствие уже давно изучается и считается «иррациональным». Однако возможно, что это является неизбежным следствием параллельной работы нескольких подсистем принятия решений, каждая из которых связана с разной продолжительностью будущего. По мере приближения потенциальных результатов со временем вовлекается больше подсистем, которые стремятся к краткосрочным результатам».

Эта научная работа вскоре может стать основой для разработки новых теоретических моделей, объясняющих предсказание вознаграждений в различных временных масштабах. Тем временем Берке и его коллеги планируют использовать свои результаты для проведения дальнейших экспериментов по изучению сигналов дофамина и их взаимодействия с другими нейронными цепями.

«Сейчас мы изучаем, как эти сигналы дофамина взаимодействуют с другими компонентами цепей, в рамках более глубокого понимания того, как эти схемы работают и почему они выходят из строя при таких расстройствах, как зависимость, болезнь Паркинсона и синдром Туретта. У нас также есть активная программа, изучающая, как мы представляем себе будущие возможности и соответствующим образом корректируем наше поведение».

Литература:
Ali Mohebi et al, Dopamine transients follow a striatal gradient of reward time horizons, Nature Neuroscience (2024). DOI: 10.1038/s41593-023-01566-3.