Белковые языковые модели — системы искусственного интеллекта, которые помогают предсказывать свойства белков и проектировать новые молекулы, — быстро становятся важным инструментом биотехнологии. С их помощью потенциально можно создавать ферменты для улавливания углекислого газа, более чистые промышленные катализаторы и новые биомолекулы для медицины.
Но у этой технологии есть слабое место: многие модели работают как «чёрный ящик». Они выдают ответ, но человеку трудно понять, почему система предложила именно такую белковую последовательность и можно ли ей доверять.
Этой проблеме посвящена обзорная статья исследователей из Центра геномной регуляции (Centre for Genomic Regulation), опубликованная в журнале Nature Machine Intelligence.
Что такое белковые языковые модели
Белки состоят из аминокислот — небольших молекулярных «кирпичиков», соединённых в цепочку. Последовательность аминокислот определяет, как белок свернётся, с чем сможет связываться и какую работу будет выполнять в клетке.
Белковые языковые модели учатся на огромных наборах таких последовательностей. В некотором смысле они ищут закономерности в «языке белков»: какие аминокислоты часто встречаются рядом, какие участки важны для формы, устойчивости или функции белка.
Это похоже на то, как языковая модель учится на текстах, только вместо слов здесь используются аминокислоты, а вместо фраз — белковые последовательности.
Почему «чёрный ящик» опасен
Если модель предлагает новый белок, учёным нужно понимать, почему этот вариант должен работать. Особенно это важно, когда речь идёт о ферменте, лекарственной молекуле или промышленном катализаторе.
Ошибка может означать, что белок окажется нестабильным, неактивным, токсичным или будет вести себя иначе, чем ожидалось. Поэтому недостаточно получить красивое предсказание. Нужно знать, какие данные повлияли на решение, какие участки белка модель считает важными и насколько надёжна её логика.
Ноэлия Феррус (Noelia Ferruz), соответствующий автор работы, отметила, что белковые языковые модели развиваются быстро, но понимание базовых биологических процессов — например сворачивания белков и катализа — не всегда продвигается с той же скоростью.
Катализ — это ускорение химической реакции. В биологии эту работу часто выполняют ферменты, то есть белки-катализаторы.
Что такое объяснимый ИИ
Объяснимый искусственный интеллект, или объяснимый ИИ, — это набор методов, которые помогают понять, как модель пришла к своему выводу. В идеале исследователь должен видеть не только результат, но и причины: какие данные, признаки и внутренние связи были важны для решения.
В белковой биологии это особенно ценно. Объяснимый ИИ может показать, какие аминокислоты повлияли на прогноз, какие участки белка могут быть центрами связывания, где возможна нестабильность и почему одна мутация полезна, а другая разрушает функцию.
Мутация — это изменение в генетической информации, которое может привести к замене аминокислоты в белке.
Где искать объяснение решения модели
Авторы выделяют четыре уровня, на которых можно анализировать работу белковой языковой модели.
Первый уровень — обучающие данные. Если модель обучали на неполном или смещённом наборе белков, её выводы тоже могут быть смещены. Например, она может хуже работать с редкими белковыми семействами или с вариантами, важными для человека.
Второй уровень — входная последовательность. Здесь исследователь смотрит, какие аминокислоты или участки белка сильнее всего повлияли на прогноз.
Третий уровень — внутренняя архитектура модели. Это попытка заглянуть «под капот» и понять, какие искусственные нейроны и слои действительно обрабатывают биологически важную информацию.
Четвёртый уровень — поведение «вход–выход». Учёные слегка меняют белковую последовательность и смотрят, как меняется ответ модели. Если небольшая замена резко меняет прогноз, это может указать на ключевой участок молекулы.
Сегодня объяснимый ИИ чаще только проверяет модель
Авторы обзора проанализировали исследования, где методы объяснимого ИИ уже применялись к белковым моделям. Оказалось, что чаще всего такие методы используются как «оценщик»: они проверяют, научилась ли модель узнавать уже известные биологам закономерности, например участки связывания или структурные мотивы.
Структурный мотив — это повторяющийся элемент формы белка, который может быть важен для его функции.
Это полезно, но недостаточно. Такая проверка говорит: «Модель заметила то, что мы уже знали». Гораздо интереснее другой уровень — когда модель помогает открыть то, чего биологи ещё не видели.
От «оценщика» к «учителю»
Авторы предлагают пять возможных ролей объяснимого ИИ в белковой науке: оценщик, многозадачный помощник, инженер, наставник и учитель.
Самая амбициозная роль — «учитель». В этом случае система не просто подтверждает известные знания, а помогает формулировать новые биологические принципы. Например, объясняет, почему определённая мутация разрушает сеть водородных связей, необходимую для устойчивости белка.
Водородные связи — это слабые межмолекулярные взаимодействия, которые помогают белкам сохранять форму и правильно выполнять функцию.
Андреа Хунклингер (Andrea Hunklinger), первый автор статьи, подчёркивает: если белковые языковые модели должны стать надёжным партнёром в научном поиске и проектировании, объяснимость нельзя оставлять «на потом».
Почему это важно для медицины
Белки участвуют почти во всех процессах организма: передают сигналы, ускоряют реакции, строят ткани, регулируют иммунитет и обмен веществ. Поэтому возможность проектировать белки с заданными свойствами может изменить разработку лекарств, вакцин, диагностических систем и клеточных технологий.
Но для медицины особенно важны надёжность и проверяемость. Модель должна не только предложить молекулу, но и объяснить, почему она безопасна, стабильна и должна работать именно так.
Если система не может объяснить своё решение, её трудно использовать в областях, где ошибка может повлиять на здоровье человека.
Что предлагают авторы
Исследователи призывают научное сообщество разработать надёжные критерии проверки объяснений. Нужно понять, действительно ли объяснение отражает ход «рассуждений» модели или просто выглядит убедительно для человека.
Также нужны открытые инструменты, чтобы разные лаборатории могли сравнивать методы между собой. И, что особенно важно, предсказания искусственного интеллекта необходимо проверять в лаборатории. Только эксперимент может превратить математическую закономерность в биологическое знание.
Что это значит для будущего
Главная цель — контролируемое проектирование белков. В идеале исследователь сможет задать модели требования: нужная форма, активность при определённой кислотности среды, устойчивость, безопасность. А модель не только предложит последовательность, но и объяснит, почему она должна работать и почему другие варианты хуже.
Пока это не реальность, а направление развития. Современные белковые языковые модели хорошо находят статистические закономерности, но это ещё не равнозначно настоящему пониманию биологии.
О том, как искусственный интеллект уже помогает создавать белки с необычными свойствами, можно прочитать в материале «Искусственный интеллект научился создавать “белки-хамелеоны”, с которыми не справился даже AlphaFold».
Литература
Hunklinger A., Ferruz N. Towards the explainability of protein language models. Nature Machine Intelligence. 2026. DOI: 10.1038/s42256-026-01232-w.
Center for Genomic Regulation. A roadmap for safer, explainable protein-design AI. 2026.
