Искусственный интеллект научили «понимать» гены по их окружению в клетке

Учёные из Медицинской школы Икана при Маунт-Синай (Icahn School of Medicine at Mount Sinai) создали новую модель искусственного интеллекта, которая помогает понять, как гены работают вместе внутри человеческих клеток. Исследование опубликовано 21 мая в журнале Patterns.

Модель получила название «фундаментальная модель генных наборов» (gene set foundation model, GSFM). Геном человека можно представить как огромную библиотеку инструкций, но отдельные «книги» в ней редко работают поодиночке. Гены включаются и выключаются группами, участвуют в разных биологических процессах и могут менять свою роль в зависимости от того, в какой клетке и при каких условиях они активны.

Почему гены сравнили со словами

Авторы вдохновлялись большими языковыми моделями — системами искусственного интеллекта, которые учатся понимать значение слов по контексту. Слово может означать разные вещи в разных предложениях. По похожему принципу один и тот же ген может участвовать в разных процессах в зависимости от своего «клеточного окружения».

По словам старшего автора работы Ави Мааяна (Avi Ma’ayan), профессора фармакологических наук и директора Центра биоинформатики Маунт-Синай, гены редко действуют изолированно. Они образуют молекулярные группы, и смысл их работы становится понятнее только в связи с другими генами и условиями внутри клетки.

Как обучали новую модель

Для обучения GSFM исследователи собрали миллионы генных наборов из опубликованных научных работ и баз данных экспрессии генов. Экспрессия генов — это процесс, при котором клетка «считывает» генетическую инструкцию и использует её для создания молекул, чаще всего белков.

Модель обучали как систему, решающую задачу с пропущенными элементами: ей показывали часть генного набора и предлагали предсказать недостающие гены. Постепенно она научилась распознавать устойчивые связи между генами, их функциями и биологическими состояниями.

Такой подход отличается от многих прежних биологических моделей искусственного интеллекта. Они чаще опирались на данные об активности генов, а GSFM учится именно на наборах генов — то есть на сведениях о том, какие гены часто встречаются вместе в разных заболеваниях, экспериментах и условиях.

Чем это может помочь медицине

По мнению исследователей, новая модель может стать своеобразной картой совместной работы генов. Она способна помогать в нескольких задачах: уточнять функции плохо изученных генов, находить гены, связанные с болезнями, подсказывать возможные лекарственные мишени и биомаркеры.

Биомаркеры — это измеримые признаки, по которым можно судить о заболевании, риске его развития или реакции на лечение. Например, это может быть белок в крови, изменение активности гена или другой лабораторный показатель.

Особенно важным направлением авторы называют анализ обогащения генных наборов. Это метод, который помогает понять, какие биологические процессы сильнее всего представлены в большом списке генов. Если объяснить проще, учёные получают тысячи молекулярных сигналов и пытаются увидеть в них не хаос, а закономерность.

Проверка на будущих открытиях

Исследователи сравнили GSFM с другими подходами и показали, что модель хорошо выявляет связи между генами и функциями. Для проверки использовали интересный приём: модель обучали на публикациях до определённой даты, а затем смотрели, может ли она предсказать связи, которые были подтверждены уже в более поздних исследованиях.

Это не означает, что искусственный интеллект заменяет лабораторные эксперименты. Скорее, он помогает сузить круг поиска: подсказать, какие гены стоит изучать в первую очередь и какие гипотезы выглядят наиболее перспективными.

Что будет дальше

Команда планирует объединять GSFM с другими фундаментальными моделями искусственного интеллекта. Один из вариантов — связать её с языковыми моделями, чтобы система могла не только находить закономерности, но и объяснять функции генов обычным научным языком. Другое направление — сочетание с моделями, которые изучают действие лекарств, чтобы в будущем лучше прогнозировать, как препараты взаимодействуют с клетками.

Для пациентов такие разработки пока не означают немедленного появления нового анализа или лекарства. Но они могут ускорить путь от огромных массивов молекулярных данных к практическим выводам: ранней диагностике, подбору мишеней для терапии и более точному пониманию причин заболеваний.

Похожую тему — как искусственный интеллект помогает по-новому взглянуть на работу ДНК и регуляцию генов — разбирает материал МКБ-11: «Искусственный интеллект пересматривает “включено/выключено” ДНК: обнаружен новый уровень регуляции генов».

Литература

Clarke D. J. B. et al. GSFM: A gene set foundation model pre-trained on a massive collection of diverse gene sets // Patterns. 2026. DOI: 10.1016/j.patter.2026.101565.

Почему гены сравнили со словами

Как обучали новую модель

Чем это может помочь медицине

Проверка на будущих открытиях

Что будет дальше

Литература

ИИ научился видеть, как риск рака молочной железы меняется по маммограммам

ИМТ родителей и детей: новое исследование указывает на большую роль наследственности

Google проверила медицинский искусственный интеллект AMIE в виртуальных приемах

Новый ДНК-тест может ускорить диагностику редких генетических заболеваний