Искусственный интеллект научили «понимать» гены по их окружению в клетке

Учёные из Медицинской школы Икана при Маунт-Синай (Icahn School of Medicine at Mount Sinai) создали новую модель искусственного интеллекта, которая помогает понять, как гены работают вместе внутри человеческих клеток. Исследование опубликовано 21 мая в журнале Patterns.

Модель получила название «фундаментальная модель генных наборов» (gene set foundation model, GSFM). Геном человека можно представить как огромную библиотеку инструкций, но отдельные «книги» в ней редко работают поодиночке. Гены включаются и выключаются группами, участвуют в разных биологических процессах и могут менять свою роль в зависимости от того, в какой клетке и при каких условиях они активны.

Почему гены сравнили со словами

Авторы вдохновлялись большими языковыми моделями — системами искусственного интеллекта, которые учатся понимать значение слов по контексту. Слово может означать разные вещи в разных предложениях. По похожему принципу один и тот же ген может участвовать в разных процессах в зависимости от своего «клеточного окружения».

По словам старшего автора работы Ави Мааяна (Avi Ma’ayan), профессора фармакологических наук и директора Центра биоинформатики Маунт-Синай, гены редко действуют изолированно. Они образуют молекулярные группы, и смысл их работы становится понятнее только в связи с другими генами и условиями внутри клетки.

Как обучали новую модель

Для обучения GSFM исследователи собрали миллионы генных наборов из опубликованных научных работ и баз данных экспрессии генов. Экспрессия генов — это процесс, при котором клетка «считывает» генетическую инструкцию и использует её для создания молекул, чаще всего белков.

Модель обучали как систему, решающую задачу с пропущенными элементами: ей показывали часть генного набора и предлагали предсказать недостающие гены. Постепенно она научилась распознавать устойчивые связи между генами, их функциями и биологическими состояниями.

Такой подход отличается от многих прежних биологических моделей искусственного интеллекта. Они чаще опирались на данные об активности генов, а GSFM учится именно на наборах генов — то есть на сведениях о том, какие гены часто встречаются вместе в разных заболеваниях, экспериментах и условиях.

Чем это может помочь медицине

По мнению исследователей, новая модель может стать своеобразной картой совместной работы генов. Она способна помогать в нескольких задачах: уточнять функции плохо изученных генов, находить гены, связанные с болезнями, подсказывать возможные лекарственные мишени и биомаркеры.

Биомаркеры — это измеримые признаки, по которым можно судить о заболевании, риске его развития или реакции на лечение. Например, это может быть белок в крови, изменение активности гена или другой лабораторный показатель.

Особенно важным направлением авторы называют анализ обогащения генных наборов. Это метод, который помогает понять, какие биологические процессы сильнее всего представлены в большом списке генов. Если объяснить проще, учёные получают тысячи молекулярных сигналов и пытаются увидеть в них не хаос, а закономерность.

Проверка на будущих открытиях

Исследователи сравнили GSFM с другими подходами и показали, что модель хорошо выявляет связи между генами и функциями. Для проверки использовали интересный приём: модель обучали на публикациях до определённой даты, а затем смотрели, может ли она предсказать связи, которые были подтверждены уже в более поздних исследованиях.

Это не означает, что искусственный интеллект заменяет лабораторные эксперименты. Скорее, он помогает сузить круг поиска: подсказать, какие гены стоит изучать в первую очередь и какие гипотезы выглядят наиболее перспективными.

Что будет дальше

Команда планирует объединять GSFM с другими фундаментальными моделями искусственного интеллекта. Один из вариантов — связать её с языковыми моделями, чтобы система могла не только находить закономерности, но и объяснять функции генов обычным научным языком. Другое направление — сочетание с моделями, которые изучают действие лекарств, чтобы в будущем лучше прогнозировать, как препараты взаимодействуют с клетками.

Для пациентов такие разработки пока не означают немедленного появления нового анализа или лекарства. Но они могут ускорить путь от огромных массивов молекулярных данных к практическим выводам: ранней диагностике, подбору мишеней для терапии и более точному пониманию причин заболеваний.

Похожую тему — как искусственный интеллект помогает по-новому взглянуть на работу ДНК и регуляцию генов — разбирает материал МКБ-11: «Искусственный интеллект пересматривает “включено/выключено” ДНК: обнаружен новый уровень регуляции генов».

Литература

Clarke D. J. B. et al. GSFM: A gene set foundation model pre-trained on a massive collection of diverse gene sets // Patterns. 2026. DOI: 10.1016/j.patter.2026.101565.

Medical Insider