Революционный поисковик MetaGraph ускоряет открытие генетических закономерностей

Учёные из Швейцарского федерального технологического института Цюриха (ETH Zurich) создали поисковую систему MetaGraph, которая позволяет находить нужные фрагменты ДНК и РНК в мировых базах данных за считанные секунды. Новая технология сжимает информацию примерно в 300 раз и может кардинально ускорить исследования в медицине, биологии и фармакологии.


Ключевые факты

  • MetaGraph позволяет искать по «сырым» генетическим данным напрямую, без загрузки огромных архивов.
  • Технология обеспечивает сжатие данных примерно в 300 раз.
  • Поисковая система уже охватывает около половины мировых баз данных последовательностей.
  • Стоимость обработки крупных запросов не превышает 0,74 доллара за мегабазу.
  • Инструмент может ускорить поиск патогенов и анализ генов устойчивости к антибиотикам.

Как это работает

За последние годы объём общедоступных генетических данных вырос до масштабов, сравнимых с текстовым содержимым всего интернета. Главные мировые архивы — Американский архив последовательностей (Sequence Read Archive, SRA) и Европейский нуклеотидный архив (European Nucleotide Archive, ENA) — хранят около 100 петабайт информации.

Ранее для анализа таких массивов требовались гигантские вычислительные мощности: исследователям приходилось скачивать целые наборы данных, чтобы сравнить их с собственными образцами.

Разработанный в ETH Zurich инструмент MetaGraph решает эту проблему. Он позволяет выполнять полнотекстовый поиск прямо по исходным генетическим данным — подобно тому, как поисковик ищет по сайтам в интернете. Учёный вводит интересующую последовательность, и уже через несколько секунд получает результаты из глобальных баз.

«Это своего рода Google для ДНК,» — объясняет профессор Гуннар Рэч, специалист по анализу данных из ETH Zurich. Раньше можно было искать только по описаниям файлов и скачивать огромные объёмы информации, что занимало много времени и стоило дорого.


Прорыв в скорости и эффективности

Согласно исследованию, опубликованному 8 октября в журнале Nature, MetaGraph использует особую графовую структуру, которая делает данные компактнее и удобнее для поиска. По словам Рэча, инструмент представляет собой «огромную матрицу с миллионами столбцов и триллионами строк».

Такой подход не только ускоряет поиск, но и обеспечивает сжатие информации примерно в 300 раз без потери смысла. «Мы стараемся сделать наборы данных максимально компактными, сохраняя при этом все необходимые сведения», — говорит Андре Кахлес из группы биомедицинской информатики ETH Zurich.

Кроме того, MetaGraph масштабируется: чем больше данных обрабатывается, тем меньше дополнительной мощности требуется. Это делает систему не только быстрой, но и экономичной — хранение всех открытых биологических последовательностей потребует всего нескольких жёстких дисков.


Доступность и перспективы

Первая версия MetaGraph появилась в 2020 году, и теперь инструмент доступен всем пользователям через онлайн-интерфейс. В системе уже проиндексированы миллионы последовательностей ДНК, РНК и белков, включая вирусы, бактерии, растения, животных и человека. Почти половина мировых данных уже внесена, а оставшаяся часть планируется к загрузке до конца года.

Исследователи отмечают, что открытый исходный код MetaGraph делает его привлекательным и для фармацевтических компаний, которым нужно эффективно работать с внутренними базами генетических данных.

Кахлес предполагает, что однажды такие поисковики могут стать доступны и обычным пользователям:

«Когда появился Google, никто не знал, насколько он изменит поиск информации. Если развитие генетических технологий продолжится, не исключено, что мы сможем определять вид растений на балконе с такой же лёгкостью, как ищем рецепты в интернете.»


Что это значит

MetaGraph может существенно ускорить генетические исследования — от отслеживания новых патогенов до поиска вирусов, разрушающих вредные бактерии. Хотя технология пока ориентирована на научные лаборатории, её принципы могут со временем стать основой для повседневных приложений, связанных с биоинформатикой и медициной данных.

Источник

  1. Mikhail Karasikov, Harun Mustafa, Daniel Danciu, Oleksandr Kulkov, Marc Zimmermann, Christopher Barber, Gunnar Rätsch, André Kahles. Efficient and accurate search in petabase-scale sequence repositories. Nature, 2025; DOI: 10.1038/s41586-025-09603-w

Medical Insider