Учёные из Швейцарского федерального технологического института Цюриха (ETH Zurich) создали поисковую систему MetaGraph, которая позволяет находить нужные фрагменты ДНК и РНК в мировых базах данных за считанные секунды. Новая технология сжимает информацию примерно в 300 раз и может кардинально ускорить исследования в медицине, биологии и фармакологии.
Ключевые факты
- MetaGraph позволяет искать по «сырым» генетическим данным напрямую, без загрузки огромных архивов.
- Технология обеспечивает сжатие данных примерно в 300 раз.
- Поисковая система уже охватывает около половины мировых баз данных последовательностей.
- Стоимость обработки крупных запросов не превышает 0,74 доллара за мегабазу.
- Инструмент может ускорить поиск патогенов и анализ генов устойчивости к антибиотикам.
Как это работает
За последние годы объём общедоступных генетических данных вырос до масштабов, сравнимых с текстовым содержимым всего интернета. Главные мировые архивы — Американский архив последовательностей (Sequence Read Archive, SRA) и Европейский нуклеотидный архив (European Nucleotide Archive, ENA) — хранят около 100 петабайт информации.
Ранее для анализа таких массивов требовались гигантские вычислительные мощности: исследователям приходилось скачивать целые наборы данных, чтобы сравнить их с собственными образцами.
Разработанный в ETH Zurich инструмент MetaGraph решает эту проблему. Он позволяет выполнять полнотекстовый поиск прямо по исходным генетическим данным — подобно тому, как поисковик ищет по сайтам в интернете. Учёный вводит интересующую последовательность, и уже через несколько секунд получает результаты из глобальных баз.
«Это своего рода Google для ДНК,» — объясняет профессор Гуннар Рэч, специалист по анализу данных из ETH Zurich. Раньше можно было искать только по описаниям файлов и скачивать огромные объёмы информации, что занимало много времени и стоило дорого.
Прорыв в скорости и эффективности
Согласно исследованию, опубликованному 8 октября в журнале Nature, MetaGraph использует особую графовую структуру, которая делает данные компактнее и удобнее для поиска. По словам Рэча, инструмент представляет собой «огромную матрицу с миллионами столбцов и триллионами строк».
Такой подход не только ускоряет поиск, но и обеспечивает сжатие информации примерно в 300 раз без потери смысла. «Мы стараемся сделать наборы данных максимально компактными, сохраняя при этом все необходимые сведения», — говорит Андре Кахлес из группы биомедицинской информатики ETH Zurich.
Кроме того, MetaGraph масштабируется: чем больше данных обрабатывается, тем меньше дополнительной мощности требуется. Это делает систему не только быстрой, но и экономичной — хранение всех открытых биологических последовательностей потребует всего нескольких жёстких дисков.
Доступность и перспективы
Первая версия MetaGraph появилась в 2020 году, и теперь инструмент доступен всем пользователям через онлайн-интерфейс. В системе уже проиндексированы миллионы последовательностей ДНК, РНК и белков, включая вирусы, бактерии, растения, животных и человека. Почти половина мировых данных уже внесена, а оставшаяся часть планируется к загрузке до конца года.
Исследователи отмечают, что открытый исходный код MetaGraph делает его привлекательным и для фармацевтических компаний, которым нужно эффективно работать с внутренними базами генетических данных.
Кахлес предполагает, что однажды такие поисковики могут стать доступны и обычным пользователям:
«Когда появился Google, никто не знал, насколько он изменит поиск информации. Если развитие генетических технологий продолжится, не исключено, что мы сможем определять вид растений на балконе с такой же лёгкостью, как ищем рецепты в интернете.»
Что это значит
MetaGraph может существенно ускорить генетические исследования — от отслеживания новых патогенов до поиска вирусов, разрушающих вредные бактерии. Хотя технология пока ориентирована на научные лаборатории, её принципы могут со временем стать основой для повседневных приложений, связанных с биоинформатикой и медициной данных.
Источник
- Mikhail Karasikov, Harun Mustafa, Daniel Danciu, Oleksandr Kulkov, Marc Zimmermann, Christopher Barber, Gunnar Rätsch, André Kahles. Efficient and accurate search in petabase-scale sequence repositories. Nature, 2025; DOI: 10.1038/s41586-025-09603-w

Ведущий специалист отдела организации клинических исследований, терапевт, врач ультразвуковой диагностики ООО «ВеронаМед» (г. Санкт-Петербург), главный редактор, учредитель сетевого издания Medical Insider, а также автор статей.
E-mail для связи – xuslan@yandex.ru;
