Как сузить поиск генов в полногеномном поиске ассоциаций

Полногеномный поиск ассоциаций (GWAS) изучает большие популяции генома, чтобы выделить гены, способствующие распространенным, мультигенным признакам, таким как рост или ожирение. Эти всесторонние исследования зачастую выявляют большое количество крошечных генетических изменений, которые чаще встречаются у людей высокого роста, при ожирении и т. д.

В новой научной работе исследователи описывают эффективный, непредвзятый метод выбора лучшего алгоритма для работы, который называется Benchmarker. Результаты исследования опубликованы в научном журнале The American Journal of Human Genetics.

Актуальность проблемы

Большинство методов, которые использовались для оценки алгоритмов, могут склонить исследователей к генам, которые уже хорошо охарактеризованы, что отвлекает ученых от возможности открыть что-то действительно новое. Другие методы требуют доступа к независимым справочным данным, которые не всегда легко доступны.

«У нас разные алгоритмы расстановки приоритетов, но мы на самом деле не знаем, как решить, какой из них лучше», – объясняет автор исследования Ребекка Файн (Rebecca Fine), сотрудник Гарвардской медицинской школы (Harvard Medical School).

Материалы и методы обследования

Заимствуя концепцию машинного обучения «перекрестной проверки», Benchmarker позволяет исследователям использовать сами данные GWAS в качестве собственного элемента управления. Идея состоит в том, чтобы взять набор данных GWAS и выделить одну хромосому. Затем тестируемый алгоритм использует данные из оставшейся 21 хромосомы (все, кроме X и Y), чтобы предсказать, какие гены в одной хромосоме с большей вероятностью внесут вклад в исследуемую особенность. Поскольку этот процесс повторяется для каждой хромосомы по очереди, гены, помеченные алгоритмом, объединяются. Затем алгоритм проверяется путем сравнения этой группы генов с исходными результатами GWAS. 

Результаты научной работы

Ученые приходят к выводу, что сочетание нескольких стратегий зачастую дает наилучшие результаты. Ученые также нашли доказательства того, что определенные алгоритмы работают лучше всего при поиске генов для определенных признаков.

«Мы ожидаем, что будет разработано гораздо больше алгоритмов, чтобы ответить на следующий ключевой вопрос после исследования GWAS: какие гены и варианты причинно связаны с человеческими особенностями и болезнями», – объясняет Ребекка Файн. «Метод Benchmarker может оказать большую помощь в качестве непредвзятого способа выяснить, какие алгоритмы использовать для ответа на этот вопрос».

Авторы другого исследования утверждают, что гены отца определяют пол ребенка.