Ученый Университета «Сириус» дополнил отечественное хранилище геномной информации данными более 5 тысяч экспериментов

8 ноября 2024

Ученый Университета «Сириус» дополнил отечественное хранилище геномной информации данными более 5 тысяч экспериментов

Ученый Университета «Сириус» дополнил отечественное хранилище геномной информации данными более 5 тысяч экспериментов

Теперь отечественная база данных GTRD (Gene Transcription Regulatory Database), в создании которой участвуют исследователи Научно-технологического университета «Сириус», является крупнейшем в мире хранилищем о регуляции транскрипции генов. Оно объединяет результаты десятков тысяч различных экспериментов, проведенных учеными по всему миру, и предоставляет их в одном месте, в удобной форме для анализа любому исследователю. Благодаря усилиям младшего научного сотрудника направления «Вычислительная биология» Научно-технологического университета «Сириус» Семена Колмыкова и его коллег база данных пополнилась информацией еще более 5 тысяч экспериментов. Теперь она доступна всему мировому сообществу. Ученые смогут под разным углом изучать то как клетка реагирует на различные условия и сигналы.

Что такое транскрипция

Транскрипция — это сложный процесс, с помощью которого клетка «считывает» информацию из ДНК и использует её для создания молекул РНК, которые затем могут стать «инструкцией» для синтеза белков. В клетке существует множество различных механизмов контроля этого процесса, и для исследования каждого механизма существуют специальные эксперименты по их изучению. Таким образом, ученые могут под разным углом изучать то, как клетка реагирует на различные условия и сигналы.

Создание отечественной базы данных стартовало еще в 2009 году. Собрать все данные в одном месте – непростая задача. В различных открытых источниках можно найти много информации. Но эти данные разрозненные, плохо описаны и по-разному обработаны. Сегодня ученые Университета «Сириус» вместе с экспертами ведущих научных центров страны, описали и обработали уже несколько десятков тысяч экспериментов. Постоянно пополняют и дорабатывают базу, чтобы она стала еще больше и удобнее. Крупнейшее в мире хранилище информации о регуляции транскрипции GTRD включает данные для десяти модельных организмов, в частности человека и мыши. Суммарный объем данных, хранящихся в GTRD превышает 500 Тб. Для сравнения, размер всей библиотеки треков в Яндекс Музыке (~76 миллионов) можно оценить в 300 Тб. Уже сегодня база данных широко востребована в биомедицинских исследованиях по всему миру. Например, две основные статьи о базе данных, опубликованный в 2019 и в 2021 году в журнале Nucleic Acids Research, суммарно процитированы уже больше 400 раз.

Над своей частью проекта младший научный сотрудник направления «Вычислительная биология» Научно-технологического университета «Сириус» Семен Колмыков работал больше шести лет. Присоединился к команде еще когда работал в Новосибирске и продолжил в Сириусе. Его задачей было собрать и проанализировать имеющиеся в открытом доступе эксперименты, исследующие специальные белки-регуляторы транскрипции – факторы транскрипции. Когда такой белок связывается с определенными участками ДНК, он буквально «включает» или «выключает» определенные гены. Это влияет на то, как клетка работает и реагирует на внешние условия.

«Транскрипция генов в наших клетках активируется или подавляется в ответ на изменения внутренних и внешних условий. Но важно понимать, что регуляция транскрипции — это сложный процесс, который происходит на нескольких уровнях, — объясняет Семен Колмыков. — Факторы транскрипции — одни из ключевых компонентов этой регуляции. Важной особенностью является их способность узнавать определенные последовательности ДНК (мотивы) и связываться с ними. У каждого фактора последовательность будет своя. Можно представить, что факторы транскрипции — это ключи. Оказываясь в подходящей замочной скважине они способны запирать или освобождать экспрессию генов, «включая» или «выключая» их. Всего в организме человека около 1,5 тысячи таких белков-регуляторов. В нашей базе данных мы собрали информацию обо всех существующих в открытом доступе экспериментах, позволяющих массово находить на геноме координаты связывания факторов транскрипции с ДНК. Осталось всего несколько сотен белков-регуляторов, для которых подобных экспериментов никто в мире еще не проводил».

Ученые из Научно-технологического университета «Сириус» входят в состав международного консорциума, цель которого — поставить и проанализировать недостающие эксперименты для оставшихся неизученными факторов транскрипции, чтобы выявить их мотивы связывания на ДНК. Тем не менее и без них база данных GTRD уже сегодня является уникальным источником информации. Семену удалось построить наиболее полную карту геномных районов связывания транскрипционных факторов человека. В геномах 10 видов организмов суммарно было найдено более 175 миллионов таких районов. Этот громадный справочник будет полезен широкому кругу исследователей по всему миру для изучения процессов регуляции транскрипции интересующих их генов и поможет лучше понять механизмы протекания различных патологических процессов, что в дальнейшем поможет в диагностике и разработке лекарств.

SIR_9133-22222.jpg

Кстати, чтобы бороться с ошибочно найденными районами связывания, которые неминуемо присутствуют в каждом эксперименте, Семен Колмыков разработал новые алгоритмы оценки качества и сравнительного анализа этих экспериментов. Интересно, что в основу одного из методов лег подход, который активно используют экологи для оценки размера популяций птиц. Часть из этой масштабной работы Семен включил в свою диссертацию, защита прошла накануне в Научно-технологическом университете «Сириус», став первой в истории Сириуса.