С 2012 года коллектив проекта разрабатывает и поддерживает базу данных GTRD — крупнейшую в России и одну из крупнейших в мире баз по регуляции транскрипции, включающую более 500 ТБ данных. Она охватывает 10 модельных организмов и содержит результаты десятков тысяч экспериментов: ChIP-seq, DNase-seq, ATAC-seq и других методов NGS.
В рамках проекта будет впервые осуществлена масштабная интеграция данных single-cell ATAC-seq (более 2000 экспериментов) в GTRD. Будут сопоставлены результаты scATAC-seq с bulk-данными ATAC-seq и DNase-seq, а также с картами районов связывания ТФ, что позволит выявить клеточные особенности в регуляции генов. Разрабатываемый алгоритм импутации позволит улучшить существующий биоинформатический анализ данных scATAC-seq.
Проект получил поддержку в рамках открытого публичного конкурса на получение грантов Российского научного фонда по мероприятию «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами» (региональный конкурс). Финансирование выделяется Российским научным фондом и федеральной территорией «Сириус» на паритетных началах.
Современные методы секвенирования, такие как ChIP-seq, DNase-seq, ATAC-seq, RNA-seq и другие, генерируют большие объёмы данных о регуляции транскрипции, но зачастую остаются слабо интегрированными. Это затрудняет совместное использование этих данных для понимания механизмов регуляции и решения практических задач. Особенно остро эта проблема стоит на фоне стремительного роста популярности single-cell методов, позволяющих исследовать биологические процессы на уровне отдельных клеток.
Поскольку упаковка ДНК и белок-хроматиновые взаимодействия обладают высокой динамичностью и клеточной вариабельностью, традиционные методы на основе популяционного секвенирования не позволяют в полной мере охватить гетерогенность исследуемых систем. Интеграция данных single-cell ATAC-seq с существующей базой GTRD позволит впервые на системном уровне изучить клеточно-специфичную регуляцию транскрипции.
Интеграция данных scATAC-seq позволит учёным глубже понять, как выглядит ландшафт открытого хроматина, а также как транскрипционные факторы (ТФ) взаимодействуют с хроматином на уровне единичных клеток. Это открывает возможности для более точной аннотации однонуклеотидных вариантов, в том числе в контексте аллель-специфичной регуляции. Такие данные будут полезны для широкого круга исследователей в областях регуляторной геномики и биоинформатики.