
Десятилетия назад секвенирование ДНК произвело революцию в биомедицинских исследованиях, сделав возможным выявление редких генетических заболеваний и специфических мутаций опухолей. В последние годы новые технологии секвенирования, известные как секвенирование следующего поколения, привели к многочисленным прорывам. Например, в 2020 и 2021 годах эти методы позволили быстро расшифровать и глобально отслеживать геном SARS-CoV-2.
Одновременно с этим всё больше исследователей делают результаты своих секвенирований общедоступными. Это привело к беспрецедентному росту объёма данных, хранящихся в крупных базах, таких как американский SRA (Sequence Read Archive) и европейский ENA (European Nucleotide Archive). Вместе эти архивы насчитывают около 100 петабайт информации – объём, примерно эквивалентный всему текстовому содержимому интернета, учитывая, что один петабайт равен миллиону гигабайт.
До недавнего времени для поиска в этих колоссальных генетических хранилищах и сравнения их со своими собственными данными биомедицинским учёным требовались огромные вычислительные ресурсы, что фактически делало комплексные поиски практически невозможными. Теперь исследователи из Швейцарской высшей технической школы Цюриха (ETH Zurich) разработали метод, способный преодолеть это ограничение.
Команда представила инструмент под названием MetaGraph, который значительно упрощает и ускоряет процесс поиска. Вместо того чтобы загружать целые наборы данных, MetaGraph позволяет осуществлять прямой поиск по необработанным данным ДНК или РНК – совсем как при использовании обычной интернет-поисковой системы. Учёным достаточно ввести интересующую генетическую последовательность в поле поиска, и в течение секунд или минут, в зависимости от запроса, они смогут увидеть, где эта последовательность встречается в глобальных базах данных.
«Это своего рода Google для ДНК», – объясняет профессор Гуннар Рэтш, специалист по данным на кафедре компьютерных наук ETH Zurich. Ранее исследователи могли искать только описательные метаданные, а затем им приходилось загружать полные наборы данных для доступа к самим последовательностям. Этот подход был медленным, неполным и дорогостоящим. Согласно авторам исследования, MetaGraph также отличается поразительной экономичностью: для представления всех общедоступных биологических последовательностей потребуется лишь несколько компьютерных жёстких дисков, а крупные запросы будут стоить не более 0,74 доллара за мегабазу.
Благодаря своей скорости и точности, новый поисковый механизм для ДНК способен значительно ускорить исследования – особенно в выявлении новых патогенов или анализе генетических факторов, связанных с устойчивостью к антибиотикам. Система даже может помочь обнаружить полезные вирусы (бактериофаги), уничтожающие вредные бактерии, которые скрыты в этих огромных базах данных.
В своём исследовании, опубликованном 8 октября в журнале Nature, команда ETH продемонстрировала принципы работы MetaGraph. Инструмент организует и сжимает генетические данные, используя передовые математические графы, которые более эффективно структурируют информацию, подобно тому, как электронные таблицы упорядочивают значения. «Математически говоря, это огромная матрица с миллионами столбцов и триллионами строк», – поясняет Рэтш.
Создание индексов для обеспечения возможности поиска в больших наборах данных – это знакомая концепция в информатике, но подход ETH выделяется тем, как он связывает необработанные данные с метаданными, достигая при этом исключительной степени сжатия – примерно в 300 раз. Такое сокращение работает подобно краткому изложению книги – оно удаляет избыточность, сохраняя при этом основное повествование и взаимосвязи, сохраняя всю соответствующую информацию в гораздо меньшем объёме.
«Мы расширяем границы возможного, чтобы сохранить наборы данных максимально компактными, не теряя при этом необходимой информации», – говорит доктор Андре Калес, который, как и Рэтш, является членом группы биомедицинской информатики в ETH Zurich. В отличие от других разрабатываемых в настоящее время масок поиска ДНК, подход исследователей ETH является масштабируемым. Это означает, что чем больший объём данных запрашивается, тем меньше дополнительной вычислительной мощности требуется инструменту.
MetaGraph, впервые представленный в 2020 году, постоянно совершенствовался. В настоящее время инструмент общедоступен для поиска (https://metagraph.ethz.ch/search) и уже индексирует миллионы последовательностей ДНК, РНК и белков вирусов, бактерий, грибов, растений, животных и человека. В него включена почти половина всех доступных глобальных наборов данных последовательностей, а оставшаяся часть, как ожидается, будет добавлена к концу года. Поскольку MetaGraph является открытым исходным кодом, он также может заинтересовать фармацевтические компании, управляющие большими объёмами внутренних исследовательских данных.
Калес даже предполагает, что поисковый механизм для ДНК однажды может быть использован частными лицами: «В первые дни даже Google не знал точно, для чего хорош поисковый механизм. Если быстрое развитие секвенирования ДНК продолжится, возможно, станет обыденным более точно идентифицировать растения на вашем балконе».