banner
Дом / Новости / ViralCC извлекает полные вирусные геномы и сам вирус
Новости

ViralCC извлекает полные вирусные геномы и сам вирус

Jun 04, 2024Jun 04, 2024

Nature Communications, том 14, номер статьи: 502 (2023 г.) Цитировать эту статью

3725 Доступов

20 Альтметрика

Подробности о метриках

Внедрение в метагеномику высокопроизводительного захвата конформации хромосом (Hi-C) позволяет реконструировать высококачественные геномы, собранные в метагеноме (MAG) из микробных сообществ. Несмотря на недавние достижения в восстановлении геномов эукариот, бактерий и архей с использованием карт контактов Hi-C, лишь немногие методы на основе Hi-C предназначены для извлечения вирусных геномов. Здесь мы представляем ViralCC, общедоступный инструмент для восстановления полных вирусных геномов и обнаружения пар вирус-хозяин с использованием данных Hi-C. По сравнению с другими методами, основанными на Hi-C, ViralCC использует структуру близости вирус-хозяин в качестве дополнительного источника информации для взаимодействий Hi-C. Используя имитационные и реальные наборы метагеномных данных Hi-C из нескольких различных микробных экосистем, включая кишечник человека, коровьи фекалии и сточные воды, мы демонстрируем, что ViralCC превосходит существующие методы связывания на основе Hi-C, а также самые современные инструменты. специально посвящен метагеномному вирусному биннингу. ViralCC также может выявить таксономическую структуру вирусов и пар вирус-хозяин в микробных сообществах. При применении к реальному набору метагеномных данных Hi-C сточных вод ViralCC создает сеть фаг-хозяин, которая дополнительно проверяется с помощью спейсерного анализа CRISPR. ViralCC — это конвейер с открытым исходным кодом, доступный по адресу https://github.com/dyxstat/ViralCC.

Вирусы представляют собой наиболее дивергентный и повсеместно распространенный биологический организм на Земле, его глобальная численность оценивается в 1031 1. Вирусы оказывают огромное воздействие на экосистемы в качестве хищников и/или паразитов внутри микробных сообществ посредством лизогенного или литического цикла, заражая бактерии и археи2,3. Например, вирусы вносят значительный вклад в биогеохимический круговорот углерода и азота в водной среде обитания4,5 и участвуют в некоторых заболеваниях, таких как воспалительные заболевания кишечника и тяжелое острое недоедание в организме человека6,7. Поэтому интерес к виромике резко возрос за последние два десятилетия.

Поскольку число вирусов, которые традиционно можно культивировать в лаборатории, слишком ограничено для оценки вирусного разнообразия8, метагеномика как стратегия отбора образцов, независимая от культуры, широко используется для восстановления вирусных геномов и идентификации хозяев этих недавно открытых вирусов. один из самых сложных аспектов изучения вирусов в микробных сообществах9,10,11. Метагеномное полногеномное секвенирование (WGS) напрямую извлекает геномные фрагменты из различных образцов окружающей среды, генерируя большое количество коротких считываний, которые впоследствии собираются в контиги12,13,14. Метагеномные вирусные контиги затем идентифицируются из больших сборок на основе состава последовательностей, сходства последовательностей и/или обнаружения вирусных белков15,16,17. Однако сборка вирусного генома из считываний с помощью дробовика является сложной задачей18, а короткие вирусные контиги могут представлять собой только сегменты целых вирусных геномов19. Неполные вирусные фрагменты оказывают существенное негативное влияние на последующие анализы, включая характеристику основного вирусного разнообразия и численности, прогнозирование хозяина и функциональных способностей20,21. Таким образом, метагеномное вирусное биннинг, определяемое как процесс группировки вирусных контигов одного и того же вида в вирусные геномы, собранные в метагеном (vMAG), является ценным, особенно для гигантских вирусов22.

Большинство традиционных инструментов группирования на основе «дробовика» разработаны для восстановления геномов эукариот, бактерий и архей23,24,25,26 и игнорируют проблемы, связанные с вирусами, такие как отсутствие универсальных однокопийных генов и относительно небольшой размер вирусных геномов. . Кроме того, инструменты группирования, использующие анализ микробных маркерных генов, неприменимы к вирусам24,27,28. CoCoNet29 и vRhyme30 — два существующих метода, специально предназначенных для метагеномного связывания вирусов. CoCoNet обучает нейронную сеть, используя как состав, так и особенности совместного появления вирусных контигов в образцах, чтобы предсказать вероятность того, что два вирусных контига происходят из одного и того же генома. vRhyme использует сравнение размеров эффекта покрытия с одной или несколькими выборками для расчета различий в охвате между вирусными контигами. Чтобы обработать информацию о составе последовательностей, vRhyme сначала предварительно обучает контролируемые модели классификации на основе машинного обучения с использованием фрагментов генома. Затем вектор сходства нуклеотидных признаков между двумя вирусными контигами вводится в модели классификации, чтобы предсказать значение вероятности того, что вирусные контиги происходят из одного и того же генома. Наконец, vRhyme создает взвешенную сеть, где каждый узел представляет собой вирусный контиг, а вес ребра рассчитывается путем деления разницы покрытия на значение вероятности. Сети далее уточняются до vMAG. Однако как CoCoNet, так и vRhyme могут быть серьезно нарушены, если не хватает образцов для создания надежных профилей совместной численности вирусных контигов, т. е. профилей, показывающих, какие контиги имеют одинаковые значения численности в нескольких образцах и, следовательно, вероятно, происходят из одного и того же генома. .