合作文章COOPERATION ARTICLE

佳作推荐|全球宏基因组数据比对分析揭示病毒噬菌体的多样性和进化规律?

来源:admin    发布时间:2020-06-29   阅读数:171

本周向大家推荐一篇发表在Microbiome上的佳作,其研究结果对病毒噬菌体家族(Lacidaviridae)的内容和进化关系做了很好的扩充,奠定了后续病毒噬菌体研究的基础。 全球宏基因组数据比对分析揭示病毒噬菌体的多样性和进化规律


全球宏基因组数据比对分析揭示病毒噬菌体的多样性和进化规律01


作者:David Paez-Espino, Jinglie Zhou, Simon Roux, et al.

期刊: Microbiome

IF:10.465

DOI:10.1186/s40168-019-0768-5


研究背景

病毒噬菌体(virophages)是一类环状的双链DNA病毒,通常和Mimiviridae科的核质巨DNA病毒(NCLDV)一起感染单细胞真核宿主。目前通过分离培养和宏基因组的手段,尤其后者在多种类型环境样本中发现了病毒噬菌体的存在,包括湖水、海水、废水、生物反应器、动物和人肠道等等。

病毒噬菌体因其基因组基因高度变化的特点,目前已知的病毒噬菌体只有4个基因是保守的,分别是MCP、mCP、ATPase和PRO,而MCP则通常被用做发现新病毒噬菌体的关键基因。本文作者通过隐马可夫模型(HMMs)基于MCPs基因对14,000份宏基因组数据进行了检索分析,最后得到了328个新病毒噬菌体基因组,对病毒噬菌体家族(Lacidaviridae)的内容和进化关系做了很好的扩充,奠定了后续病毒噬菌体研究的基础。


实验设计

1、建模和序列比对

作者通过HMMs把已发表确定为病毒噬菌体的MCPs作为bait,检索IMG/VR病毒数据库,得到80个类MCP基因,其序列通过聚类(MCL)后得到4个MCP family,然后再比对IMG/M数据库中的宏基因组数据,得到的9,813条序列和原始序列一起聚类最终得到了15个cluster。

随后用15个cluster去比对超过14,000例样本宏基因组数据,样本覆盖了不同的水体和沉积物,以及SRA库中的3,771个人体肠道数据。去冗余后得到的28,294条非冗余MCP序列通过完整性评估最后得到了328个长度超过10K的高质量virophages基因组。

2、进化分析和其他

对所有得到的virophages基于 4个“核心基因”(core genes)序列进行了聚类分析(MAFFT),同时也对所有新virophages和参考基因组基于预测蛋白做了聚类分析。由于virophages和NCLDV的密切关系,作者也参照virophages的方法构建了后者的数据库并且利用5个核心基因做了进化相关分析。


主要结果

图1中展示了作者基于MCPs用HMMs模型鉴定到15个新virophage MCP models的分析流程。通过此流程得到28,294条非冗余MCP序列,这些序列和分离培养鉴定得到以及之前宏基因组分析得到的MCP序列相比,大部分序列表现出了非相似性(blastp score<200,图2A)。其中88%的MCP序列主要来自于水环境样本,12%来自于土壤、宿主相关样本和生物反应器(图2B)。同时鉴定的到15个virophage MCP model在序列回溯追踪样品分布(habitat distribution)时也发现同一个model可能包含了不同样本类型(图2C)。


鉴定出的MCP序列保留大于10K的片段和58条参考virophage列序聚类,通过保留virophage的四个核心基因序列(MCP,mCP,ATPase,PRO)最后得到328个序列几乎完整的高质量基因组(图1E),其中89个基因组大小10.9kb到42.3Kb,编码基因12到39个。这些virophage基因组来自于不同的生态系统,淡水、海洋、宿主相关、土壤、温泉等等。 


全球宏基因组数据比对分析揭示病毒噬菌体的多样性和进化规律02

图1 virophage鉴定流程分析步骤


全球宏基因组数据比对分析揭示病毒噬菌体的多样性和进化规律03

图2 A:MCP序列和已发表MCP序列比对;B:MCP序列的habitat type


为了比较高质量virophage基因组的进化关系,和之前已发表的基因组基于4个核心基因做了聚类分析,共得到27个区分明显的clade,其中17个是新发现的(图3A-3B),其余10个包含已经发现基因组clade的序列数量也被扩张了9倍之多。



图3 A-B:高质量基因组进化分析和鉴定

MCP models在和人体肠道样本数据比对中得到了353条virophage序列(分布于5个高质量基因组),这是第一次关于人体样本高质量virophages的报导。根据序列样本宿主的的生活史,这些序列能在“rural”和“westrnized”样本中严格区分开来(图4B),该趋势和这两种序列能够被不同的MCP HMMs model鉴定区分是一致的(图4C)。


全球宏基因组数据比对分析揭示病毒噬菌体的多样性和进化规律04
图4 B:353个肠道宏基因组MCP序列进化分析;C:rural和westnized生活史MCP序列来自不同model比例

最后为了预测virophage的宿主,不同以往基于virophage和giant viruses共现性的计算方法,作者采用了基于Mimivirus virophage 抗性元件机制(MIMIVIRE),通过检索virophage和giant virus一段共有的序列进而预测可能的宿主信息。通过分析10K virophage序列和自建NCLDV序列的共享氨基酸序列,共发现了7对virophage和有物种信息NCLDV的联系(图5A)。这些NCLDV主要分布于Mimividae下Mesomimivirinae subfamily。其中一组关系里的两个virophage来自于同样的湖水样本(图 5B)。同时还预测了到了宿主Asfar-Faustovirus(感染昆虫和猪的巨病毒),也发现了两个virophage和海洋原生生物有关系。分析结果显示两个相关关系的virophage和MCLDV可能有着不同的真核宿主。


全球宏基因组数据比对分析揭示病毒噬菌体的多样性和进化规律05
图5 A:virophage MIMIVIRE system展示;B:宏基因组中预测到潜在宿主NCDLV的进化分析

结 论

本文作者基于virophage核心基因通过HMMs模型的方法对全球大量宏基因组数据进行了检索分析,最后得到了328个高质量的virophage基因组序列和超过45,000条基因组片段,这大大扩充了virophage的研究数据和内容,为后续新virophage的鉴定、进化分析以及宿主预测相关分析提供了新的思路和方法。



分享到: