行业动态INDUSTRY DYNAMIC

混合宏基因组学组装可对人类微生物组中的抗性基因和移动元件进行高分辨率分析

来源:admin    发布时间:2020-08-03   阅读数:153

今天的佳作推荐基于“三+二”宏基因组测序策略,提出了一套高效组装宏基因组数据的分析流程为抗性基因和可移动元件的精确研究提供了可靠方法。

Hybrid metagenomic assembly enables high-resolution analysis of resistance determinants and mobile elements in human microbiomes 混合宏基因组学组装可对人类微生物组中的抗性基因和移动元件进行高分辨率分析

a级黄色片佳作推荐

作者:Denis Bertrand, Jim Shaw, Manesh Kalathiyappan, et al.

期刊:Nature Biotechnology

时间:2019

IF:31.864

DOI:10.1038/s41587-019-0191-2


文章摘要

高通量宏基因组测序可用于对微生物组的特征描述,但没有结合短序列和长序列的测序方法技术。在此,我们展示了一套宏基因组混合组装流程:OPERA-MS,它结合了宏基因组集群与重复感知聚类,可准确组装复杂的细菌群落。分别用真实的及人工构建的肠道微生物做评估时发现,OPERA-MS组装的碱基对准确性比长序列组装器(Canu)的更高,组装结果比短序列组装器(MEGAHIT23、metaSPAdes24、IDBA-UD25)的更连贯,错误率比非宏基因组混合组装器(hybridSPAdes)的更低。在多种细菌亚型存在的情况下,该流程也可以进行组装。长reads覆盖度在9×时OPERA-MS可以组装到稀少物种(<1%)的高质量基因组,覆盖度更高时可组装到近完整基因组。本研究从用抗生素治疗的病人样本中组装到了28个肠道微生物基因组,结果显示nanopore测到的长reads组装后得到了更连贯的组装集,包括八十多个闭环质粒或噬菌体序列、一个新的263kbp的巨型噬菌体。高质量的混合组装让我们能更深入的了解病人肠道的抗性基因组。


实验设计

1、样本采集、DNA提取和测序:采集197份肠道定殖了碳青霉烯抗性肠杆菌的临床样本,优化核酸提取方案后提取DNA。优化测序试剂和设备等后进行长序列、短序列的宏基因组测序。

2、宏基因组组装:分别使用组装流程OPERA-MS(图1)和其他组装器进行宏基因组组装,并对组装集进行质量评估。

3、人工构建GIS20肠道微生物群落及其测序:将20种已知的细菌菌株的DNA混合在一起,菌株DNA的丰度为0.1%到30%,再进行三代测序。比较不同工具对该数据的组装效果。

4、分析可移动元件和抗性基因,对巨噬菌体进行注释和进化分析。

5、对OPERA-MS组装到的2个K. pneumoniae菌株进行丰度分析,再与多抗性质粒进行关联分析。


实验结果

1、高质量的长reads宏基因组学和混合组装

0.5g的小份粪便样本能提取足够nanopore测序的DNA,通过测序得到了长reads序列。用nanopore和Illunima测序得到的物种信息高度一致。说明临床样本可以用常规nanopore测序来组装长reads。

根据我们开发的OPERA-MS流程,先使用MEGAHIT23、metaSPAdes24或者IDBA-UD25进行短序列组装,再利用长序列搭建基因组框架,然后进一步bin出细菌亚种基因簇。对OPERA-MS的组装能力进行评估。

图1 OPERA-MS工作流程
图1 OPERA-MS工作流程


2、从混合宏基因组数据中组装到近完整基因组

比较后发现基于短序列的Illumina测序是性价比最高的研究复杂群落的方法,但覆盖极限在30×左右(图2a)。这个限制可以通过横贯重复区的长序列来消除,且覆盖度足够时还可获得接近完整的基因组(NGA50>1Mbp,图2b),但这也会受到组装工具和基因组重复序列情况的影响。OPERA-MS可让长序列覆盖度仅5×的情况(图2c)下使NGA50>100kbp,且碱基的准确性更高。

与其他短序列和长序列组装工具相比,OPERA-MS组装到的序列连贯性更强(图2b-d),完整性更高。该流程组装到的错误序列<1处/Mbp(图2e),总之,可将OPERA-MS看做是一个利用不同长度序列进行组装的连贯性强、正确率高的工具。

图2 从宏基因组中混合组装基因组
图2 从宏基因组中混合组装基因组


3、用OPERA-MS精确组装复杂群落中的菌株基因组

用人工构建的简单微生物群落来评估组装效果是常用的黄金标准,在此我们就构建了包含20种微生物的人工群落GIS20(图3a)。经OPERA-MS组装,序列的连贯性提高了(图3b),组装错误率减少(图3c)。在基因组binning方面,OPERA-MS组装到的这20个基因组完整性高达95%,且其中的4个完整性>99%,纯净度>95%。

值得注意的是,在对GIS20群落中的K. pneumoniae菌株进行组装和binning时,MEGAHIT组装的NGA50序列约11kbp,且得到了3种不完整的基因组,手动优化结果后基因缺失率仍有20%。Canu组装器得到的12条contigs虽覆盖了基因组的93%,但错误率却很高,hybridSPAdes的组装结果与此相似。而OPERA-MS组装到了长5Mbp的单条序列,错误率很低。该结果说明了使用OPERA-MS可以区复杂群落中的细菌亚种,这提高了基因和代谢研究的准确性。

图3 人工肠道微生物群落的基因组组装
图3 人工肠道微生物群落的基因组组装


4、人类微生物群落中的抗性基因和可移动元件

MEGAHIT工具组装序列的N50<9kbp,而OPERA-MS组装的N50>100kbp,且菌株多样性对组装结果的影响小,很多高质量基因组(85/138)能与种水平的参考基因组区分开来,例如组装到的一个Proteus新种。

组装具有重复序列的可移动元件一直比较困难。用OPERA-MS组装到了8.9M的可移动元件(图4a),其中包括完整的细菌基因组、大质粒和噬菌体,这88条contigs中有68条和已知的序列都有所差别(图4b),且其中的18条没找到比对上的序列,说明人体肠道还有未被发现的质粒/噬菌体。

最长的一条环状序列(263kbp)上有很多噬菌体生活史循环相关基因(>50个;图4c),说明这是一个新的巨噬菌体基因组。在接受抗生素治疗的患者粪便中该巨噬菌体含量很高,且丰度伴随着肠杆菌科的大量繁殖而增加。此外还发现了两个巨型大肠杆菌噬菌体(150kbp和93kbp)。

注释到的抗性contigs(>5kbp)超过了1.68Gbp,130个微生物基因组中有20个存在多种耐药基因。一条组合了碳青霉烯类、氨基糖苷类、甲氧苄氨嘧啶和磺胺类抗性的序列(图4d)源于大肠杆菌质粒,有几段重复区域,经过混合组装策略才得到了完整的序列。宏基因组组装分析显示这个携带多抗性基因的质粒和2个肠杆菌菌种,E. coli及K. pneumoniae之间的丰度关联性很弱。OPERA-MS组装到了2个E. coli亚种H和L(图4e),预测亚种L才是该质粒的宿主(Pearson’s ρ= 0.94,图4f),分离培养实验证实了这个推测。OPERA-MS组装方法得到的宏基因组数据能将质粒和基因组联系起来,该法可成为Hi-C技术的一种补充。

图4人类肠道微生物中可移动元件与其宿主的关联
图4人类肠道微生物中可移动元件与其宿主的关联


小结与亮点

基于长序列和短序列混合组装策略,本研究提出了一套高效组装宏基因组数据的分析流程:OPERA-MS。与其他组装软件相比,该流程组装到的序列碱基对准确性更高,组装结果更连贯,错误率更低,可以得到复杂样本中的细菌亚种、稀少微生物、质粒和噬菌体的高质量基因组,进一步获得耐药相关基因信息,寻找人类粪便中的新物种。总之,该流程有非常多的宏基因组组装优势,为抗性基因和可移动元件的精确研究提供了可靠方法。



您可能还喜欢:

三氯乙基磷酸酯在沉积物中的生物转化以及对微生物群落的影响

微塑料对土壤微生物群落结构的影响



分享到: