合作文章COOPERATION ARTICLE

干货|扩增子-物种注释四部曲

来源:admin    发布时间:2020-09-17   阅读数:82

今天带来的是一篇干货,扩增子—物种注释四部曲。欢迎共同交流和探讨。 

一、代表性序列注释

利用usearch对每个OTU的代表序列进行物种分类,从而达到了解所有序列物种来源的目的。其中 16S、18S 和功能基因默认采用RDP classifier贝叶斯算法,ITS和AMF默认采用Blast方法,置信度阈值为0.5。

使用的数据库:16S(细菌、古菌)和18S(真核)默认用silva,ITS(真菌)默认用unite,功能基因默认用fungene(RDP整理来源于GeneBank的功能基因数据库),AMF默认用MaarjAM数据库,得到物种注释信息表otu_taxa。


干货|扩增子-物种注释四部曲


注:otu_taxa中的 taxonomy分为7个层次,分别为界(kingdom,L1),门(phylum,L2),纲(class,L3),目(order,L4),科(family,L5),属(genus,L6),种(species,L7),以首字母简写标注(如p_代表Phylum)。

注释结果中*_uncultured(如g_uncultured)表示注释上了数据库中已经被报道的暂未纯培养的物种。分类学比对后根据置信度阈值筛选,会有某些分类谱系在某一分类级别分值较低,在统计时以Unidentified标记;Unclassified表示数据库中没有找到对应于该序列的分类信息。Unclassified Tags指没有获得注释信息。若无此类标记表示数据库中没有参考序列(如 k__Bacteria; p__Proteobacteria表示在纲水平以下无物种信息)。


二、去除污染OTU获得OTU table

根据注释结果去除注释为叶绿体或线粒体(16S 扩增子)以及不能注释到界级别的OTU及其Tags,得到最终序列分布情况表otu_table_final,将otu_table_final表中各OTU的序列数与otu_taxa表中物种信息相结合,得到物种注释综合信息表otu_table。


干货|扩增子-物种注释四部曲


注:第一列为过滤污染序列以及不能注释到界级别的OTU后的有效OTU编号,最后一列为每个OTU的物种注释信息,其余各列代表各个OTU在不同样品中的序列数。对每个样本而言,OTU丰度构成该样本的组成结构,该结果是后续物种丰度研究的基础。


三、重抽样获得OTU_subsampled

通常以序列数最少的样品为准,利用usearch从otu_table中将其他样品的序列数随机抽平到相同数目,生成抽平(归一化/均一化/标准化)后的otu_table_subsampled表。并根据OTU分类地位鉴定结果,统计各分类水平的微生物类群数和序列数。

其中各分类水平的微生物类群数相当于以不同的分辨率查看群落组成结构,以直观地比较不同样本在同一水平的分类单元数的差异,各分类水平的序列数统计结果则可以根据注释到属的序列数多少,判断各样品物种注释率的高低。


干货|扩增子-物种注释四部曲


注:该结果是后续alpha多样性、beta多样性、统计学差异分析等研究的基础。


四、物种注释率统计

基于otu_table_subsampled统计OTU在各个分类等级的注释比例,得到各样品在各分类水平上的序列构成柱形图,体现各样品的注释率。


干货|扩增子-物种注释四部曲


注:横坐标依据样本名排列,纵坐标为界、门、纲、目、科、属六个水平各自含有的序列数(注释到属的序列越多表示OTU注释率越高)。

好了,以上就是扩增子物种注释四部曲了,希望对您有点小小的帮助和启发就满足了。


您可能还喜欢: 淡水宏病毒组揭示了新的功能性噬菌体抗药性基因

代谢组|代谢组IF5-8分文章发文思路



分享到: