合作文章COOPERATION ARTICLE

MagicHand|宏基因组基础分析解析

来源:admin    发布时间:2020-07-31   阅读数:146

MagicHandV2.0新增宏基因组交互式分析功能,共包含9大模块,29个交互分析点,可以一站式解决宏基因组分析难题!今天我们来介绍一下宏基因组分析中的基础分析以及其在云平台中一些数据的含义。MagicHand云平台的宏基因组基础分析包括数据质控、序列组装及基因预测、非冗余基因集构建、基因丰度计算。

 MagicHand|宏基因组基础分析解析


一、数据质控

由于碱基质量分数是衡量测序质量的重要指标,因此数据分析前的数据质控是非常重要的一步,可以通过这一步对数据进行预处理。本次a级黄色片云平台宏基因组功能采用线下分析,线上交互方式,所以大家不需要设置此参数,可以直接在分析模块中点击“测序数据质量统计”获得样品质控数据。

云平台“测序数据质量统计”示例:

 MagicHand|宏基因组基础分析解析

Clean Q20:质控后碱基质量值大于20(测序错误率小于1%)的碱基所占百分比

Clean Q30:质控后碱基质量值大于30(测序错误率小于0.1%)的碱基所占百分比


二、序列组装及基因预测

利用质控后的Clean Reads对各样品进行宏基因组组装。现在主流的拼接软件主要应用两种算法:一种是根据序列前后的部分的重叠区域来拼接,另一种是将原始的序列剪切成更短的片段K-mers来组合拼接,也更适合二代测序结果。a级黄色片使用第二种算法对质控后得到的Clean Data进行拼接组装,最终得到多重拼接组装结果,拼接组装的结果可用于预测开放阅读框(ORF)和非编码基因。

云平台“序列拼接结果统计表”示例:

 云平台“序列拼接结果统计表”示例

N50:指Scaftigs长度覆盖50%所有核苷酸的最大序列重叠群长度,把Scaftigs按长度从大到小排序,并对其长度进行累加,当累加长度达到全部Scaftigs长度一半时,最后一个Scaftigs的长度。N90含义与N50相似。相比序列平均长度,N50(N90)更能准确表示此次序列拼接效果。 


三、非冗余基因集构建及基因丰度计算

1、非冗余基因集构建

将各样品及混合组装的基因预测结果放在一起,采用Linclust软件进行基因聚类及去除冗余,将每个Cluster中最长的序列作为代表性序列,以获得非冗余的gene catalogue。非冗余基因集构建是宏基因组分析中非常重要的一步,我们可以对获得的非冗余基因集进行基因水平、物种水平及功能水平上的分析。

 非冗余基因集构建

2、对非冗余基因集进行基因水平分析

对获得的非冗余基因集进行基因水平分析:将质控后的Clean Data比对至gene catalogue,来计算得到各Unigene在各样品中的丰度信息。基于gene catalogue各基因在各样品中的有无,进行core-pan基因分析、组间基因数目差异分析、基因数目Venn图分析;基于gene catalogue中各基因在各样品中的有无及丰度信息,进行样品间相关性分析。



四、序列组装数据交付

由于宏基因组序列组装数据量庞大、组装时间耗时长,所以云平台V2.0才会采用线下分析,线上交互的模式,这样可以解决上述所说的问题。同时,由于组装结果数据量庞大,所以组装的数据结果会通过OSS进行数据交付,详细的OSS数据交付方法请戳:

https://mp.weixin.qq.com/s?__biz=MzIzODU4Njc4MQ==&mid=2247490306&idx=1&sn=2c3e8e51080053e00bbbf573362777a1&chksm=e93645f0de41cce6de08a7ee529699bda7b3da9472efdfd159d78f69337e4c7d6bb8541d8eb0&scene=21&token=522826542&lang=zh_CN#wechat_redirect

现在注册,即可使用云平台提供的Demo数据体验上述分析功能。体验地址:www.magichand.online。还可以加入a级黄色片生信交流群,与生信大咖零距离交流!




您可能还喜欢:

a级黄色片引入Nanopore平台助力宏基因组三代测序!!

宏病毒组|宏病毒组助力土壤病毒研究!



分享到: