宏基因组篇
前言
之前的一篇文章已经从生物实验的角度讲述了高通量测序的原理,这篇文章旨在介绍宏基因组二代测序数据的处理方式及其原理。在正文开始之前,我们先来认识一下什么是宏基因组。以我的理解,宏基因组就是某环境中所有生物的基因组的合集,这个环境可以是下水道,河流等自然环境,也可以是人体内肠道,口腔等体环境。而宏基因组中的生物往往指的是微生物,如真菌,细菌,病毒,古细菌。
我们这里主要以肠道微生物为例,也就是人体内肠道的宏基因组。肠道菌群的测序样本往往是粪便样本,现在主流的测序方式有两种:一种是16sRNA测序,一种是WGS(Whole Genome Sequencing) 全基因组测序。WGS测序数据量更大,所包含的信息更多,能注释出物种-样本的丰度矩阵,也能注释出基因-样本的丰度矩阵。而16sRNA测序测的是细菌核糖体RNA中的小亚基,这个小亚基的沉降系数是 16s,故被称为 16s RNA,这个16s RNA有一段非常保守的序列和一段变异序列,可以根据16s RNA 的变异度来进行物种分类,所以16s RNA数据往往只能注释出物种-样本的丰度矩阵。
原理介绍
之前文章中也提到了,由于测序技术的限制,目前二代测序只能测较短的碱基片段,所以需要对基因进行碎片化,我们要思考的问题就是这些碎片化的基因如何重新拼回到完整的基因组或者这些碎片化的基因如何确定其属于什么物种从而得到物种的丰度矩阵。
目前对宏基因组原始数据如何注释到物种的方法有两类主流

文章介绍了宏基因组的概念,特别是关注肠道微生物的测序,包括16sRNA和WGS两种主要测序方式。接着,讨论了宏基因组数据处理的两种主要方法:基于bin和不基于bin的物种注释技术,如metawrap、metabat2、kraken等工具的工作原理,并概述了如何计算物种丰度。
1万+

被折叠的 条评论
为什么被折叠?



