高通量测序的数据处理与分析指北(二)--宏基因组篇

最新推荐文章于 2025-12-26 00:49:15 发布

原创

最新推荐文章于 2025-12-26 00:49:15 发布 · 1.3k 阅读

文章介绍了宏基因组的概念，特别是关注肠道微生物的测序，包括16sRNA和WGS两种主要测序方式。接着，讨论了宏基因组数据处理的两种主要方法：基于bin和不基于bin的物种注释技术，如metawrap、metabat2、kraken等工具的工作原理，并概述了如何计算物种丰度。

博客原文

宏基因组篇

前言

之前的一篇文章已经从生物实验的角度讲述了高通量测序的原理，这篇文章旨在介绍宏基因组二代测序数据的处理方式及其原理。在正文开始之前，我们先来认识一下什么是宏基因组。以我的理解，宏基因组就是某环境中所有生物的基因组的合集，这个环境可以是下水道，河流等自然环境，也可以是人体内肠道，口腔等体环境。而宏基因组中的生物往往指的是微生物，如真菌，细菌，病毒，古细菌。

我们这里主要以肠道微生物为例，也就是人体内肠道的宏基因组。肠道菌群的测序样本往往是粪便样本，现在主流的测序方式有两种：一种是16sRNA测序，一种是WGS(Whole Genome Sequencing) 全基因组测序。WGS测序数据量更大，所包含的信息更多，能注释出物种-样本的丰度矩阵，也能注释出基因-样本的丰度矩阵。而16sRNA测序测的是细菌核糖体RNA中的小亚基，这个小亚基的沉降系数是 16s，故被称为 16s RNA，这个16s RNA有一段非常保守的序列和一段变异序列，可以根据16s RNA 的变异度来进行物种分类，所以16s RNA数据往往只能注释出物种-样本的丰度矩阵。