微生物多样性分析—OTU聚类与注释

一、OTU聚类

1.1 为何要进行OTU聚类

a) 测序完成后，每例样品的测序序列达到几万条，对每一条序列当然都可以进行物种注释，但这种方式工作量大，毕竟每一条序列均需要与数据库进行比对、比对过程又比较耗时，而且扩增、测序等过程中出现的错误会降低比对结果的准确性。

b) 因此，在微生物多样性研究中，引入了OTU的概念，首先对序列按照一定的相似程度进行聚类，每形成的一类称为一个OTU，一个OTU中序列的差异程度不能大于规定的相似程度，基于分类单元（OTU）进行物种注释（即从OTU中选择一条代表序列与数据库进行比对获得分类地位信息，便是该OTU的分类地位信息）。

c) 如此操作，不仅简化工作量，提高分析效率，而且OTU在聚类过程中还可以去除一些错误的序列，如嵌合体序列，提高分析的准确性。

1.2 OTU的概念

OTU（Operational Taxonomic Units）是在系统发生学研究或群体遗传学研究中，为了便于进行分析，人为给某一个分类单元（品系，种，属，分组等）设置的同一标志。

在生物信息分析中，一般来说，测序得到的每一条序列来自一个菌株。要了解一个样品测序结果中的菌种、菌属等数目信息，就需要对序列进行归类操作（cluster）。通过归类操作，将序列按照彼此的相似性分归为许多小组，一个小组就是一个OTU。

1.3微生物多样性研究中OTU聚类相似度的选择

1）细菌16S多样性研究中，目前主要按照序列97%的相似性进行OTU聚类

主要原因：在16S全长比对中，97%相似性可以认定为同一个种，所以可以初步认为一个OTU都是属于一个种的微生物，而细菌16S研究中，解释度最可靠的分类学地位是“属”，所以97%相似度划分OTU可以被接受。

2）OTU相似度的选择可以通过如下方式进行选择

将序列按照梯度相似度（如：70~99%之间）分别进行OTU聚类，将不同相似度的OTU数量进行统计，当在某一相似度时，OTU数量出现拐点时，即为最合适的聚类相似度。

因此，在早期16S多样性研究中，也有使用96%和98%相似度进行OTU聚类的。

在功能基因多样性研究中，聚类相似度浮动会比较大，不同的功能基因，聚类相似度在80%左右，甚至30%左右。

OTU聚类相似度选择示意图

1.4 OTU聚类方法

①de novo

②closed-reference

③open-reference

这三种常见方法均有文献发表，文献中也介绍了其原理，这里不再过多介绍。

以上三种方法具有各自的优势和劣势，但主要集中在是否有比对数据库；是否丢弃未比对上的序列；是否所有序列进行比对，进而导致的分析时长及准确可靠性。

④OTUX：19年发表的一种方法

文献：OTUX:V-region specific OTU database for improved 16S rRNA OTU picking and efficientcross-study taxonomic comparison of microbiomes（2019DNA Res）

1.5 OTU聚类时错误序列的去除

•OTU聚类时使用的“原料” ：去除掉重复序列的“Cleandata”（去除掉Cleandata中重复[即一模一样的]序列）。

•OTU聚类时需要去除哪些错误序列：

a)嵌合体序列；

b)测序错误序列：OTU聚类时，将OTU中仅有一条序列的OTU去除。

原始数据处理时遗留问题解答：

Cleandata通过嵌合体等去除后才可正式进入分析环节，因此，Cleandata的序列数量应比正式进入分析的序列要多。

1.6 嵌合体序列产生的原因及种类

嵌合体产生的原因：细菌多样性研究中，产生嵌合体的主要原因是在16S扩增过程中不完全的模板延伸造成的。在一个循环中由一个序列连接到另一条序列的部分区域上。

嵌合体的种类：ü两个不同序列区域产生的嵌合体（bimeras）;

多个不同序列区域产生的嵌合体（multimeras）。

嵌合体的占比约为10%左右（个人经验）

1.7 如何减少嵌合体产生

a.Tuchdown方法：以缓慢的速度升降PCR反应温度；

b.修整PCR方法：在新的PCR体重中稀释PCR产物10倍，进行三次循环，可减少嵌合体；

c.PCR体系调整：适当降低Mg离子浓度，dNTPs浓度，DNA聚合酶浓度；适当增加反应温度；减少蛋白污染

d.调整PCR程序：减少循环数。

e.借鉴qPCR实验手段：选择或者更换合适的酶；适当提高引物浓度（1μM），但不宜过高，会增加二聚体产生的几率；采用两步法PCR，即退火和延伸温度在同一温度完成。

二、OTU物种注释

为了得到每个OTU对应的物种分类信息，采用RDPclassifier贝叶斯算法对一定相似度水平的OTU代表序列进行分类学比对分析，并分别在各个分类水平：domain（域），kingdom（界），phylum（门），class（纲），order（目），family（科），genus（属），species（种）统计各样品的群落组成。

三、物种注释数据库

注释数据库汇总

微生物多样性分析—OTU聚类与注释

你可能感兴趣的:(微生物多样性分析—OTU聚类与注释)