一、OTU聚类
1.1 为何要进行OTU聚类
a) 测序完成后,每例样品的测序序列达到几万条,对每一条序列当然都可以进行物种注释,但这种方式工作量大,毕竟每一条序列均需要与数据库进行比对、比对过程又比较耗时,而且扩增、测序等过程中出现的错误会降低比对结果的准确性。
b) 因此,在微生物多样性研究中,引入了OTU的概念,首先对序列按照一定的相似程度进行聚类,每形成的一类称为一个OTU,一个OTU中序列的差异程度不能大于规定的相似程度,基于分类单元(OTU)进行物种注释(即从OTU中选择一条代表序列与数据库进行比对获得分类地位信息,便是该OTU的分类地位信息)。
c) 如此操作,不仅简化工作量,提高分析效率,而且OTU在聚类过程中还可以去除一些错误的序列,如嵌合体序列,提高分析的准确性。
1.2 OTU的概念
OTU(Operational Taxonomic Units)是在系统发生学研究或群体遗传学研究中,为了便于进行分析,人为给某一个分类单元(品系,种,属,分组等)设置的同一标志。
在生物信息分析中,一般来说,测序得到的每一条序列来自一个菌株。要了解一个样品测序结果中的菌种、菌属等数目信息,就需要对序列进行归类操作(cluster)。通过归类操作,将序列按照彼此的相似性分归为许多小组,一个小组就是一个OTU。
1.3微生物多样性研究中OTU聚类相似度的选择
1)细菌16S多样性研究中,目前主要按照序列97%的相似性进行OTU聚类
主要原因:在16S全长比对中,97%相似性可以认定为同一个种,所以可以初步认为一个OTU都是属于一个种的微生物,而细菌16S研究中,解释度最可靠的分类学地位是“属”,所以97%相似度划分OTU可以被接受。
2)OTU相似度的选择可以通过如下方式进行选择
将序列按照梯度相似度(如:70~99%之间)分别进行OTU聚类,将不同相似度的OTU数量进行统计,当在某一相似度时,OTU数量出现拐点时,即为最合适的聚类相似度。
因此,在早期16S多样性研究中,也有使用96%和98%相似度进行OTU聚类的。
在功能基因多样性研究中,聚类相似度浮动会比较大,不同的功能基因,聚类相似度在80%左右,甚至30%左右。
1.4 OTU聚类方法
①de novo
②closed-reference
③open-reference
这三种常见方法均有文献发表,文献中也介绍了其原理,这里不再过多介绍。
以上三种方法具有各自的优势和劣势,但主要集中在是否有比对数据库;是否丢弃未比对上的序列;是否所有序列进行比对,进而导致的分析时长及准确可靠性。
④OTUX:19年发表的一种方法
文献:OTUX:V-region specific OTU database for improved 16S rRNA OTU picking and efficientcross-study taxonomic comparison of microbiomes(2019DNA Res)
1.5 OTU聚类时错误序列的去除
•OTU聚类时使用的“原料” :去除掉重复序列的“Cleandata”(去除掉Cleandata中重复[即一模一样的]序列)。
•OTU聚类时需要去除哪些错误序列:
a)嵌合体序列;
b)测序错误序列:OTU聚类时,将OTU中仅有一条序列的OTU去除。
原始数据处理时遗留问题解答:
Cleandata通过嵌合体等去除后才可正式进入分析环节,因此,Cleandata的序列数量应比正式进入分析的序列要多。
1.6 嵌合体序列产生的原因及种类
嵌合体产生的原因:细菌多样性研究中,产生嵌合体的主要原因是在16S扩增过程中不完全的模板延伸造成的。在一个循环中由一个序列连接到另一条序列的部分区域上。
嵌合体的种类:ü两个不同序列区域产生的嵌合体(bimeras);
多个不同序列区域产生的嵌合体(multimeras)。
嵌合体的占比约为10%左右(个人经验)
1.7 如何减少嵌合体产生
a.Tuchdown方法:以缓慢的速度升降PCR反应温度;
b.修整PCR方法:在新的PCR体重中稀释PCR产物10倍,进行三次循环,可减少嵌合体;
c.PCR体系调整:适当降低Mg离子浓度,dNTPs浓度,DNA聚合酶浓度;适当增加反应温度;减少蛋白污染
d.调整PCR程序:减少循环数。
e.借鉴qPCR实验手段:选择或者更换合适的酶;适当提高引物浓度(1μM),但不宜过高,会增加二聚体产生的几率;采用两步法PCR,即退火和延伸温度在同一温度完成。
二、OTU物种注释
为了得到每个OTU对应的物种分类信息,采用RDPclassifier贝叶斯算法对一定相似度水平的OTU代表序列进行分类学比对分析,并分别在各个分类水平:domain(域),kingdom(界),phylum(门),class(纲),order(目),family(科),genus(属),species(种)统计各样品的群落组成。
三、物种注释数据库