PacBio全长16S rDNA测序,有哪些不为人知的优势?【转】

16S rDNA是细菌分类学研究中最常用的“分子钟”,总长约 1540 bp,其中包含9个可变区(Variable region)和10个保守区(Constant region)。可变区因菌种不同而异,且变异程度与细菌的系统发育密切相关。通过检测16S rDNA可变区的序列变异和丰度,可了解环境样品中群落多样性信息,在微生物分类鉴定、微生态研究等方面起着重要的作用。

平台比较
集合优势,成本更低

Sanger测序能够提供接近全长(Full Length, FL)的16S rDNA片段,但该方法成本高且通量较低,难以满足复杂环境研究需求。

以Illumina为代表的二代测序技术,成本大大降低,更适合大规模测序;但是受测序长度的限制,往往只能选择 1-3 个可变区作为扩增片段(目前常用扩增子片段是V4区),分类的准确性和一致性存在问题。

今天的主角是PacBio全长16S rDNA测序。我们来八一八它和其他平台16S rDNA测序相比主要有哪些优势,以及全长16S rDNA测序还有哪些不完美之处。
表1. 16S rDNA测序在不同测序平台中的比较


从上面的表格中,我们可以看到,三代测序集合了Sanger测序的读长优势和二代测序的高通量优势,可用较低的成本获得16S rDNA全长序列,满足全长16S rDNA研究需求。

严谨的童鞋们可能会说:单纯的平台优势并不足以说服我们选择PacBio测序,我们更关注的是科研价值!那大家一起来看看在实际研究中,PacBio全长16S rDNA测序表现如何呢?
质量优势
准确度99%、重复性0.96
2016年年初,美国能源部联合基因组研究中心发表在ISME Journal 上的一篇文章对PacBio全长16S rDNA测序和V4测序结果进行了系统的比对分析[1]

研究人员首先选择含有23个细菌参考基因组的模拟群落来评估PacBio全长16S rDNA测序结果的准确性和重复性。通过扩增,得到模拟群落的V4区和全长16S rDNA区域,并分别用MiSeq和PacBio测序得到16S rDNA V4区序列iTags和全长16S rDNA序列PhyloTags;为了检测PacBio测序的可重复性,对同一样品进行了5次重复性测序。

通过CCS(Circular Consensus Sequencing)测序模式,PhyloTags序列准确度达到99%;以97%相似性进行OTU分析得到22个OTU(有一个物种含量很低,PhyloTags和V4 iTags中均未得到),与PacBio shotgun(作为参照标准)结果具有很强的相关性(如图1a)。质量最好的PhyloTag与对应16S rDNA参考序列基因相似度达到99.5%。此外,5个PhyloTags技术重复的相关性非常好,相关系数均达到0.96以上(如图1b)。从模拟群落实验中可以看到,PhyloTags的数据质量可与传统iTags测序质量相媲美。

CCS测序模式:PacBio测序中,当插入片段(Reads of Insert)< PacBio测序读长(Polymerase Reads)时,测序模式为CCS,插入片段将会被测到N次,PacBio测序为随机错误模式,N次测序结果互相校对,准确率得到极大提升。

图1. 模拟群落结构分析。图1a, PhyloTags, PacBio shotgun 测序和V4 iTags 三种方法得到的物种丰度比较,模拟群落中 Nocardiopsis dassonvillei含量极低,在PhyloTags和V4 iTags中均未检测到。图1b, 不同测序方法之间相关性分析(图中显示的是Spearman’s rank相关系数和对应的P值)。
分析优势
更准确的物种分类,更多的物种鉴定
一般环境的生物复杂度远高于以上模拟群体,为了得到更具现实意义的比较结果,研究人员接下来选择含有丰富微生物类群的Sakinaw湖水样本进行分析,在环境样本研究中,PhyloTags对复杂群体分类的优势就凸显出来了。
更准确的物种分类
研究人员选取8个不同深度的湖水进行采样,分别对这些样本进行PhyloTags和V4 iTags分析。结果表明,V4 iTags数据中有0.2%-4.1%的微生物在门水平上无法区分,而PhyloTags则能在门水平上将这些微生物完全区分。比较各个深度的PhyloTags和V4 iTags数据,发现在物种多样性相对较小的浅水区域,二者得到的群落结构一致性相对较高;而在物种相对丰富的深水区域,群落结构差异较大。全长16S rDNA检测到的物种多样性和生态结构的复杂度更高,而且模糊分类更少(如图2所示)。

图2. PhyloTags和V4 iTags测序的模糊分类结果展示(门水平)。黑色柱代表V4 iTags模糊分类序列数占对应门水平序列总数的百分比;白色柱代表PhyloTags测序结果模糊分类序列百分比。柱上方的百分数代表对应门水平的物种丰度。
为了评估扩增子长度对群体分析的影响,研究人员随机抽取了Sakinaw样本中的1818条PacBio FL序列和它们对应的二代测序产生的V4区域序列进行成组比较。结果表明,在多个实例中,相同的序列对表现出不同的鉴定结果。产生差异的原因是16S rDNA基因的突变位点在各区域分布并不均匀,选择少数可变区作为扩增片段可能会导致检测结果出现偏差,高估或低估群落结构多样性(如图3a,3b所示)。

图3. 16S rDNA基因结构示意图。绿色代表保守区,蓝色代表可变区,粉色条纹代表可变区变异位点的分布。图3a,同一物种的序列一致性随测序区域选择有关,如全长16S rDNA测序中沙门氏菌属菌种的序列一致性是97.4%;而在V4区测序中,得到的序列一致性是100%;图3b,突变位点在不同区域分布不同,选择特定区域代替全长16S rDNA测序可能会导致群落结构多样性的高估或低估。
更多的物种鉴定
全长16S rDNA测序比V4区测序多鉴定到12%-25%的物种(从种到门水平),更准确地将微生物与重要的生物化学循环相关联。全长16S rDNA测序检测到了Sakinaw湖水中包括氮循环和产甲烷循环中的特定菌
Methylocaldum、Nitrospiraceae、Bacillus
Methylotenera
,而在V4检测中,这些菌的丰度被严重低估(如图4所示)。

图4. 不同深度湖水PhyloTags和V4 iTags测序的物种丰度比较(属水平)。图中1,2,3,4分别代表氮循环和产甲烷循环中的四个重要属 Methylocaldum,Nitrospiraceae,BacillusMethylotenera

综上所述,PacBio全长16S rDNA测序集合了Sanger测序的读长优势和二代测序的高通量优势,具有和二代测序相媲美的准确度和重复性,可提供更准确的物种分类和更多的物种鉴定,在系统发育、群落鉴定和代谢通路预测方面都更有优势。

在和MiSeq V4 rDNA测序的PK中,PacBio全长16S rDNA完胜!不过全长16S rDNA测序仍有不完美之处:

  1. 不同物种的16S拷贝数存在差异,全长16S测序仍无法解决拷贝数不一致导致的丰度差异;

  2. 全长16S序列的获取仍需通过PCR过程,无法完全避免PCR偏好性带来的系统误差。

以上两点是目前16S rDNA测序固有的问题,如果对此非常介意的话,科技君良心推荐您选择宏基因组学测序。
如果您被PacBio全长16S rDNA测序的优势所打动,并乐于尝试新鲜事物,科技君为您推荐华大基因PacBio全长16S rDNA测序,绝对靠谱!想了解全长16S rDNA测序策略的童鞋们可直接留言。
参考文献:
1.Singer, Esther, et al. "High-resolution phylogenetic microbial community profiling." The ISME journal (2016)

你可能感兴趣的:(PacBio全长16S rDNA测序,有哪些不为人知的优势?【转】)