PacBio全长16S rDNA测序，有哪些不为人知的优势？【转】

16S rDNA是细菌分类学研究中最常用的“分子钟”，总长约 1540 bp，其中包含9个可变区（Variable region）和10个保守区（Constant region）。可变区因菌种不同而异，且变异程度与细菌的系统发育密切相关。通过检测16S rDNA可变区的序列变异和丰度，可了解环境样品中群落多样性信息，在微生物分类鉴定、微生态研究等方面起着重要的作用。

平台比较
集合优势，成本更低

Sanger测序能够提供接近全长（Full Length, FL）的16S rDNA片段，但该方法成本高且通量较低，难以满足复杂环境研究需求。

以Illumina为代表的二代测序技术，成本大大降低，更适合大规模测序；但是受测序长度的限制，往往只能选择 1-3 个可变区作为扩增片段（目前常用扩增子片段是V4区），分类的准确性和一致性存在问题。

今天的主角是PacBio全长16S rDNA测序。我们来八一八它和其他平台16S rDNA测序相比主要有哪些优势，以及全长16S rDNA测序还有哪些不完美之处。
表1. 16S rDNA测序在不同测序平台中的比较

从上面的表格中，我们可以看到，三代测序集合了Sanger测序的读长优势和二代测序的高通量优势，可用较低的成本获得16S rDNA全长序列，满足全长16S rDNA研究需求。

严谨的童鞋们可能会说：单纯的平台优势并不足以说服我们选择PacBio测序，我们更关注的是科研价值！那大家一起来看看在实际研究中，PacBio全长16S rDNA测序表现如何呢？
质量优势
准确度99%、重复性0.96
2016年年初，美国能源部联合基因组研究中心发表在ISME Journal 上的一篇文章对PacBio全长16S rDNA测序和V4测序结果进行了系统的比对分析[1]
。

研究人员首先选择含有23个细菌参考基因组的模拟群落来评估PacBio全长16S rDNA测序结果的准确性和重复性。通过扩增，得到模拟群落的V4区和全长16S rDNA区域，并分别用MiSeq和PacBio测序得到16S rDNA V4区序列iTags和全长16S rDNA序列PhyloTags；为了检测PacBio测序的可重复性，对同一样品进行了5次重复性测序。

通过CCS（Circular Consensus Sequencing）测序模式，PhyloTags序列准确度达到99%；以97%相似性进行OTU分析得到22个OTU（有一个物种含量很低，PhyloTags和V4 iTags中均未得到），与PacBio shotgun（作为参照标准）结果具有很强的相关性（如图1a）。质量最好的PhyloTag与对应16S rDNA参考序列基因相似度达到99.5%。此外，5个PhyloTags技术重复的相关性非常好，相关系数均达到0.96以上（如图1b）。从模拟群落实验中可以看到，PhyloTags的数据质量可与传统iTags测序质量相媲美。

CCS测序模式：PacBio测序中，当插入片段(Reads of Insert)< PacBio测序读长（Polymerase Reads）时，测序模式为CCS，插入片段将会被测到N次，PacBio测序为随机错误模式，N次测序结果互相校对，准确率得到极大提升。

图1. 模拟群落结构分析。图1a, PhyloTags, PacBio shotgun 测序和V4 iTags 三种方法得到的物种丰度比较，模拟群落中 Nocardiopsis dassonvillei含量极低，在PhyloTags和V4 iTags中均未检测到。图1b, 不同测序方法之间相关性分析（图中显示的是Spearman’s rank相关系数和对应的P值）。
分析优势
更准确的物种分类，更多的物种鉴定
一般环境的生物复杂度远高于以上模拟群体，为了得到更具现实意义的比较结果，研究人员接下来选择含有丰富微生物类群的Sakinaw湖水样本进行分析，在环境样本研究中，PhyloTags对复杂群体分类的优势就凸显出来了。
✪ 更准确的物种分类
研究人员选取8个不同深度的湖水进行采样，分别对这些样本进行PhyloTags和V4 iTags分析。结果表明，V4 iTags数据中有0.2%-4.1%的微生物在门水平上无法区分，而PhyloTags则能在门水平上将这些微生物完全区分。比较各个深度的PhyloTags和V4 iTags数据，发现在物种多样性相对较小的浅水区域，二者得到的群落结构一致性相对较高；而在物种相对丰富的深水区域，群落结构差异较大。全长16S rDNA检测到的物种多样性和生态结构的复杂度更高，而且模糊分类更少（如图2所示）。

图2. PhyloTags和V4 iTags测序的模糊分类结果展示（门水平）。黑色柱代表V4 iTags模糊分类序列数占对应门水平序列总数的百分比；白色柱代表PhyloTags测序结果模糊分类序列百分比。柱上方的百分数代表对应门水平的物种丰度。
为了评估扩增子长度对群体分析的影响，研究人员随机抽取了Sakinaw样本中的1818条PacBio FL序列和它们对应的二代测序产生的V4区域序列进行成组比较。结果表明，在多个实例中，相同的序列对表现出不同的鉴定结果。产生差异的原因是16S rDNA基因的突变位点在各区域分布并不均匀，选择少数可变区作为扩增片段可能会导致检测结果出现偏差，高估或低估群落结构多样性（如图3a,3b所示）。

图3. 16S rDNA基因结构示意图。绿色代表保守区，蓝色代表可变区，粉色条纹代表可变区变异位点的分布。图3a，同一物种的序列一致性随测序区域选择有关，如全长16S rDNA测序中沙门氏菌属菌种的序列一致性是97.4%；而在V4区测序中，得到的序列一致性是100%；图3b，突变位点在不同区域分布不同，选择特定区域代替全长16S rDNA测序可能会导致群落结构多样性的高估或低估。
✪ 更多的物种鉴定
全长16S rDNA测序比V4区测序多鉴定到12%-25%的物种（从种到门水平），更准确地将微生物与重要的生物化学循环相关联。全长16S rDNA测序检测到了Sakinaw湖水中包括氮循环和产甲烷循环中的特定菌Methylocaldum、Nitrospiraceae、Bacillus和Methylotenera，而在V4检测中，这些菌的丰度被严重低估（如图4所示）。

图4. 不同深度湖水PhyloTags和V4 iTags测序的物种丰度比较（属水平）。图中1,2,3,4分别代表氮循环和产甲烷循环中的四个重要属 Methylocaldum,Nitrospiraceae,Bacillus和 Methylotenera。

综上所述，PacBio全长16S rDNA测序集合了Sanger测序的读长优势和二代测序的高通量优势，具有和二代测序相媲美的准确度和重复性，可提供更准确的物种分类和更多的物种鉴定，在系统发育、群落鉴定和代谢通路预测方面都更有优势。

在和MiSeq V4 rDNA测序的PK中，PacBio全长16S rDNA完胜！不过全长16S rDNA测序仍有不完美之处：

不同物种的16S拷贝数存在差异，全长16S测序仍无法解决拷贝数不一致导致的丰度差异；
全长16S序列的获取仍需通过PCR过程，无法完全避免PCR偏好性带来的系统误差。

以上两点是目前16S rDNA测序固有的问题，如果对此非常介意的话，科技君良心推荐您选择宏基因组学测序。
如果您被PacBio全长16S rDNA测序的优势所打动，并乐于尝试新鲜事物，科技君为您推荐华大基因PacBio全长16S rDNA测序，绝对靠谱！想了解全长16S rDNA测序策略的童鞋们可直接留言。
参考文献：
1.Singer, Esther, et al. "High-resolution phylogenetic microbial community profiling." The ISME journal (2016)

PacBio全长16S rDNA测序，有哪些不为人知的优势？【转】

你可能感兴趣的:(PacBio全长16S rDNA测序，有哪些不为人知的优势？【转】)