MiSeq测16S文库时，为什么要加PhiX?（转）

MiSeq测16S文库时，为什么要加PhiX?

测定混合微生物群的16S的若干个片段，从其可变区的序列来进行菌落组成分序，已是很常用的实验方法。

自从MiSeq测序平台推出PE300的测序方式之后，用PE300来测16S的V1、V2、V3区，已成了最常用的菌落分析手段。

但是每次我提醒用户：在做16S文库测序的上机时，建议加入70%的PhiX文库。用户都会感到不解：为什么要浪费这70%的测序通量？

这还要从Illumina公司的测序原理说起：

Illumina的测序根本原理是用4种颜色荧光基团标记4种dNTP。

在显微扫描镜下，通过对4种颜色的荧光进行分别扫描，得到4张照片，每张照片对应于一种颜色的荧光。

把4张照片进行对比，把各张照片上的光点重合，计算每个光点的光的颜色强度，倒过来推算出这个点是哪种荧光基团，进尔再推算出这个点是哪种碱基。

但请注意，因为这4张照片都是纳米级的分辨率，而测序过程中芯片是移动的，所以每次拍照多少存在一定程度的空间偏差，如上图所示。这就需要进行空间校正。

文库复杂度不够高带来的影响：

如果是文库的复杂度足够高，也就是在一个测序循环中，A/C/G/T四种碱基的比例较接近于各25%，那么4张照片上都会有足够多的明亮的光点，可供空间校正之用。

但是如果文库的复杂度不够高，典型的例子就是PCR扩增产物，比如说第一个循环，99%的碱基都是A，那么C/G/T三种碱基加起来也只有1%。这就导致C/G/T这三张照片都很暗，上面没有足够多的光点可供测序仪来分辨，更难于做空间校正。测序仪就会把大多数无法准确分辨的点给舍弃。

最终的结果就是：测序得到的有效数据量（PF data，Pass Filter data）很少，而且数据的质量（Q值）也偏低。

上述的原因，让Illumina的MiSeq和HiSeq 2000/2500在测复杂度低的文库（PCR扩增文库、Bisulfite处理的甲基化文库、简化基因组文库等）时，如果没有加入弥补的方法，软件就不能很好识别的光点，导致最后的有效数据量减少、测序数据质量也偏低。

目前的解决方案是：

在测低复杂度的文库时，掺入一定量的高复杂度文库。最常用的掺入文库是Illumina出品的PhiX文库，也有些实验室会用哺乳类动物的基因组文库来增加文库的复杂度，效果是一样的。

PhiX文库有以下的特点：

PhiX文库中GC含量约为45%，是碱基比例较为平衡的样本。

PhiX DNA就是ΦX174噬菌体的DNA，其基因组的长度是4kb略多，其序列已清楚地被测定。

PhiX DNA文库没有Index，所以在样本Demultiplex的过程中，被挪到undetermined的文件中，不会与别的有Index的文库相混。

PhiX的序列是已知的，所以，在测序过程中，仪器会对PhiX的序列进行比对，算出Phasing和Pre-Phasing(一个簇中，有多少比例的DNA是少合成了一个碱基（Phasing），又有多少比例的DNA是多合成了一个碱基（Pre-Phasing）)