微生物基因组产品常见问题解答

“系统进化树构建都有哪些方法？“

“共有和特有基因分析中韦恩图为何与表中统计的数字不一致？”

“在功能注释结果中，Identity、Evalue、Score 有什么区别？“

…………

今天我们就大家提出的微生物基因组问题做十问十答，解决你的燃眉之急。

Q1：GC-depth 图是怎么做出来的？有什么意义？

GC-depth 图是表征整个基因组 GC 含量和深度分布的关系，具体方法是对基因组序列进行一定长度切分，每个窗口都有特定的 GC 含量和 Reads 覆盖深度，对应图中的一个点。对于较纯的样本，会集中在某个区域，向四周弥散。而如果GC-depth图分开成了多个集中区域，一般意味着该组装结果中包含来自不同来源的 DNA，特别是 GC 层面上如果分开的话，有外源污染可能性很大。GC 不分离，仅深度分离时，也有可能是部分来自质粒的 DNA，需要结合其他信息，如 NT 比对结果来具体分析。

图1 GC含量与测序深度（Depth）关联分析统计图

Q2：为什么有污染混杂的情况下得不到好的组装结果？

组装软件会将测序数据看作来自同一个基因组的前提下进行组装，如果有外源 DNA 混杂，不同来源的 DNA 中的序列会对组装产生干扰，为保证组装的准确性，只能将可疑的部分切断成不同的碎片序列，从而导致最终的组装只能拿到碎片化的序列。

如果能够找到足够近缘的参考基因组用于污染分离，受限于本身外源 DNA 可能带来的相似序列，及目标基因组和参考基因组间的潜在差异，分离是有一定的假阳性和假阴性的，因此无论如何，分离后的组装是不可能达到纯净 DNA 的标准的。

Q3：为什么完成图样本有的质粒可以成环，有的不成环呢？

我们分析样本基因组的测序深度发现：染色体的 reads 测序深度在 100x 左右，成环质粒的测序深度在80x左右，而不成环质粒的仅在 20~40x 左右。所以，很可能是因为这些样本的质粒拷贝数少，导致质粒的测序深度没有达到足够的乘数，因此质粒组装没有成环。

图2 质粒圈图

Q4：真菌基因预测的方法都有哪些？

真菌基因预测有三种方法：从头预测、同源预测及基于转录组数据预测。从头预测使用 Augustus 软件，同源预测使用Genewise 软件。基于同源比对需要提供同种的编码基因序列，而且越近缘对预测结果越好。客户最好能提供近缘物种的编码基因信息，或者组装好的转录本序列文件。三种方法预测的结果将通过 EVM 进行整合，所以如果客户能提供近缘参考序列和转录数据，结合三种方法的预测结果最好。

Q5：如果关心的基因没有被注释出来，原因是什么？

组装序列中是否存在此基因？如果不存在，可能是这个基因没有被组装出来，那么肯定也不会被注释到。如果有这个基因，但是没有被注释，有可能数据库中没有这个基因或者是没有被本地数据库收录。

Q6：关于ncRNA注释，为什么注释不到5S/16S/23S的序列？

在使用 denovo 方法预测 ncRNA 序列时，需要完整的 ncRNA 序列，才能确认 ncRNA 的结构，而由于 ncRNA，特别是16S 和 23S 序列，往往本身就有一定的重复序列成分，在组装过程中很容易组装不完整，如果整条 rRNA 没有拼接成一条完整序列，是无法预测得到相应的 rRNA 序列的。如组装较好，该样本对应的物种在数据库注释的少，还是会注释不到。在一些真核新物种的样本中，会经常出现18S等数目为0的情况，这个是因为之前这个物种并没有进行过18S序列测序，所以数据库以及常用软件中没有收录该物种的18S序列，所以没有办法在组装结果中预测出18S。

Q7：在功能注释结果中，Identity、Evalue、Score 有什么区别？

Identity 表示相似性，即序列的一致性。这个值越高，表示同源性越高，序列相似度越高，越有可能是行使相同功能的基因。Score 是比对得分，是打分矩阵计算出来的值，是搜索算法决定的，这个值越大说明你的序列跟目标序列匹配程度越大；Evalue 值就是 Score 值可靠性的评价。它表明在随机的情况下，其它序列与目标序列相似度大于 Score 值的可能性，所以它的分值越低越好。

Q8：共有和特有基因分析中韦恩图为何与表中统计的数字不一致？

韦恩图中每个椭圆表示一个样本，每个区域上的数据表示在且仅在此区域的样本中出现的 group 的个数，如下图，一个group表示一组具有大于50%相似性、序列长度差异低于 0.7 的基因集。表格中统计的是基因的个数，图说明的是基因集的个数。

图3 Venn图

Q9：比较基因组中如何查找SNP？

利用 MUMmer 比对软件，将每个样本与参考序列进行全局比对，找出样本序列与参考序列之间有差异的位点并进行初步过滤，检测出潜在 SNP 位点；提取参考序列 SNP 位点两边各 100bp 的序列，然后使用 BLAST 软件将提取的序列和组装结果进行比对，验证 SNP 位点。如果比对的长度小于101bp，则认为是不可信的 SNP，将去除；如比对上多次，认为是重复区域的 SNP，也将被去除；最后用 BLAST、TRF、Repeatmask 软件预测参考序列的重复序列区，过滤位于重复区的 SNP。最后得到可靠的 SNP。

Q10：系统进化树构建都有哪些方法？

系统进化树的构建有三种方法：

1. 基于 SNP 建树：用样本和参考菌株群体的 SNP 矩阵构建系统进化树。按照相同顺序将所有 SNP 相连，获得相同长度的序列，用 PhyML 软件构建系统进化树。

2. 基于 core-pan 分析建树：用 core-pan 分析鉴定出样本的单拷贝 core 基因，利用 MUSCLE 软件进行蛋白多序列比对，用 TreeBeST 软件构建系统进化树。

3. 基于基因家族建树：用基因家族聚类鉴定出的单拷贝直系同源基因结果，利用 MUSCLE 软件进行蛋白多序列比对，用TreeBeST 软件构建系统进化树。

图4 系统进化树

微生物基因组产品常见问题解答

你可能感兴趣的:(微生物基因组产品常见问题解答)