“系统进化树构建都有哪些方法?“
“共有和特有基因分析中韦恩图为何与表中统计的数字不一致?”
“在功能注释结果中,Identity、Evalue、Score 有什么区别?“
…………
今天我们就大家提出的微生物基因组问题做十问十答,解决你的燃眉之急。
Q1:GC-depth 图是怎么做出来的?有什么意义?
GC-depth 图是表征整个基因组 GC 含量和深度分布的关系,具体方法是对基因组序列进行一定长度切分,每个窗口都有特定的 GC 含量和 Reads 覆盖深度,对应图中的一个点。对于较纯的样本,会集中在某个区域,向四周弥散。而如果GC-depth图分开成了多个集中区域,一般意味着该组装结果中包含来自不同来源的 DNA,特别是 GC 层面上如果分开的话,有外源污染可能性很大。GC 不分离,仅深度分离时,也有可能是部分来自质粒的 DNA,需要结合其他信息,如 NT 比对结果来具体分析。
Q2:为什么有污染混杂的情况下得不到好的组装结果?
组装软件会将测序数据看作来自同一个基因组的前提下进行组装,如果有外源 DNA 混杂,不同来源的 DNA 中的序列会对组装产生干扰,为保证组装的准确性,只能将可疑的部分切断成不同的碎片序列,从而导致最终的组装只能拿到碎片化的序列。
如果能够找到足够近缘的参考基因组用于污染分离,受限于本身外源 DNA 可能带来的相似序列,及目标基因组和参考基因组间的潜在差异,分离是有一定的假阳性和假阴性的,因此无论如何,分离后的组装是不可能达到纯净 DNA 的标准的。
Q3:为什么完成图样本有的质粒可以成环,有的不成环呢?
我们分析样本基因组的测序深度发现:染色体的 reads 测序深度在 100x 左右,成环质粒的测序深度在80x左右,而不成环质粒的仅在 20~40x 左右。所以,很可能是因为这些样本的质粒拷贝数少,导致质粒的测序深度没有达到足够的乘数,因此质粒组装没有成环。
Q4:真菌基因预测的方法都有哪些?
真菌基因预测有三种方法:从头预测、同源预测及基于转录组数据预测。从头预测使用 Augustus 软件,同源预测使用Genewise 软件。基于同源比对需要提供同种的编码基因序列,而且越近缘对预测结果越好。客户最好能提供近缘物种的编码基因信息,或者组装好的转录本序列文件。三种方法预测的结果将通过 EVM 进行整合,所以如果客户能提供近缘参考序列和转录数据,结合三种方法的预测结果最好。
Q5:如果关心的基因没有被注释出来,原因是什么?
组装序列中是否存在此基因?如果不存在,可能是这个基因没有被组装出来,那么肯定也不会被注释到。如果有这个基因,但是没有被注释,有可能数据库中没有这个基因或者是没有被本地数据库收录。
Q6:关于ncRNA注释,为什么注释不到5S/16S/23S的序列?
在使用 denovo 方法预测 ncRNA 序列时,需要完整的 ncRNA 序列,才能确认 ncRNA 的结构,而由于 ncRNA,特别是16S 和 23S 序列,往往本身就有一定的重复序列成分,在组装过程中很容易组装不完整,如果整条 rRNA 没有拼接成一条完整序列,是无法预测得到相应的 rRNA 序列的。如组装较好,该样本对应的物种在数据库注释的少,还是会注释不到。在一些真核新物种的样本中,会经常出现18S等数目为0的情况,这个是因为之前这个物种并没有进行过18S序列测序,所以数据库以及常用软件中没有收录该物种的18S序列,所以没有办法在组装结果中预测出18S。
Q7:在功能注释结果中,Identity、Evalue、Score 有什么区别?
Identity 表示相似性,即序列的一致性。这个值越高,表示同源性越高,序列相似度越高,越有可能是行使相同功能的基因。Score 是比对得分,是打分矩阵计算出来的值,是搜索算法决定的,这个值越大说明你的序列跟目标序列匹配程度越大;Evalue 值就是 Score 值可靠性的评价。它表明在随机的情况下,其它序列与目标序列相似度大于 Score 值的可能性,所以它的分值越低越好。
Q8:共有和特有基因分析中韦恩图为何与表中统计的数字不一致?
韦恩图中每个椭圆表示一个样本,每个区域上的数据表示在且仅在此区域的样本中出现的 group 的个数,如下图,一个group表示一组具有大于50%相似性、序列长度差异低于 0.7 的基因集。表格中统计的是基因的个数,图说明的是基因集的个数。
Q9:比较基因组中如何查找SNP?
利用 MUMmer 比对软件,将每个样本与参考序列进行全局比对,找出样本序列与参考序列之间有差异的位点并进行初步过滤,检测出潜在 SNP 位点;提取参考序列 SNP 位点两边各 100bp 的序列,然后使用 BLAST 软件将提取的序列和组装结果进行比对,验证 SNP 位点。如果比对的长度小于101bp,则认为是不可信的 SNP,将去除;如比对上多次,认为是重复区域的 SNP,也将被去除;最后用 BLAST、TRF、Repeatmask 软件预测参考序列的重复序列区,过滤位于重复区的 SNP。最后得到可靠的 SNP。
Q10:系统进化树构建都有哪些方法?
系统进化树的构建有三种方法:
1. 基于 SNP 建树:用样本和参考菌株群体的 SNP 矩阵构建系统进化树。按照相同顺序将所有 SNP 相连,获得相同长度的序列,用 PhyML 软件构建系统进化树。
2. 基于 core-pan 分析建树:用 core-pan 分析鉴定出样本的单拷贝 core 基因,利用 MUSCLE 软件进行蛋白多序列比对,用 TreeBeST 软件构建系统进化树。
3. 基于基因家族建树:用基因家族聚类鉴定出的单拷贝直系同源基因结果,利用 MUSCLE 软件进行蛋白多序列比对,用TreeBeST 软件构建系统进化树。