对于含有质粒的细菌基因组项目,如何进行分析比较好?

上述情况可以分为以下4种子情况:

(1)如果质粒的基因组信息非常重要或对质粒组装要求高,建议先将质粒从基因组中分离出来,然后单独测序(质粒较小的话可以使用Sanger 法进行测序);

(2)如果关注点在基因组上,并且已有基因组参考序列,可以通过比对参考序列的方式将质粒去除。但若质粒序列中存在与基因组序列相似的序列,则不能使质粒去除干净,会被组装到细菌基因组中;

(3)如果想提取总基因组 DNA(包含质粒 DNA)进行测序,若有质粒参考序列,则可以将map 到 reference 上的 reads 拿出来单独组装。但若某些质粒内存在 HGT,则可能会导致这些新获得序列信息的丢失;

(4)如果没有质粒参考序列,分析相对较难,可以根据质粒复制相关的基因等定位出质粒所在的 scaffold,再根据 pair-end 关系,观察 scaffold 两端是否能够环化,或者直接观察组装好的 scaffold 是否存在环化情况。这样可能会漏掉较多质序粒列。

Q2:目的基因在质粒上未注释到的原因及处理方法?

A1:可能是由于以下几个原因:

1. 片段已经组装出来,由于基因预测算法的原因,比如不同软件参数的选择,该基因发生了突变而变成了假基因等等,导致该位置的序列并没有被预测出来;

2. 由于该基因外围或者内部存在重复序列,导致该基因组装不完整,未预测和注释成基因;

3. 原始序列存在,确实未组装出来。

解决方案:首先看看我们组装结果中的序列是否存在这一段,如果存在,则查看为何没有注释成基因,如果不存在,则调取原始reads,核对测序结果中是否存在。

Q3:细菌扫描图中如何确定关注的目的基因是在质粒上还是在细菌基因组上?

A2:细菌基因组扫描图的结果是组装得到N条scaffold序列,不论细菌里面是否包含质粒,具体有几个质粒,只要是基因组里面含有的都会组装得到scaffold水平的序列片段,不区分或不易区分哪些scaffold 属于基因组,哪些属于质粒,或者具体到属于哪个质粒(如果包含多个质粒的话),这是细菌基因组扫描图技术本身存在的局限性。

Q4:为什么目的基因在质粒的组装结果和原始数据中都没有找到

A4:可能有两个原因:

1. 提供的基因片段确实存在于质粒基因组上,测序没有测出来;

2. 质粒上实际存在的基因与提供的目的基因间存在序列变异,导致没有完全比对上。

解决办法:建议可以使用PCR的方法验证一下要查找的基因是否的确存在于测序的质粒基因组上。

更多案例解答:

如何选择比较基因组学分析的参考基因组?mp.weixin.qq.com有2株大肠杆菌(细菌),如何通过测序的方法知道二者的差异?mp.weixin.qq.com

http://weixin.qq.com/r/lziGnqPEFv5pref9922F (二维码自动识别)

你可能感兴趣的:(对于含有质粒的细菌基因组项目,如何进行分析比较好?)