生信log21|基因组成圈了吗?-拼接路径可视化软件Bandage结果详解

在实验室经常听到师兄师姐评估基因组提到一个点就是,基因组能拼成圈吗,当时还是生信小白(现在是个资深小白)的我仅仅见识过circos的华丽图片,以为他们口中所说的成圈是circos的图,满脸疑惑能成圈啊,为什么不能,但前辈们口中说的实际上并不是circos,而是bandage的可视化图。

0、几个疑问

  • 为什么要可视化
  • 能从可视化中得到什么信息
  • 结果怎么解读,从反馈的信息中怎么调整拼接?

1、可视化的目的

  • 把拼接结果可视化,让基因组拼接过程不再成为一个黑盒子操作的过程,从而提升拼接的效率,减少因拼接而带来的信息丢失问题。根据论文作者的原话就是,bandage能展现contig之间的关联和关系。


    image.png

2、实操部分

以拼接软件SPades的的拼接结果为例

  • 所需要的文件: SPAdes拼接后会产生一个叫assembly_path.fastg的文件

    assembly_graph

  • 打开bandage的界面,点击load graph,这个软件对文件的类型敏感,必须是软件支持的类型才能打开


    Bandage支持可视化的所有文件类型
  • 选择Entire graph和single,点击Draw graph


    画图

PS:其他文件类型随便玩玩,不过能显示contig之间关系的只能是assembly_path.fastg这个文件

  • 软件的安装
    界面版本

http://rrwick.github.io/Bandage/

3、可视化结果得到的信息(kmer设置是否合理)

  • 在官方的文档中,最重要的一个评估是Effect of kmer size,从bandage的拼接结果中可以看出Kmer的长度设置是否合理,从而调整Kmer的长度,增大或减小。
kmer适合的拼接结果

Kmer长度过长

  • kmer长度设置过长会导致很多片段组装不到基因组上,变相损失不少
Kmer长度过长,下面的点其实都是小片段

Kmer长度过短

  • 该事例由官方提供
kmer过短,上面的基因组路径一捆乱麻
存在质粒序列
总结(kmer的角度)
  • bandage评估的维度主要有两个:基因组结的多少(复杂程度),碎片片段
  • 碎片太多,说明kmer太长或者太短;
  • 基因组的拼接过程太多的node,过于复杂说明kmer过短;
  • 长度合适的kmer得到的拼接结果应该是node的节点比较少,但能使基因组成圈,小于1000bp的基因组碎片也少。

另附一些神奇的小功能

  • 点击node按下Ctrl + V可以复制当前的整一条node中的序列

  • blast功能,可以先建立16S rRNA基因库,让基因组与16S相比对

  • 此篇未来还会不断地补充和更新,有需要的看官们随手关注点个赞呗,爱你们~


本文视频讲解+实战 敬请期待
官方的详细教程-英文版
官方视频教程

你可能感兴趣的:(生信log21|基因组成圈了吗?-拼接路径可视化软件Bandage结果详解)