基因组比对及T2T kmer可视化软件---RAviz功能介绍

老规矩,先和同学们介绍一下为什么要做这么一款软件?基因组比对paf格式文件:


基因组比对paf格式文件

当同学们需要进行基因组层面的序列比较时,通常要面对如上所示的比对结果文件,这个文件可能有几十万甚至几百万行,那么想要从如此大量的数据中筛选出所需要的信息将成为一个无比繁琐且耗时的过程,其痛苦不言而喻。而目前所发表的可视化软件在处理大文件(超过1GB)时又表现出卡、顿等不佳的情况。因此,为了解决基因组层面比对可视化问题并顺应基因组T2T发展潮流,特意开发了RAviz来解决这类问题。

安装系统

可在Windows及MacOS上安装

具体介绍及操作如下

1、RAviz界面

RAviz一共分为四个部分。第一部分(①)是对作图的一些参数的调整,该部分是可选的且通常不需要调节,在设计软件时已经将各参数尽可能调整到了最佳的一个状态。第二部分是会显示与作图相关的原始数据,因为RAviz在绘图过程中会根据设定参数为同学们过滤一些不是那么靠谱的比对结果。第三部分(③)用于paf格式比对结果的可视化。第四部分在展示比对结果的同时也可以展示rare kmers(这个在T2T组装中发挥了重要作用)。

2、paf格式比对结果的可视化

paf格式的比对结果至少应该至少包括12列,如下面文件所示:


从第一列到第十二列,其内容分别是:query ID, query序列的总长度,比对部分在query序列上的起点,比对部分在query序列的重点,比对是发生在正链还是负链上,参考序列的ID,参考序列的长度,比对部分在参考序列上的起点,比对部分在参考序列上的终点,比对部分的长度,含有gap的比对部分的长度,比对质量以及其他部分。

这个格式的比对结果可以通过minimap2软件(https://github.com/lh3/minimap2)。在得到比对结果后,需要将比对结果按照第一列进行排序(可以使用的命令是:sort -k 1,1 +路径+“ -o ” +保存路径)。同时,RAviz支持拖拽文件的操作。

在RAviz中,我们通过构建index文件的方法来快速显示大文件(>1GB)的比对内容。在第一次进行可视化的过程中,RAviz会自动根据第一列的内容构建index文件。另外,考虑到一些用户可能想要分析第六列即想要分析参考ID的那一列,可以通过点击按钮“t->q”来实现对第六列索引文件的构建。“alignment_length”(默认值1000)以及“mapping_quality”(默认值60)则可以用于过滤比对结果。点击“draw”即可展示比对结果。当文件太大,确实很难一次性显示所有内容,RAviz将每次只显示8000行,可以通过点击“next”按钮浏览下一个8000行而击“before”可以浏览上一个8000行。上面所述的内容仅仅只是比对结果的粗略展示,如果想要进一步细致的观察比对结果,RAviz允许用户通过放入感兴趣的ID来进行可视化展示,其位置如下图所示:


放入ID后,用户在放入ID后还需要点击“query ID”或者“reference ID”来进行绘制。如果比对文件太大,很难通过打开文件来获得ID ,这个时候用户可以使用“show query ID”或者“show reference ID”来获取相应的ID。绘制的结果是SVG或者pdf等矢量图格式,从而保证了展示结果的高度清晰并且RAviz将自动调用系统默认的程序来展示结果。我们建议用户使用Adobe Acrobat Pro DC软件来展示PDF文件并将其设置为系统默认程序。

3、rare kmers的结果可视化

在这个部分,RAviz将同时显示比对结果以及rare kmers结果。输入文件如下所示:


其基本格式为:query ID, query序列的总长度,比对部分在query序列上的起始位置,比对部分在query序列的终止位置,比对发生在正链还是负链,参考ID,参考序列的总长度,比对部分在参考序列上的起始位置,比对部分在参考序列的终止位置,之后是rare kmers对应的起始位置和终止位置。为了能够便捷地得到输入文件,除RAviz外,还为同学们特意准备了另外一份脚本,通过该脚本的运行可以流畅地得到输入文件,脚本的位置在https://github.com/xianjia10/kmer-map.git。关于该脚本的具体使用已经在github上了做了详细说明。该脚本的运行会得到三个文件,如果运行脚本输入文件是1.paf,则这三个文件的名字分别是1.sort.kmermap,1.sort.kmermap.query.index以及1.sort.kmermap.reference.index。在使用的时候需要将这三个文件放入到同一个文件夹中。

另外,在测试阶段,我们发现在产生paf文件的过程中比对软件可能会不明原因的默认添加很多奇怪的字符,这个时候就会就会影响到后续的分析。因此,希望同学们在使用前一定要检测好文件格式是否能够满足要求。检测方法如下:


点击“draw”按钮,如果程序能够正常运行则基本可以确定paf文件是可用的。

与前一个模块不同的是,在显示kmer的这个模块中,“before”和“next”按钮是按照ID来逐个显示的而不是前一个模块的按8000行显示。其他操作基本与之前模块相同。

4、对可视化结果的解读

paf文件可视化的结果


上下两行,分别代表了query和reference ID,中间的线连通的是比对部分,如果线有近似平行的关系,则表示比对发生在正链上;如果两个线出现交叉的情况则表示比对出现在负链上。

如果用户需要对比对结果进行更细致的观测,则点击“draw details based on the input ID”按钮,即可出现如下结果:


而当同时显示比对以及rare kmers结果时会产生如下结果:


如上图的第一图所示,这个比对含有很多的kmers,而与之对应的下图的比对则没有kmers,这说明上图的比对可靠性高于下图中的比对,这种判断将在T2T组装中发挥重要作用。

5、快速开始

以上是对于RAviz的详细描述,事实上,为进一步简化同学们操作时的步骤,很多都设置了默认的参数,因此实际操作会简单很多,以下是操作基本步骤的汇总

5.1 当使用paf文件进行可视化


5.2 如果想要浏览下一个8000行


5.3 输入ID以显示特定ID的内容


5.4 当想看一下reference ID的内容时


5.5 显示特定ID kmer的分布情况

1、

2、


查询ID

3、输入ID并勾选ID 类型


4、点击二键中的任意一个以不同的风格显示内容


5、结果


文本框这个位置会显示基本的信息,包括比对位置及信息以及kmer的数量情况

当数量少的时候会自动以svg阅读器的方式显示,ctrl+鼠标滚轮,将对生成图片进行自由地放大和缩小操作


可以看出kmer主要分布在了片段的这个位置上


你可能感兴趣的:(基因组比对及T2T kmer可视化软件---RAviz功能介绍)