序列比对 —— Hisat2

HISAT2是一个快速和敏感的比对软件,用于将二代测序数据(DNA和RNA)比对到基因组数据。

官网:
http://daehwankimlab.github.io/hisat2/

1. 下载安装

1.1 下载

选择合适的版本下载压缩包。

链接:
http://daehwankimlab.github.io/hisat2/download/

1.2 安装

$ unzip hisat2-2.2.1-Linux_x86_64.zip
$ cd ~/hisat2-2.2.1

2. 准备数据

说明书:
http://daehwankimlab.github.io/hisat2/howto/

  • 下载参考基因组 *.fa;
  • 下载GTF文件,并提取外显子,剪接位点文件;
    如何将gff3转为gtf详情见下链接:
    gff格式与gtf格式转换——NBISweden / AGAT - (jianshu.com)
$ hisat2_extract_exons.py CE10g_v2.0.gtf > CE10g_v2.0.exon
$ hisat2_extract_splice_sites.py CE10g_v2.0.gtf > CE10g_v2.0.ss

3. 建立HFM索引

为基因组文件 *.fa建立索引,-p 16是16核进行运算,这里要根据服务器的情况进行修改,前一个CE10g_v2.0.fa是基因组文件名称,后一个CE10g_v2.0是输出文件的前缀。

$ hisat2-build -p 16 CE10g_v2.0.fa CE10g_v2.0

4. 转录本建立HGFM(Hierarchical Graph FM index)索引

这一步需要的时间比较长,需要的文件有:

  • CE10g_v2.0.exon
  • CE10g_v2.0.ss
  • CE10g_v2.0.fa
$ vim trans.sh
$ hisat2-build -p 16 CE10g_v2.0.fa --ss CE10g_v2.0.ss --exon CE10g_v2.0.exon CE10g_v2.0 --large-index
$ bsub -n 16 trans.sh

5. 序列比对

说明书:
http://daehwankimlab.github.io/hisat2/manual/

基础用法:

$ hisat2 [options]* -x  {-1  -2  | -U  | --sra-acc } [-S ]

-x :参考基因组索引文件的前缀
-1 :双端测序结果的第一个文件。若有多组数据,使用逗号将文件分隔。Reads的长度可以不一致。
-2 :双端测序结果的第二个文件。若有多组数据,使用逗号将文件分隔,并且文件顺序要和-1参数对应。Reads的长度可以不一致。
-S :比对结果输出的SAM文件。

$ vim alig.sh
$ hisat2 -p 48 --dta -x /gss1/home/fzhang/sunwei/ding/ref/CE10g_v2.0 -1 /gss1/home/fzhang/sunwei/ding/CPF1_R1_1.fq.gz -2 /gss1/home/fzhang/sunwei/ding/CPF1_R1_2.fq.gz -S CPF1_R1.sam 
$ bsub -n 48 alig.sh

引用转载请注明出处,如有错误敬请指出。

你可能感兴趣的:(序列比对 —— Hisat2)