RNASeq分析系列--使用STAR软件进行比对

STAR 软件由于其敏感的比对特性,因此在转录组 SNP Calling 过程中使用较多。

1. 下载安装

对于 Ubuntu 系统:

$ sudo apt-get update
$ sudo apt-get install g++
$ sudo apt-get install make

对于Red Hat, CentOS, Fedora 系统:

$ sudo yum update
$ sudo yum install make
$ sudo yum install gcc-c++
$ sudo yum install glibc-static

2. 使用说明

一般使用 2-pass 模式进行比对,获得更准确的剪切信息。步骤如下:

2.1 建立 1-pass-index

STAR --runMode genomeGenerate  
     --runThreadN 16
     --sjdbOverhang 149 
     --sjdbGTFfile zma.gtf 
     --genomeFastaFiles genome.fa
     --genomeDir /path/to/star-1-index 
2>log

2.2 运行第一步比对

STAR --runMode alignReads
     --runThreadN 8 
     --readFilesCommand zcat 
     --genomeDir  /path/to/star-1-index 
     --outFileNamePrefix /path/to/star-1-pass/sampleA 
     --sjdbGTFfile zma.gtf  
     --outSAMmapqUnique 255   ## 设置唯一比对,用于GATK
     --outSAMtype BAM SortedByCoordinate
     --outBAMsortingThreadN 8 
     --readFilesIn sampleA.R1.fq.gz sampleA.R2.fq.gz  
      --outFilterMismatchNmax 10
     --outFilterMultimapNmax 20
     --alignIntronMin 21 
     --alignIntronMax 0
     --alignSJoverhangMin 8 
     --alignSJDBoverhangMin 3 
     --alignMatesGapMax 0
2>log

2.3 运行 2-pass-index

STAR --runMode genomeGenerate 
     --runThreadN 16
     --sjdbOverhang 149
     --sjdbGTFfile zma.gtf
     --genomeFastaFiles genome.fa
     --genomeDir /path/to/star-2-index
     --sjdbFileChrStartEnd /path/to/star-1-pass/SJ.out.tab 
2>log

2.4 运行 2-pass-align

STAR --runMode alignReads
     --runThreadN 8 
     --readFilesCommand zcat 
     --outSAMmapqUnique 255 
     --outSAMtype BAM SortedByCoordinate 
     --genomeDir /path/to/star-2-index
     --sjdbGTFfile zma.gtf
     --readFilesIn  sampleA.R1.fq.gz sampleA.R2.fq.gz
     --sjdbFileChrStartEnd /path/to/star-1-pass/SJ.out.tab
     --outFilterMismatchNmax 10
     --outFilterMultimapNmax 20
     --alignIntronMin 21 
     --alignIntronMax 0
     --alignSJoverhangMin 8 
     --alignSJDBoverhangMin 3 
     --alignMatesGapMax 0
     --outFileNamePrefix /path/to/star-2-pass/sampleA

2.5 SJ.out.tab 文件意义

生成的 SJ.out.tab 文件为 Tab 分隔符,每一列意义如下:

column 1: chromosome
column 2: rst base of the intron (1-based)
column 3: last base of the intron (1-based)
column 4: strand (0: undened, 1: +, 2: -)
column 5: intron motif: 0: non-canonical; 1: GT/AG, 2: CT/AC, 3: GC/AG, 4: CT/GC, 5:AT/AC, 6: GT/AT
column 6: 0: unannotated, 1: annotated (only if splice junctions database is used)
column 7: number of uniquely mapping reads crossing the junction
column 8: number of multi-mapping reads crossing the junction
column 9: maximum spliced alignment overhang

3 GATK 数据预处理

第二步完成后的 bam 文件仍然无法直接用于 GATK 的变异检测,还需要增加一些操作步骤,请参考 GTAK Call SNP/Indel 流程。

你可能感兴趣的:(RNASeq分析系列--使用STAR软件进行比对)