2018-02-07 记录一次变异检测实战过程

1 原始材料准备

双端测序材料: R1.fq R2.fq
参考基因组: MH63.fa
基因组注释文件: gff gft gff3

2 软件准备

fastqc : 质量检测
Trimmomatic: 质控
BWA: 比对软件
samtools: 操作bam 文件
picard: gatk4.0 已经包含
gatk: 变异检测
snpEff: 注释vcf文件

3 流程记录

1 原始数据质量控制 fastqc -0 保存的文件夹 -t 线程 最后是所有要做的文件

2 使用Trimmomatic 去接头和质量差的文件

java -jar /public/home/name/tool/Trimmomatic-0.36/trimmomatic-0.36.jar PE -phred33 -threads 60 -trimlog logfile R1.fastq R2.fastq clean_data/R1.fq clean_data/R1.unpaired.fq clean_data/R2.fq clean_data/R2.unpaired.fq ILLUMINACLIP:/public/home/name/tool/Trimmomatic-0.36/adapters/TruSeq3-PE.fa:2:30:10 SLIDINGWINDOW:5:20 LEADING:5 TRAILING:5 MINLEN:50

3 使用 fastqc 再检查一遍质控后的质量

4 搭建参考基因组

bwa index fasta MH63.fasta

5 把read 比对到参考基因组上

bwa mem -t 80 -R '@RG\tID:foo_lane\tPL:illumina\tLB:library\tSM:BSA' MH63.fasta R1.fq R2.fq > mut.sam

6 用samtools 直接转化为BAM文件(二进制文件)

samtools view -@ 60 -S -b mut.sam > mut.bam

7 排序

samtools sort sample.bam sample.sorted

8 使用picard 标记重复序列

java -jar /public/home/name/tool/picard-2.jar MarkDuplicates I=mut.sorted.bam O=mut.sorted.markdup.bam M=mut.markdup_metrics.txt

也可以直接用gatk里面的picard

gatk MarkDuplicates -I mut.sorted.bam -O mut.sorted.markdup.bam -M mut.sorted.markdup_matrix.txt

9 为 sample_name.sorted.markdup.bam 创建索引文件

samtools index /public/home/name/requence/clean_data/secondtime/mut.sorted.markdup.bam

10 再对参考基因组进行索引

java -jar CreateSequenceDictionary.jar R= Homo_sapiens_assembly18.fasta O= Homo_sapiens_assembly18.dict

也可以直接使用gatk

gatk CreateSequenceDictionary -R MH63.fasta

还有一个

samtools faidx Homo_sapiens_assembly18.fasta

11 GATK 进行snp-calling

gatk HaplotypeCaller -R MH63.fasta -I mut.sorted.markdup.bam -L Chr07 -A QualByDepth -A RMSMappingQuality -A MappingQualityRankSumTest -A ReadPosRankSumTest -A FisherStrand -A StrandOddsRatio -A Coverage -O mut.vcf

12 在snpEFF 中注释

java -jar snpEff.jar MH63 data/mut.vcf > mut.eff.vcf

13 使用IGV可视化检查具体的变异情况

你可能感兴趣的:(2018-02-07 记录一次变异检测实战过程)