GATK4.1 call SNP

GATK4.0 和之前的版本相比还是有较大的不同，更加趋于流程化。

软件安装

1 wget https://github.com/broadinstitute/gatk/releases/download/4.1.5.0/gatk-4.1.5.0.zip 
2 unzip gatk-4.1.5.0.zip
#该安装步骤仅供参考，需要加入环境变量才可以直接调用

下载GATK

wget https://github.com/broadinstitute/gatk/releases/download/4.1.9.0/gatk-4.1.9.0.zip
unzip gatk-4.1.9.0.zip
#进入环境变量修改PATH，很重要
sudo vi /etc/profile
sudo gedit  /etc/profile
#添加下面的PATH
# export PATH=$PATH:/home/zhiwufy/biosoft/gatk-4.1.9.0
source /etc/profile

目前最新版是4.1.9.0
全部的版本链接在：https://github.com/broadinstitute/gatk/releases

下载后解压

image

# 在该目录下
conda env create -n gatk -f gatkcondaenv.yml -y
# 本次安装 -y参数 出错，原因未知 去掉 -y

检查是否成功

python -c "import vqsr_cnn"
# 出现：Using TensorFlow backend，则成功
# 出现：ImportError: No module named vqsr_cnn，则失败

#报错：ModuleNotFoundError: No module named 'numpy.testing.decorators'
#原因 numpy 版本不匹配！
pip uninstall numpy
pip install numpy==1.18 # > 1.18
pip install scipy==1.1.0
python -c "import vqsr_cnn"
#通过验证

如果以后要更新gatk

需要先卸载掉原来的小环境，再重新安装，否则会产生报错，比如：

CondaValueError: prefix already exists: /anaconda2/envs/gatk

安装的正确方法：

source deactivate
conda env remove -n gatk
# 然后重新运行上面的安装代码

另外gatk运行还需要依赖Java

先进入到gatk小环境，再安装openjdk即可

apt-cache search openjdk
conda install -c conda-forge openjdk
sudo apt-get install openjdk-8-jdk

GATK 简单说明

## 帮助信息
gat --help

## 列出所有的工具
gatk --list

## 工具的说明，比如以VariantAnnotator 为例
gatk VariantAnnotator --help

GATK分析简要流程

所需数据： ref.fa
- - reads1.fq
  - reads2.fq
建立索引（本人使用的是hisat2，结果差异不大）

bwa index ref.fa
samtools  faidx ref.fa
gatk CreateSequenceDictionary -R ref.fa -O ref.dict
gatk CreateSequenceDictionary  -R Tifrunner2.fasta  
##
-R Input reference fasta or fasta.gz  Required
-O  输出文件

比对

## bwa 比对
bwa mem -t 4 -R '@RG\tID:id1\tPL:illumina\tSM:test' ref.fa test_1.fq test_2.fq | samtools view -bS - >test.bam

##参数
-R 设置reads group，gatk必须要的信息，其中ID，PL和SM信息是必须要的

## 排序
samtools sort -@ 3 -o test.sorted.bam test.bam
rm test.bam

2. 通过管道命令直接链接samtools

bowtie2 -x genome_index -1 input_1.fq -2 input_2.fq | samtools view -bS | samtools sort > output.bam

这条命令把bowtie2 生成的sam文件通过管道|传递到samtools，将sam转换为bam文件，省去中间sam文件的空间占用

GATK 要求read group的格式

ID = Read group identifier

每一个read group 独有的ID，每一对reads 均有一个独特的ID，可以自定义命名；

PL = Platform

测序平台；ILLUMINA, SOLID, LS454, HELICOS and PACBIO，不区分大小写；

SM = sample

reads属于的样品名；SM要设定正确，因为GATK产生的VCF文件也使用这个名字;

LB = DNA preparation library identifier

对一个read group的reads进行重复序列标记时，需要使用LB来区分reads来自那条lane;有时候，同一个库可能在不同的lane上完成测序;为了加以区分，
　　同一个或不同库只要是在不同的lane产生的reads都要单独给一个ID. 一般无特殊说明，成对儿read属于同一库，可自定义，比如：library1

若是忘记添加read group信息还以通过 AddOrReplaceReadGroups 添加

sample name 也可以在markdup之后加
gatk AddOrReplaceReadGroups -I .bam -O .add.bam -LB library1 -PL illumina -PU pl1 -SM name

# 

##参数
-I Input file (BAM or SAM or a GA4GH url)；
-O  Output file (BAM or SAM)；
-LB Read-Group library；
-PL  Read-Group platform (e.g. ILLUMINA, SOLID)；
-PU Read-Group platform unit (eg. run barcode)；
-SM Read-Group sample name 

## 建立索引

samtools index test.sorted.markup.bam

标记重复序列

gatk  MarkDuplicates -I test.sorted.bam -O test.sorted.markdup.bam -M test.sorted.markdup_metrics.txt3 ##参数
-I 排序后的一个或者多个bam或者sam文件
-M 输出重复矩阵
-O 输出文件
 
# 建立索引
samtools index test.sorted.markup.bam

检测变异

#在检测变异前必须要对bam文件建立索引：samtools index 
 ##两种方法

##（1）多样本一起call，此次只有一个样本，若有多个样本，则继续用 -I 参数添加即可
gatk --java-options -Xmx4G HaplotypeCaller -I test.sorted.markup.bam -O test.gvcf  -R ref.fa

## （2）单个样本call，然后在合并
## 生成中间文件gvcf
gatk --java-options -Xmx4G HaplotypeCaller -I test.sorted.markup.bam -O test.gvcf -R ref.fa --emit-ref-confidence GVCF

##通过gvcf检测变异, -V 添加上步得到的gvcf
gatk GenotypeGVCFs -R ref.fa -V test.gvcf -O test.vcf

##参数
-I BAM/SAM/CRAM file
-O  输出文件
-R 参考基因组
--java-options: 若设置java则需要添加
-Xmx4G：内存为4G，防止内存太大
-V  A VCF file containing variants
GATK CombineGVCFs  -R GRCh38.fa -L chr10.bed --variant father_chr10.g.vcf.gz --variant mother_chr10.g.vcf.gz --variant child_chr10.g.vcf.gz -O family_chr10.g.vcf.gz

GATK CombineGVCFs  -R GRCh38.fa -L chr10.bed --variant father_chr10.g.vcf.gz --variant mother_chr10.g.vcf.gz --variant child_chr10.g.vcf.gz -O family_chr10.g.vcf.gz

我用 GATK 模块 CombineVariants 合并了 12 个样本的 VCF 文件，之后发现部分位点 FORMAT 字段缺少了 AD 信息。仔细看了一下，这样的位点都是有多个 ALT 的位点。

#正常情况下 FORMAT 字段：

GT:AD:DP:GQ:PL

#缺失 AD 的 FORMAT 字段：

GT:DP:GQ

#用 GATK 模块 CombineVariants 合并多个样本的 VCF 之后，DP 字段是会自动更新的，但是 AD 字段需要重新运行 VariantAnnotator , 根据合并的 GT 和 DP 重新生成新的 AD。

#所以多个样本分别 call 变异然后进行合并需要注意这个问题。

gatk  VariantAnnotator    -R reference.fasta    -V input.vcf    -o output.vcf

提取SNP，INDEL

## 提取SNP
gatk SelectVariants -V test.vcf -O test.snp.vcf --select-type-to-include SNP

## 提取INDEL
gatk SelectVariants -V test.vcf -O test.indel.vcf --select-type-to-include INDEL

##参数
-O 输出vcf文件
-V 输入vcf文件
--select-type-to-include 选择提取的变异类型{NO_VARIATION, SNP, MNP, INDEL,
                              SYMBOLIC, MIXED}

对vcf文件进行过滤

gatk VariantFiltration -O test.snp.fil.vcf.temp -V test.snp.vcf --filter-expression 'QUAL < 30.0 || QD < 2.0 || FS > 60.0 ||  SOR > 4.0' \
　　　　--filter-name lowQualFilter --cluster-window-size 10  --cluster-size 3 --missing-values-evaluate-as-failing

## 参数
-O 输出filt.vcf文件
-V 输入vcf文件
--filter-expression 过滤条件, VCF INFO 信息
--cluster-window-size 以10个碱基为一个窗口
--cluster-size 10个碱基为窗口，若存在3以上个则过滤
--filter-name 被过滤掉的SNP不会删除，而是给一个标签， 比如 Filter
--missing-values-evaluate-as-failing 当筛选标准比较多的时候，可能有一些位点没有筛选条件当中的一条或几条，例如下面的这个表达式；QUAL < 30.0 || QD < 2.0 || FS > 60.0 || MQ < 40.0 || HaplotypeScore > 13.0 并不一定所有位点都有这些信息，这种情况下GATK运行的时候会报很多WARNING信息，用这个参数可以把这些缺少某些FLAG的位点也给标记成没有通过筛选的。


gatk VariantFiltration \
    -V $vcf \
    -filter "QD < 2.0" --filter-name "QD2" \
    -filter "QUAL < 30.0" --filter-name "QUAL30" \
    -filter "FS > 60.0" --filter-name "FS60" \
    -filter "MQ < 40.0" --filter-name "MQ40" \
    -filter "MQRankSum < -12.5" --filter-name "MQRankSum-12.5" \
    -filter "ReadPosRankSum < -8.0" --filter-name "ReadPosRankSum-8" \
    -O ${out_prefix}.vcf


#标出10bp范围3个SNP的 ”SnpCluster“
gatk VariantFiltration -V 324.wgs.call.SNP.Filter-SOR.ANN.vcfFliter.vcf -cluster 3 -window 10 -O 324.wgs.call.SNP.Filter-SOR.ANN.vcfFliter.10-3filter.vcf
#去除上一步标出的SnpCluster"
gatk SelectVariants -V 324.wgs.call.SNP.Filter-SOR.ANN.vcfFliter.10-3filter.vcf -O 324.wgs.call.SNP.Filter-SOR.ANN.vcfFliter.10-3filter-2.vcf -select "FILTER == SnpCluster" --invertSelect


去除indel附近5bp范围内的SNP

bcftools filter -g 5 -O v -o 1-SnpGap5.vcf ../324.wgs.PASS.ANN.vcf.gz
原文链接：https://blog.csdn.net/Gossie/article/details/109320960

筛选PASS的SNP，INDEL

## 根据FILTER那列信息进行筛选
grep PASS test.snp.fil.vcf.temp >  test.snp.fil.vcf

bcftools view -f  "PASS"  zhuxing.merge.snpfiltraw.vcf >  zhuxing.snp.filter.pass.vcf

GATK4.1 call SNP

软件安装

下载GATK

检查是否成功

如果以后要更新gatk

另外gatk运行还需要依赖Java

GATK 简单说明

GATK分析简要流程

所需数据 ： ref.fa

建立索引（本人使用的是hisat2，结果差异不大）

比对

2. 通过管道命令直接链接samtools

ID = Read group identifier

PL = Platform

SM = sample

LB = DNA preparation library identifier

若是忘记添加read group信息还以通过 AddOrReplaceReadGroups 添加

标记重复序列

检测变异

提取SNP，INDEL

对vcf文件进行过滤

筛选PASS的SNP，INDEL

你可能感兴趣的:(GATK4.1 call SNP)

所需数据： ref.fa