strelka的安装与使用

       这个软件的使用说明可以在下面这个网址中找:https://github.com/Illumina/strelka/tree/master/docs/userGuide
       首先是下载和安装,版本网上有很多种,最简单的一种就是不用安装的,解压就能用。

wget https://github.com/Illumina/strelka/releases/download/v2.8.2/strelka-2.8.2.centos5_x86_64.tar.bz2
tar xvfj strelka-2.8.2.centos5_x86_64.tar.bz2

解压之后产生4个文件夹:


1.PNG

运行程序主要在bin目录下:


strelka的安装与使用_第1张图片
2.PNG

       这样就算完成了,为了检验strelka是否能正常运行,可以运行*demo.bash来检验。然后就是跑自己的数据,我是想找体细胞的snp所以选择configureStrelkaSomaticWorkflow.py,代码如下:
reference=/public/home/project/ref/ucsc.hg19.fasta
DBSNP=/public/home/tools/GATK/dbsnp_138.hg19.vcf
normal_bam=/public/home/project/colorectal_cancer/align/N-06448.realn.recall.bam
tumor_bam=/public/home/project/colorectal_cancer/align/A-06448.realn.recall.bam
sample=A-06448
cd /public/home/yangliuqing/reSNV_calling
mkdir -p somatic/strelka
/public/home/tools/strelka/strelka-2.8.2.centos5_x86_64/bin/configureStrelkaSomaticWorkflow.py \
--normalBam $normal_bam \
--tumorBam $tumor_bam \
--referenceFasta $reference \
--runDir  somatic/strelka \
--exome \
--disableEVS \
--reportEVSFeatures \
--config=/public/home/tools/strelka/strelka-2.8.2.centos5_x86_64/bin/configureStrelkaSomaticWorkflow.py.ini \
--snvScoringModelFile=/public/home /tools/strelka/strelka.2.centos5_x86_64/share/config/somaticSNVScoringModels.json \
--indelScoringModelFile=/public/home /tools/strelka/strelka2.8.2.centos5_x86_64/share/config/somaticIndelScoringModels.json \
--outputCallableRegions

       后面的--exome是因为我的数据全部来自于WES。执行完这些之后很快就会产生一个python脚本,之后在投这个脚本。


3.PNG

       最开始看见这个脚本的时候我就直接nohup挂后台运行了,但是很快任务就终止了,而且也没有任何的报错信息,后来才发现是缺少某些必要参数。至于是哪些参数需要设置可以用

/public/home/lijie/yangliuqing/reSNV_calling/somatic/strelka/runWorkflow.py -h

       这里需要注意的地方是一开始我也考虑是不是有其他参数问题,于是直接runWorkflow.py -h结果报错了,后来发现必须用绝对路径才行!即便你就在runWorkflow.py这个路径下也必须用绝对路径!正确地设置好相关参数之后就可以正常运行了。
       还有一个问题就是跑出来的vcf文件里面连低质量的也输出来了,因此发现结果文件非常大,实际上应该把这些低质量的位点过滤掉才对。只需要在configureStrelkaSomaticWorkflow.py.ini里面加一个参数就可以了:extraStrelkaArguments = -used-allele-count-min-qscore 30 。此外,indel文件和snv文件是分开的,所以需要先把它们合并:

java -jar ~/tools/GATK/GenomeAnalysisTK.jar -T CombineVariants -R ~/project/ref/GATK_ref/ucsc.hg19.fasta --variant sample.raw.indel.pass.vcf --variant sample.raw.snp.pass.vcf -o sample.raw.pass.vcf -genotypeMergeOptions UNIQUIFY

       看了一下跑出来的数据,其实很多重要的信息都还没有,因此需要一个注释软件,我选择了annovar,有关这个软件的使用教程如下:
https://zhengzexin.com/2016/04/28/annovar-zhu-shi-ruan-jian/#toc_3

/public/home/tools/annovar/convert2annovar.pl -format vcf4old somatic.snvs.vcf>06448-N.annovar  #转化格式
/public/home/tools/annovar/table_annovar.pl 06448-N.annovar /public/home/tools/annovar/humandb  -remove -buildver hg19 -out 06448-N -protocol refGene,snp138,exac03,clinvar_20170130,cosmic70,1000g2015aug_all,1000g2015aug_afr,1000g2015aug_eas,1000g2015aug_eur,1000g2015aug_sas,esp6500siv2_all,avsnp147,ljb26_all,avsnp147 -operation g,f,f,f,f,f,f,f,f,f,f,f,f,f -nastring . -csvout –otherinfo

结果是一个CSV格式的文件,里面的内容还是很好懂的。

你可能感兴趣的:(strelka的安装与使用)