临床测序(WES, WGS)分析流程(一)基本流程+过滤

从指控->比对->BAM处理->call突变->合并gvcf都可参考我之前的GATK Germline Best Practivce
假设目前得到VCF test1.vcf(包含4个样本,其中一个为CJ-258)

Task1 提取CJ-258特有的突变 :
java -Xmx15g  -jar GenomeAnalysisTK.jar -R ucsc.hg19.fasta -T SelectVariants -V test1.vcf -ef -o test1-clean.vcf   

-ef表示过滤低质量的点

java -Xmx5g  -jar GenomeAnalysisTK.jar -R ucsc.hg19.fasta -T SelectVariants -V test1-clean.vcf -sn CJ-258 -env -o CJ-258.vcf

-sn表示选择样本,-ens表示去除对应该样本为野生型的位点

java -Xmx5g  -jar GenomeAnalysisTK.jar -R ucsc.hg19.fasta -T SelectVariants -V test1-clean.vcf -xl_sn CJ-258 -env -o CJ-258-other.vcf

-xl_sn表示提取非CJ-258的样本的点

java -Xmx5g  -jar GenomeAnalysisTK.jar -R ucsc.hg19.fasta -T SelectVariants -V CJ-258.vcf --discordance CJ-258-other.vcf -env -o CJ-258-candidate.vcf

--discordance表示选择与CJ-258-other.vcf不一样的点

mkdir anno
table_annovar.pl CJ-258-candidate.vcf annovar2/humandb/hg19/ -buildver hg19 -out anno/CJ-258-candidate -remove -protocol refGene,genomicSuperDups,phastConsElements46way,esp6500siv2_all,exac03,1000g2014oct_eas,1000g2014oct_all,avsnp142,clinvar_20180603,scsnv,revel,mcap,cosmic68wgs,ljb26_all -operation g,r,r,f,f,f,f,f,f,f,f,f,f,f -nastring . -vcfinput

ANNOVAR筛选

对于得到的结果,筛选方式:基于ExAC、1000G MAF<0.01/0.005过滤 --> CLINSIG/CLINVAR挑选致病和可能致病的位点
–> 若CLINVAR注释上,根据ACMG评估
–> 若CLINVAR没有注释上,选择nonsynonymous SNV(这里表示错义突变,非同义还包括其他类型)+ scSNV≠0的位点(可预测可变剪切)–> genomimcsuperdups>0表示位于同源区,过滤掉
自己的想法:以上是一种筛选方式,自己在做的方法(参考):对SNV,nonsynonymous -> exonic/splicing -> exclude MAF > 0.01 in union(1000G, ExAC, dbsnp138nonflag) -> exlude dups -> prediction tools (SIFT, PolyPhen2, metaSVM等等)留下damaging的位点。对indel,exonic/splicing -> frameshift + stop change -> exlcude variant databases -> exclude dups -> select protein damaging loci。
注:LoF (frameshift, stop gain/loss, nonsense) + missense
经筛选之后,对于得到的位点对应的gene list,可以有2个工具对疾病和表型找找关联已经基因间相互关系。这里两个工具更多是对单基因病。
工具一:panelAPP 目前包含了222个panel的基因资料
工具二:phenolyzer 输入表型/疾病 + gene list + email可得到基因间关系,基因重要性等信息。有网页和本地版本。

补充知识和一些小技巧
tip1 计算平均深度,已经1X,10X,20X等不同深度的比例:

java -Xmx3g -jar GenomeAnalysisTK.jar -T DepthOfCoverage -R ucsc.hg19.fasta -o test1 -I WJ-2338.bam -L Agilent-v6.bed --omitDepthOutputAtEachBase --omitIntervalStatistics -ct 1 -ct 10 -ct 20 -ct 50

你可能感兴趣的:(WES,GATK,whole-exome,sequencing)