NGSCheckMate:数据配对正确性检查好工具

NGSCheckMate:数据配对检查好工具

求知若渴 没有BUG

背景

生信小灶

肿瘤NGS或者其它类似数据分析工作,大的前提就是样本使用的正确性,然而很多意外的情况都会导致样本的错误使用,对它们进行质控显得尤其重要。

原理

软件处理fasq、bam、vcf等格式,获得VAF的信息,通过计算VAF的相关性,来判断样本是否来自同一个样本。

NGSCheckMate:数据配对正确性检查好工具_第1张图片

如何实现fastq的VAF统计?

vcf文件中直接存在有VAF的信息,对于bam,可以转化成mpileup格式获得VAF信息,而对于未经比对的fastq,获得VAF是一件比较困难的事情,作者的处理非常巧妙:软件预构建了一个参考SNP的21-kmer的哈希表,通过reads提取的21-mer与哈希表匹配计算count,获得VAF的参考信息。

NGSCheckMate:数据配对正确性检查好工具_第2张图片

NGSCheckMate:数据配对正确性检查好工具_第3张图片

01

安装

安装NGScheckMate

软件非常容易安装,只需要拷贝源码即可。但是相关的环境与依赖需要进行配置一下。

安装

#下载源码
git clone https://github.com/parklab/NGSCheckMate.git
#配置环境变量
export NCM_HOME=/NGSCheckMate

配置

#在NGSCheckMate的软件目录,编辑ncm.conf的文件
#分别指定三个文件的绝对路径
#REF,参考序列的绝对路径,与生成bam指定为同一个;
#SAMTOOLS,samtools程序的绝对路径; 
#BCFTOOLS,bcftools程序的绝对路径。
REF=  
SAMTOOLS= 
BCFTOOLS=

NGSCheckMate:数据配对正确性检查好工具_第4张图片

02

fastq模式

输入文件

#文件为三列,read1,read2,样本名
#不需要表头,此段注释也不要出现在文件中
/path/NC_1.fq.gz  /path/NC_2.fq.gz  NC
/path/T_1.fq.gz  /path/T_2.fq.gz  T

运行命令

#使用python2来运行
python2 /PathOfNGScheckmate/ncm_fastq.py -pt /path/SNP.pt -l /path/NGS.input.list  -O ./check_result

NGSCheckMate:数据配对正确性检查好工具_第5张图片

03

vcf格式

输入文件

#每行是一个文件
/data1/public/GATK/03_1.NGScheckMate/NC.vcf
/data1/public/GATK/03_1.NGScheckMate/T.vcf

运行命令

python2 /PathOfNGScheckmate/ncm.py -V -l /path/vcf.input.list -bed /path/SNP_GRCh37_hg19_woChr.bed -O ./vcfout

Tips

1)BAM模式和VCF模式非常类似,只需要将-V参数换为-B参数,输入文件由vcf的list变为bam的list即可。

2)BAM模式最终仍是对各个样本进行变异检测,所以自己检测vcf然后使用软件检查也是一样的,而且可能更加灵活。

结果说明

最终的结果在输出目录中,*_all.txt,这个文件即是。文件一共五列:

样本1;
是否匹配的结论;
样本2;
相关性系数;
深度。

除此之外还有一些图表,一般情况没有什么大的价值。

NGSCheckMate:数据配对正确性检查好工具_第6张图片

04

软件评价

优缺点

软件比较好装,也容易配置和使用,结果易于解读。但是它只能检测出两个样本是否匹配,但是样本之间是否有相互的污染,则不能够进行质控,对于肿瘤的检测,这个方面的信息仍是需要留意的。

我是国产TESLA,专注于肿瘤及肿瘤新生抗原的生物信息工程师,这里记得着我的一些原创探索和心得,愿能给参与到这个领域的人一些参考。

NGSCheckMate:数据配对正确性检查好工具_第7张图片

NGSCheckMate:数据配对正确性检查好工具_第8张图片

NGSCheckMate:数据配对正确性检查好工具_第9张图片

提醒

“话题”在文章标题下方哦~

你可能感兴趣的:(基因组分析,数据挖掘,机器学习,人工智能,单细胞测序,SCI绘图)