GATK参考序列的操作(操作FASTA格式的序列)

工具名称 简介 运行命令
BaitDesigner (Picard) 设计杂交捕获反应设计杂交探针用的 " java -jar picard.jar BaitDesigner \ TARGET=targets.interval_list \ DESIGN_NAME=new_baits \ R=reference_sequence.fasta "
BwaMemIndexImageCreator 生成.img为GATK BWA所需 "gatk BwaMemIndexImageCreator \ -I reference.fasta \ -O reference.fasta.img"
"CountBasesInReference 替换成了CountBases" 统计在SAM/BAM/CRAM中的碱基 "gatk CountBases \ -I input_reads.bam"
CreateSequenceDictionary (Picard) (Picard)生成.dict,这个文件是一个index,GATK很多过程都需要 java -jar picard.jar CreateSequenceDictionary \R=reference.fasta \O=reference.dict
ExtractSequences (Picard)根据区域信息从参考序列中导出一个新的fasta序列 java -jar picard.jar ExtractSequences \INTERVAL_LIST=regions_of_interest.interval_list \R=reference.fasta \O=extracted_IL_sequences.fasta
FastaAlternateReferenceMaker 根据突变的VCF修改reference里的碱基,如果有区域信息,则只显示区域内的序列。 gatk FastaAlternateReferenceMaker -R reference.fasta -O output.fasta -L input.intervals -V input.vcf [--snp-mask mask.vcf]
FastaReferenceMaker 根据区域信息导出区域内的序列。 gatk FastaReferenceMaker \ -R reference.fasta \ -O output.fasta \ -L input.intervals
FindBadGenomicKmersSpark BETA 检查参考序列中的高重复的序列 gatk FindBadGenomicKmersSpark \ -R reference.fasta \ -O kmers_to_ignore.txt
NonNFastaSize(Picard) 统计参考序列中非N的碱基个数,需要实现index生成.bai和.dict java -jarpicard.jar NonNFastaSize \ I=input_sequence.fasta \ O=count.txt
NormalizeFasta(Picard) 将参考序列整理成除最后一行以外,长度相等的fasta格式,默认长度100 java -jar picard.jar NormalizeFasta \ I=input_sequence.fasta \ O=normalized_sequence.fasta
ScatterIntervalsByNs(Picard) 根据参考序列中的N生成区间文件 java -jar picard.jar ScatterIntervalsByNs \ REFERENCE=reference_sequence.fasta \ OUTPUT_TYPE=ACGT \ OUTPUT=output.interval_list

你可能感兴趣的:(GATK参考序列的操作(操作FASTA格式的序列))