我的SNP calling和核心SNP(core SNP)聚类分析流程

个人进行SNP分析用的软件是snippy,主要是可以一次批量完成。
准备工作:
1.待分析的序列文件(fastq/fasta),可以先筛选掉冗余的序列文件。

  1. 包含每个序列文件名、所在路径的txt文件。每行一个,tab键分隔文件名和所在完整路径,并且注意该txt的编码格式(用notepad转换为unix)。例如:
a  /path/to/file/a.fasta
b  /path/to/file/b.fasta
...

3.参考基因组的gbk或者fasta文件。

运行开始 用到软件自带的批量运行程序
第一步

snippy-multi 文件名及路径.txt --reference 参考基因组.gbk --cpus 8 > run_snp.sh

第一步运行完会提示共有多少个基因组参与SNP分析,注意检查。
第二步
就是直接运行第一步输出的.sh文件:

nohup sh ./run_snp.sh &

注意运行run_snp.sh的时候所在目录即为输出文件目录,最好新建一个文件夹再把run_snp.sh转移到该文件夹后再运行。
第三步
核心SNP聚类,去掉基因重组后用snp-sites进行核心SNP分析,最后用Fasttree作树。

snippy-clean_full_aln core.full.aln > clean.full.aln
run_gubbins.py -p gubbins clean.full.aln
snp-sites -c gubbins.filtered_polymorphic_sites.fasta > clean.core.aln
FastTreeMP -gtr -nt clean.core.aln > clean.core.tree.newick

输出的newick文件就可以拿去绘制进化树了,每个基因组的SNP VCF文件保存在该文件名的文件夹中。

参考
snippy官网:https://github.com/tseemann/snippy

你可能感兴趣的:(我的SNP calling和核心SNP(core SNP)聚类分析流程)