MCScanX共线性分析

准备文件:

——萝卜蛋白序列(你自身研究物种的蛋白序列);rs.tree,它是Clustal OmeGA跑出来的;特定gff文件,格式为第一列是染色体,第二列基因ID,第三列起始位置,第四列终止位置。提取这个特定的gff命令如下:

#提取gff:grep '\sgene\s' Rs_1.0.Gene.LFY.gff | awk '{print $1"\t"$4"\t"$5"\t"$9}' | awk -F 'ID=' '{print $1$2}' | awk -F 'Parent=' '{print $1}'|awk '{print $1"\t"$4"\t"$2"\t"$3}' > rs.gff

条件:

安装MCScanX,并且下面所得文件放在MCScanX下运行

如何安装:

#anaconda search -t conda MCScanX

#anaconda show  bioconda/MCScanX

#conda install --channel https://conda.anaconda.org/bioconda MCScanX

#建库:makeblastdb -in Rs_1.0.peptide.fa -dbtype prot -out rs

#比对:blastp -query Rs_1.0.peptide.fa -db rs -out rs.blast -evalue 1e-10 -num_threads 16 -outfmt 6 -num_alignments 5

#运行:./MCScanX rs

1.运行之后得到

rs.tandem;rs.collinearity;rs.html

2.在downstream中分析

和树的同线性:

#java family_tree_plotter -t rs.tree -s rs.collinearity -o RsMATE_tree.png

和树的同线性+随机复制:

#java family_tree_plotter -t rs.tree -s rs.collinearity -d rs.tandem -o RsMATE_tree_1.png

圆形同线性:

circle.ctl改为你自己的染色体号,family.txt也改为你自己的基因ID(在跑出来的文件中修改,尽量不要自己做)

#java family_circle_plotter -g rs.gff -s rs.collinearity -c circle.ctl -f MATE_family.txt -o MATE_cir.png

片段复制的基因对:

#perl detect_collinearity_within_gene_families.pl -i MATE_family.txt -d rs.collinearity -o MATE_segmental

KaKs分析:

准备好自己基因家族的cds序列,如果报错把基因ID后缀那一串去掉试试,如果还是不行,就放物种的全部cds序列

#perl add_ka_and_ks_to_collinearity.pl -i rs.collinearity -d Rs_cds.fa -o MATEkaks

其他的下游分析自己试试

你可能感兴趣的:(MCScanX共线性分析)