利用以比对好的氨基酸序列比对对应的核苷酸序列

1、将所有样品的CDS序列合并到一个文件     cat *orfs.cds > all.cds

2、使用seqkit 在合集的文件中提取ID号相同的核苷酸序列    seqkit common all.cds OG0011069.fasta -o common.fasta

(seqkit参数介绍 1、By ID(default,>后面,空格之前的名字)输出ID名字相同的。seqkit common test1.fa test2.fa -o common.fasta2、By full name(整个序列的名字,包含description部分)。输出序列名字相同的。seqkit common test1.fa test2.fa -n -o common.fasta3、输出要比较的文件中序列相同的序列seqkit common test1.fa test2.fa -s -i -o common.fasta4、输出要比较的文件中序列相同的序列(for large sequences)seqkit common test1.fa test2.fa -s -i -o common.fasta --md5)

3、使用pal2nal.pl脚本按氨基酸序列对齐核苷酸序列  (pal2nal.pl下载地址 http://www.bork.embl.de/pal2nal/#Download)

perl /datapool/wangyinzheng/liufangpu/soft/pal2nal.v14/pal2nal.pl OG0011069.fasta all.cds -output fasta > example_CDS_aln.fasta

你可能感兴趣的:(利用以比对好的氨基酸序列比对对应的核苷酸序列)