根据基因组fa文件和gff文件提取cds并翻译成pep

cds文件:注释信息里的蛋白编码序列
pep文件:cds对应序列翻译成的氨基酸序列
从NCBI上下载基因组时,有的并没有上传cds文件和pep文件,此时该怎么办呢?


(1)利用脚本

①根据注释文件提取转录本:
生信笔记系列之序列提取--根据GTF提取转录本
从NCBI基因组数据中获得cds,pep和geneID对应表- 薛猫_柳叶 ...
②将cds转换成pep:
从cds到pep

(2)利用cufflinks中的gffread工具

GTF/GFF格式gffread入门使用

# conda上安装cufflinks,使用之前激活环境
source /data1/spider/liupiao/miniconda3/bin/activate
# 提取cds
gffread in.gff3 -g ref.fa -x cds.fa

# 获得pep
gffread in.gff3 -g ref.fa -y pep.fa

# 提取外显子序列
gffread in.gff3 -g ref.fa -w exons.fa
格式转换
gffread genome.gff3 -T -o genome.gtf
gffread genome.gtf -o- > genome.gff3

参考:
https://www.jianshu.com/p/c3f723c895fe
https://www.cnblogs.com/zxzhu/p/7900843.html

你可能感兴趣的:(根据基因组fa文件和gff文件提取cds并翻译成pep)