[基因组学]使用GAMP根据已知CDS序列来进行未知基因组序列的功能注释

GMAP最早用于讲EST/cDNA序列比对到参考基因组上,可以用于基因组结构注释。后来高通量测序时代,又开发了GSNAP支持高通量数据比对。

软件安装

我采用的是利用源代码且在无root权限下进行安装。

wget http://research-pub.gene.com/gmap/src/gmap-gsnap-2019-09-12.tar.gz
tar zxvf gmap-gsnap-2019-09-12.tar.gz
cd gmap-2019-09-12/
./configure --prefix=/your/usr/local/path --with-gmapdb=/path/to/gmapdb
make
make check   (optional)
make install
#接下来添加到环境变量
vim ~/.bashrc
source ~/.bashrc

软件使用
假设你有一个未知的reference序列和已知的CDS序列,你想知道这个CDS上的基因有多少能匹配到reference上。

#首先构建索引数据库(我建立的是包含所有序列的fasta文件)
gmap_build -d reference reference.fasta

这里的-d表示数据K库的名字,默认把索引存放在gmap安装路径下的share里,可以用-D更改.此外还有一个参数-k用于设置K-mer的长度, 默认是15, 理论上只有大于4GB基因组才会有两条一摸一样的15bp序列(当然是完全随机情况下)。

#正式使用,得到gff文件
gmap -t 10 -d reference -f gff3_gene cds.fasta > reference_cds.gff
#得到基因组上的蛋白序列
gmap -t 10 -d reference -Q cds.fasta > reference_protein.fasta

-t设置线程数, -d表示参考基因组数据库的名字, 都是常规参数,设置 -Q 输出基因组上的蛋白序列。

参考链接:

https://www.jianshu.com/p/3f331861c364

http://research-pub.gene.com/gmap/src/README

你可能感兴趣的:([基因组学]使用GAMP根据已知CDS序列来进行未知基因组序列的功能注释)