新基因功能注释 Nr/Nt/GO/Kegg/Swiss-Prot/COG/KOG/eggNOG/Pfam/String/转录因子预测数据库的搭建

一、新基因发掘

基于所选参考基因组序列,使用StringTie软件对Mapped Reads进行拼接,并与原有的基因组注释信息进行比较,寻找原来未被注释的转录区,发掘该物种的新转录本和新基因,从而补充和完善原有的基因组注释信息。因此我们需要下载并搭建一些常用蛋白数据库,然后通过一系列比对分析来对一些新的基因进行注释。

二、数据库下载

1. Nr/Nt数据库:
wget -c ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz
wget -c ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nt.gz

具体拆分构建索引请参考之前文章

2. GO数据库:

官网及详细说明:http://geneontology.org/docs/download-ontology/
具体GO数据库的搭建参考之前Blast2go文章详解

3. Kegg数据库:
3.1 简单介绍

KEGG(Kyoto Encyclopedia of Genes and Genomes)京都基因和基因组百科全书,是研究Pathway代谢通路的最主要数据库,整合了基因组信息、化学信息、系统信息及疾病和健康信息。

3.2 数据库下载
#下载kegg物种列表
wget -c "http://rest.kegg.jp/list/organism" -O species
#读取每个物种简写并下载对应序列、KO、pathway通路号等信息
for d in `awk '{print $2}' species`
  do
    echo $d
        mkdir $d
        wget "http://rest.kegg.jp/list/pathway/$d" -O ./$d/map_pathway
        wget "http://rest.kegg.jp/list/$d" -O ./$d/gene_symbol
        wget "http://rest.kegg.jp/link/pathway/$d" -O ./$d/gene_map
        wget "https://www.genome.jp/kegg-bin/download_htext?htext=${d}00001.keg&format=htext&filedir=" -O ./$d/00001.keg |perl -e 'while(<>){chomp;if(/^D\s+(\w+)\s.*\t(\w+)\s+.*/){$g=$1;$K=$2;print "'$d':$g\t$K\n"}}' >$d/gene2KO
  done

最后根据species中的物种分类信息将每个物种对应的gene_symbol、gene_pathway、gene_KO信息进行整合,蛋白序列分别得到Animals、Archaea、Bacteria、Fungi、Plants、Protists并makeblastdb构建相应的索引信息。

4. UniProt 数据库(Swiss-Prot 和 TrEMBL):
4.1 简单介绍

UniProt (The Universal Protein Resource) 是信息最丰富、资源最广的蛋白质序列数据库,主要包含 Swiss-Prot、TrEMBL 两个部分。
Swiss-Prot:高质量的、手工注释的、非冗余的数据集;主要来自文献中的研究成果和 E-value 校验过计算分析结果。有质量保证的数据才被加入该数据库;
TrEMBL:该数据集包含高质量的计算分析结果,一般都在自动注释中富集,主要应对基因组项目获得的大量数据流以及人工校验在时间上和人力上的不足。注释所有可用的蛋白序列。

4.2 完整数据库下载
wget -c ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_sprot.fasta.gz
wget -c ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_trembl.fasta.gz
4.3 分类数据库下载

完整数据库很大,直接用来比对耗时很长,UniProt 官网已经将完整数据库拆分成各个子库,可以直接下载,包括古菌、细菌、真菌、植物、人、哺乳动物、脊椎动物、无脊椎动物、啮齿动物等,这样非常方便进行比对,大大缩短比对时间。下载示例如下:

wget -nH -m -c --cut-dirs=5 ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/taxonomic_divisions/
5. COG直系同源蛋白数据库:

COG (蛋白质直系同源簇) 数据库是 NCBI 开发的用于同源蛋白注释的数据库,是将细菌、藻类和真核生物的21个完整基因组的编码蛋白,根据系统进化关系分类构建而成。通过鉴定蛋白与数据库的比对,可以很好的预测蛋白质的功能。
下载目录

wget -c ftp://ftp.ncbi.nih.gov/pub/COG/COG2014/data/*

fun2003-2014.tab 保存了COG的分类信息,将所有的COG的功能分为了以下26个类别,每个类别用一个字母表示
cognames2003-2014.tab 文件保存了COG的详细信息,包括编号,对应的分类,功能描述等信息
cog2003-2014.csv 文件保存了蛋白和COG的对应关系
prot2003-2014.fa.gz 保存了fasta格式的蛋白序列和注释信息,直接对蛋白序列文件构建索引blast比对。示例如下

>gi|103485499|ref|YP_615060.1| chromosomal replication initiation protein [Sphingopyxis alaskensis RB2256]
MSGDAAALWPRVAEGLRRDLGARTFDHWLKPVRFADYCALSGVVTLETASRFSANWINERFGDRLELAWRQQLPAVRSVS
VRGGVAATERAATLASVPLPTFDAPAAPAANPALLGFDPRLSFDRFVVARSNILAANAARRMAMVERPQFNPLYLCSGTG
QGKTHLLQAIAQDYAAAHPTATIILMSAEKFMLEFVGAMRGGDMMAFKARLRAADLLLLDDLQFVIGKNSTQEELLHTID
DLMTAGKRLVVTADRPPAMLDGVEARLLSRLSGGLVADIEAPEDDLRERIIRQRLAAMPMVEVPDDVIAWLVKHFTRNIR
ELEGALNKLLAYAALTGARIDLMLAEDRLAENVRSARPRITIDEIQRAVCAHYRLDRSDMSSKRRVRAVARPRQVAMYLA
KELTPRSYPEIGRRFGGRDHSTVIHAVRTVEALRVADSELDAEIAAIRRSLNS
6. KOG数据库:

“KOG”是Clusters of orthologous groups for eukaryotic complete genomes(真核生物蛋白相邻类的聚簇)的缩写。构成每个KOG的蛋白都是被假定为来自于一个祖先蛋白,并且因此或者是orthologs或者是paralogs。Orthologs是指来自于不同物种的由垂直家系(物种形成)进化而来的蛋白,并且典型的保留与原始蛋白有相同的功能。Paralogs是那些在一定物种中的来源于基因复制的蛋白,可能会进化出新的与原来有关的功能。数据库链接:ftp://ftp.ncbi.nih.gov/pub/COG/KOG/kyva。

wget -c ftp://ftp.ncbi.nih.gov/pub/COG/*
7. EggNOG数据库:

EggNOG数据库是直源同系蛋白分组比对(evolutionary genealogy of genes: Non-supervised Orthologous Groups)数据库,由EMBL创建并维护,是对NCBI的COG数据库进行拓展,提供了不同分类水平蛋白的直系同源分组(Orthologous Groups,OG),包括真核物种、原核物种及病毒的数据信息。它扩展了COG数据库的分类方法,采用无监督聚类算法在全基因组范围内推导基因功能,更适用于谱系特征基因的分析。
新版本EggNOG 5.0的主页地址:http://eggnog5.embl.de/#/app/home

新基因功能注释 Nr/Nt/GO/Kegg/Swiss-Prot/COG/KOG/eggNOG/Pfam/String/转录因子预测数据库的搭建_第1张图片
EggNOG 5.0

新版本另一个改进是不再使用物种名称缩写,而是使用更加规范的NCBI Taxid来进行物种分类,对应的数据下载地址如下:

http://eggnog5.embl.de/download/eggnog_5.0/per_tax_level/
新基因功能注释 Nr/Nt/GO/Kegg/Swiss-Prot/COG/KOG/eggNOG/Pfam/String/转录因子预测数据库的搭建_第2张图片
image.png

下载数据:

wget -c http://eggnog5.embl.de/download/eggnog_5.0/e5.proteomes.faa &
wget -c http://eggnog5.embl.de/download/eggnog_5.0/e5.taxid_info.tsv &
wget -c http://eggnog5.embl.de/download/eggnog_5.0/e5.og_annotations.tsv &

其中e5.proteomes.faa为所有的蛋白组序列,e5.taxid_info.tsv为Taxid对应的物种名称以及完整的谱系信息,e5.og_annotations.tsv为所有的NOG group信息,其第一列为Taxid,第二列为NOG groups,第三列为COG归属,第四列为Function。
但现在我们还不能完成注释,必须需要蛋白序列id与NOG group的对应信息,这个信息在per_tax_level下不同taxonomy level的members.tsv文件中,我们将下载好的所有物种的members.tsv文件合并。
members.tsv有五列(如下所示),其中第一列为Taxid,因为我们下载的是细菌bacteria所以第一列均为2,第二列为NOG group,第三列为该NOG group所包含的蛋白序列数目,第四列为该NOG group所包含的物种数目,第五列为该NOG group所包含的蛋白序列id,第六列为该NOG group所包含的物种的Taxid。结合该members.tsv文件与前面的e5.og_annotations.tsv,就可知道比对上的蛋白序列所属的NOG group、COG categories、Function。

8. Pfam数据库:

Pfam数据库是蛋白质家族的数据库,根据多序列比对结果和隐马尔可夫模型,将蛋白质分为不同的家族。网址如下: http://pfam.xfam.org/

  1. 安装HMMer
  2. 从ftp://ftp.ebi.ac.uk/pub/databases/Pfam/releases/下载pfam数据库Pfam-A.hmm
  3. 得到 PFAM 数据库的 HMM 文件。 HMM 文件是文本文件,需要将其变成二进制格式,以加快运算速度,同时进行压缩,并建立成索引数据库。 命令:
hmmpress Pfam-A.hmm 
  1. 使用 hmmscan 进行 Pfam 注释示例:
hmmscan -o out.txt --tblout out.tbl --noali -E 1e-5 Pfam-A.hmm file.fasta
  1. 附 hmmscan [-options]几个主要选项含义
-h 显示帮助信息
-o FILE 将结果输出到指定的文件中。默认是输出到标准输出。
--tblout FILE 将蛋白质家族的结果以表格形式输出到指定的文件中。默认不输出该文件。
--domtblout FILE 将蛋白结构域的比对结果以表格形式输出到指定的文件中。默认不输出该文件。该表格中包含query序列起始结束位点与目标序列起始结束位点的匹配信息。
--acc 在输出结果中包含 PF 的编号,默认是蛋白质家族的名称。
--noali 在输出结果中不包含比对信息。输出文件的大小则会更小。 -E FLOAT default:10.0 设定 E_value 阈值,推荐设置为 1e-5 。
-T FLOAT 设定 Score 阈值。 --domE FLOAT default:10.0 设定 E_value 阈值。该参数和 -E 参数类似,不过是 domain 比对设定的值。
9. String数据库:

STRING数据库(https://string-db.org/)是一个搜寻已知蛋白质之间和预测蛋白质之间相互作用关系的系统。这种作用关系既可以是蛋白质之间的物理作用,也可以是间接的功能相关性。它基于染色体临近、系统进化谱、基因融合和基因芯片数据等生物学信息来计算基因或者蛋白的共表达。

wget -c https://stringdb-static.org/download/protein.links.v11.0.txt.gz #protein network data (scored links between proteins)
wget -c https://stringdb-static.org/download/protein.actions.v11.0.txt.gz #interaction types for protein links

perl data_extract_by_ids.pl -idfile ../Nr/Archaea.list -destfile protein.actions.v11.0.change.txt -out Archaea.actions.v11.0.change.txt &
perl data_extract_by_ids.pl -idfile ../Nr/Archaea.list -destfile protein.links.v11.0.change.txt -out Archaea.links.v11.0.txt &
perl data_extract_by_ids.pl -idfile ../Nr/Bacteria.list -destfile protein.actions.v11.0.change.txt -out Bacteria.actions.v11.0.change.txt &
perl data_extract_by_ids.pl -idfile ../Nr/Bacteria.list -destfile protein.links.v11.0.change.txt -out Bacteria.links.v11.0.txt &
perl data_extract_by_ids.pl -idfile ../Nr/Eukaryota.list -destfile protein.actions.v11.0.change.txt -out Eukaryota.actions.v11.0.change.txt &
perl data_extract_by_ids.pl -idfile ../Nr/Eukaryota.list -destfile protein.links.v11.0.change.txt -out Eukaryota.links.v11.0.txt &
10. String数据库:

10.1. 动物转录因子数据AnimalTFDB3.0简介

动物转录因子数据库AnimalTFDB3.0对97个动物基因组的转录因子(Transcription Factor)和转录辅助因子(Transcription cofactor)进行了归纳整理。基于DNA结合结构域,将动物转录因子分成了73个基因家族,将转录辅助因子分成了83个基因家族。此外,动物转录因子分为六大类(Basic Domain Group、Zinc-Coordinating Group、Beta-Scaffold Factors、Helix-turn-helix、Other Alpha-Helix Group和Unclassified Structure),动物转录辅助因子也分为六大类(Co-activator/repressors、Chromatin Remodeling Factors、General Cofactors、Histone-modifying Enzymes、Cell Cycle和Other Cofactors)。
动物转录因子数据库AnimalTFDB3.0提供了网页工具进行转录因子分析。该网页工具一次仅支持上传不超过1000条蛋白序列,不利于动物全基因组的转录因子分析。以下讲解下载AnimalTFDB3.0数据库FASTA文件,并自行编写程序进行转录因子和转录辅助因子注释。

  1. 下载14个hmm文件并合并
wget -c http://bioinfo.life.hust.edu.cn/static/AnimalTFDB3/download/hmm/*
  1. 下载97个物种的蛋白序列、转录因子、转录辅助因子、转录辅助因子序列
wget http://bioinfo.life.hust.edu.cn/static/AnimalTFDB3/download/Ailuropoda_melanoleuca_TF_protein.fa
wget http://bioinfo.life.hust.edu.cn/static/AnimalTFDB3/download/Ailuropoda_melanoleuca_TF
wget http://bioinfo.life.hust.edu.cn/static/AnimalTFDB3/download/Ailuropoda_melanoleuca_TF_cofactors
wget http://bioinfo.life.hust.edu.cn/static/AnimalTFDB3/download/Ailuropoda_melanoleuca_Cof_protein.fa 

参考:http://www.chenlianfu.com/?p=2759

10.2. 植物转录因子数据AnimalTFDB3.0简介
PlnTFDB(http://plntfdb.bio.uni-potsdam.de/v3.0/)是一个植物转录因子数据库,该数据库收录了大部分植物模式物种,包括拟南芥,水稻等20个物种的84个转录因子家族,包含28193 protein models, 26184 distinct protein sequences。它支持在线blast进行比对,也可以将数据下载后进行本地blast。
分析工具:iTAK :http://itak.feilab.net/cgi-bin/itak/index.cgi

wget ftp://itak.feilab.net/pub/program/itak/old/iTAK-1.7.tar.gz

软件内部内置了PlantTFDB的数据库数据,可以直接用于预测植物转录因子,使用方法非常简单,只需要输入您需要鉴定的蛋白序列fasta格式即可。


新基因功能注释 Nr/Nt/GO/Kegg/Swiss-Prot/COG/KOG/eggNOG/Pfam/String/转录因子预测数据库的搭建_第3张图片
image.png

其中classification.txt就是我们得到的植物转录因子预测结果:

  1. alignment.txt:输入序列和数据库比对结果
  2. classification.txt:输入序列鉴定结果,ID 1:输入序列,ID 2:Family 鉴定的家族名称
  3. Type Family 类型,包含 TF,TR,PK TF: transcription factors TR: transcription regulator PK: protein kinases.
  4. Sequence.fasta:输入序列比对上家族的氨基酸序列
    新基因功能注释 Nr/Nt/GO/Kegg/Swiss-Prot/COG/KOG/eggNOG/Pfam/String/转录因子预测数据库的搭建_第4张图片
    simpleBar.pdf

    参考:http://www.igenebook.com/news/512.html

10.3. 真菌转录因子数据库Fungal TFDB简介
真菌转录因子数据库Fungal TFDB1.2(http://ftfd.snu.ac.kr/index.php?a=view)
对249个真菌(包含6个卵菌)基因组的转录因子和228个非真菌系的转录因子进行了归纳整理。基于转录因子家族分类,共获得61个家族,包含18563个真菌转录因子序列。
参考:http://www.igenebook.com/news/518.html

你可能感兴趣的:(新基因功能注释 Nr/Nt/GO/Kegg/Swiss-Prot/COG/KOG/eggNOG/Pfam/String/转录因子预测数据库的搭建)