基因功能注释

基因功能注释软件

InterproScan

InterProScan 是 EBI 开发的一个集成了蛋白质结构域和功能位点的数据库,其中把 SWISS- PROT、TrEMBL、PROTSITE、PRINTS、PFAM、ProDom 等数据库提供的蛋白质序列中的各种局域模式,如结构域、motif 等信息统一起来,提供了一个较为全面的分析工具。

  • 软件安装
    下载安装包和panther(数据库文件)后解压缩,注意将panther文件放入到安装包解压缩后的data文件夹下,同时注意校验md5值

  • 脚本运行
    可以是网络版运行,这里讲本地脚本运行

# Java version 1.8 or above is required to run InterProScan.

./interproscan/interproscan-5.17-56.0/interproscan -t n -i ./M_1.fa -f TSV -b ./Annotation/M_1 -T ./Annotation/temp -dp

###主要参数说明
# -t   seqtype,可选dna/rna (n)or protein (p),默认是蛋白序列
# -i   输入文件,如fasta文件
# -f   输出文件格式,TSV, XML, GFF3, HTML and SVG,默认TSV
# -b  输出目录
# -T  临时文件存放目录
# -dp  禁用lookup service,所有运算在本地进行
  • 结果说明
    得到一个tsv文件(tab分割)
PARG-007/2090/BMS1-001/700  081238a3dd88fc74b263bd42fce55b71    1680    PANTHER PTHR12858       610 912 0.0 13-06-2018
PARG-007/2090/BMS1-001/700  081238a3dd88fc74b263bd42fce55b71    1680    PANTHER PTHR12858       1055    1672    0.0 13-06-2018
PARG-007/2090/BMS1-001/700  081238a3dd88fc74b263bd42fce55b71    1680    Pfam    PF04950 40S ribosome biogenesis protein Tsr1 and BMS1 C-terminal    1216    1502    6.1E-96 T   13-06-2018

共10列信息,每列分别对应:序列ID,-,序列长度,比对数据库,目标序列ID,目标序列描述,其实终止位置,比对得分,时间
提取第一列和三到9列,加表头,展示如下

Sequence_Accession  Sequence_Length Analysis_Database   Signature_Accession Signature_Description   Start_location  Stop_location   Score
PARG-007/2090/BMS1-001/700  1680    PANTHER PTHR12858       610 912 0.0
PARG-007/2090/BMS1-001/700  1680    PANTHER PTHR12858       1055    1672    0.0
PARG-007/2090/BMS1-001/700  1680    Pfam    PF04950 40S ribosome biogenesis protein Tsr1 and BMS1 C-terminal    1216    1502    6.1E-96
PARG-007/2090/BMS1-001/700  1680    Pfam    PF08142 AARP2CN (NUC121) domain 629 714 5.1E-31

你可能感兴趣的:(基因功能注释)