宏基因组实战4.基因注释Prokka

前情提要

如果您在学习本教程中存在困难,可能因为缺少背景知识,建议先阅读本系统前期文章

  • 宏基因组分析理论教程
  • 微生物组入门圣经+宏基因组分析实操课程
  • 1背景知识-Shell入门与本地blast实战
  • 2数据质控fastqc, Trimmomatic, MultiQC, khmer
  • 3组装拼接MEGAHIT和评估quast

测试数据

百度云分享经常被和谐,请读者自行从原始地址下载测试数据,无法下载请使用蓝灯、赛风等代理工具再下载。

Prokka注释基因

Annotation with Prokka https://2017-cicese-metagenomics.readthedocs.io/en/latest/prokka_tutorial.html

Prokka简介

宏基因组实战4.基因注释Prokka_第1张图片

细菌基因组、宏基因组的基因注释一直是一个非常复杂的问题,Prokka的出现改变了这一切。

Prokka: rapid prokaryotic genome annotation,快速的原核基因组注释。就是上面的神兽,猜猜是什么动物,但真不是皮卡丘。

Prokka是一个命令行软件工具,可以在一台典型台式机上在约10分钟内充分注释一个细菌基因组草图。它产生标准兼容的输出文件以进行进一步分析或者在基因组浏览器中查看。Prokka是用Perl实现的,在遵循开源GPLv2许可证下可以从 http://www.vicbioinformatics.com/software.prokka.shtml 免费获得。

此软件2014年发表于Bioinformatics,截止2017年11月2日Google学术统计引用1265,最新版本1.12于2017年3月14日更新,大小360MB。因为它是一个复杂的分析流程,依赖关系众多。

安装程序

进入工作目录,即你下载数据的目录

# 设置工作目录 wd,用户根据自己的实际情修改
wd=~/test/metagenome17
cd $wd
# 下载prokka
git clone https://github.com/tseemann/prokka.git
# 安装依赖关系
sudo apt-get -y install bioperl libdatetime-perl libxml-simple-perl libdigest-md5-perl
# 安装perl包XML
sudo bash
export PERL_MM_USE_DEFAULT=1
export PERL_EXTUTILS_AUTOINSTALL="--defaultdeps"
perl -MCPAN -e 'install "XML::Simple"'
exit

添加环境变量和设置数据库

# 添加环境变量
export PATH=$PATH:`pwd`/prokka/bin
# 自动搜索并添加数据库
prokka --setupdb
# 测序数据库
prokka --listdb

Prokka使用Uniprot-DB数据库,可使用–usegenus –genus Enterococcus指定额外的数据库

运行Prokka注释contig

# 建立工作目录
mkdir annotation
cd annotation
# 准备输入文件
ln -fs ../assembly/combined/final.contigs.fa ./
# 一句命令10分钟搞定之前别人半年的工作
prokka final.contigs.fa --outdir prokka_annotation --prefix metagG --metagenome --kingdom Bacteria

就是这么简单,一句命令10分钟搞定之前别人半年的工作。给你输出了你想要的,不想要的各种格式结果。

输出文件说明详见下面链接 https://github.com/tseemann/prokka/blob/master/README.md#output-files

下表我列出各种输出结果格式简介

表1. Prokka 结果说明

Extension Description
.gff 基因注释文件,包括gff和序列,可用igv直接查看
.gbk Genebank格式,来自gff
.fna 输入contig核酸文件
.faa 翻译CDS的AA序列
.ffn 所有转录本核酸序列
.sqn 用于提交的序列
.fsa 输入序列,但有sqn的描述,用于tbl2asn生成sqn文件
.tbl 特征表,用于tbl2asn生成sqn文件
.err 错误报告
.log 日志
.txt 统计结果
.tsv 所有注释基因特征表格

查看结果

# 进入结果目录
cd prokka_annotation
# 结果总结
cat metagG.txt

organism: Genus species strain
contigs: 7904
bases: 13222363
CDS: 12199
tmRNA: 4
tRNA: 300
repeat_region: 7

上面我们看到结果统计的叠连群(contigs)数量,预测基因(CDS)数量等基本信息。下面看一下预测的基因序列。

预测基因展示:

# 查看序列的基因序列
less -S metagG.fsa

>k141_4 [gcode=11] [organism=Genus species] [strain=strain]
ATCGTTTCCCTGCAGACGTCCACCGAGACGAGGTCCGTGGCTTCCACCAGTGCCCCGAGG
GCTACGATGTTGGCCACCTTTTCGCTGCCAAGTTCAAGCGCCGTGGTATGACACGGCACC
GGCAGCACGATGATATCGGATCTGGGGTCGGGATAATCCAGCAGGTCGGAATTGTAAATC
AGCGCTCCGCCCGGTTTTATGATACCGATGAAT
>k141_6 [gcode=11] [organism=Genus species] [strain=strain]
ACAGAACAACCAGGTGGAAACGTATGGTAATTATTGACACGAACACCCACGCCTTGTATT
ATAAGCGTCGCCCCTTGAAACGGGCGGCGTTTTTCATGCACCTTGACAGAGTTATATAGG
CAGGAGAGTAAGCGGGAGAAGGTAAGAGCGATTTATGGAGAGTTTGATCCTGGCTCAGGA
CGAACGCTGGCGGCGTGCCTAACACATGCAAGTCGAACGGTCTG

结果众多,不再一一列举,下面用到自然会提到并介绍,用不到的我也不懂了,今天就到这里了。

Reference

  1. 教程原文 https://2017-cicese-metagenomics.readthedocs.io/en/latest/prokka_tutorial.html
  2. Prokka: rapid prokaryotic genome annotation https://www.ncbi.nlm.nih.gov/pubmed/24642063
  3. Prokka中文摘要 http://www.chinapubmed.net/24642063
  4. Prokka官网 http://www.vicbioinformatics.com/software.prokka.shtml
  5. Seemann T. Prokka: rapid prokaryotic genome annotation. Bioinformatics. 2014 Jul 15;30(14):2068-9. PMID:24642063
  6. 官方帮助 https://github.com/tseemann/prokka/blob/master/README.md

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外六十多位PI,六百多名一线科研人员加入。参与讨论,获得专业指导、问题解答,欢迎分享此文至朋友圈,并扫码加创始人好友带你入群,务必备注“姓名-单位-研究方向-职务”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决推荐生信技能树-微生物组版块(http://www.biotrainee.com/forum-88-1.html) 发贴,并转发链接入群,问题及解答方便检索,造福后人。
image

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
image

点击阅读原文,跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA

你可能感兴趣的:(宏基因组,宏基因组分析)