基因家族专题(2):数据下载与基因家族成员的鉴定

确定的研究基因家族

在做基因家族的研究直接,首先你要确定你需要研究的对象(基因家族是什么?)

一般来说选择基因家族的选择方式可以分为以下几种:

  1. 与课题相关的基因家族
    例如假如你们实验室是专门做某些基因的研究,对该基因家族有一定的了解,例如抗性基因,你就可以专门深挖该基因家族的研究
  1. 研究的热点

这方面就是有一些基因家族很重要,很多人都在研究他,这样可以挑选一些其他人还没有研究过的植物,研究该基因家族在这个植物中的作用

  1. 新基因家族

这个方法就是挑选一些其他人还没研究或者研究不多的基因家族进行研究,一般来说难度会比较大,不推荐。

在确定好研究对象后,可以通过Google或者baidu对该基因家族进行搜索,确认在你需要研究的作物中,该基因家族还没有被研究过。

下面我就以拟南芥为例,对其NBS-LRR基因家族进行研究分析。

文章链接:
https://bmcgenomics.biomedcentral.com/articles/10.1186/s12864-015-1554-9

了解你研究的基因家族的特征

  1. 可参考收录了基因家族特征的网站,如TAIR (拟南芥作为一个模式植物所被研究的基因家族,https://www.arabidopsis.org/)或PlantTFdb(主要针对转录因子,http://planttfdb.cbi.pku.edu.cn/),并进行预测和总结。
基因家族专题(2):数据下载与基因家族成员的鉴定_第1张图片
基因家族专题(2):数据下载与基因家族成员的鉴定_第2张图片
  1. 查找相关文献

并不是所有的基因家族都被收录到网站中,在这种情况下,我们可以通过查找与该基因家族的文献进行阅读,一般在这些文章中,都会对该基因家族进行总结规律。阅读相关文章也是很重要的,特别是同一基因家族在不同作物上的研究,你不但可以了解到其基础特征,还能通过文章了解他们所做的分析(包括方法还有参数等),对你后续的分析还有文章的写作都会有很大帮助。


基因家族专题(2):数据下载与基因家族成员的鉴定_第3张图片
3.PNG-105.9kB

数据下载

当把准备工作做好后就可以开始下载数据了,一般我们需要下载的文件包括:

  1. 基因组序列信息,存储基因组序列信息的.fasta文件。还有其蛋白质序列,也是以.fasta结尾的文件。一般来说注释的比较好的基因组都会含有这些文件。
  2. 基因组基因结构注释信息。储存基因的intron,exon,CDS,gene等坐标信息的.gff3或.gtf文件。

下载方式:

  1. 通过该植物的基因组文章,找到其对应的数据库,进行下载。注释的比较好好的植物例如大豆,水稻,拟南芥等等,都会有其自己的基因组数据库,去对应的数据库下载是比较推荐的方法,可以下载到版本最新的基因组序列和基因组结构注释文件。

  2. 常用的植物数据库,例如ensembl plant (https://plants.ensembl.org/index.html) 和 Phytozome
    (https://phytozome.jgi.doe.gov/pz/portal.html)里面囊括了大部分的植物的基因组文件。但版本可能是比较旧的。

下面简单演示通过phytozome下载拟南芥的数据:

基因家族专题(2):数据下载与基因家族成员的鉴定_第4张图片

选中拟南芥,然后通过点击bulk data进行下载,在下载之前phytozome要求注册一个账号,才能下载。这里我就偷懒,把全部的基因序列和注释的文件全部下载下来。

基因家族专题(2):数据下载与基因家族成员的鉴定_第5张图片

准备工作做得差不多了,下一次推送会开始讲一些分析的内容,敬请期待。


你可能感兴趣的:(基因家族专题(2):数据下载与基因家族成员的鉴定)