利用Geneious对叶绿体基因组进行注释及查看

使用软件:Geneious

目的:对组装好的叶绿体基因组进行注释,注释好后进行查看,无误后绘制圈图

【注释部分】

1.首先从NCBI上下载一段与要注释的物种(目标序列)同源的物种的叶绿体基因组序列(参考序列)genbank格式,这里的参考序列与目标序列可以是同一物种

参考序列需要是gb格式,但是目标序列是fasta格式的就行了。

NCBI上随意选择一个物种进行搜索
找到叶绿体的全基因组,点击进去
如图所示进行操作即可

2.打开Geneious,新建一个文件夹,将参考序列的gb格式文件存放进去,例如这里的新建文件夹命名为01。

3.导入目标序列到除01外的任意文件夹中。

4.点击Geneious右侧的橙色按钮,如下图所示:

5.Source是参考序列gb格式所在的文件夹,即01,拿这个参考序列的gb格式文件去对目标序列的fasta文件进行注释。

(参考序列一定要是gb格式!!!因为只有gb格式才有注释信息!!!没有的话就去NCBI上下载)

将Similarity调到70%,勾选最上方的annotate开始注释了。

注释完成后点击截图下侧的绿色箭头Apply

(后续在进行注释完查看的时候,发现目标序列有些rps12与其它物种相比数量不一致,较少,其实也是和Similarity此处设置的数值有关,把它降低到50%,应该就会有更多的rps12出现。保证有rps12这种基因就行,数量可以不统一。

【查看部分】

需要准备一个同属的物种的叶绿体的圈图,作为参考,可从文献中得到。

因为它们的叶绿体基因组是很稳定的(至少我研究的物种是这样,其它的种不清楚),有哪些基因(即基因种类)、每个基因自身的方向是正向还是反向(基因方向)、基因与相邻基因的排列(基因连接)都几乎是固定不变的。

在查看的时候我们可以直接认为上述这些是不变的,来进行参考查看。

注释完之后有以下几点需要查看:

注释出来的每段基因序列的开头是否都是起始密码子(不用看密码子,只要看标注出来的蛋白质是M即可);

注释出来的每段基因序列的结尾是否都是终止密码子(同理,是黑色星号即可);

同时还要保证注释出来的每段基因序列有且仅在末尾有一个终止密码子,也就是说序列当中不能出现终止密码子,也不能有多个终止密码子。

如果出现一段基因序列有多个终止密码子,就要手动进行调整,详细操作见下。

如图,此段序列中含有多个终止密码子,就需要调整,将末端拽到光标处。调整的标准是可以往前拉动,也可以往后拉动,但是不能拉太太太长或太太太短。
开头的M
结尾的终止密码子(与上图是同一段序列,放大之后没办法截全,就分开截了)

只查看注释出来有蛋白质的序列开头是否是M,结尾是否是*,此段序列中有且仅有末尾是*;

没有注释出来蛋白质的,不用管。

看这里最上面的小黑线,只管有小黑线的部分

一段基因中间断了,没有蛋白质,但两端有蛋白质的,就只看两端这些有蛋白质的就行。

即:保证序列注释出来后有蛋白质标注出来的序列的开头是M,结尾是终止密码子就好。

只管有小黑线的部分

查看基因名是否应该是这个物种里的,同时查看这个基因的顺序是否正确。

基因方向:

在外环的基因为正向,在内环的基因为反向。

从网上随意找的一个叶绿体圈图

如果出现了这个物种里本不应该有的基因名,就要把这个基因名的注释删掉。

比如下图中,一段序列就出现了好几种注释,就要对照参考的圈图把不该出现在这里的右键删掉(只删标识,不删序列)。如果参考的圈图中这里注释只有一种,那目标序列的也就只有一种。

表示注释出好几种,重叠在一起了,但是长度不完全相同
放大之后可以看到,其实是不完全相同的
此时把不需要的那个注释右键删掉

若此时需要留下的trnT-UGU,在删掉GGU后,双击:

只留下想要的那个名称就行
结果

还有一些编辑过程中的疑问解答:

看着两个基因重叠在一起了,于是想放大查看其开头和结尾
放大后发现怎么好像结尾不是终止密码子?但其实是正确的,接下图
点击黄色标识或绿色标识就能看到具体信息,可见是正确的

③在查看基因连接顺序时,还要注意一点:IR区

冷杉叶绿体基因组有两个IR区,每个IR区又有两个,每个由三部分组成(此处存疑,有的这么认为,有的只认为C和D是IRS,我们在注释处理的时候认为都是重复区)即:

IR2a(这里简称为A):psaM、trnS-GCU、ycf12

IR2b(这里简称为B):psaM、trnS-GCU、ycf12

IRa1(这里简称为C):trnl-CAU

IRa1(这里简称为D):trnl-CAU

其中,A和B可以互换,C和D可以互换。只有这两种互换情况,例A、D不可互换,B、C不可互换。

互换的意思是指例如B中的ycf12可接clpP,也可接tunG-GCC。这种结构也是对的。就相当于A、B置换后,也可再接其他的。

此处还需注意:

置换过去之后,原来旁边的基因该是什么方向,还是什么方向。例如B中的ycf12可接clpP,当它接tunG-GCC之后,原来的tunG-GCC是内环的,反向;置换过去之后tunG-GCC还是反向的,其余的基因也是这样。

但是,我的基因顺序置换过去之后,连接的基因就正反方向互换了,师姐说我这种顺序也是存在的,是正确的。如果想弄成和参考的圈图完全一样正反方向不变的话,就要自己在Geneious中手动调整。

建树的时候,我把所有序列的连接顺序、方向都弄成了一致的序列,去建树。

bandage中手动组装在下一篇中记录一下如何操作。这里我就用了自动跑出来的组装结果。

你可能感兴趣的:(利用Geneious对叶绿体基因组进行注释及查看)