2021-09-21基因的“命运”

       随着技术的发展,动植物的全基因组测序到现在已经超过了2000个,而且这个惊人的数字是在最近三年内得到爆发的。这样体量的数据涌现,为分子生物学的发展提供了巨大的助力。最近三天身体不舒服,实在做不动分析了,挑这个时间简单归纳一下我对”基因的命运“这个课题的思考。
       自分子生物学诞生以来,科学家们就对蛋白编码基因的探索投入了最大的精力,每一个新的酶结构的解析,每一个新的基因功能的验证,每一个家族的演化关系阐明,都会得到学界的普遍关注。而这些编码基因其实只占到了基因组的5-10%左右,且数目总是维持在20,000-40,000之间。这是一种微妙的平衡,为了维持这种多样性与保守性,功能性与稳定性之间的平衡状态,基因很可能存在着一种诞生又消亡的机制。那么,基因生死命运背后的机制是什么呢,这个课题便得到了众多研究人员的关注。在大规模物种基因组被测序之前,人们只能根据部分家族,简单的位点的基础上去推测,而不能在基因组层面上得到大规模的理论验证。基因组时代的到来尤其是泛基因组学的发展,无疑为生物学家们试图解析基因的命运提供了绝佳的机会。
       我会在这篇短文里简单总结一下学界对此的探讨,理解不对,万请指正。

基因的 获得与丢失 plus 模型

       大概在上世纪70年代,学者们便发现了功能非常重要的基因家族的存在,其变化多样,但又在不同类群间保守。一开始人们觉得协同进化模型可以解释,但实际上协同进化模型解释不了基因家族为何如此多样性,即不同类群对应诞生了不同亚家族,同一个物种内不同亚家族同时存在。此时 获得与丢失 模型诞生并慢慢成熟,它认为基因有消亡与获得两种状态:
基因的消亡有两步:
基因变成假基因,再变成非基因序列。
基因的获得有三个渠道:

  • A.自我复制的模式,如 gene duplication,retrotransposition,fusion / rearrangement,horizontal gene transfer;
  • B. 假基因转为基因;
  • C. 非基因序列转为元基因Protogene,再变成基因。
Birth-and-death model

模型里有几个名词需要界定:

假基因

       基因在不能给物种提供选择优势的时候,即不再具有适应性以后,会慢慢积累突变,当这些突变使基因序列过早出现的“终止信号”、增添或者缺失的核苷酸,造成了阅读框错误等等,总之就是最后无法合成原先的蛋白质,那么一个基因就成功转变为了假基因。
假基因的产生有两种模式:

  • A.加工型(Processed)假基因,即基因的一部分mRNA或hnRNA转录本自发地逆转录回DNA并插入,过程里非常容易发生问题影响原有正常功能从而假基因化
  • B.非加工型或复制型(Non-processed (or duplicated) )假基因,即一个基因通过各种模式把自己复制了一份,新产生的拷贝包含完整的内含子外显子等,但是在选择作用下,这两个一模一样的基因之一丧失功能形成了假基因。这一过程很多是由逆转录转座(retrotransposition)介导,非常有趣。


    Pseudo_gene_schematic

       假基因由于失去了原有功能,可以随意的变异,有的会”沉沦“下去,变成非基因序列,也有些因为又获得了有利突变而重新变成了编码基因。除此之外,它还可能就这么作为假基因存在着,而且转录活跃, 参与生物系统的调控,只不过就是不翻译成蛋白质而已,很像lncRNA。

原基因(protogenes)

       是从非基因序列从头随机出的基因序列,具备一定的表达和转录能力,但是并不知道或没有确切的功能,很像新生的婴儿,有无限的可能。从序列水平看,也很难根据所谓的相似性给一个同源序列,这一点基本跟 孤儿基因 (orphan gene) 区分不开,孤儿基因一般被不是从头演化而来,而是由超出检测能力之外的 duplication 和 divergence 得来。想要区分两者,必须引入临近物种的基因组作为参考。但实际上,只有一个基因组的话,这种原基因与孤儿基因可以统称为新基因 (de novo gene)。
       原基因是怎么变成稳定的基因结构的呢,这就要引入适应性的概念,原基因由于处于活跃状态,往往会不停积累变异,当积累的变异对某一功能有利时,它便会稳定下来行使功能,而累积到的变异有害时,它会渐渐清洗从而再次变成 非基因序列。孤儿基因往往都是稳定且具有特定功能的,很多都是辅助性的,但是也有很多因为没有同源基因,其功能不可或缺,所以在基因组中非常保守稳定。

基因的自我复制与获得

基因除了从头获得,还可以在已有的基因基础上,直接产生。主要有四种模式 horizontal gene transfer,fusion/rearrangement,retrotransposition,gene duplication

1. 基因水平转移 (horizontal gene transfer)

       生物界中父母把基因传给子代的过程被称作基因垂直传递。水平传递与之不同,指生物将遗传物质传递给其他细胞/生物而非其子代的过程,例如:接合、转导及转化。植物界自发产生最广泛的就是叶绿体/线粒体跟细胞核的核质互换。而且根据内共生理论认为叶绿体和线粒体可能起源于细菌内共生。

Tree_Of_Life_with_horizontal_gene_transfer

2.基因融合与重排 (fusion / rearrangement)

染色体的易位/缺失/倒位或LTR-RT这类的转座子将两个原先各自独立基因的原件拼接到了一起,从而形成了一个新的融合的基因。


Gene_Fusion_Types
3.反转录转座(retrotransposition)

       这里就要介绍什么是转座子,最早是玉米中发现的,被称为跳跃基因,顾名思义,这类元件总是在基因组上跳来跳去的。转座子(Transposable elements) 根据活动模式被分I型(class I)和 II 型(class II):

  • II型转座子又称DNA类转座子,其元件是剪切-粘贴型;
  • I 型转座子也就是反转录转座子,也称RNA介导的转座子,它的过程是一种复制粘贴型,原始备份会在基因组原来位置保留着。分为 long terminal repeats (LTRs) and non-long terminal repeats (non-LTRs)两类。反转录转座子这种保留原始备份且不停反转录后插入的特性使其有能力快速扩张基因组,而又因为其独特的重复序列特性,给基因组创造了更多的可能,例如推动假基因的产生,促进基因融合,使染色体脆弱之后更容易断裂重排。


    Functional consequences of new transposable element insertions
4.基因重复(gene duplication)

顾名思义,基因一个变成了两个,就是基因重复。这是最早被发现,最多被研究,最被学者关注的一类基因获得模式。

4.1.基因重复事件有什么好处吗?
  • A, Evolve a new function without losing the old one;
  • B, Fine-tune a gene for two different tasks;
  • C, Allow everyone to have both alleles of an overdominant system
4.2.基因按照同源基因对的距离或来源,分为5类:
  • WGD/segmental duplication(同一个基因组内共线性块上的基因对);
  • tandem (两个重复基因紧挨着在一起);
  • proximal (在同一个基因组片段上,基因对之间间隔不超过10个基因);
  • transposed (转座复制;由一个祖先而来的旧基因和一个与此旧基因同源的新基因组成的 新旧基因对,推测是通过远端转座复制产生的,表现在基因组上,即一个与祖先基因组共线性的基因,还有一个同源基因不在其所处的染色体上);
  • dispersed (散在的,不能归类为其余类别的同源基因对);
  • 完全找不到同源基因对的也称之为 singleton。


    Gene_duplication_class
4.3.那么,有什么机制会推动基因重复事件的发生呢?

本文上面涉及到的转座子活动,染色体的重排,结构变异(倒位易位等)除了可能产生融合基因假基因等之外,都有可能推动基因的复制。

染色体的非整倍体或全基因组的复制则会造成相对大的WGD/segmental duplication产生。

除此之外,tandem,proximal 这类重复可能由三种模式引起:

  • A, 同源染色体间的不对称的cross-over即Ectopic recombination (异位重组)(有趣的是断点区经常发现LTR这种转座子);
  • B, DNA复制时出错了导致滑动位移(Replication slippage)。
  • C, 外显子重组 (Exon shuffling)
4.4.基因重复之后,会经历怎样的命运呢,尤其是从需要历经选择的长期的过程来看。学者们提出了各种模型,目前来看可以大体归为三类:
完全保留;Deterioration或丢失;部分保留
  • A, 完全保留,是重复基因对的序列和功能保持较高相似性的状态,这多半是因为剂量效应或者背景补偿进而形成的协同进化作为推动。
  • B, Deterioration或丢失,是一对基因对中的一个在”竞争“中失败,直接变成了假基因或序列完全丢失;这个过程很多时候是随机的,而且是大部分重复基因的命运走向。
  • C,部分保留,指序列和功能两方面的部分保留,又分为两类新功能化(Neofunctionalization)和亚功能化(Subfunctionalization)
    Neofunctionalization 中比较成熟的模型是'innovation, amplification, divergence’ IAD模型。模型认为重复基因对中的一个保持不变,另一个则产生了完全不同的新功能,但是序列上仍旧保持了相似性。
    Subfunctionalization有两种模型:
    第一种模型 较早出现: "duplication-degeneration-complementation"DDC模型,它认为 neutral drift 作用下导致两个同源基因各自突变丢失了一部分祖先的功能,剩下的功能两者互补,丢失任何一个,另一个基因都不能完整地行使祖先的功能。
    第二种模型 是2007年被提出的"Escape from Adaptive Conflict" EAC 模型,它认为正选择的作用在复制之前就开始起作用了,一个多功能的祖先在重复事件发生后,两个重复基因各自继承祖先基因的部分功能,以此解决两个基因一模一样所造成的”adaptive conflict“问题。产生的子基因之间有无互补关系也不重要,例如组织特异性表达的同源基因对,丢失一方也能正常行使功能。为了跟DDC提出的Subfunctionalization有所区分,学界有时候也把这种亚功能化称为 Specialization。

       全基因组加倍(WGD)是生物界很有趣也异常重要的一个现象,即整个基因组直接加倍,分为同源多倍化、异源多倍化。多倍化事件为生物尤其是被子植物应对剧烈的环境变化提供了充足的弹药,一次基因重复释放了这个基因的压力,整个基因组的重复那将创造何等强大的变化潜力是难以想象的,重复基因的命运也就变得格外多样复杂。但是从底层的逻辑规律上看,这种全基因组层面加倍以后多基因的命运,与单基因重复之后的基因命运并没有表现出不同的前景。图中给出了简单的呈现,单基因多基因基本都遵循着类似的模式。
       需要注意的是,已有的研究发现,不同的基因重复事件之后,其走向的规律却是不同的,因此研究的方向也就格外多样化,例如总体比例,基因表达差异,基因组分布规律,诞生时间,丢失比例速率,重复次数,功能富集偏向性,选择压力,TF启动子的家族分类,剂量效应等等。


Long-term fate of single duplicated genes.png

Long-term fate of multiple duplicated genes.png
4.5.如何探究基因重复命运(保留模式)呢?

上图的模式看起来如此简单,但是考虑到技术实现的时候,探究某个物种的重复基因的命运就变得异常困难了。
好在最近几年测序技术的反正给这种分析提供了技术上的可行性:

  • A, 基于临近物种及其基因表达数据,CDROM: Classification of Duplicate gene RetentiOn Mechanisms 和 晋级版的 CLOUD: CLassification using Ornstein–Uhlenbeck of Duplicates
  • B, 基于基因家族水平探究其扩张收缩的 COUNT 和 Cafe: Computational Analysis of gene Family Evolution
总体来看,基因的命运还是曲折跌宕的,变化灵活多样,但不论怎样都没有脱离 Stochastic 和 Adaptive 的轮番上场斗法的”魔掌“,也是有趣。

你可能感兴趣的:(2021-09-21基因的“命运”)