The evolution of gene expression levels in mammalian organs
摘要
基因表达的变化被认为是物种之间许多表型差异的基础。然而,直到最近,技术限制一直阻碍了对基因表达演化的大规模分析。在这里,为了了解哺乳动物转录组进化的动态,我们报道了来自10种主要哺乳动物谱系(胎盘类、有袋类和单孔类)和鸟类(进化外群)的6个器官的多聚腺苷化RNA的测序。我们发现,由于选择压力的差异,基因表达的进化速度在器官、谱系和染色体中有所不同: 神经组织中的转录组变化较慢,而睾丸中的转录组变化较快,啮齿类动物中的转录组变化较猿和单孔目动物慢,而X染色体形成后的转录组变化较快。虽然哺乳动物的基因表达进化在很大程度上是由纯化选择决定的,但我们发现了许多潜在的选择性驱动的表达开关,它们在不同的谱系和组织中以不同的速度发生,并可能对各种哺乳动物的特定器官生物学作出贡献。
引言
哺乳动物共有的特征包括哺乳、毛发和结构独特的相对较大的大脑。除了这些特征外,个体谱系还进化出与生殖、寿命、认知能力和疾病易感性差异有关的独特的解剖、生理和行为特征。这些表型转变背后的分子变化和相关的选择压力已经开始利用现有的哺乳动物基因组进行研究,这些基因组的数量正在迅速增加。然而,尽管基因组分析可能会发现蛋白质编码的变化可能是表型改变的潜在基础,但影响基因表达的调控突变可能解释许多甚至大多数物种之间的表型差异。
直到最近,哺乳动物转录组的比较基本上仅限于近亲灵长类动物或小鼠,尽管也尝试过用微阵列进行人鼠比较。然而,微阵列需要与物种特异性探针杂交,这使得物种间比较转录本丰度变得困难。RNA测序(RNA-seq)协议的发展使得对表达水平的准确和敏感的评估成为可能。RNA-seq在转录组评估中的威力最近在人类个体和近缘灵长类动物身上得到了证实。
RNA-seq和基因组重注释
为了高分辨率地研究哺乳动物转录组的进化,我们生成了大脑(大脑皮层或没有小脑的整个大脑)、小脑、心脏、肾脏、9种哺乳动物的肝脏和睾丸(通常每一份体细胞组织取自一名男性和一名女性,睾丸取自两名男性): 胎盘哺乳动物(包括人类在内的类人猿;恒河猕猴;还有老鼠)、有袋动物(灰色短尾负鼠)和单孔目动物(鸭嘴兽)。相应的数据是针对一种鸟类(红色丛林鸡,一种非家养鸡)生成的(~3亿 reads),并用作进化的外群。
我们改进了现有的ensembl基因组注释,通过执行初始read比对来检测转录区域和剪接连接(方法和补充说明),这导致了~31000 - 44500外显子的边界修改,并增加了20,000 - 34500个新的外显子和66000 - 125000个新的剪接连接到已知的蛋白质编码基因。我们还搜索了新的多外显子转录位点; 我们的结果验证了大多数集成注释的蛋白质编码基因、伪基因和长链非编码RNA基因,但我们也在之前未注释的区域检测到数千个多外显子转录位点(可能代表蛋白质编码或非编码RNA基因)。
新发现的外显子转录水平较低,在序列水平上,与ensemble注释的外显子相比,显着不那么保守(two-tailed P<10-8, mann - whitney - test);然而,与侧翼内含子相比,新外显子的序列保守程度更高,剪接位点周围有可见的峰值,这表明这些外显子序列中有许多是通过纯化选择保存下来的。
根据物种,总基因组长度的11 - 30%是有明确的RNA-seq reads比对上(表1)。大部分的覆盖长度是解释为保留内含子, 但实质性的报道也发现外注释区域(表1)。我们的数据表明,脊椎动物(哺乳动物和鸟类)的大部分基因组(34 - 61%)是转录的,这与之前的工作一致。
在此基础上,我们重新比对了RNA-seq reads,并解决了读码比对歧义(方法)。在这篇文章中,我们着重于蛋白质编码基因表达水平的比较分析。为了在所有10种脊椎动物之间进行比较,我们使用了一套5636个一对一(1:1)的同源基因(方法)。对6种灵长类动物使用了一套对应的13,277个1:1同源序列。表达式值被规范化以使数据跨物种(方法)具有可比性。
哺乳动物基因表达系统发育
为了获得基因表达模式的初步概述,我们进行了主成分分析,该分析根据组织清楚地分离了数据(只有神经组织没有完全分离),尽管很大一部分的差异也可以由谱系之间的差异来解释(图1a)。
为了更详细地重建整体进化趋势,我们构建了每个组织的表达距离矩阵,并重建了基因表达树(图1b)。这些树与已知的哺乳动物系统发育关系高度一致: 他们正确地解析了三大哺乳动物谱系(胎盘类或真兽类;有袋动物;和单孔目动物),将两个真兽类谱系(灵长类和啮齿动物)分开,将人类和其他类人猿集中在一起,将猕猴(一种旧世界的猴子)排除在外。这表明,调控的变化在进化过程中不断积累,因此,近亲物种有更多相似的表达水平。考虑到物种内的变异(包括有时大量的性别偏倚的基因表达),以及由于实际和生物学原因,个体的年龄、摄食状况等特征在物种间不能完全匹配。因此,我们的数据中固有的进化信号可能反映了细胞基因表达水平的变化或物种间器官细胞组成的变化,超过了采样差异导致的基因表达变化。
图1| 哺乳动物基因表达差异的整体模式。a,信使RNA表达水平主成分分析的析因图。由主成分解释的方差所占的比例显示在括号内。b,哺乳动物基因表达系统发育。小脑和睾丸基于成对距离矩阵(12r, Spearman相关系数)的邻居连接树(见所有六个器官的补充图2)。Bootstrap值(随机取样5636个1:1的直系同源脊椎动物基因,替换1000次)用圆圈表示:白色,0.0.9;黄色,# 0.9。物种颜色代码:鸭嘴兽,淡蓝色;负鼠,深蓝色;真兽类(老鼠和灵长类动物),黑色。
然而,大猿族内的分支模式并不总是反映已知的系统发育(补充图2),尤其是人类、黑猩猩-倭黑猩猩和大猩猩,它们在500-700万年前才发生分化。bootstrap分析表明,根据5,636个脊椎动物的1:1直系同源物,这四个物种的分支顺序不能有力地建立在体细胞组织上(bootstrap值,0.9)。
为了解决类人猿基因表达关系,我们基于13277种灵长类1:1直系同源物构建了表达系统发育学,这有力地解决了类人猿大分支(即bootstrap值0.9,大脑除外),并揭示了令人惊讶的模式。在一半的表达树(睾丸、心脏和大脑)中,人类和大猩猩聚在一起,而黑猩猩和倭黑猩猩则不属于这一分支。这两个物种总是聚在一起,正如预期的那样,考虑到它们最近的分歧19,尽管黑猩猩和倭黑猩猩并不总是单系的。睾丸树将人类与大猩猩分组(bootstrap 值为 1;补充图 5),这与非洲猿类中雄性生理学和交配模式的进化一致:与不那么混杂的人类和大猩猩相比,高度混杂的黑猩猩和倭黑猩猩进化出相对于体型更大的睾丸和更高的精子生成率20。肾脏树和小脑树与已知的物种系统发育一致,而肝脏树有一个有趣的模式:人类落在由其他类人猿组成的进化枝之外,大猩猩和猩猩在该进化枝内聚集在一起。鉴于肝脏在代谢控制和解毒中的作用,这些模式可能反映了类人猿的饮食差异,尽管它们也可能反映了样本个体的进食状态模式。
谱系和器官表达进化率
从所有物种的共同祖先到树尖的分支长度非常相似(补充图 2),这表明基因表达进化在不同的哺乳动物谱系中以可比的速度进行。然而,在一些组织中通向小鼠的分支明显较短,特别是与通向类人猿和单孔目动物的分支相比(Bonferroni 校正的双尾 P < 0.05,分别在六个组织中的四个或三个中;随机化测试) ,尽管啮齿动物 DNA 突变率很高21(补充图 6;参见补充图 7对于消除种内变异差异的结果)。这与由于长链影响啮齿动物谱系的强纯化选择22、23 是一致的。我们的观察结果,通过另一种系统发育方法的确认(请参见补充说明),与基因表达研究和蛋白质序列进化的先前推断一致,并支持先前的基因表达进化模型,这些模型将纯化选择作为主导因素。
树的总分支长度在不同组织间存在很大的差异(图2a)。在整个卵胎动物和灵长类动物中,两种神经组织的进化速度明显比其他器官慢(Bonferroni校正的双尾P <0.001;随机化测试),表明它们在哺乳动物进化过程中可能经历了更强的纯化选择和/或更少的正向选择,这一发现非常引人注目,考虑到大脑在哺乳动物进化过程中发生了重大变化,包括大小、结构和细胞组成等方面,但与先前的研究结果一致,这些研究结果表明神经组织可能具有比其他器官更精细调节的表达网络。
a, 六种组织(br,脑;cb,小脑;ht,心脏;kd,肾;lv,肝;ts,睾丸)之间表达树总分支长度的比较,适用于所有amniotes动物和灵长类动物数据集。误差,基于自举分析的95%置信区间(1000个重复,每个物种有一个个体在每个重复中取样)。b,人类和其他物种之间的Spearman相关关系。彩色的包络显示了在100次引导复制中获得的数值范围。c, 治疗性X染色体与常染色体的表达式进化率。矩形反映了X染色体表达树(位于X染色体保守区34的102个1:1直系亲属;红色)与常染色体树(5494个常染色体直系亲属;白色)的中位分支长度(1,000次引导重复)。P值基于自举复制:星号表示双尾P<0.05(即在97.5%以上的复制中,X染色体树的分支更长),加号表示P<0.1。
肝脏、心脏和肾脏在卵胎动物(amniotes)中表现出类似的基因表达变化率(随机化测试不显著,P> 0.1),而在灵长类动物中,肾脏的进化速度明显比心脏和肝脏慢(P <0.05;图2a)。值得注意的是,睾丸曾被证明在表型和分子水平上都进化得很快,这可能是由于与精子竞争和其他与性相关的进化力量相关的正向选择所致,是两个数据集中进化速度最快的组织(P <0.001)。
成对物种比较证实,基因表达差异总体上随着进化时间而增加(图 2b),这与表达系统发育结果(见上文)一致。然而,对于大多数组织,人类和鸡之间的表达水平与人类和鸭嘴兽之间的表达水平大致相似,尽管鸟类谱系在单孔目动物和兽类哺乳动物(即真兽类和有袋类动物)分离前约1.1 亿年就发生了分化。这表明核心器官功能的保护限制了转录组的差异。
X染色体上的基因表达进化
接下来,我们调查了不同类型染色体上基因表达变化的速率。兽亚纲的性染色体来自同一祖先的常染色体,而单孔目动物的多个X和Y染色体则是独特的,并且在一定程度上与鸟类的性染色体同源。为了测试兽亚纲X染色体的基因表达进化是否在性染色体分化后加速,我们基于重建的表达树中的分支长度,比较了在两种染色体类型中(图2c),既在真兽类也在有袋类中都存在的X连锁基因(即X染色体保守区域中的基因)和常染色体基因的表达变化速率。
这种分析表明,在真兽类哺乳动物的共同祖先中,X染色体上的基因表达进化速度比常染色体快(对于大脑、小脑和心脏的双侧P < 0.05;对于肾脏、肝脏和睾丸P < 0.1;随机化测试),这对应于最初的原型XY染色体进化为性染色体的时间,并且在真兽类的共同祖先中保持加速(对于大脑、小脑和肾脏的双侧P < 0.05;对于心脏、肝脏和睾丸P < 0.1)。相反,X染色体表达进化速度与常染色体近期类似,如反映在末端真兽类支系上(对于所有组织和分支P> 0.1),符合我们的假设,即基因表达进化只在新形成的X染色体上以更快的速度进行。
观察到的模式不太可能反映X染色体作为性染色体的新通用特性(例如其有效种群大小减少或重组率降低),因为这样的特性会导致X染色体起源后所有分支的进化加速。相反,它可能反映出新形成的X染色体上功能适应速率的增加,潜在地由于在性染色体分化后开始塑造该染色体的与性有关的选择性压力,和/或与Y染色体退化导致的雄性X染色体剂量减少相关的选择性压力(见下文)。在这种情况下,值得注意的是,蛋白质序列变化的速率(除了具有Y染色体对应基因的X连锁基因)和新基因在X染色体上的固定速率似乎在性染色体分化后增加了。因此,类似于果蝇,在哺乳动物中早期X染色体的演化似乎具有基因功能适应速率增加的特点。
模块化基因表达变化
鉴于基因通常一起发挥作用,不同基因组的一致表达变化可能通常在表型上相关。为了识别这种表达变化,我们确定了在样本子集上具有连贯表达模式的基因组40(补充说明)。这些“模块”被筛选为功能类别的统计显着丰富。
在所有amniotes动物数据中的 639 个模块和灵长类动物特定数据集中的 197 个模块中(补充表 4-7;另请参阅具有全面模块详细信息的可搜索数据库http://www.unil.ch/cbg /ISA/species),有 33 个器官特异性模块在物种间具有保守的表达水平(amniotes动物 17 个,灵长类动物 16 个),145 个器官(或器官对;见下文)具有不同谱系特异性表达模式的模块(amniotes动物 124 个,灵长类动物 21 个),以及 658 个模块与特定系统发育组没有明确关系和/或影响多个器官(amniotes动物 498 个,灵长类动物 160 个)
33 个器官特异性保守模块富含参与典型过程的基因(例如大脑的突触传递;Benjamini–Hochberg 校正P < 0.05),从而定义了常见的灵长类/哺乳动物器官功能。
具有谱系特异性表达模式的 145 个器官特异性模块为了解不同哺乳动物的器官生物学提供了线索。例如,全羊膜动物数据揭示了 25 个神经组织模块,它们沿着哺乳动物系统发育的主要末端分支进化出不同的表达水平(图 3a和补充表 8 和 10)。值得注意的是,非灵长类哺乳动物中枢神经系统特有的模块通常(16 例中的 14 例)在大脑(或大脑皮层)和小脑中表现出改变的表达(补充表8), 表明它们在哺乳动物中存在紧密的功能和进化联系。同样,肾脏和肝脏的模块化表达变化通常(28 例中的 14 例)影响这两个器官,这可能反映了它们在解毒和废物排泄方面的密切功能相互作用。唯一具有不同睾丸模块的终端谱系是灵长类动物和单孔类动物(补充表 8 和 10)。
a,显示了在人脑(前额叶皮层;259 个基因)和灵长类小脑(189 个基因)中具有特定表达状态的模块。对于每个样本,条形代表模块中所有基因的加权平均表达(水平灰线表示平均条高)。水平红线表示双聚类算法的截止;红线上方的样本被认为具有不同的表达状态。有关详细信息,请参阅[补充说明](https://www.nature.com/articles/nature10532#MOESM325)和我们的可搜索数据库 ( [http://www.unil.ch/cbg/ISA/species](http://www.unil.ch/cbg/ISA/species) )。b ,在人类前额叶皮层( LIX1;ENSG00000145721)、灵长类动物皮层(COL25A1)中进化出新的最佳表达水平的基因示例; ENSG00000188517)和鸭嘴兽小脑(TRMT1L;ENSG00000121486)。表达水平表示为 log 2 -转换的 RPKM(每百万映射读数的外显子模型每千碱基的读数)(详见补充[表 11-26 )。](https://www.nature.com/articles/nature10532#MOESM325)给定物种或组织的不同个体的错误、表达值范围。
在哺乳动物系统发育内部分支发生的 32 个模块基因表达变化中,大脑、小脑和/或睾丸中的 8 个模块高度富含 X 连锁基因(Benjamini-Hochberg 校正 P < 0.05),并且沿着性染色体分化过程中常见的兽类或真兽类分支(补充表 8 和 10),这与观察结果一致,即雄性新进化的兽类 X 染色体上基因剂量的减少并未被 X 连锁基因的全局转录上调所补偿(P. Julien等人,提交手稿和参考文献41)。
哺乳动物和鸡之间的模块化表达变化仅发生在神经组织以及肾脏和肝脏中(补充表 8 和 10)。其中四个模块显着富含 X 连锁基因(Benjamini-Hochberg 校正P < 0.01)。我们的结果表明,哺乳动物大脑的早期进化与 X 染色体表达变化密切相关,这可能是因为原型X连锁大脑基因的过度表达42。
灵长类动物数据集中唯一具有大脑特异性(即前额叶皮层;补充说明)表达模块的谱系是人类(补充表 9 和 10)。四个人类特异性大脑模块(补充表 10中的 ID #p173)中最大的一个中的 259 个基因参与了各种神经过程,其中几个(例如细胞粘附分子;Benjamini–Hochberg 校正后的P < 0.05)以前是在人类和黑猩猩之间的调节序列差异分析中发现丰富43. 值得注意的是,与神经元绝缘相关的大量基因本体类别(39 个中的 12 个)可能反映了人类前额叶皮层中有髓轴突(白质)的比例高于其他灵长类动物,这意味着该区域与其他皮质区44.
单个基因的表达变化
为了检测单个基因的生物学相关表达变化,我们开发了一个最大似然框架,用于模拟系统发育中的基因表达进化。我们比较了几种包含选择和遗传漂变并考虑了种内变异和测量误差的模型(补充说明)。为了检测相关的谱系特异性变化,我们比较了一个模型,该模型假定给定基因在系统发育的所有分支中具有单一最佳表达水平,而该模型在该模型中该基因在特定谱系中进化出不同的表达最佳值。
使用这种方法,我们确定了 9,255 个显着的表达变化(Benjamini-Hochberg 校正双尾P < 0.05;对数似然比检验;检验总数,577,105;表 2和补充表 11-26)。值得注意的是,在 3,909 个测试的羊膜动物直向同源物中,有2,452 个( ~ 63%)和在 9,969 个测试的灵长类直向同源物中有 3,314 个( ~ 33%)在羊膜动物或灵长类动物进化过程中,六个器官之一分别经历了至少一次显着的表达转变。我们的方法旨在检测选择性驱动的表达变化,但也可能检测由于遗传漂变或其他非适应性力量(例如,有偏见的基因转换45)、基因剂量改变(例如,在性染色体分化过程中;见下文和 P. Julien等人,提交的手稿)或细胞组成变化。无论如何,我们的结果提供了一个广泛的潜在适应性表达变化候选者列表。
我们对所有主要哺乳动物谱系的组织转录组的分析完善了之前的假设,并为哺乳动物基因组的功能和进化提供了许多新线索。这项工作标志着利用已报告的转录组数据的开始,这将有助于未来对哺乳动物基因组生物学的研究。
方法总结
我们提取了高质量的 RNA,并使用标准方案制备了 131 个聚腺苷酸化 RNA-seq 文库。在 Illumina Genome Analyzer IIx 平台上对文库进行测序。我们改进了现有的基因组注释,以解决潜在的混杂因素,并使用分段聚类方法建立组成型和替代外显子。我们根据检索到的每个物种对的 1:1 直系同源基因列表构建了直系同源基因集。为了评估注释异质性对物种间变异的影响,我们确定了在所有物种之间完美对齐的组成型外显子序列集。在我们完善的注释的基础上,最终的读取映射位置是使用解决读取映射歧义的过程建立的。我们计算了标准表达值 (RPKM),这些值在等级保守基因和中值缩放程序的基础上跨物种和组织标准化。使用这些数据进行了各种生物学分析,包括开发系统发育最大似然法来检测单个基因的显着表达变化。
测序数据已存放在 Gene Expression Omnibus 中,并已直接提供给 Ensembl 用于注释目的。不同表达水平的数据集作为补充数据集 1 和 2提供。所有中间和最终结果和数据均可应要求从作者处获得。
在线方法
详见https://pubmed.ncbi.nlm.nih.gov/22012392/
amniotes:是一类爬行动物和哺乳动物的总称,它们的卵中包含了具有内胚膜(amnion)的胚胎囊,这种结构可以在卵内提供保护和支持。这些动物的共同祖先在约三亿年前进化而来,是一类最早的陆生脊椎动物。哺乳动物、爬行动物和鸟类都属于Amniotes。
Platypus: 鸭嘴兽
Opossum: 负鼠
Mouse: 老鼠
Macaque: 猕猴
Human: 人类