人类心脏的蛋白翻译组学蓝图

在人类组织中的翻译图谱显示,长链非编码RNA和环状RNA上预测的致病性变异的下游经常被翻译,本研究描述了数百个微蛋白的翻译情况。


头图

Highlights

  • Ribosome profiling reveals the principles of translational control in human tissue
  • Ribosomes translate mRNAs downstream of protein�truncating variants
  • Functionally characterized lncRNAs and circRNAs produce microproteins in vivo
  • Microproteins can be implicated in mitochondrial and other cellular processes
  • 核糖体图谱揭示了人类组织中翻译调控的原理
  • 核糖体翻译蛋白嵌合变异体
  • 具有功能特征的lncRNAs和CircRNAs在体内产生微蛋白
  • 微蛋白可能与线粒体和其他细胞过程有关

全文总览

人类组织中的基因表达主要在转录水平上进行研究,在很大程度上忽略了翻译调控。在这里,我们分析了80个人类心脏的翻译体,以发现新的翻译事件,并量化翻译调控的效率。我们展示了广泛的心脏基因表达的翻译调控,这是以特定过程的方式编排的。预测的致病蛋白插入变异体下游的翻译似乎很频繁,这表明翻译终止效率低下。我们鉴定了数百个以前没有检测到的微蛋白,它们是从lncRNAs和CircRNAs中表达的,我们在体内验证了这些蛋白产物。微蛋白的翻译并不局限于心脏,在人类肾脏和肝脏的翻译体中尤为突出。我们将这些微蛋白与不同的细胞过程和空间联系起来,发现其中许多定位于线粒体。重要的是,数十种微蛋白是从具有良好特征的非编码功能的lncRNA翻译而来的,揭示了以前没有被识别的生物学过程。

前言

翻译调控是基因表达的一个关键组成部分,但我们对其在人类组织中的作用的了解很少。全基因组的翻译基因组可以使用核糖体测序(Ribo-seq)来表征,它捕捉到由翻译核糖体保护的mRNA足迹(Ingolia et al., 2009)。从这些足迹中,可以推断核糖体的逐个密码子移动,并用于识别主动翻译的开放阅读框架(ORFs)(Calviello and Ohler, 2017)。新检测到的ORF可以包括调控的上游ORF(uORFs),这可能会抑制mRNAs的翻译效率(TE)(Morris and Geballe, 2000),或者从长的非编码RNA(LncRNAs)翻译的短ORF(sORFs),表明有潜在的微蛋白生产(Andrews and Rothnagel, 2014)。对于少数微蛋白(小于100个氨基酸(aa)的蛋白质),关键的生理作用已被发现(Anderson et al., 2015, 2016a; Galindo et al., 2007; Kondo et al., 2010; Nelson et al., 2016; Pauli et al., 2014),尽管缺乏人体组织中微蛋白的全基因组目录。新检测到的微蛋白翻译事件可用于扩展和改进质谱(MS)搜索所需的蛋白质数据库,因为在没有先验微蛋白序列信息的情况下,利用MS从头开始发现微蛋白并不是一件容易的事。

在这里,我们阐明了80例人类心脏的翻译图谱,包括扩张型心肌病(DCM)患者和非扩张型心肌病对照。扩张型心肌病的患病率高达1:250,是需要心脏移植最常见的原因(Hershberger et al., 2013)。结合基因型、转录本和翻译体,我们表明蛋白质截断变体(PTVs),包括通常导致DCM的Titin截断变体(TTNtv),经常低效地终止翻译(Herman et al., 2012)。此外,我们鉴定了169个编码以前未知的微蛋白的lncRNAs和40个环状RNAs(CircRNAs),我们在体内验证了它们并将其与特定的细胞过程和细胞器(主要是线粒体)联系起来。大量的微蛋白是从功能表征的lncRNAs中表达的,例如DANCR(也称为ANCR)(Kretz et al., 2012)、TUG1(Young et al., 2005)、JPX(Tian et al., 2010)、myheart (Han et al., 2014)和UPPERHAND (Anderson et al., 2016b),其中大部分的lncRNA在许多组织中普遍表达,我们也描述了他们在人的肾脏和肝脏中的翻译。

我们做了一个对80个人类心脏的翻译的详细评估,这可能作为描述其他人类组织的翻译组学的蓝图。这项工作中提供的数据和分析可以通过http://shiny.mdc-berlin.de/cardiac-translatome/可访问的交互式网络应用程序进行探索。

结果

80颗心脏中的翻译组学一览

为了研究心脏mRNA的表达和翻译,我们对65名终末期DCM患者和15名非DCM对照的人左心室心肌组织进行了mRNA测序(mRNA-SEQ)和核糖体序列分析(Ribo-seq)(图1A;图S1A和S1B;表S1)。测序的核糖体足迹显示了预期的大小分布(图S1C),主要映射到基因的编码序列(CDS)(图S1D),并显示了活跃翻译的核糖体的3-nt密码子运动特征(图1B;为了对人类心脏中的翻译序列进行编目,我们创建了从头转录组组件,并使用RiboTaper对主动翻译的ORF进行了无监督搜索(Calviello et al., 2016)(图1C;图S1F和S1G)。在22,335个已鉴定的ORFs中,有1,090个uORFs(图1D)和339个sORFs,它们都是169个假定的lncRNA的非重复序列(图1E)。与从迄今最深的人类心脏蛋白质组中鉴定左心室蛋白质组(Doll et al., 2017)相比,我们从自己的Ribo-Seq数据中推断出翻译的基因产物是前人的两倍(图1F),可能是因为高表达的心肌肌节蛋白阻碍了MS对低表达蛋白的检测。翻译是转录和蛋白质组之间的中间步骤,这与Ribo-seq对最终蛋白质水平的预测价值高于mRNA-seq(皮尔逊相关系数[r]=0.40对0.32)(图S1H)。所有的心脏翻译事件都可以在表S1中找到,并且已经被编译到一个带注释的搜索数据库中,用于基于MS的蛋白质组学,该数据库可以从Shiny网络服务器下载。


图1

图S1

人体组织中的空间转录和翻译调控

比较DCM患者和对照组,我们在Ribo-Seq数据中检测到2,660个mRNA表达水平不同的基因和2,648个差异表达基因,其中964个似乎有转录基础(图S2A;表S2)。为了确定特定翻译调控的基因部分,我们应用了一个相互作用模型,该模型解释了转录对基因表达调控的贡献(Chothani et al., 2017),产生了327个翻译下调的基因和474个翻译上调的基因(表S2).

接下来,我们将80个心脏中所有差异表达基因的翻译水平进行关联,以找到特定过程的共表达调控。这确定了30个共同调控的基因簇,其中22个为不同的细胞过程而富集(图2A;图S2B)。为了确定转录和翻译对每个簇的表达调控的贡献,我们进行了主成分分析(STAR方法;图2B)。这揭示了细胞外基质(ECM)产生的特异性翻译上调(图2B和2C),很可能是对心脏损伤和衰竭的标志性纤维化反应的表现(Travers et al., 2016)。此外,我们发现线粒体过程的下调是在转录过程中启动的,并在翻译水平上显著增强,反映了衰竭心脏的能量缺乏状态(Okonko and Shah, 2015)。肌节成分大多受转录水平调控(图2C),类似于许多已知引起DCM的基因(大多数基因编码肌节蛋白)(图S2C)。

图S2

雷帕霉素(mTOR)信号通路靶基因是已知的心脏翻译的主要调节因子(Sciarretta et al., 2018),位于DCM心脏中高度上调的基因簇上(图S2B)。结果,50个末端含寡嘧啶(TOP)基序的mTOR靶基因的翻译显著上调(Thoreen et al., 2012)()(图S2D和S2E)。大多数TOP基因都是核糖体蛋白,它们在mRNA表达减少时的翻译上调(图2C)表明,翻译机制自主控制核糖体的生产,并随后在患病心脏中进行翻译活动。

图2

上游ORFs是影响翻译效率的独立因素

我们在919个基因(占所有翻译基因的8%)中总共检测到1,090个活跃翻译的uORFs(表S3),这些基因的翻译效率显示如预期的下降(中位数TE,0.90比0.65;;Mann-Whitney U检验)(图2D;图S2F和S2G)。令人惊讶的是,我们发现大多uORFs和初级ORFs的翻译率之间没有递减的线性关系(即反相关),而是总体上呈温和的正相关(图2E;表S3)。这也适用于显示与主要ORFs起始重叠的uORFs,或具有特别强的翻译起始密码子(AUG)上下游的uORFs;例如Kozak序列(Kozak,1987)或短50UTR(TISU)元件的翻译起始子(Elfakess and Dikstein, 2008)(图S2H)。然后我们假设,对其他物种位置保守的uORFs可能对TE有更深远的影响。在大鼠和小鼠心脏的翻译体中,我们发现281个人的uORFs与啮齿动物的uORFs具有翻译起始位点的保守性(表S1和S3),但它们对初级ORF TE没有更强的作用或抑制作用(图S2H)。

这些分析表明,对于大多数uORFs来说,uORF翻译的频率和观察到的初级ORF TE的减少之间没有可检测到的数量依赖关系。然而,少数uORF在DCM心脏中被差异翻译,并与初级ORF TE存在反相关,包括ZMPSTE24和EIF4G2(图2F)。EIF4G2含有一个50UTR的内部核糖体进入位点(IRES),当帽依赖的翻译被抑制时,EIF4G2可以自动调节自己的翻译速率(Henis-Korenblit et al., 2000),这可能有助于解释观察到的反相关性。ZMPSTE24的调节可能对心脏生理特别重要,因为ZMPSTE24专门处理前层蛋白A(LMNA)。ZMPSTE24突变导致的LMNA处理缺陷会导致病理性心脏扩张,表型与LMNA突变引起的DCM相同(Galant et al., 2016; Penda´ s et al., 2002)。

自然发生的基因变异影响心脏翻译

自然遗传变异对人类组织翻译调控的影响仍未被研究。因此,我们从心肌组织中表达的基因的组成外显子中鉴定了单核苷酸变体(SNVs)和小插入或缺失(indels),并测试了它们与mRNA丰度、核糖体占有率和TE的局部相关性(STAR方法;图S3A-S3C;表S4)。我们检测到与421个基因的mRNA丰度相关的变体(错误发现率[FDR]<=0.05)(图S3A),其效果类似于基因型-组织表达(GTEx)项目(GTEx Consortium, 2017)和已知的左心室表达数量性状位点(eQTLs; Heinig et al., 2017)。这些变体中的大多数与核糖体占用无关(表S4),这与之前在类似大小的HapMap淋巴母细胞系队列中观察到的广泛缓冲一致(Battle et al., 2015; Cenik et al., 2015)。相反,我们检测到81个基因的核糖体占有率与遗传相关,其中31个基因的变异与mRNA表达无关。这两个观察结果都表明翻译调控与37个基因的变异与基因TES的改变显著相关(图S3A;图S3D中的例子)。与TE相关的外显子变体中没有一个位于uORFs或Kozak序列等调控特征中,但据预测有8个外显子变体会影响RNA结合蛋白(RBP)结合和RNA二级结构(表S4,Mao et al., 2016)。

PTVs通常不截断蛋白质

PTVs可以对蛋白质功能产生戏剧性的影响,但医学相关性只在PTVs的一小部分中得到确立(DeBoever et al., 2017),可能是因为基因单效性、功能冗余或过早停止密码子读取(Bartha et al., 2015; Huang et al., 2010; Jia et al., 2017)。在我们的队列中,我们检测到346个潜在的PTVs:144个无义突变和202个移码indels(表S4;图S3E-S3G;STAR方法)。对于所有检测到的PTVs,我们分析了mRNA等位基因比率和Ribo-seq覆盖率,以估计等位基因特异性表达(ASE)和在没有完全无意义的中间衰减产物(NMD)的情况下提前停止翻译的能力。在检测到的346个PTVs中,只有32个(9.2%)显示杂合SNV的等位基因不平衡,(图3A和3B;图S3H),表明许多截断突变的等位基因没有经历广泛的NMD。作为提前翻译终止的衡量标准,我们通过比较PTVs(STAR方法)前后的核糖体占有率来计算核糖体丢失率。对于346个PTVs中只有59个(17.1%),核糖体在引入的停止点下游的占有率明显低于上游(图3C和3D;图S3I)。因此,对于大多数可以在RNA水平上检测到的PTVs,翻译似乎要么被低效终止,要么在PTV下游重新启动,可能会影响这些PTVs的功能效应。

截短的TTN等位基因被翻译

TTNtvs是遗传性DCM的最常见原因(Herman et al., 2012),尽管具有可变的外显性和表达性(McNally and Mestroni, 2017)。在我们的队列中,13名DCM患者的TTNtvs位于TTN的不同组成性外显子(图3e;表S4)。与先前关于人类心脏的工作(Hinson et al., 2015; Roberts et al., 2015)一致,但与两个Ttntvs大鼠模型(Schafer et al., 2017a)相比,我们没有发现TTNtv携带者中存在NMD的足够证据(图3F)。基于TTNtv下游核糖体足迹覆盖的杂合子SNV,提前翻译终止对于13个TTNtv携带者中的4个是有效的。对于其他4个TTNtv携带者,翻译似乎在TTNtv之后持续或重新启动(图3G),有时达到接近典型TTN翻译的翻译等位基因比率(图3H)。其余5名TTNtv携带者也没有表现出NMD,这表明两个等位基因都是翻译的,但我们在杂合变异位置缺乏足够的Ribo-Seq覆盖率来区分突变和未突变的等位基因。


图3

无义TTNtvs下游的翻译可能是由于终止密码子抑制造成的,因为我们观察到核糖体在翻译过程中通过这些停止密码子而没有被释放(图S3J)。相反,TTNtvs移码突变下游的翻译可能是由于IRESs的重新启动或及时的核糖体移动回到主要的TTN ORF。为了测试TTNtv下游的翻译是否可以导致稳定的TTN的产生,我们对两个大鼠模型的心肌蛋白质组进行了分析,这两个模型在大鼠Ttn Z-disc(TtntvZ)或A带(TtntvA)中携带了人工的杂合移码(Scha�fer et al., 2017a)。为了获得等位基因特异的蛋白质组数据,我们使用了来自突变型Ttn F344大鼠和野生型Ttn Brown挪威(BN)大鼠的F1杂交。TtntwZ等位基因在Ttntv下游显示出一致的翻译信号(Schafer et al., 2017a; Figure 3I),并且一致地,我们检测到Ttntv下游的TtntwZ等位基因特有的读码框内肽的产生(图3J)。相反,TtntwA动物没有表现出任何针对突变等位基因的N-末端或C-末端多肽。

我们的数据说明了TTN生成的广泛平移调控(图S3K-S3N)。并不是所有的TTNtvs都能有效地终止翻译,而且这些翻译模式的比率在不同的突变和个体之间是不同的,这增加了这些TTNtv对心脏功能的影响。


图S3

lncRNAs在人心脏、肝脏和肾脏中的广泛翻译

从前非编码RNA翻译的微蛋白经常被忽视,它们在人类组织中的流行、调节和可能的功能在很大程度上仍不清楚(Makarewich and Olson, 2017)。为了发现心脏微蛋白,我们在心脏lncRNA中寻找翻译的sORF。在783个转录的lncRNA中,169个(22%)被翻译成潜在的微蛋白,中位长度为49aa(图4A;表S5)。我们在原代心脏成纤维细胞(Cho�thani et al., 2018)和诱导的多能干细胞来源的心肌细胞(IPSC-CMS)的翻译体中验证了这些翻译事件。准确检测到已知的心脏微蛋白(199个中的190个;95%),包括最近发现的DWORF(Nelson et al., 2016)、SPAR(Matsumoto et al., 2017)和ALN(也称为C4orf3)(Anderson et al., 2016a)。与DWORF相似,169个翻译的lncRNAs中有16个在心脏或骨骼肌组织中特异表达(表S5),表明具有肌肉特异性功能。为了验证已鉴定的sORF的翻译潜力,我们对58个随机选择的人类lncRNAs的完整转录本进行了体外翻译(IVT)测试,成功地为其中44个(75%;图4B;图S4A和S4B;表S5)生成了微蛋白。随后的起始密码子突变阻止了翻译,并导致预测大小范围内的信号丢失(图4B;图S4A)。

大多数翻译的lncRNAs(>90%)的表达不局限于心脏。事实上,122个在至少10个其他组织中表达,44个在GTEx项目中的所有组织中表达(GTEx Consortium,2017)。为了研究这种翻译是否也发生在其他组织中,我们检测了6个人肝和6个人肾组织的翻译体。在检测到的169个在人心脏中翻译的lncRNAs中,71个(42%)和116个(69%)分别在肝脏和肾脏表达。
其中,56个(肝脏)和87个(肾脏)被主动翻译,所有3个组织中共有50个lncRNA被翻译(图S4C)。重要的是,对于大多数(85%-91%),至少有1个sORF与在心脏中检测到的sORF相同。根据sORFs.org数据库(Olexiouk et al., 2018),之前已经在51个翻译的lncRNA中检测到72个sORF在人类细胞系中翻译。我们的数据证实了这些sORF在人体组织中的翻译,并进一步强调了在118个lncRNA中先前未检测到的272个sORF的翻译。

与之前在人类细胞系中的观察结果(Bazzini et al., 2014; Calviello et al., 2016)一致,我们在脊椎动物中只检测到少数具有很强aa保守性的sORFs(在12个lncRNA中有17个sORF)(Lin et al., 2011; Mackowiak et al., 2015)。然而,许多lncRNA可以与其他人类物种(黑猩猩、大猩猩和猩猩;n=79)的基因组或其他灵长类或哺乳动物的基因组(分别为31或43)配对,只有16个完全为人类所特有(表S5)。在大鼠和小鼠心脏中,我们发现具有与mRNA相似的TEs的可比的lncRNA翻译率(13%-22%;图4C;表S5)(图4D;图S4D)。尽管氨基酸保守性有限,169个人类翻译的lncRNA中有76个对啮齿动物是位置保守的,即它们位于同源蛋白编码基因的两侧,具有相同的相对取向(Ulitsky,2016),其中18个在啮齿动物中也被翻译,7个具有相同的翻译起始位点(表S5)。


图4

图S4

人体心脏中微量蛋白质的在体检测

体内微蛋白检测是具有挑战性的,并且使用定制搜索数据库在深度MS数据集中搜索可能导致假阳性肽鉴定(Ba´ nfai et al., 2012; Baz�zini et al., 2014; Low et al., 2013; Mackowiak et al., 2015; Nes�vizhskii, 2014; Omenn et al., 2017; Slavoff et al., 2013)。搜索极深度的人类心脏猎枪MS数据(Doll et al., 2017) 和新产生的人iPSC-CMs的深度蛋白质组学数据,我们从339个sORF中检测到140个翻译的微蛋白的独特肽证据,这些微蛋白由169个翻译的lncRNAs中的93个所编码(表S5)。对于28个微蛋白,我们检测到超过1个唯一的微肽,在超过1个样本中检测到100个微蛋白(表S5)。为了定义这些搜索的假阳性率,我们采用了目标诱饵策略,随后进行了统计二次抽样分析,除了MaxQuant中已经实施的反向命中目标诱饵策略 (Cox and Mann, 2008; Elias and Gygi, 2010; STAR Methods)外,还执行了该策略。虽然我们观察到真正的微蛋白比人造微蛋白有明显的富集(empirical p < 0.001; effect size, 5.99– 7.57;图S4E),但仍然可以检测到假阳性多肽,反映显著的FDR值为±50%-60%。为此,我们接下来设计了一种高通量选择性反应监测(SRM)试验(Picotti et al., 2010)。SRM是一种高度灵敏的靶向MS方法,它使用合成的标志肽来检测前体到片段离子的准确碎片模式(‘‘transitions’’),从而提高了微蛋白检测的灵敏度和特异性。在5个人的心脏中(每个2个技术重复),我们从83个lncRNAs中的50个(60.2%)翻译过来,我们从随机选择的137个微蛋白中确定了76个(55.4%)(表S5)。这些结果证实了许多翻译的sORFs产生可在体内检测到的微蛋白,但也说明了使用一系列独立的方法(跨样本的Ribo-Seq、IVT分析、鸟枪MS和SRM)来提供对微蛋白发现的信心是至关重要的。


图S5

微蛋白/微肽是由具有已知功能的“非编码”RNA产生的

在改进的转录本注释(例如,图4E)的帮助下,我们在27个人和5个小鼠LncRNA中鉴定了翻译后的sORF,其中具有先前分配的非编码功能,包括LINCPINT(也称为lincRNA-Mkln1) (Huarte et al., 2010)、JPX(Tian et al., 2010)、CRNDE(Graham et al., 2011)、NEAT1(Clemson et al., 2009)、DANCR(Kretz et al., 2012)、CRNDE(Graham等人,2011年)、NEAT1(Clemson等人,2009年)、DANCR(Kretz等人,2010年)和 GATA6-AS1 (也称为 lncGATA6) (Zhu et al., 2018)。此外,我们在与心脏功能相关的lncRNAs myheart (Han et al., 2014)、chaer (Wang et al., 2016), UPPERHAND (也称为UPH or HAND2-AS1; Anderson et al., 2016b), ZFAS1 (Zhang et al., 2018b)、和 TRDN-AS (也称为RP11-532N4.2; Zhang et al., 2018a) (图4F; 图S4F; 表S6)中检测到已翻译的sORF。在上述的lncRNAs中,NEAT1、GATA6-AS1和上手基因在人和啮齿动物的心脏中都是位置保守和可翻译的,并且这些lncRNAs表达的微蛋白都可以在体内检测到(表S5)。在27个具有非编码功能的人类lncRNA中,有22个也在人的肾脏和肝脏中被检测到翻译,我们先前证明其中一些,包括DANCR,在人类细胞系中位于细胞染色体上并与核糖体相关(van Heesch et al., 2014; Mukherjee et al., 2017)。

在这些发现的推动下,我们研究了其他具有已知胞浆定位和核糖体关联的功能特征的lncRNAs(Cabili et al., 2015; van Heesch et al., 2014),但没有检测到典型的AUG ORF。我们在先前错误注释的lncRNA TUG1的50个前导序列中检测到一个高度保守的非规范翻译起始密码子(CUG)ORF(153aa;系统发育密码子替换频率[PhyloCSF]得分为350)(图4G)。我们验证了TUG1在体外的翻译(图4H),并表明TUG1蛋白定位于细胞核和线粒体(图4I)或这其中的任何一个(未展示数据)。TUG1在人类和啮齿动物组织中普遍翻译,TUG1的过度表达驱动了基因表达的变化,我们可以将其归因于TUG1蛋白(图S4G)。有趣的是,小鼠Tug1基因座的全基因切除会导致男性不育和中段缺陷,这突显了Tug1基因座的重要性(Lewan�dowski et al., 2019)。

翻译的lncRNAs在健康和疾病心脏中的表达调控

上述功能鉴定的几个lncRNAs是基因组反义lncRNAs,据报道参与相邻蛋白编码基因的顺式调控(Anderson et al., 2016b; Han et al., 2014; Zhang et al., 2018a)。我们发现18对显著相关的正义-反义基因对(Spearman’s rho, 0.52–0.76; ),涉及主要心脏转录因子(HAND2、TBX5和GATA6)和心脏调节或结构基因(Corin、TRDN和TNNI3)的反义翻译lncRNA(图S4H)。在翻译过程中,除TRDN-TRDN-AS1 (Spearman’s rho, 0.23 versus 0.53; p = 0.0136)外,大多数对的共调控降低(图S4I)。TRDN-AS1最近被发现是心肌和骨骼肌triadin产生的顺式调节因子(Zhang et al., 2018a),翻译协同调节表明这两种蛋白具有共同功能。在所有翻译的lncRNA中,34个在病变心脏中上调,7个下调(图S4J和S4K;表S2),这为进一步研究这些微蛋白的潜在作用奠定了基础。

微蛋白共定位线粒体及与线粒体相关生物过程

样本之间的基因表达相关性可以表明功能协同调节 (Saha et al., 2017)。聚类全基因组的表达相关性,我们发现翻译的lncRNA显著富集(93/169;;Fisher‘s精确检验),在由核编码的线粒体基因(基因本体学[GO]:0005739线粒体,)主导的簇中。参与氧化磷酸化(OXPHOS)的基因(京都基因和基因组百科全书[KEGG]:hsa00190,p=6.43 31040)(图5A)与选择翻译的lncRNA(图5B中突出显示的前3个)特别相关。

图5

然后,对于每个翻译的lncRNA,我们编译了所有共同调节的蛋白编码基因(Spearman’s rho R 0.5),并搜索功能共性。我们将42个翻译的lncRNA与不同的细胞过程相关联(图S5A),其中22个包括线粒体功能(图5C)。我们选择了这22个微蛋白中的3个来演示特定的线粒体定位(图5D)。对于另外18个微蛋白,我们根据蛋白质序列特征和/或表达共调控预测它们位于线粒体上(表S5),我们也可以证实线粒体的定位(图S5B)。这些包括从4个小核仁RNA(snoRNA)宿主基因(Gas5、SNHG6、SNHG8和SNHG16)和从lncRNA JPX中uORF衍生的sORF翻译的微蛋白(Hezroni et al., 2017),进一步确立了许多微蛋白似乎是线粒体定位的总趋势。

一种线粒体微蛋白PDZRN3-AS1是一个47-aa预测的单程跨膜螺旋蛋白,我们通过3D建模证实了其螺旋结构(图6A)。利用免疫共沉淀、(共)定位和蛋白酶K消化实验,我们证明PDZRN3-AS1与线粒体内膜上的RMND1特异相互作用(图6B-6E),其中RMND1是翻译氧化磷酸化OXPHOS亚基所必需的(Janer et al., 2015)。


图6

此外,与线粒体过程不同的是,信号肽裂解位点预测表明,并不是所有的微蛋白都留在细胞内(图S6A)。我们测试了两个潜在的分泌微蛋白(RP11-432J24.5和AC093642.6),确实发现了与分泌途径的其他分泌蛋白和组件的相互作用(图S6B)。除了PDZRN3-AS1之外,还有多个其他微蛋白被预测具有跨膜螺旋,包括SOX9-AS1、BANCR(Flockhart et al., 2012)和UPPERHAND(Anderson et al., 2016b)(图S6C;表S5)。基因表达的共同调控意味着内质网(ER)的上端作为一个完整的膜组件(图S6D)。事实上,上手定位于内质网(图S6E),在那里它几乎只与膜蛋白相互作用(图S6F)。值得注意的是,在转化生长因子b1(TGF-b1)刺激下,原代心脏成纤维细胞中上位的lncRNA表达强烈下调(Chothani et al., 2018),表现出与促纤维化细胞因子白细胞介素11(IL-11)相反的表达调控(图S6G;Schafer et al., 2017b)。小干扰RNA(siRNA)介导的上游LncRNA的敲除和内源性上游AUG的突变均导致纤维化标志物基因表达增加(图S6H和S6I)。上手的潜在抗纤维化作用的机制基础需要进一步建立,但可能通过与TGF-β1的直接相互作用(Miao et al., 2019)或通过缓解内质网应激和未折叠蛋白反应(已知的纤维化增强剂)来介导(Heindryckx et al., 2016; Tanjore et al., 2013)。


图S6

人类心脏环状RNA的翻译

除了lncRNAs外,CircRNAs是另一类有潜力被翻译的非编码RNA(Legnini et al., 2017; Pamudurti et al., 2017; Yang et al., 2017)。我们在3,181个基因中检测到8,878个人类心脏circRNA(表S7;图S7A-S7C),其中2,070个以前没有检测到(表S7)(Gla�zar et al., 2014; Khan et al., 2016)。值得注意的是,我们检测到了39个基因产生的40个circRNA的核糖体结合,从而可能有蛋白质翻译(图7A;表S7)。这些circRNA主要存在于CircBase中(85%;图7B)(Glazar et al., 2014),并显示对RNaseR的耐药性增加(图S7D;表S7)。为了确保CircRNA反向剪接接头上的Riboseq读数的特定比对,我们将Ribo-Seq数据与匹配的模拟反向剪接接头集进行了比对,以表明CircRNA-核糖体关联不是偶然出现的(调整后的p值)(图7C)。新检测到的核糖体相关circRNA的例子包括高占有率的circCFLAR(图7D)和心脏特异的circRNAs circSLC8A1(图7E)、circMYBPC3和circRYR2。此外,其中一个与核糖体相关的circRNA是microRNA海绵circCDR1-AS,另外5个先前已被报道在人类细胞中翻译(Yang et al., 2017)。重要的是,我们在猎枪MS数据中检测到40个CircRNA中6个的翻译后剪接接头的体内肽证据诊断(图7F;表S7)。虽然这表明已识别的核糖体相关的心脏circRNA可以产生可检测到的肽,但需要进一步检测和靶向策略来确认它们的识别并建立潜在的功能作用。

图7

图S7

讨论

人体组织中空间转录和翻译调控

翻译调控在塑造人类心脏基因表达方面具有显著的过程和途径特异性作用。我们特别强调了mTOR信号在终末期心脏扩张中的作用,以前曾被认为是遗传性心肌病小鼠模型中心脏翻译的全局调节因子(Sciarretta et al., 2018),但仅在人类中偶然发生(Yano et al., 2016)。此外,我们还发现uORF和初级ORF翻译率通常不是反相关的,这一观察结果在酵母、果蝇和哺乳动物细胞中得到了类似的正相关(Aspden et al., 2014; Brar et al., 2012; Chew et al., 2016)。uORF肽有可能直接干扰翻译机制,起到结构性障碍的作用(Lovett and Rogers, 1996),从而减少了对数量依赖性的需要。尽管序列保守有限(1,090个uORF中只有23个显示AA保守[Lin et al., 2011]),但我们在所有uORF中检测到29%的独特肽(1,090个uORF中有316个;表S3)(Doll et al., 2017),这表明结构或调节功能对序列的依赖性较低。

PTVs通常不截断蛋白质

本研究表明,遗传变异可以影响人类组织中的翻译过程,许多携带PTVs的mRNA逃避NMD并不充分地终止翻译-这两个密切相关的过程(Keeling et al., 2004)。重要的是,主动翻译的核糖体在每个PTV前后显示出相同的框内密码子移动,这表明只有初级阅读框架被翻译,下游核糖体的结合不是随机的。PTV和常规终止密码子之间的结构差异可以解释为什么PTV的翻译终止效率较低(Amrani et al., 2004; Loughran et al., 2014; Peix�eiro et al., 2012; Raimondeau et al., 2018),尽管通读也发生在常规终止密码子上(Dunn et al., 2013)。尽管进行了大量的尝试,但我们没有发现任何可以促进终止密码子抑制或IRES介导的翻译重新启动的基序或序列。

有效的翻译终止或重新启动可能会导致截短蛋白的产生,这可能会产生有益的或有害的生理后果。最近,位于DMD截断突变下游的DMD基因的IRES已被证明能产生高功能的N末端截短的抗肌营养不良蛋白,从而减轻营养不良症(Wein et al.,2014)。同样,缺少N端Z盘和大部分TTN I-带的TTN亚型可能能够挽救TTN的部分功能 (Deo, 2016; Zou et al., 2015)。相反,N-末端截短蛋白的产生可能具有有害(显性-负)效应,正如先前对C-末端截短的TTN(Herman et al., 2012)和心肌肌钙蛋白T(Watkins et al., 1996)提出的那样。

以前未识别的转录本异构体也可能导致明显的翻译或重新启动。最近发现的TTN Cronos转录本(Zou et al., 2015)理论上可能有助于下游核糖体在4个TTNtv等位基因中的2个占据(表S4)。然而,Cronos似乎在成人心脏中低表达,并且在Cronos开始之前,已经可以在人(图3H)和大鼠心脏(图3I)中检测到Ribo-Seq数据中的杂合位置。

应该注意的是,所有13名患有TTNtv的DCM患者都是终末期心力衰竭患者,我们不能确定是否有任何翻译信号有助于疾病进展或严重程度的改变,因为它们是回顾性研究收集的。我们认为,在其他因素中,TTN翻译动态可能有助于TTNtv在遗传DCM和普通人群中的可变表达率,未来有必要对在普通人群中频繁出现的表型沉默的TTNtv携带者进行研究(Schafer et al., 2017a),以评估这种不同的翻译活动在突变的TTN等位基因上的全部范围和后果。

心脏lncRNA产生体内可检测到的微蛋白

在这项研究中,我们详细介绍了以前在人类组织中未检测到的微蛋白的发现、验证和表征pipeline,我们发现这些微蛋白广泛存在于人类的心脏、肝脏和肾脏中。与前人的一些报道(reviewed in Makarewich and Olson, 2017)不同,我们体内微蛋白检测pipeline的功能独立于序列保守,扩展了我们和其他人之前开发的检测方法(Bazzini et al., 2014; Calviello et al., 2016; Macko�wiak et al., 2015)。这是一个重要的考虑因素,因为有限的保守并不排除生产功能性微蛋白。相反,保守程度较低的蛋白可能代表进化上年轻的基因(Ruiz-Orera等人,2018年),并提供了对最近进化的人类或灵长类特异蛋白的洞察力。

采用实验和计算分析,我们发现许多微蛋白在灵长类动物中是保守的,并可以与线粒体相连,线粒体是一种功能相关的微蛋白已被描述(Makare�wich et al., 2018; Rathore et al., 2018; Stein et al., 2018)。我们发现与OXPHOS亚基有特别强的微蛋白表达协同调节,包括多个小辅助蛋白,也被称为额外的OXPHOS蛋白(Zicker�mann et al., 2010)。有趣的是,这些辅助蛋白在进化上是动态的,在真核生物中显示出可变的保守性(Elurbe and Huynen, 2016),这增加了一些新发现的微蛋白可能具有类似功能的可能性。我们的结果将线粒体定位为最近进化的小蛋白子集的潜在进化游乐场,要么受到未知的定位信号或输入系统的促进,要么纯粹由微蛋白大小或(带正电的)aa组成驱动(Couso and Patraquim, 2017)。例如,线粒体进口和折叠蛋白CHCHD4(也称为Mia40)可能介导微蛋白进口,因为它显示出强烈倾向于具有通过平行二硫键连接的简单螺旋-环-螺旋结构的低分子量底物(Backes and Herrmann, 2017; Banci et al., 2009)。

值得注意的是,从具有良好特征的在健康和疾病中具有非编码作用的lncRNAs翻译而来的多个微蛋白,这些lncRNAs的编码潜力是未知的,并且改进的转录注释有助于检测以前没有注意到的sORF(例如,BANCR和TUG1)(图4E和4G)。位置保守、翻译和功能鉴定的lncRNA的一个突出例子是占优势的。在小鼠中,已经证明upperhand转录,而不是转录产物本身,调节顺式体内的Hand2(Ander�son et al., 2016b),并且发现成熟的upperhand转录产物主要定位于细胞桨,没有明确的功能(Anderson et al., 2016b; Kopp and Mendell, 2018)。我们鉴定了高达134aa的上手蛋白亚型(图S4F;表S5),包括预测的一种单程跨膜微蛋白。重要的是,我的心脏(Han et al., 2014)和Chaer(Wang et al., 2016)的mRNA表达和翻译,尽管先前声称对人类具有保守性,但只能在啮齿动物心脏中检测到(表S6)。

我们发现许多翻译后的lncRNA可能同时具有编码和非编码作用。这种双重角色以前曾被提出(Rinn and Chang, 2012),已知存在于几个mRNAs(Jenny et al., 2006; Leygue, 2007)和lncRNAs(Anderson et al., 2015; Yu et al., 2017)。显然,基于ORF长度和序列保守性等标准将基因分类为编码或非编码类别将受益于基于例如RNA代谢谱的替代方法(Mukherjee et al., 2017)。虽然双重作用使正确剖析任何基因的机制功能变得复杂,但这种多功能性很可能形成更真实的生物复杂性的表示,为探索这些微蛋白与人类健康和疾病的相关性创造了机会。

CONTACT FOR REAGENT AND RESOURCE SHARING
Further information and requests for resources and reagents should be directed to and will be fulfilled by the Lead Contact, Norbert
Hubner ([email protected]).

DATA AND SOFTWARE AVAILABILITY
The accession number for the identifiable human sequencing data reported in this paper is European Genome-phenome Archive (EGA): EGAS00001003263. The accession number for the non-identifiable human sequencing data and rodent left-ventricle sequencing data reported in this paper is European Nucleotide Archive (ENA): PRJEB29208. The accession number for the mass spectrometry proteomics data reported in this paper is ProteomeXchange Consortium (via the PRIDE partner repository [Perez-Riv�erol et al., 2019]): PXD012593. All code used for the analyses in this paper is available upon request.

ADDITIONAL RESOURCES
To make our data easily accessible, we built an interactive app that allows users to query all sequencing data (http://shiny.mdc-berlin.de/cardiac-translatome/). It enables the user to browse and visualize differential expression results, human cardiac microproteins and genetic associations presented in the paper. Additionally, fully prepared sessions for exploring the sequencing data and de�tected ORFs with the Integrated Genomics Viewer (IGV) are provided, as well as a custom FASTA database for proteomics searches.

你可能感兴趣的:(人类心脏的蛋白翻译组学蓝图)