2021-10-25

Science | 张峰:利用RNA来定位DNA位置的蛋白的数量和种类可能远超想象

原创 骄阳似我 图灵基因 今天

收录于话题#前沿分子生物学技术

撰文:骄阳似我

IF47.728

推荐度:⭐⭐⭐⭐⭐

亮点:

1. 本文从IS200/IS605转座子重建了CRISPR-Cas9系统的进化,发现IscB使用单个非编码RNA进行RNA引导的双链DNA切割并且可以用于人类细胞中的基因组编辑。还证明了TnpBRNA引导的核酸酶活性,另一种IS200/IS605转座子编码的蛋白质和Cas12内切核酸酶的可能祖先。

2. 这项工作揭示了一类广泛的转座子编码的RNA引导的核酸酶,本文将其命名为OMEGA(专性移动元件引导活性),具有作为生物技术发展的巨大潜力。


IscB蛋白是在IS200/IS605转座子的不同家族中编码的推定核酸酶,可能是RNA引导的核酸内切酶Cas9的祖先,但IscB的功能及其与任何RNA的相互作用仍未表征。原核RNA引导的防御系统CRISPR-Cas9(II型CRISPR-Cas)已被用于真核细胞中的基因组编辑,被认为是从IscB蛋白进化而来的。尽管其在原核生物中广泛分布并且与Cas9共享域组成和体系结构,但IscB的功能仍然未知。此外,鉴于尚未报道IscB与非编码RNA(ncRNA)或CRISPR阵列相关,Cas9系统中RNA引导活性的进化起源尚不清楚。

近期,在Science杂志上发表了一篇名为“The widespread IS200/IS605 transposon family encodes diverse programmable RNA-guided endonucleases”的文章,使用系统发育分析,RNA测序(RNA-seq)和生化实验,试图阐明这些蛋白质的功能以及2类CRISPR系统中RNA引导活性的起源。


IscB长约400个氨基酸,含有通过插入桥螺旋(BH)和HNH内切核酸酶结构域分裂的RuvC内切核酸酶结构域,该结构与Cas9共享。对含有HNH或分裂RuvC核酸内切酶结构域的蛋白质进行了全面搜索,发现Cas9和IscB是唯一含有两个结构域的蛋白质。还显示IscB含有先前未鉴定的N末端,其与已知结构域缺乏明显的同源性,并且在Cas9中不存在,在其保守序列基序后表示PLMP。RuvC,BH和HNH结合域的聚类和系统发育分析强烈表明,所有现存的Cas9都来自单个祖先IscB。从每个簇中搜索与IscB基因相邻的CRISPR阵列,发现了六个不同的IscB组,包含16个簇(共603个),与CRISPR相关,与以前的观察相反。CRISPR相关的IscB分散在IscB系统发育树周围,这表明它们独立进化,一个关联事件导致Cas9谱系。总共鉴定了31个独特的CRISPR相关iscB基因座(共2811个)。首先检查了一组CRISPR相关的ISCB,类似于非CRISPR相关的ISCB(氨基酸同一性约为50%)。在大肠杆菌中异源表达来自该进化枝的代表性基因座并进行小RNA-seq,其显示不仅CRISPR阵列的表达,而且CRISPR阵列和IscB开放阅读之间的329碱基对(bp)基因间区域框架(ORF)。本文还纯化了IscB蛋白并对共纯化的RNA进行了测序,证明该蛋白与包含CRISPR阵列和该基因间区域的单个ncRNA组分相互作用。鉴于其与包含CRISPR直接重复(DR)和间隔区的ncRNA的相互作用,以及其与Cas9类似的结构域结构,测试了该IscB的RNA引导的核酸内切酶活性。使用先前建立的原型间隔区相邻基序(PAM)-发现测定,观察到特定PAM序列的消耗,表明CRISPR相关的ISCB是可重编程的RNA引导的核酸酶。发现IscB至少在功能上与CRISPR相关,并且可能在其他情况下,表明IscB系统更一般地共享核心祖先ncRNA基因,该基因易于进化成CRISPR阵列,并且在某些情况下是单独的反式激活CRISPR RNA。为了验证这一假设,比对了563个非冗余iscB基因座,并在iscB ORF的上游或下游搜索保守核苷酸(nt)序列。该分析揭示了ORF上游长度约300bp的高度保守的基因间区域,其5'末端的保守性下降,这对应于IS200/IS605转座子末端。共有CRISPR相关的IscB ncRNA和协方差折叠的RNA二级结构的比较揭示了高度的结构和序列相似性,特别是在共享的多干区域和假结中。推断wRNA中5'-最不保守的序列可能起指导序列的作用,因为预测紧邻下游的序列形成发夹,其结构类似于CRISPR相关IscB中DR/抗重复双链体形成的发夹ncRNA。图1:IscB与进化上保守的非编码RNA相关。

为了检测IscB是否能够切割与假定的wRNA指南互补的DNA,使用体外转录/翻译(IVTT)表达系统用KraIscB-1进行了体外质粒切割试验。发现KraIscB-1以wRNA依赖性方式切割靶标,具有ATAAA 3'靶标邻接基序(TAM)。使用不同的指南(Fn指南)重新定位KRAISCB-1切割同源靶标,暗示IscB是可重编程的RNA引导的核酸酶。接下来在体外对IscB进行了生物化学表征。我们通过鉴定TAM确定了86个(66%)选择的系统发育不同系统中的57个的活性。在这57个功能性ISCB中,5个可以在体外用相应的wRNA重建以实现有效的靶标切割,并且从中选择了AwaIscB用于详细的生物化学表征。证实了重组AwaIscB以可编程方式切割多个双链DNA(dsDNA)靶标的能力,并显示AwaIscB的活性依赖于镁,最适温度为35°至40°C。催化RuvC II残基(E157A)的突变消除了对非靶DNA链的核溶解活性,而HNH结构域催化突变体H212A消除了对靶链的核溶解活性。E157A和H212A突变(dAwaIscB)的组合消除了所有dsDNA核酸分解活性。切割产物的测序显示AwaIscB切割TAM上游3nt的靶链,类似于Cas9。非靶链的切割发生在TAM上游8或12 nt,产生长度为5或9 nt的5'突出端。图2:IscB是可重编程的RNA引导的DNA内切核酸酶。


RNA引导系统的显着优点是它们允许效应子通过简单地重编程RNA指导来靶向许多底物。IscB发展为使用多个指南的一种方法是与CRISPR阵列相关联。鉴于iscB基因座通常编码单个wRNA,因此不清楚这些系统通常如何或甚至是否实现这种模块化。通过搜索不直接与iscB ORF相邻的wRNA,发现了三种用于指导编码和切换的额外潜在机制:wRNA阵列,转座子扩增和独立的反式作用wRNA。wRNA阵列由多个wRNA组成,每个wRNA包含不同的指导,间隔高达200bp,并且在3356个独特的IscB/IsrB基因座中的15个(0.4%)中发现。转座子扩增涉及在多个位置插入几乎相同的IS200/IS605超家族转座子,导致每个基因组有多个基因座,每个基因座能够用独特的指导表达几乎相同的wRNA支架。相比之下,独立的wRNA更常见,并且在一些基因组中以多拷贝发现,其显示与iscB没有可检测的基因组关联。来自3356个独特IscB/IsrB基因座中的95个(2.8%)的顺式-wRNA几乎相同(≥95%序列同一性)到远端编码的独立wRNA,这意味着这些独立的wRNA可以编码反式编码的ISCB使用的指导。通过检查K.racemifer基因组中的10个独立的wRNA来测试这种可能性,其中9个被发现表达。在测试的6个独立的wRNA中,发现5个可以用来自相同基因组的远端编码的IscB介导RNA引导的DNA切割,证明单个IscB可以使用多个反式编码的wRNA。来自许多wRNA的指导,包括IscB相邻和反式编码,主要靶向原核基因组序列,表明IscB系统具有非缺失功能。图3:IscB使用多种指导编码机制。


接下来研究了IscB,Cas9和其他同源蛋白之间的进化关系,以更广泛地了解RNA引导机制的进化。在寻找包含分裂的RuvC结构域的蛋白质时,检测到另一组较短的〜350个氨基酸的IscB同源物,它们也编码在IS200/IS605超家族转座子中。这些蛋白质含有PLMP结构域和分裂的RuvC,但缺乏HNH结构域。将这些蛋白质IsrB(插入序列RuvC-like OrfB)重命名为强调它们独特的结构域,取代了之前的名称IscB1。除了IscB和IsrB之外,还鉴定了仅包含PLMP结构域和HNH结构域但不包含RuvC结构域的更小的蛋白质家族(约180个氨基酸),将其命名为IshB(插入序列HNH样OrfB)。为了研究这些蛋白质之间的关系,使用IQTREE 2从分裂的RuvC核酸酶和BH结构域的多重比对构建了最大似然(ML)树。在得到的树中,IsrB,IscB和Cas9形成了独特的,强烈支持的进化枝,这表明这些核酸酶中的每一个都起源于独特的进化事件。然后分析了每个蛋白质簇与IS200/IS605 tnpA基因,wRNAs,CRISPR-Cas适应基因(cas1,cas2,cas4和csn2),相应ORF上游和下游的CRISPR阵列之间的关联,以及CRISPR反重复。如上所述,iscB和isrB很少与CRISPR阵列相关,并且未发现与CRISPR-Cas适应基因相关。ISRB与结构上不同的wRNA相关。此外确定了两个不同的Cas9s组。第一种是新亚型II-D,一组相对较小的cas9s(~700个氨基酸),与任何其他已知的cas基因无关。第二个是从II-C亚型内分支的独特分支,其包括与tnpA相关的特别大的cas9s(>1700个氨基酸)。tnpA相关的II-C基因座通常包含异常长的DR(长度超过42bp),并且在一些情况下编码cas9和其他cas基因之间的HIRAN结构域蛋白。预测的转座子末端围绕这些基因座中的tnpA,cas获取基因和CRISPR阵列的各种组合。这些系统发育和关联分析证实IS200/IS605转座子编码的ISCB和ISRB与Cas9具有共同的进化历史。鉴于IsrB进化枝在树中的深部位置和缺乏HNH结构域,IsrB可能代表祖先状态,可能是从紧凑的RuvC核酸内切酶进化而来的。几乎所有ISRB都与wRNA相关;这表明这些系统在进化的早期阶段成为RNA引导的。IsrB随后获得了HNH结构域,可能是通过插入另一个移动元件或与编码IshB样蛋白的基因重组,建立了IscB家族。CRISPR阵列出现在IscB系统中多次独立的场合。这些短阵列由重复序列组成,这些重复序列可以通过复制祖先wRNA的片段而进化。得到的系统包括杂交CRISPR-wRNA,其由部分wRNA之前的CRISPR阵列组成。这些CRISPR相关的IscB蛋白可能在许多情况下也在RuvC-I和RuvC-II亚结构域之间获得REC样插入,通常与CRISPR结合同时或之后不久。特别是,一个CRISPR相关的IscB簇(簇2089)可能在标志性PLMP结构域丢失后建立了Cas9家族。此外,亚型II-D的tracrRNA,Cas9子树中的深分支显示与IscB wRNA显着相似,这表明Cas9 tracrRNA最初是从wRNA进化而来的。最后,在与CRISPR适应机制(cas1,cas2和可能的cas4)相关联后,Cas9多样化的爆发和通过水平基因转移在细菌之间的广泛分散随后,导致多种II型CRISPR亚型的进化。我们还探索了wRNA的进化历史。通过迭代构建一组跨越与ISCB和ISRB相关的所有主要RNA组的wRNA谱,我们发现不同的wRNA与几乎所有ISCB和ISRB相关。此外,不同的IsrB和IscB进化枝与不同的wRNA结构相关。从isrB到iscB的转变可能伴随着isrB相关的wRNA中转座子末端区域和多茎环之间的第二个假结,即衔接子假结的丢失。wRNA结构的复杂性与相关蛋白质大小之间的反比关系也反映在与大ISCB的进化枝相关的简化的wRNA结构和与大Cas9s相关的甚至更小的tracrRNA上。图4:IscB系统的演变与多样性。

除了产生丰富多样的II型CRISPR系统的进化事件的独特连续性之外,系统发育分析还揭示了IscB和相关蛋白进化中的其他几个事件导致了现存的多样性。首先在真核生物基因组中搜索了IscB同源物,并在陆地绿藻Ignatius tetrasporus UTEX B 2012的叶绿体基因组中鉴定了多个IscB基因座。尽管ORF在大多数这些基因座中被多个终止密码子破坏,但一个基因座编码完整的IscB(与相关的原核IscB具有约50%的氨基酸同一性)和转录活性的wRNA。该真核IscB用最小的NNG TAM切割DNA,其不同于其他表征的IscB TAM。其次研究了大型ISCB的进化枝,其中包含一个BH域,该域通过类似REC域的插入被分成两部分。假设这些插入可能会增强DNA解旋,类似于Cas9的REC叶,因此将促进真核染色质结构复杂景观中的基因组编辑。在人类基因组中的46个位点上,发现OgeuIscB在28个这些位点诱导插入缺失,效率高达4.4%。因此,OgeuIscB似乎是进一步开发基于IscB的基因组编辑工具的有希望的候选者。第三,通过实验表征了IscB的明显祖先IsrB的假定核酸酶活性。Kracemifer含有5个与天然表达的WRNA相关的ISRB。发现IsrB-wRNA RNP以指导和TAM特异性方式切割dsDNA底物的非靶链,这类似于IscB的活性。灭活HNH结构域。最后,试图确定IS200/IS605转座子是否一般含有RNA引导的核酸酶。除了独特的IscB和IsrB家族外,大多数IS200/IS605转座子编码另一个家族的RuvC样核酸内切酶TnpB,它被认为是V型CRISPR效应子Cas12s的祖先。此外,TnpB可能是编码在不同真核转座子中的较大蛋白质Fanzors的祖先。先前的工作已经鉴定了与古细菌和细菌中tnpB基因的3'末端重叠的ncRNA,但这些ncRNA的功能尚未表征。K.racemifer的小RNA-seq揭示了与相关tnpB ORF的3'末端重叠的ncRNA的天然表达,将其归类为不同的wRNA组。KraTnpB wRNA 3'末端的反向互补几乎与与一些KraIscBs相关的wRNA的5'相同,该区域对应于每个基因座中预测的转座子末端对含有与KraTnpB聚集的tnpB基因的非冗余基因座的分析显示,在基因座的3'末端,对应于IS200/IS605转座子末端,序列保守性下降。与小RNA-seq迹线的比较显示表达超出保守下降,表明转录物中可能存在指导序列。使用重编程的指导对来自该簇的多种TnpB蛋白的体外质粒切割测定证明了用5'TAM进行RNA引导的切割。从AmaTnpB重组纯化TnpB并证实其可重编程的RNA引导的dsDNA内切核酸酶活性。在识别dsDNA或ssDNA底物时,AmaTnpB强力切割含有靶的单链DNA(ssDNA)底物并且非特异性切割侧枝底物。图5:IS200/IS605元件编码多种RNA引导的核酸酶。



通过探索Cas9进化,发现了三种高度丰富但以前未表征的转座子编码核酸酶的可编程RNA引导机制:IscB,IsrB和TnpB,统称为OMEGA(专性移动元件引导活性),因为移动元素的定位和移动可能决定了他们指南的身份。虽然OMEGA系统的生物学功能尚不清楚,但有几个假设与现有证据相符,包括促进TNP催化,RNA引导转座或作为毒素的作用,转座子作为抗毒素,确保维持IS200/IS605插入。

TnpB家族比IscB家族更加丰富和多样化,在细菌和古细菌基因组中鉴定了超过100万个推定的tnpB基因座,使其成为最常见的原核基因之一。这些TNPB可能代表了未开发的丰富的各种RNA引导机制,不仅存在于原核生物中,而且存在于真核生物中。结合对叶绿体编码的IscB的鉴定,这些发现表明RNA引导系统扩展到真核基因组中可能是一种普遍现象,更广泛地说,RNA引导系统在功能上是多样的并且渗透到生命的所有领域。


教授介绍:

张峰

张锋,男,1982年出生于河北石家庄,2004年毕业于 哈佛大学,2009在斯坦福大学获得博士学位,是当今最为人所关注的华裔生物学家之一。他最著名的工作是基因修饰技术CRISPR-Cas9的发展和应用,率先获得了美国专利,并被视为诺贝尔奖的热门人选之一。2021年10月18日,张锋教授当选美国国家医学科学院院士(National Academy of Medicine,NAM)。张锋主要研究领域为神经系统功能与疾病。他在自然微生物CRISPR系统用于真核细胞(包括人类细胞)的基因编辑工具开发方面做出了最前沿的探索。通过CRISPR及其他方法,张锋深入研究了基因和遗传机制与各种疾病的关联,尤其是在神经系统紊乱方面。


张锋于2011年加入MIT,同时在麦戈文脑科学研究所(McGovern Institute)大脑与认知科学部门,以及博德研究所(Broad Institute)从事科研工作。2013年,他的实验室开发出创新性CRISPR/Cas系统,大幅度提高了编辑基因的可靠性和效率,引起国际关注,因其突破性的研究成果,他获得了众多荣誉。2014年,张锋被《自然》杂志评选为2013年年度十大科学人物之一;2015年,获得“年度波士顿人”提名;2016年3月,获得加拿大盖尔德纳国际奖;2016年,第二届唐奖生技医药奖;2017年,获得美国布拉瓦尼克国家青年科学家奖。


参考文献:

HAN ALTAE-TRAN,SOUMYA KANNAN,FENG ZHANG etal.The widespread IS200/IS605 transposon family encodes diverse programmableRNA-guided endonucleases[J].SCIENCE, 1 Oct 2021,Vol 374, Issue 6563,pp57-65

你可能感兴趣的:(2021-10-25)