介绍
转座子是在整个原核和真核基因组的广泛,显着地影响生物学的许多方面,其中包括基因组进化,基因组的组合物,和人类健康的移动重复遗传元件1 - 5。多抗性细菌菌株的扩散是全球范围内日益严重的医疗保健问题,通常通过移动遗传元件(尤其是转座子)的作用来获得已有的抗生素抗性决定簇(参见6)。体细胞转座因其生物学和健康相关意义而日益得到认可。合子后逆转可发生在健康和患病的皮质神经元和非脑组织中7和体细胞转座子插入已报告的癌症患者,与基因组重排和体细胞突变的高利率相关的肿瘤高逆转录转座子率8,9。转座子动员是高度致突变,作为转位的DNA序列的插入很可能在插入轨迹扰动天然基因表达和/或功能10,11。转座子插入的后果包括开放阅读框破坏,启动子序列改变,剪接和转录终止受干扰以及影响附近序列的表观遗传效应。因此,生物建立了广泛的机制,以对抗换位12 - 16。尽管有这些基因组防御机制,转座因子仍约占人类基因组的46%17,转座机制与宿主机制之间的相互作用是一个持续的研究领域。这篇评论将重点介绍有关这种相互作用的当前思想,其中涉及奉献或互惠策略。最近的研究进一步揭示了转座对插入基因座基因表达的影响,这些发现将在这里进行综述。转座子一直是并且仍然是实验室中的一个相关工具,本文将总结转座因子在诱变和分子生物学应用中的一些进展。总的来说,本综述旨在更新我们对进化生物学,分子遗传学和生物技术背景下转座子的了解
转座因子和宿主相互作用
转座因子主要被视为“自私”的DNA元素,在许多基因组中大量复制18。虽然转座子的种类和结构的完整概述不在本文讨论范围之内,但根据所采用的转座方法,可转座元件已分为两大类。1类元件或逆转座子在逆转录酶的作用下通过RNA中间体转座。根据长末端重复序列(LTR)的存在与否,以及元素的自主性(它们编码必需的蛋白质进行转座的能力),可以将这些元素分为几类。长插入元素(LINE)是自治的非LTR逆转座子,短插入元素(SINE)是非自治的且高度丰富的非LTR逆转座子。人类铝在任何生物体中观察到的最丰富的SINE之一,每个元素的长度约为300个碱基对(bp)。超过一百万份的Alu元素散布在整个人类基因组中17。尽管内源性逆转录病毒(ERV)是不动的,但它是丰富的逆转录病毒的一种,其中人类ERV(HERV)占人类基因组的8% [17]。HERVs塑造了人类基因组,调控网络和先天免疫反应的进化19。许多HERVs的残留表达容量可以调节基因和影响宿主免疫20,21。2类元素或DNA转座子通过涉及DNA中间体的机制进行转座。DNA转座子估计占人类基因组的3%以上,涵盖至少125个不同的家族,分别具有100或更多的拷贝数22。
转座子插入是可遗传的,并且可以在人群中和水平的物种垂直方向上扩展23,24。自然选择和遗传漂移是转座子插入进化命运的重要决定因素,大多数现存的插入对宿主而言是中性的或仅对宿主具有轻度有害25。然而,在初始转座时,推测大多数插入会破坏插入位点处的基因功能。此外,转座子插入,是否有害与否,可通过提供用于焦点非等位基因同源重组促进染色体重排1,26,27。因此,进化了许多机制,宿主生物通过这些机制调节或耐受转座。
在转录和转录后水平上起作用的多种调节机制起着限制转座的作用。在除植物其它真核生物,PIWI相互作用RNA(了piRNA)是转座子沉默的初级和充分研究的机构14,28,29。在Ozata等人中综述了piRNA介导的转座抑制。30。在动植物中,源自转座因子基因座的小干扰RNA(siRNA)触发转座子沉默。小RNA可以通过抑制表观遗传修饰31抑制转座子插入位点附近基因的转录31。在小鼠胚胎干细胞中,转座因子受到异色组蛋白修饰(例如H3K9me3)的抑制,并受到表观遗传修饰剂32的调控。在哺乳动物中,Kruppel相关盒(KRAB)锌指蛋白结合转座因子序列,对反转录转座子产生重大影响,并募集KRAB相关蛋白1(KAP1 / TRIM28),使与多种蛋白的相互作用成核,从而产生抑制性染色质结构在转座子插入位点33 – 36处。
DNA甲基化已被认为是对抗转座的重要机制。Deniz等人综述了甲基化和其他通过DNA修饰调节转座的方法。37。在哺乳动物和植物ATP依赖性染色质remodelers招募甲基化酶以产生染色质压制性状态抑制换位16,38,39。5-甲基胞嘧啶是研究更深入的DNA修饰之一,胞嘧啶甲基化与抑制的转座40 – 44有关。在斑马鱼的胚胎中,由于DNA甲基转移酶基因dnmt1的突变引起的整体DNA低甲基化已与I类逆转录转座子的广泛诱导和随后激活胞质DNA传感器,模仿病毒感染有关45。在早期的研究中,Zhou等 [46]发现在谷氨酸脱氢酶基因的5'-非编码序列中插入了Crus Neurospora crassa LINE样Tad反转录转座子。携带从头引起的可逆的甲基化胞嘧啶甲基信号泰德和是上游序列。这种甲基化抑制了Tad的表达和转座,可以通过用5-氮杂胞苷药物治疗来减轻这种抑制作用,这种药物可以减少胞嘧啶甲基化。除了5-甲基胞嘧啶,几个研究表明为角色Ñ 6-甲基腺嘌呤在调节换位47,48。Ñ 6-甲基腺嘌呤已经鉴定跨越原核生物,古细菌,和真核生物,尽管它不是在后生动物丰富49 - 52。在大肠杆菌中中,Tn的活性10转座子中高度升高在菌株水平的降低N6从突变-methyladenine坝Ñ 6-甲基腺嘌呤甲基转移酶48。在斑马鱼中,N 6-甲基腺嘌呤富含重复元素,包括LINE-1,LTR和DNA转座因子53。
正如芭芭拉·麦克林托克(Barbara McClintock)及其后续研究人员所提出的,转座子与宿主生物进化出了共生或互惠的策略,为可转座因子的广泛进化成功做出了贡献54。在原核生物中通常观察到互惠,因为转座子和结合质粒经常穿梭于抗生素抗性基因55。原核移动遗传元件可以携带有益于其宿主的基因,编码分泌蛋白,阳离子外排泵,铜抗性蛋白和限制性修饰系统56中的蛋白。转座子上存在大量分解代谢基因,包括插入序列复合转座子,这是许多分解代谢基因发生基因重排的趋势的基础57。CRISPR(聚簇有规律地间隔回文重复序列)–Cas系统的起源是宿主和移动遗传元件之间相互关系的一个鲜明例子。在过去的15年中,我们已经观察到CRISPR-Cas系统被广泛认为是细菌和古细菌中的一种适应性免疫反应58 – 61。通过这些经过充分研究的系统,将噬菌体和质粒的“间隔子”序列插入CRISPR序列阵列;加工得到的CRISPR转录本,以便将噬菌体序列加载到Cas蛋白上以识别外源基因组。提出了一种用于外源DNA片段作为CRISPR阵列中独特间隔物的整合CRISPR-CAS适配模块已经从超家族的编码CAS1,也就是说有可能移动遗传元件的演变,称为Casposons(综述62,63)。
互惠的例子在真核生物中也很明显。在颚状脊椎动物中,重组激活基因(RAG)蛋白1和2介导了V(D)J重组所必需的位点特异性双链DNA断裂,并与转座酶的多个家族共享机制和结构相似性64。值得注意的是,RAG蛋白被认为是从ProtoRAG DNA转座子家族65进化而来的。ProtoRAG被证明可编码RAG1和RAG2样蛋白,在体外和活细胞中构成活性核酸内切酶和转座酶65,并通过X射线晶体学和RAG1样转座酶的低温电子显微镜进行结构分析蛾Helicoverpa zea的Transib鉴定出许多与我们对剪切和粘贴变位66的理解有关的机械细节。转座因子可能有助于在缺乏端粒酶的果蝇物种中建立端粒样序列。在几乎所有的果蝇物种中,端粒重复序列已被非LTR反转录转座子序列阵列67取代。在果蝇中,三个家庭赛马般的反转录转座子协同行动,以使自己的放大,因此,端粒序列的维护68,69。此外,G2/非LTR逆转座子的赛马3家族直接有助于D. melanogaster 70中着丝粒序列的功能和组织。转座因子可以在某些真菌病原体中携带毒力基因71。在纤毛虫Oxytricha trifallax中,减数分裂过程中动员了一个DNA转座子家族,共同促进种系微核和体细胞大核的重塑。该转座子家族编码的转座酶基于RNAi的沉默会损害细胞生长,并由于微核和大核发育异常而导致细胞死亡72 – 75。从ERVs衍生的蛋白质已被多次收编以促进细胞-细胞融合,调节在胎盘基因人类怀孕,并调节免疫应答重要的表达76,77。Cosby等。54进一步回顾了宿主-转座子之间的相互作用,以了解转座对基因组组织和生物学的影响。
转座因子调节基因表达
转座子是在基因组中高丰度和可以编码启动子序列,剪接位点,转录终止序列,结合多个转录因子位点和序列修饰染色质构象78 - 80。因此,转座因子在调节附近基因的表达中起着重要的作用81,阐明转座子在调节基因表达中的调节作用的重要发现在Rebello等人中得到了综述。82。
从进化的角度来看,转座因子可能在转录调控网络的发展中发挥了重要作用,因为内部启动子和宿主转录因子的结合位点在转座因子序列中是显而易见的83。换位可能已经促进了这些调控元件的分布,具有后续的选择导致调节途径的演变84,85。在这些调节元件中,已经鉴定出增强子样表观遗传学特征,特别是在ERV的LTR中。托德等。86在小鼠胚胎和滋养层干细胞中鉴定了一大堆推定的增强子,它们与ERV编码的LTR重叠,尽管是原位的增强子活性的评估表明,这些元素中的大多数不表现出增强子功能。在人类中工作87,88表示编码推定增强剂影响基因转录的具体灵长类动物的LTR原位比做在小鼠干细胞中观察到的元素的更大程度,突出作进一步考虑这些序列的需要。Tellier和Chalmers 89从SETMAR蛋白甲基化酶中发现了对人类转录组的广泛影响,SETMAR蛋白甲基化酶是SET结构域蛋白甲基化酶与HsMar1之间的融合体转座酶。这项工作证明了转座酶的DNA结合结构域将酶靶向残留的转座子末端序列,从而可以根据甲基化酶活性调节基因表达。
最近,Gagliardi及其同事90确定了一种有趣的基于转座子的机制,用于调节向日葵基因组中HaWRKY6基因座的基因表达。对与该基因座相对应的表达序列标签的分析显示,其非编码RNA来源于HaWRKY6转录起始位点上游600–800 bp的微型IR转座因子(MITE)家族的反向重复(IR)。螨是50至500 bp的非自主转座元件,其末端IR通常在植物基因组91的基因丰富区域中发现。来自IR元件的转录物被加工成24个核苷酸的siRNA,从而触发DNA甲基化并成核组织特异性染色质环的形成。HaWRKY6基因座(图1)。在向日葵叶片中,形成基因内环,包括HaWRKY6基因的调控区,直至其第4个内含子。这种环状构象可能通过阻止RNA聚合酶II的运动来抑制HaWRKY6的表达。然而,在子叶中,形成了一个替代环,包括完整的HaWRKY6基因并增强了其转录。此环的形成改变了RNA聚合酶II的方向性,这可能会减少IR区域的转录,降低siRNA的产生,并最终释放出环状结构。这种优雅的机制突出了转座子在调节基因表达中可能实现的广泛且可能未被发现的功能。
基于转座子的表型筛选
转座子已被广泛用作实验室试剂,以方便地构建突变体,包括基因破坏/置换等位基因,导致转录时间和水平改变的启动子融合以及翻译融合体,用于构建各种嵌合体,包括表位/荧光蛋白标签产品。相对于DNA诱变的化学处理,基于转座子的方法提供了明显且定义明确的突变,借助转座子序列本身,可以轻松在目标突变体中鉴定出突变。CRISPR–Cas基因编辑是产生基因组突变的一种相关手段。尽管CRISPR–Cas靶向诱变是一种有效的策略,但基于CRISPR的方法并不能轻易实现使大基因组饱和所需的突变规模。此外,CRISPR–Cas策略目前不适用于多细胞生物中的全基因组筛选。与定向诱变方法相比,转座子可用于产生大量的突变,从而节省劳动力和成本,尽管转座偏向会使需要饱和覆盖的全基因组研究变得复杂92 – 94。插入偏倚和靶基因组的基因密度将影响转座子诱变的覆盖率。转座子诱变更容易使基因间隔相对较小的基因组饱和。利用体外诱变并随后通过DNA转化将插入的等位基因引入相关生物的策略和利用体内转座子诱变的方法已用于大规模研究。这些方法的适用性取决于所需突变的密度和转座子显示的插入偏倚程度。体外转座系统可以提供较小的插入偏差和更大的覆盖范围,尽管此类系统的适用性取决于有效的方法来获得外源DNA的染色体整合。值得注意的是,已经在酵母95中进行了饱和的体内诱变。转座子诱变的许多早期应用已用于原核生物和真核生物96 – 106的全基因组表型分析,并且今天仍继续使用基于转座子的方法。
最近的筛选策略已将条形码纳入转座子中,从而可以构建条形码化的突变文库,该文库可以有效地进行多路复用或并行分析以进行大规模表型分析107。Helmann等。108利用随机条形码转座子诱变来鉴定有助于细菌性植物病原体丁香假单胞菌适应性的基因。在这项工作中,使用Mariner的DNA条形码变体通过随机诱变在B278a背景中收集了281,417个丁香假单胞菌菌株。转座子。该文库涵盖了169,826个菌株,在已知基因中包含一个插入片段,占丁香假单胞菌中蛋白质编码基因的84%。借助于所结合的条形码,条形码区域的扩增子测序被用作每种突变菌株的丰度的相对量度以及在合并群体中菌株适应性的代理。该分析鉴定了至少392个基因,这些基因被预测对于标准实验室条件下菌株B278a的生长至关重要。这项工作进一步确定了定植于菜豆菜豆表面和内部栖息地的丁香假单胞菌基因集,共同突出了条形码转座子测序在全基因组诱变筛选中的应用。
Chang和他的同事109通过一种方法可以使转座子诱变适应小鼠中的全基因组表型筛选,该方法可以轻松识别带有插入片段的小鼠,而所需的小鼠和研究人员数量相对较少。这项工作利用了DNA转座子piggyBac的改良形式,用于哺乳动物细胞和哺乳动物。经典系统包含一个非自主的piggyBac转座子盒,用于传递与piggyBac IR序列侧接的外源目的基因,以及一个表达piggyBac转座酶的转基因,能够在种系110中诱导转座。转座酶与IR序列的结合导致盒在另一个位点的切除和重新整合。Chang等人的研究。109提供了一种piggyBac构建体,其具有用于基因过表达的条件调节的启动子和具有剪接受体和poly(A)信号的终止盒,用于有效破坏靶转录。此外,利用红色荧光蛋白转基因和密码子优化的荧光素酶基因,转座子在视觉上是可追踪的。插入piggyBac破坏了荧光素酶基因的活性插入物切除后恢复荧光素酶活性,提供了视觉上追踪转座子动员的便利手段。为了对小鼠种系进行全基因组诱变,生成了带有10个piggyBac转座子的转基因系。通过这种聪明的方法,Chang及其同事对小鼠的生长迟滞表型实施了经济高效的第一代F1显性先导筛选。
的睡美人转座子系统已被用于在体细胞组织诱变和保持强烈潜在效用用于治疗癌症和其他两个表型分析在体外和体内111,112。“睡美人”系统由同义的转座酶和转座子组成,最初于1990年代后期在鲑鱼鱼的基因组中发现113。睡美人转座子已被广泛用于在胚胎干细胞插入诱变114,体细胞组织115,116,和种系组织117 - 119。睡美人转座子已用于鉴定小鼠模型120中与结肠直肠癌相关的基因。最近,Grisard及其同事121利用了基于Sleeping Beauty的正向遗传筛选技术,结合单细胞检测技术,发现了转移性结直肠癌的调节剂。这些分析鉴定的微RNA MIR23-B和BTBD7结肠直肠癌转移的预后预测,示出了相对于化学,辐射,或用于前在液体活检测定的临床应用的生物标志物的推定功能分析病毒诱变转座子诱变的效用122。
转座子作为基因治疗的载体
DNA转座子已成为基因治疗的可行载体(在123中进行了综述),因此在疾病模型中进行离体和体内治疗的转座子已有许多概念验证研究。包括转座酶密码子优化,高活性转座酶工程改造和转座子末端重复序列修饰在内的方法具有改善的转座功效,可实现干/祖细胞和分化细胞类型中稳定的基因转移。关于《睡美人》,其转座酶的过度活跃变体已经通过体外进化和选择方法124和基于结构的设计/分子工程技术产生125。Sleeping Beauty系统已用于递送最长8 kb的长度为126的转基因,并且Sleeping Beauty系统已在I期试验中用于生成CD19特异性嵌合抗原受体(CAR)-T细胞,用于免疫疗法,可治疗与HBV相关的非霍奇金淋巴瘤和急性淋巴细胞白血病127。合理的蛋白质设计已被用于产生具有高溶解度和稳定性的Sleeping Beauty转座酶,可以与转座子DNA一起有效递送,以遗传修饰细胞系,胚胎干细胞,造血干细胞和诱导性多能干细胞。该方法已被用于产生CAR-T细胞,表现出有效的抗肿瘤活性体外和异种移植小鼠128。通过利用密码子优化129和结合位点特异性突变130的方法,对piggyBac的转座酶进行了修饰。该piggyBac系统能够递送长度高达100kb的DNA货物131,包括全长的人肌营养不良蛋白,用于治疗营养不良的中成血管细胞132。的Tol2转座子系统可以在长度递送转基因高达11 kb的,并在一些在斑马鱼转基因研究和其它生物体的已使用的133 - 135,虽然效率Tol2转基于基因的基因转移可能不如《睡美人》或piggyBac系统136中观察到的那样高
RNA引导的转座子插入
RNA定向转座为产生靶向插入物提供了有希望的实验方法,而CRISPR–Cas系统被证明对这项工作很重要。生物信息学分析已经确定了一些转座子编码的CRISPR-CAS系统中,与所述CRISPR衍生序列潜在地履行无关宿主生物体防御作用137,138。已经发现大肠杆菌转座子Tn 7的变体(图2A)编码CRISPR–Cas系统。传统上,Tn 7编码TnsE,这有助于通过结合质粒TnsD介导的靶向插入,在接合质粒中随机Tn 7转座并复制DNA。attTn7 Tn 7附着位点139。编码CRISPR-Cas系统的Tn 7变体缺乏TsnE的序列编码直系同源物,而CRISPR-Cas系统缺乏获得新型间隔子和裂解靶标的核酸分解活性所需的Cas蛋白137。仍然存在能够实现靶标识别的基因,这表明转座子可能利用CRISPR效应子,从而将转座引导至CRISPR阵列中间隔区所定义的靶标。
最近有两个小组证明了含有CRISPR–Cas的Tn 7亲戚的RNA定向插入。Strecker及其同事140分析了来自蓝细菌Scytonema hofmanni的Tn 7相关的CRISPR相关的转座酶,称为CAST(图2B)。转座酶由Tn 7样转座酶亚单位TnsB,TnsC和TniQ和VK CRISPR效应Cas12k类型组成。Tn 7样转座可通过CRISPR–Cas介导的RNA引导的靶向作用直接靶向靶位点。可以对Tn 7转座进行重新编程以将DNA插入大肠杆菌的目标位点基因组的频率高达80%,且无阳性选择。Klompe等。141在元件Tn 6677中鉴定出霍乱弧菌CRISPR-Cas效应复合物(图2C),该复合物可以指导伴随的Tn 7衍生的转座酶整合与指导RNA互补的基因组靶位点下游48-50 bp的DNA。Tn 6677元素编码TnsA,TnsB,TnsC和TniQ。这种转座涉及在靶向DNA的复合物Cascade和cas编码的转座蛋白TniQ(大肠杆菌的直系同源物)之间形成复合物。TnsD。TnsA的存在允许剪切和粘贴转座,这将导致简单的插入事件。如上所述,CAST元件缺乏TnsA,因此推测在转座子5′-末端的切割导致简单的插入是由宿主因子而非转座酶的组分提供的。Tn 6677元件的最大转座发生在775 bp的转座子供体中,需要在Tn 6677的左末端有105 bp的序列,在右末端的47 bp处。霍乱弧菌Tn 6677元件的可编程转座(图2C)在数十个独特的目标位点被观察到,表明这些技术在实现细菌中特定位点DNA插入而不产生危险的双链断裂的手段中具有潜在的实用性。值得注意的是,CRISPR–Cas诱变会导致双链断裂,通过非同源末端连接或同源重组进行修复。RNA引导的转座具有潜力,可以在构成“避风港”的选定位点以潜在的大量货物进行转座因子的靶向基因组插入,从而降低了意外插入诱变的风险。
除了RNA引导的转座作为生物技术的工具的重要性外,转座子编码的CRISPR-Cas变体的鉴定还提出了有趣的,尚未解决的进化问题,涉及该生物学设计中的明显选择性优势。CRISPR-CAS引导换位被认为已经在Tn的独立进化的至少三倍7样元件137,138。如Dimitriu等人所述。142,这种机制远非普遍存在,这表明平衡的成本和收益在RNA引导转座系统的进化中发挥着作用。转座子劫持CRISPR-Cas效应器机制的能力可能有利于将转座偏向移动遗传元件以增强水平转移。但是,尚不清楚这些缺少间隔子获取所需基因的CRISPR-Cas系统如何能够识别迅速发展的移动遗传元件。Strecker等。140表明,宿主CRISPR–Cas机制可能捕获间隔子以插入Tn 7编码的CRISPR阵列。Klompe及其同事141发现,弧菌科中的绝大多数I–F CRISPR–Cas系统家族与可移动的遗传元件有关,这与RNA引导的DNA整合可能通过水平基因转移促进先天免疫系统和毒力机制共享的可能性一致。不管驱动这种意想不到的相互关系的进化压力如何,RNA引导的转座酶系统都被认为是生物技术和进化生物学领域重要且迅速扩展的研究领域。
沿着产生用于定向DNA输送的更高效率系统的路线,Bhatt和Chalmers 143最近共同选择了Cas9,以通过重组的水手家族转座子HsMar1在体外靶向整合。对于这项工作,生成了一种嵌合蛋白,该蛋白由融合到大肠杆菌dCas9氨基末端的HsMar1转座酶组成。嵌合体中的转座酶和Cas9部分能够结合其各自的底物。此外,所述融合蛋白靶向是有效HsMar1活性在体外,从而实现了定向效率超过50%的单向集成。在大基因组中该方法在体内是否有效和足够选择性尚待确定。休等。144将过活跃形式的piggyBac转座酶融合到催化死亡的高保真SpCas9-HF1(dCas9)上。研究人员向piggyBac的天然DNA结合结构域引入了突变,从而减少了非特异性转座酶的结合并促进了dCas9与嵌合体的结合。通过这种方法,使用适当设计的指导RNA将转座定向到安全港CCR5序列。《睡美人》的插入内容已经通过其转座,或它的转座的N-末端片段的融合施力,与DNA结合蛋白和二聚化结构域145,146。Ivics实验室正在进行的工作是利用dCas9和针对Alu反转录转座子的单个引导RNA整合到基因组区域中,解决睡眠美容目标位点的修饰问题,否则该基因组区域就不是睡眠美容转座的不良目标147。累积地,这些发现表明在利用CRISPR–Cas技术进行RNA靶向的转座因子整合中具有潜在的实用性。