真核生物基因组转座子寄生策略的多样性

Transposable elements employ distinct integrationstrategies with respect to transcriptional landscapesin eukaryotic genomes

Xinyan Zhang, Meixia Zhao, Donald R. McCarty and Damon Lisch

挺多地方机译的,懒得改小细节了

ABSTRACT

    TEs在真核生物基因组中的现有分布是由真核生物基因组中真正的TE整合偏好以及整合后的选择决定的。使用植物和动物的多个 de novo 转座子入数据集比较了TE靶位点在宿主基因组中的分布,并在全基因组转录的环境下进行了比较。展示了两种不同类型的转录相关TE靶向策略,这表明真核TE家族之间的趋同进化过程。这两个精确靶向元件的整合与高表达基因的RNA聚合酶II(Por II)转录起始特别相关,表明除了开放染色质的被动靶向外,还存在着精确TE靶向的新机制。还强调了两个可以促进TE存活和快速增殖的特征:组织特异性转位和由于精确靶向而最小化对附近基因功能的负面影响。


INTRODUCTION

    事实上,许多基因组的整体结构在很大程度上由TEs的数量和分布决定,而TEs的数量和分布又由整合偏好和整合后的选择决定。

    根据TES的结构和生化特征,TES可分为反转录转座子(I类TES)和DNA转座子(II类TES)。I类和II类TES既可以是自主的,也可以是非自主的。反转录转座子通过一种“复制-粘贴”机制进行复制,该机制将逆转录作为复制过程中的一个步骤。DNA转座子通过“剪切和粘贴”机制进行转座,在这种机制中,一个元件被物理地从一个位置切除,然后在第二个位置重新整合。

    TEs对基因组进化有重要影响。TE拷贝数的增加导致基因组大小、复杂性和不稳定性的增加。TE转座与染色体结构变异有关,也可以影响单个基因的表达。TES已成为新突变的丰富来源,可供选择操作,并对基因进化和表型多样化做出了贡献。尽管如此,由TEs对其宿主主要是中性或有害的,并且TEs受到宿主免疫系统的严格控制。重叠的转录和转录后沉默机制在植物和动物中已经进化为分层防御,已经进化到抑制TE的表达和扩增。虽然这个系统是高效的,并导致大多数基因组中大多数TE的表观遗传沉默,但很明显,TEs也可以经历拷贝数的快速增加,并且目前或最近在各种生物体中都发现了活跃的TEs。

    TE活动的结果在很大程度上取决于TE在哪里整合。虽然真核生物基因组中的TE整合位点分布广泛,但不同的TE采用不同的整合策略,导致截然不同的插入图谱。有充分的证据表明,DNA转座子和RNA转座子都是非随机插入宿主基因组的。转座子Mu元件以重组热点附近未连接的开放染色质区域为靶标,这些区域往往位于基因的5'端。果蝇整合中的P元素与复制起始点有关,复制起始点也在基因的5‘端。人类基因组中L1反转录转座子的整合似乎也受到DNA复制的影响,既不针对活跃的转录区域,也不针对开放染色质。其他一些反转录转座子,如酵母中的ty1,由于转座子和RNA聚合酶III亚基之间的物理相互作用,靶向Pol III转录基因上游的H2A/H2B界面附近的核小体结合的DNA。整合到相对开放的染色质区,这可能有助于整合和随后的TE元件的表达,然而,情况并非总是如此。例如,Tal1靶向着丝粒(22),ty5靶向沉默的异染色质。

    作者对多个物种中的多个TE进行了比较,使用包括自己在内的许多群体收集的多个相对未选择的de novo 转座子插入数据集,在全基因组转录背景下探究了TE分布。确定了两种不同类型的Pol II相关TE靶向基因,以及那些独立于Pol II转录的基因,为植物和动物TE家族之间的趋同进化提供了证据。研究数据能表明,TEs已经进化出策略来最小化它们对宿主基因表达的影响,即使这些TEs特别针对基因区域。


MATERIALS AND METHODS

收集de novo 转座子位置信息和RNA-seq数据集

    本研究中分析的TE家族均被用作有效的诱变剂,并且每个TE家族都被用于序列索引突变体库的构建。玉米、水稻和果蝇的UniformMu、Dissolation(Ds)-GFP、Oryza sativa 17(Tos17)、Ds、Suppressor-mutator(Spm)、P、picgyBac(Pb)和Minos(Mb)新插入转座子插入已公开发表。SomaticMu elements 是通过对从高拷贝Mu活性玉米幼苗收集的叶片Mu-seq生成的,并且使用与用于萌发插入的UniformMu集合相同的pipeline得到TE位置信息。Tables S1–S5 提供了每个物种中所有TE插入的位置信息。Table S6提供了tRNA和rRNA基因附近插入的位置信息。

    UniformMu,Ds- gfp,SomaticMu ,P,Pb,Mb,Tos17,Spm,Ds

    原始FPKM从玉米遗传资源数据库中检索了玉米AGPv4基因的公开RNA测序实验值。使用R包FactoMineR对不同玉米组织的RNAseq数据集生成的FPKM值进行主成分分析。分别从水稻表达数据库和FlyAtlas2检索水稻和果蝇的RNAseq数据,使用此分析的所有基因的表达水平可在表S7中找到。

    玉米,水稻,果蝇转录组数据

转座子在转录起始位点和转录终止位点附近分布的荟萃分析

    计算每个插入事件到转录起始位点和转录终止位点的距离。基因插入沿正X轴绘制,基因间插入沿相对于TSS和TTS的负X轴绘制,并与随机选择的基因组位点进行比较。在玉米染色体上共产生了421 280个随机插入,其密度为每5kb一个插入,这与最大的插入数据集(SomaticMu)相当。考虑到水稻和果蝇的基因组相对较小且基因丰富,随机插入的密度被设定为平均每400bp一个插入。在一些基因丰富的区域中,来自上下游基因的一小部分TE插入或随机分布的位点都小于4kb,因此对其进行了两次计数。预计这将导致随机选择的基因座的子集的分布略有不均匀。

    分别绘制基因间和基因转座子插入的元图谱,使用以每个位置为中心的滑动30碱基对窗口的标准化插入数。

    在每个 RNA-seq 实验中,根据基因的相对表达水平将基因分为20个bins,其中bin 1代表最低的表达水平,bin 20代表最高的表达水平。为每个RNAseq数据集计算每个bin中与TSS相关的插入(TSS上游<2kb)的百分比,并沿X轴绘制所有数据集中的平均百分比。

基于测序的转座子分析和基于测序的等位基因频率分析

    以miseq为基础的mu element分析是用F1杂交后代进行的。B73亲本携带突变活性,已渗入B73遗传背景。Mo17缺少活跃 mu elements。因此,所有的新插入都来自B73基因组。从B73/Mo17杂种植株6日龄幼苗中提取基因组DNA。然后对Mu侧翼DNA进行扩增富集。纯化的PCR产物进行MiSeq。Wideseq reads比对到B73参考基因组,通过鉴定 Mu TSDs(Mu target site replications,TSDs),在杂交分离后代中到了一组mu插入靶向的基因,且对mRNA序列中含有B73/Mo17 SNPs的基因进行等位基因特异性表达分析。为了定量等位基因频率,我们从上述杂交种幼苗相同的茎组织中进行了RT-PCR和Wideseq分析。提RNA,反转录成cDNA,对16个携带SNPs的基因进行RT-PCR扩增含有B73/Mo17 SNPs的RNA片段,Wideseq测序。还对四个单株杂种种子的胚乳进行了RNAseq分析,Wideseq进行Mu插入鉴定。Fold changes of gene expression caused by Mu insertions for each gene were calculated by comparing the B73 allele frequency in individuals containing Mu insertions with those without Mu insertions which were further normalized using the Mo17 allele transcript frequency in plants that lacked an insertion in either B73 or Mo17. 计算每个基因由插入引起的基因表达的倍数变化。


RESULTS

新转座子在宿主基因TSSs和TTSs附近的分布

    为了了解真正的转座子目标偏好,我们检查了9个新插入数据集的目标位点分布。这些包括玉米的SomaticMu,UniformMu和Ds- gfp,水稻的Tos17、Ds和Spm,果蝇的P-element,Pb和Mb插入集合。除Tos17是一个低拷贝数的LTR逆转录转座子外,所有的TE都是DNA转座子。UniformMu主要由 germinally transmitted 生殖发育传递的Mu插入组成,而SomaticMu元素被推断主要来自体细胞插入,因为相对于所检测的家族中分离的插入,获得的reads数量相对较低。

    通过对随机选择的位点的插入谱进行比较分析,发现不同物种中不同元素与TSSs或TTSs的关联存在显著的相似性和差异。TE插入分布与随机选择位点分布的差异揭示了TE插入在TSSs或TTSs附近的显著富集。mu element (UniformMu和SomaticMu)和P element在TSSs附近大量富集(峰值移位<50 bp),但在TTSs附近大部分缺失,表明TSS与两种转座酶紧密相关(Figure1A, B, D, E, Supplementary Figure S1A, B, D, E)。在tss或tts附近没有富集mb,spm,tos17插入。事实上,相对于这些位点,tos17插入实际上在基因体中有所富集(Figure1C,F,Supplementary Figure S1C, F)。

Figure 1.被注释基因的TSSs和TTSs周围TE插入的标准化数量。TSS和TTS图均在正x轴坐标上绘制标准化基因插入数,在负坐标上绘制标准化基因间插入数。每个距离的插入数通过计算30 bp滚动窗口的平均值来平滑。玉米,果蝇,水稻
Figure S1

    为了确定Mu和P元素的靶向是否针对Pol II依赖的转录,或者实际上与任何RNA聚合酶相关,我们检测了玉米和果蝇中分别是由RNA Pol I或III转录的 rRNA和 tRNA 基因附近的新Mu元素和P元素插入的分布。为了最小化Pol II tss相关的TE富集,我们根据玉米中rRNA和tRNA与Pol II tss的距离对其进行了筛选,获得了与任何Pol II转录的注释基因的TSSs距离超过5 kb的1610个基因。很少有转座子插入到1610 rRNA和tRNA基因的基因体中,沿着正x轴可以观察到,可能是因为这些基因的长度小。在这些基因的TTSs下游和TSSs上游的区域,UniformMu和SomaticMu的分布类似于随机选择的基因组位点,只是UniformMu的分布曲线比SomaticMu的分布曲线更不平滑(Figure2A, B),这可能是因为SomaticMu插入的数量是UniformMu插入的3.5倍。与Mu element插入相似,P element插入rRNA和tRNA基因的TSSs和TTSs或其附近的频率与随机选择的位点相当(Supplementary Figure S2).

Figure 2.RNA聚合酶I, III, IV和V靶位点附近新插入的mu插入的分布。A和B为tRNA和rRNA基因TSS (A)和TTS (B)的UniformMu和Somattic mu插入。图中显示了注释的tRNA和rRNA基因在TSSs和TTSs周围插入的标准化数量。通过计算30 bp滚动窗内的平均值,平滑各距离的插入数。UniformMu 和 SomaticMu插入在玉米基因CHH岛附近5'(C)和3'(D)的末端。
Figure S2.在tRNA和rRNA基因的TSS (A)和TTS (B)周围新P element 的分布。

    植物有两种植物特有的RNA聚合酶,Pol IV和Pol V,它们是胞嘧啶甲基化在不对称(CHH,其中H是A, T或C)序列环境中所必需的。大量的CHH岛位于玉米的基因5'末端或者下游的3'末端。我们在CHH岛中未观察到Mu element插入的富集。绝大多数的插入都在5'CHH岛,因为 Pol II转录本在TSSs转录。这些结果表明,Pol IV和Pol V转录起始或终止位点不是Mu element插入的显著靶点(Figure2C, D)。


不同表达水平宿主基因附近TE靶位点的分布

    考虑到几个TE家族的靶位点是与TSS或TSS相关的,我们假设一些家族的转座酶以依赖于转录水平的方式被招募到TSS或TSS。为了验证这一假设,检测了转座子靶向频率与宿主基因相对表达水平之间的相关性。提取了一个位于TSS附近(<2 kb)的TSS相关TE插入集,并从玉米的79个组织、果蝇的38个组织和水稻的59个组织中检索了公开可用的RNAseq数据集。对于每个数据集,在每个RNAseq实验中,根据排列的FPKM值将基因分成20个大小相同的组,其中bin 1包含表达最低的5%基因,bin 20包含表达最高的5%基因。随机选择的基因组位点(对照数据集)均匀分布在不同水平表达的基因附近,Mu 和 P elements 优先靶向高表达的基因,如向上倾斜的曲线所示 (Figure3A, B)。Pb 的靶向频率与基因表达呈正相关,与p和mu elements的正相关程度比较,低一点 (Figure3B)。有趣的是,Ds(在玉米和水稻中)、Spm和Tos17转座子插入均在中表达bin中过度分布(Figure3A, C),表明在这些水平表达的基因是这些元件的首选靶基因。Mb元素在TTS上表现出轻微的富集,而不是在TSS上,而且以低的表达量基因为首选靶基因(图3B)。

Figure 3.新转座子在不同表达水平的基因附近插入。在玉米(A)、果蝇(B)和水稻(C)转座子的20个表达箱中分别显示了转座子插入的百分比。图中显示了TE靶向频率与分类基因表达水平之间的相关性。对于每个RNA-seq数据集,整个注释的基因集由低到高独立分组到20个表达箱,每个包含相同数量的基因。误差条表示基于独立RNAseq数据集的每个bin中的百分比的标准差。

    利用两个可用的Mu插入数据集,通过对来自TSSs的4225 Mu元件热点基因(>3 UniformMu和>10 SomaticMu插入,<2 kb来自TSSs)使用agriGO进行GO分析,验证了被精确定位TEs经常靶向的基因与特定的生物学功能或过程相关的假设。为Mu热点基因丰富的7个GO术语涉及广泛的一般而不是专门化的生物过程和分子功能 (Supplementary Figure S3A)。按这7个GO项分类的基因,平均而言,表达水平明显高于总基因集(Kolmogorov-Smirnov检验,箱形图旁边显示的Pvalues) (Supplementary Figure S3B),这与观察相一致,mu elements优先靶向高表达基因。此外,在这7个基因组中,Mu 热点基因的表达量均显著高于非热点基因(Kolmogorov-Smirnov检验)(Supplementary Fig- S3C)。这些观察结果表明,这些GO terms富集并不是因为它们与特定的过程有关,而是因为它们倾向于以高于平均水平的水平表达。

Figure S3.GO分析Mu元件经常靶向的热点基因。基因表达值的分布。B.Box图显示了7个GO基因集和全基因组基因的转录值分布。对每个GO基因集和全基因组基因集进行Kolmogorov-Smirnov检验。在箱形图旁边标出P值。C.箱形图显示了各分类中总基因、热点基因和非热点基因的转录值分布。采用Kolmogorov-Smirnov检验将热点基因集与各分类中的其余基因进行比较。


TE插入片段在分生组织和分化组织中的分布

    考虑到几个TE家族的靶向频率与宿主基因在一组组织中的表达水平有关,假设转座具有组织特异性,两者之间的相关性最强的组织将是转座发生最频繁的组织。以玉米中的Mu 和 Ds elements为例,探讨了TE转座的组织特异性。

    为了探索影响玉米不同组织转录组差异的主要因素,首先对上述79个RNAseq数据集进行了主成分分析(PCA),发现第一主成分(17.8%的方差)很好地区分了分生组织和分化组织 (Supplementary Figure S4A)。

Figure S4.在 meristematic 分生组织和 differentiated 分化组织中Mu插入谱不同。玉米组织特异性基因表达的主成分分析(PCA)。红色框架标志着富含分生组织细胞的组织,绿色框架标志着富含分化细胞的组织。
Figure 4.在 meristematic 分生组织和 differentiated 分化组织中Mu和Ds elements分布的比较分析。(A) 在分生组织和分化组织的20个表达bin中,随机基因组位点、UniformMu、SomaticMu和Ds元件插入的百分比。在Figure1a(和1D)中使用的一组相同的随机选择的位点作为背景对照。误差条表示基于独立RNAseq数据集的每个bin中的百分比的标准差。玉米meristematic-dominant genes和differentiated-dominant genes TSSs (B)和TTSs (C)周围的随机基因组位点、UniformMu、SomaticMu和dselements的元谱。

在6个分生组织和6个分化组织中,mu和ds element插入在低表达至高表达bins中的分布曲线表现出不同的模式(Figure4A, Supplementary Figure S4B)。这两条曲线在中等(条带8-12,排名在35%-60%)和高表达基因(条带16-20,排名在75%-100%)上差异最大(Figure4A)。为了研究组织特异性基因在分生组织和分化组织中的表达是否与这种分布曲线的变化有关,我们鉴定了在分生组织中高水平表达,分化组织中中等表达的基因(meristematic-dominant genes),以及在分化组织中高表达,分生组织中中等表达的基因(differentiated-dominant genes)。得到了746个meristematic-dominant genes,723个differentiated-dominant genes (Supple-mentary Figure S5)。我们发现在分生显性基因的TSSs附近的mu element插入(无论是UniformMu和Somat-icMu)比在分化显性基因的TSSs附近的muelement插入富集得高得多(Figure4B)。这种富集是TSSs的,TTSs不存在,这与我们之前的观察结果是一致的(Figure 4C)。还发现,在分生组织中,中等表达bin8-12中的Ds 富集较高(Figure 4A),这可能是由于Ds elements对中等表达基因的偏好。与这一观察结果一致,我们观察到在meristematic-dominant genes集(Figure4B, C)中,在TSS附近有较低水平的Ds 富集,在较小程度上,TTSs也有较低水平的Ds富集,这表明在分生组织中中等水平表达的基因(差异显性基因集)中,Dselement的插入频率较高。这些结果表明,Mu 和Ds element更倾向于靶向整合分生组织或快速分裂的细胞中表达的基因。在Mu的例子中,这些基因在这些细胞中高水平表达。在Ds的例子下,基因在这些细胞中中等水平的表达。

Figure S5.箱图显示了一组分生组织显性基因和一组分化组织显性基因在选定的分生组织(底部6个)和分化组织(顶部6个)中的差异表达。

重新评价精确靶向转座子的诱变能力

    在基因内部或附近区域插入TE可能会或可能不会扰乱宿主基因,这取决于TE整合的位置。为了评价精确靶向转座子的诱变能力,我们分别检测了注释玉米和苍蝇基因的5'和3'近端的Mu元素和P元素的富集情况以及亚基因特征,进行了卡方检验。与上面的荟萃分析一致(Figure1),Mu elements 和P elements的插入都显示在基因的5‘端(特别是TSS和5’UTR上游的200bp)有很强的富集作用(Table1)。Muelement 在5'UTR 富集整合 (64.4-fold倍 for SomaticMu;90.1-fold for UniformMu) 相对于在编码序列内整合 (8.8-fold forSomaticMu; 7.0-fold forUniformMu) ( all Pvalues less than 1E−5,卡方检验)。与随机机会相比,基因5'端的P element的富集比P element插入编码序列的频率降低了4倍。事实上,在P element 18213插入的总数中,只有729个,即4%被插入到编码序列(CDS)中。

Table 1.基因中或其附近插入Mu和P元素的数量和百分比的汇总。对于随机插入,富集倍数定义为1;1以上的值表示TE插入的富集,1以下的值表示TE插入的枯竭

    假设TE插入到基因的 5' 端比CDS插入的危害要小,进一步研究了精确靶向TES插入对邻近基因表达的影响程度。为了做到这一点,我们计算了一系列新的Muelement插入的结果,其中大多数是进入启动子或5'UTRs,通过实验检测 mu element 插入引起的基因表达水平的变化。有活跃Mu转座子的B73玉米品系与无活跃Mu转座子的Mo17玉米品系杂交。利用Miseq-based amplicon-sequencing pipeline对后代中分离的Mu元件插入片段进行测序(42),并调用B73-Mo17 SNPs,通过深度测序对插入和未插入Mu元件的亲本等位基因的相对转录水平进行定量(Supplementary Figure S6)。

Figure S6.基于高通量测序的杂交分离群体和等位基因频率量化的杂交组合方案

我们发现,四个启动子的插入都没有改变邻近基因的表达。四分之一的5‘非编码区插入(20个中的5个)导致了knockout 敲除或强烈的knockdown 敲除效应,7个内含子插入中的一个导致了knockout 敲除效应(Table2)。总体而言,在总共33个插入片段中,只有11个显著降低了基因表达,只有两个完全消除了表达,所有这些插入片段都在距离基因200bp的范围内。这些结果表明,宿主基因TSSs附近的mu element插入通常与数量相关,在许多情况下,可忽略对附近基因表达的功能后果。

Table 2.通过RNAseq重新评估muinsert的诱变能力,并通过Miseq对RT-PCR产物进行测序

    在更长的时间尺度上,净化选择有望清除只有微弱有害影响的插入突变。为了评估较老的Mu元素插入上的选择压力,我们检测了一类被称为pack - mule的突变体样元素,其中许多是具有分叉末端反向重复序列(TIRs)的基因组中的古老插入。在TSSs周围,1358株pack - mule在玉米和2959株pack - mule在水稻中的分布表明,在两个物种中,Pack-MULE数仅在TSSs上游达到峰值,并在TSSs上游1kb处减少到接近背景水平(Figure5A, B)。这与我们在玉米上观察到的新插入非常相似。然而,Pack-MULE插入基因体的数量急剧下降(Figure5A, B),表明该地区对老基因的选择压力。在玉米基因组中的其他dna转座子家族中,包括HAT、Mariner、CACTA、Harbinger和Helitrons以及LTR反转录转座子,都发现在tsss下游的基因转座子插入的代表性较低,这与这一观察结果一致,也与反对插入基因的选择一致 (Figure5C-H)。相反,我们发现野生黑腹果蝇基因组中注释的Pelement与从头插入的Pelement呈现相同的分布(Figures1B and 5I)。据推测,这是因为Pelement只存在于野生黑腹果蝇基因组中较短的一段时间,在野生种群中不太可能是固定的或纯合的。

Figure 5.寄主基因TSS附近的古老转座子的代谢谱。将注释基因的TSSs和TTSs周围的插入数量归一化。基因插入标记在X轴正坐标上,基因间插入标记在X轴正坐标上。通过计算30bp滚动窗口的平均值来平滑每个距离处的插入数。图1中使用的相同的随机选择基因座集用作背景对照。


DISCUSSION

    我们对多个从头转座子集合的比较基因组分析揭示了两种转录相关TE整合策略(A和B) (Figure6A)。A型精确定位策略被两种最活跃的动植物转座子Mu和P元素所采用,其特征是关联非常紧密。TE整合与Pol II依赖的转录起始之间的作用。这些TE在邻近注释的TSSs处富集,特别是在高水平表达的基因中。此外,在玉米中,Mu元件优先插入到活跃分裂的细胞中高水平表达的基因中。

    与A型策略相比,采用B型策略的TE家族的靶位点(Ds和Pb)在中表达基因的TSSs和TTSs上都富集,而且B型TE插入靠近TSSs的富集水平低于B型(Figure6A,B)。A型和B型策略根据注释基因附近具有代表性的TE分布曲线的单峰和双峰形状而命名,这两种分布曲线分别令人联想到阿拉伯骆驼的单峰和双峰驼的特性。鉴于我们分析的不同TE家族编码的转座酶在系统发育上是远亲关系,转录相关的A型和B型策略表明,植物和动物中不同TE家族之间存在趋同进化过程。这是第一个在植物和动物中显示出这种关系的比较研究。

Figure 6.宿主转录背景下TE靶向策略的分类。所提出的模型描述了不同表达特征的TEs在基因组位置上的占据情况。A型和B型转座子主要针对发生活跃转录的开放染色质区域。A型转座子的整合与RNA Pol II转录启动有关。 转座酶高度靶向到TSSs的机制还没有被确定。B型转座子的靶向与RNA Pol II转录起始和终止相关。
Table 3.根据TE家族在基因附近的分布以及TE靶向频率与基因表达水平的关系,对TE家族使用的整合策略进行了分类

    那些缺乏与POL II转录启动或终止相关的TEs属于C型组。POLⅡ非依赖性整合可以是转录无关的,也可以是转录相关的。与先前报道的睡美人转座子类似,Tos17插入与TSSs或TTSs都没有关联,但富含在中等水平表达的基因的基因体中 (Figure3C, Supplementary Figure S1C and S1F)。相比之下,Mb插入与TTSs表现出轻微的相关性,而与TSSs没有相关性 (Figure1B and E),实际上在靶向频率和基因表达水平之间呈现负相关 (Figure3B)。Spm也显示了在中到高水平表达的基因附近的靶向富集,但这种TE优先靶向宿主基因组的基因间区域。总体而言,C型策略可能涉及只与宿主转录活动间接相关的基因组靶向机制。

    先前的报告为一些DNA转座子的开放染色质靶向模型提供了证据(12,53)。研究结果挑战了这个模型的普遍性,因为它没有完全解释a型整合策略,尽管精确靶向a型te的插入位点确实在一定程度上与一组与开放染色质相关的染色质修饰共定位(12)。在植物和动物中,大多数开放的染色质区域仅仅位于tss的上游和tts的下游(54,55)。在TSSs和TTSs处或附近也有报道称玉米和果蝇中存在Pol II(55,57)。Mu和P元素插入的分布让人联想到Pol II在TSSs附近的占据,而不是在TTSs附近,这表明典型的a型te的整合与转录起始密切相关,而不仅仅与Pol II的占据有关。此外,我们还证明了a型转位策略是针对Pol II的,而不是其他RNA聚合酶,如Pol I、Pol IIl或植物特异性Pol IV和Pol V(图2)。在TSSs附近的P整合被归因于这些区域复制起源的富集,提示Po II转录起始是间接的(13)。提出的模型包括通过转座子靶向未激活的复制原点,结合复制后切除位点的同源修复。虽然这个模型提供了一种增加元件拷贝数的机制,但与复制起点的关联并不能立即解释观察到的P和Mu靶向与基因表达水平的相关性(Figure3A, B)。......

    分析强调了两个可以促进TE存活和快速增殖的特征:组织特异性转位和由于精确靶向而最小化对附近基因功能的负面影响。P元素的组织特异性转座是正确的,它只在种系中表达功能性转座酶(58)。在植物。分生组织-组织特异性转位也有助于TE的快速和可遗传的扩增,因为积极分裂的植物细胞(特别是花组织和分生组织)比那些不分裂的更有可能传递给下一代。在这方面,我们观察到,在分生组织富集的组织中,Mu和Ds元件对目标表达水平(Mu高表达,Ds中表达)的基因有明确的靶向偏好(Figure4B)。鉴于本研究已经确定的大量体细胞Mu插入显示出与生殖发育传递Mu插入相似的插入偏好,Mu元件可能主要避免插入主要在终端分化细胞中表达高水平的基因,而不是针对 “生殖发育” 体系。

    Mu和P元件采用的a型(TSS-targeting)策略使这些te具有利用自主元件转录的许可环境的能力。这对于TEs在富含异染色质的基因组(如玉米基因组)中的存活尤为重要。这种策略有可能对宿主基因表达和功能造成有害影响。事实上,我们发现,与随机插入相比,CDS区域的Mu插入更有可能是破坏性的,其频率为7-9倍fold。尽管如此,在TSSs附近的Mu插入有更高的富集(64-90倍),并且启动子和5' UTR中的大多数Mu插入对基因表达影响很小或没有影响。这表明,考虑到Mu元件对靶基因区域的倾向,Mu元件的致突变性实际上比预期的要小得多,因为Mu元件插入和TSSs之间的紧密联系使宿主适应度的降低最小化。鉴于此,而且绝大多数的基因Mu元素插入到5' UTR中。我们建议将Mu作为遗传资源的研究人员谨慎对待这些插入,因为它们不太可能是 knockout 敲除。P 元素也很少插入cds,可能是因为它们也精确地针对TSS。虽然P元件靶向启动子和5' UTR的作用有待进一步研究。类似地,尽管MITE TE插入倾向于进入或接近基因,但对基因表达的影响也很小,尽管这可能部分是由于其体积小(59)。总的来说,这些数据表明,对于某些TE,选择倾向于插入基因,但破坏性最小。Mu和P元素作为高效诱变剂的历史观点可能是由这样一个事实形成的,即许多由这些元素引起的插入突变在突变表型的筛选中被鉴定出来(60,61)。更广泛地说,在高等真核生物中,几乎所有已知的活性TE都是由于其诱变作用而首次被发现的。很可能在自然种群中还有许多额外的活性TE尚未被识别,因为它们很少引起可见突变。

    我们对玉米和水稻中较老的MULE插入的分析表明,这些元素的5' UTR插入最终会从基因组中清除,这表明靶向5' UTR的TEs在长期内会受到净化部分的影响。有趣的是,在近端启动子MULE插入中,清除的效率似乎要低得多,在两个物种中仍然大量存在。

    TE家族通过采用不同的整合策略占有不同的基因组生态位。这反过来又影响了TE对宿主基因功能的影响程度,并最终影响宿主基因组的进化。TE也被证明是非常宝贵的工具,无论是作为诱变剂还是转化载体(62)。更深入地了解TEs如何针对基因组的特定区域进行整合,有望使这些工具更有效和更精确。



文献:

Transposable elements employ distinct integration strategies with respect to transcriptional landscapes in eukaryotic genomes


你可能感兴趣的:(真核生物基因组转座子寄生策略的多样性)