LTR 介绍

https://zhuanlan.zhihu.com/p/183952007
https://www.zhihu.com/question/54103290/answer/162906653
https://baike.baidu.com/item/%E8%BD%AC%E5%BA%A7%E5%9B%A0%E5%AD%90/1993922?fr=aladdin
https://baike.baidu.com/item/%E8%B7%B3%E8%B7%83%E5%9F%BA%E5%9B%A0/10112104?fromtitle=%E8%BD%AC%E5%BA%A7%E5%AD%90&fromid=3560108&fr=aladdin
https://www.biomart.cn/experiment/430/478/485/139212.htm
https://zhidao.baidu.com/question/1377748451602381540.html
https://www.cnblogs.com/emanlee/archive/2011/09/18/2180217.html
http://www.360doc.com/content/18/1226/16/35201910_804617199.shtml

一、LTR简介

转座子(Transposon)定义(From: Wikipedia):

A transposable element (TE, transposon, or jumping gene) is a DNA sequence that can change its position within a genome, sometimes creating or reversing mutations and altering the cell's genetic identity and genome size. Transposition often results in duplication of the same genetic material. Barbara McClintock's discovery of them earned her a Nobel Prize in 1983.

Transposable elements make up a large fraction of the genome and are responsible for much of the mass of DNA in a eukaryotic cell. Although TEs are selfish genetic elements, many are important in genome function and evolution. Transposons are also very useful to researchers as a means to alter DNA inside a living organism.

LTR(long terminal repeat)即长末端重复序列,其长度从100bp到5kb不等是存在于 LTR 反转录转座子(LTRs)两侧翼的长末端重复序列。LTR反转录转座子 和非LTR反转录转座子都是真核生物中一类可移动因子,因其转座需经由RNA介导的反转录过程而得名。

长末端重复序列(LTR)是反转录病毒的基因组的两端各有一个长末端重复序列(5'-LTR3'-LTR)。不编码蛋白质,但含有启动子,增强子等调控元件,病毒基因组内的LTR可转移到细胞原癌基因邻近处,使这些原癌基因在LTR强启动子和增强子的作用下被激活,将正常细胞转化为癌细胞。

1. LTR 与重复序列、转座子的关系

LTR-RTs 是 Long terminal repeat-retrotransposons 的缩写,中文名是长末端重复反转座子。LTR-RTs 名字中既有重复、又有转座子,那么它和重复序列、转座子是什么关系呢?图1 为您解答。

image

重复序列:根据重复区域是否连续可分为串联重复序列和散在重复序列(又名转座子、转座元件)两大类,前者相连,后者不相连。

转座元件(transposable elements, TEs) 又称转座子:指在基因组中能够或,并可以。

根据转座过程是否形成 RNA 中间体,转座子 TEs 可分为 DNA 转座子和反转录转座子。

  • Class I 反转录转座子:以 RNA 为媒介,伴有反转录过程,以复制-粘贴的方式在基因组的新位置产生一个新的拷贝。
  • Class II DNA 转座子:转座机制则是 剪切-粘贴 的形式。

LTR-RTs :是反转座子中的一种,因其两侧存在长的末端重复而得名。不含长末端重复的反转座子统称 non-LTR-RTs,主要包含短散在重复(SINE)和长散在重复(LINE)。

Transposable elements (TEs) are genetic entities with an intrinsic mobilization capacity. As a result of this characteristic, they are responsible for donating regulatory sequences and transcription regulatory signals, as well as for creating considerable genomic instability, mediating chromosome rearrangements, altering both gene expression and function, and creating novel genes and exons. Such mobilization can also result in host genome contraction and expansion. According to a unified classification system proposed for eukaryotic transposable elements, TEs can be grouped into two classes according to their transposition mode: Class I elements (retrotransposons), which use the enzyme Reverse Transcriptase (RTase) to transpose via an RNA intermediate to a new genome insertion site, and Class II elements, which are transposed directly via DNA molecule using a transposase (Tpase) enzyme.

Class I elements are divided into five orders (LTR, DIRS, PLE, LINEs, SINEs), each of which is subdivided into superfamilies (LTR: Copia, Gypsy, Bel-Pao, Retrovirus, ERV; DIRS: DIRS, Ngaro, VIPER; PLE: Penelope; LINEs: R2, RTE, Jockey, L1, I; SINEs: tRNA, 7SL, 5S).

Class II (DNA transposons) elements are split into two subclasses: subclass I contains superfamilies either with terminal inverted repeats (Tc1-Mariner, hAT, Mutator, Merlin, Transib, P, PiggyBac, PIF-Harbinger and Cacta) or without terminal inverted repeats (Crypton), whereas subclass II comprises the Helitron and Maverick superfamilies.

2. LTR-RTs 的结构特征

典型的 LTR-RTs 的结构有 5 个特征,其模式图见下方,各特征意义如下:

(1) TSR(TSD): 目标重复位点,是 4~6bp 的短的重复序列,在 5’LTR and 3’LTR 两侧,是转座子插入的信号。

(2) 5’LTR and 3’LTR : LTR 两端序列完全一致的末端重复, TG..CA box,完整的 LTR 均含有此结构。LTR 长度一般在 85~5000bp

(3) PBS (primer binding site) 引物结合位点: 在 5’LTR 的末端,可与一些 tRNA 3’ 末端互补结合的一段 18bp 左右的序列,是反转录的第一步。

(4) 蛋白区域: 长度通常在 1000~15000bp。

  • GAG:衣壳蛋白。
  • POL:包含4中酶,由AP(天冬氨酸酶)、IN(INT,整合酶)、RT(逆转录酶)、RH(核糖核酸酶),LTR 能否自主转座的关键原因。
  • ENV:包膜蛋白,后生动物中存在

(5) PPT:3’LTR 的起始位置短的富含嘌呤的序列,11~15bp。

LTR 在生物体内历经成千上万年的进化,发展出许多存在形式(图 4-2)。我们通常将包含两个相对完整的 LTRs 和已识别的 PPT 和 PBS 位点的元素,且两侧有 TSD 的 LTR 定义为 Intact LTRA)。由于 LTR-RTs 两端序列非常相似,LTR-RTs 内可发生重组,导致内部元件消失,形成 solo LTRC),而 solo LTR 的数量表明了一个基因组中 LTR 去除的频率和效率。此外 LTR 发生缺失、易位可形成截断的 LTRB)。LTR 也会经常插入到其他 LTR 内部区域,形成嵌套 LTRD)。

image

因存在这些突变机制,实际上完整的LTR-RTs(A)只占基因组中所有 LTR-RT相关序列的一小部分,完整的 LTR 长度在85~5000 bp之间。 Intact LTR 主要归为两大类: Gypsy和Copia。如果LTR中间的序列不包含开放阅读框(ORF), 那么所属的LTR-RT就无法独立的转座。

3. LTR的分类

一般来说,按照转座方式的不同,可将转座子分为三大类:I型转座子(Class I elements),II型转座子(Class II elements)以及 Helitron 转座子。

  • I型转座子又叫反转座子(retrotransposon)。根据反转座子的转座机制,人们形象地称其为复制-粘贴型转座原件。反转座子在转座时,会先以DNA为模板,在RNA聚合酶II的作用下,转录成一段mRNA,然后再以这段mRNA为模板反转录成cDNA,最后在整合酶的作用下将这段cDNA整合到基因组上新的位置。
    根据两端侧翼有无LTR(long terminal repeat),可将反转座子进一步划分为LTR反转座子和非LTR反转座子。LTR 是一段长末端重复序列,其长度从100bp到5kb不等,携带转录起始和终止的信号,位于 LTR 反转座子两端侧翼,调节 mRNA 媒介的形成。另外,还可根据能否“自给自足”,将反转座子分为自主型反转座子和非自主型反转座子。自主型反转座子编码了所有转座必须的蛋白;而非自主型反转座子缺少一些转座必须的蛋白,需要在自主型反转座子的帮助下才能顺利完成转座。
  • II型转座子也叫做转座子(transposon),与反转座子“复制-粘贴”的机制不同,II型转座子转座的机制被称为剪切-粘贴。在转座酶的作用下,II型转座子从原来的位置解离下来,再重新整合到染色体上。而原来的位置由于转座子解离形成的断链,在DNA修复的机制下得以修整。最终的结果是,原来的位置少了一段转座子序列,而新位置多了一段转座子序列。和反转座子一样,II型转座子也可分为自主型和非自主型。非自主型转座子不具有转座必须的所有的成分,因此依赖于自主型转座子。
  • Helitrons 转座子是近年来发现的一种新型 DNA 转座子,最初是利用基于重复序列的计算方法在拟南芥基因组中鉴定出来的。后来发现,大多数植物和许多动物基因组中都携带 Helitrons 转座子。Helitrons 转座子具有典型的 5'TC 以及 3'CTRR(R为A或G)末端,并在3'末端上游约 15~20bp 处有一个茎环结构,是转座子的终止信号。Helitrons 转座子转座后,通常插入 AT-rich 区域的 AT 靶位点。和反转座子和转座子不同,Helitrons 通过滚环(rolling circle)的方式进行转座。并且,在滚环复制的转座过程中经常捕获和携带基因片段,可导致基因拷贝数的变化,也会在一定程度上促进基因组的进化。

反转录转座子根据转座元件结构的完整性和转座特点可分为自主元件(编码转座酶)和非自主元件(自身不编码转座酶)。非自主转座元件需在自主元件的协助下才能发生转座。

LTR 分类见图 2,在高等植物中主要包括 Ty1/Copia和 Ty3/Gypsy 两个超家族,二者差别在于 的位置不同。

image

二、LTR作用和意义

动植物基因组中存在大量转座子,尤其是植物基因组中。LTR 因其数量多且 LTR 长度巨大,在植物转座子中具有较高的基因组含量。在玉米基因组中 LTR 占基因组含量高达 75% ,山苍子基因组中 LTR 占比高达 47%,所以基因组 LTR 的鉴定尤为重要。

LTR反转录转座子一高拷贝在生物界广泛分布(主要是植物,动物中比较少),可以 通过纵向和横向分别在世代之间和不种间进行传递,同一家族的反转录转座子具有高度的异质性。反转录转座子在一些生物和非生物的逆境条件下可以被激活。利用 LTR的特点,基于LTR的分子标记相继发展起来。并且在引物开发、基因作图、生物遗传多样性和系统进化、品种鉴定等方面具有广泛的应用前景。

09年,水稻文章介绍,水稻LTR 插入时间发生在700百万年之前,但是检测其LTR活性,发现还是具有活性的。因此还是可以根据LTR进行构建突变体,以期得到拥有某种性状的个体。

2019 年,发表在 Nature Communications 的《A high-quality apple genome assembly reveals the association of a retrotransposon and red fruit colour》文章中揭示苹果红皮表型形成与一个 LTR-RT 插入相关。MdMYB1 有 MdMYB11-1、MdMYB1-2 和 MdMYB1-3 三个等位基因,其中 MdMYB1-1 是控制苹果果皮花青素合成的单一显性基因。相较于黄苹果基因组,在红苹果基因组的 MdMYB1-1 基因启动子上游有一个 LTR-RT(命名为 redTE)插入,并经过 PCR 验证是红苹果中存在一段特异的序列(图 3)。redTE 作为一种增强子,增强 MdMYB1-1 对光的敏感性,从而累计花青素,形成红色表皮。

image

此外,LTR 的扩张和收缩也影响着基因组大小,小叶茶文献《Mol Plant 项目文章 | 第一个茶树染色体级别高质量参考基因组发布》中,揭示小叶茶基因组中 LTR 的扩张尤其是非自主 LTR 的扩张是小叶茶基因组庞大的主要原因。

三、LTR-RTs 鉴定方法

LTR-RT 的鉴定方法基本归于三类:从头预测、基于结构预测、基于同源比对。LTR_STRUC[5] 是一款最早的从头预测 LTR 的软件,LTR_finder[3] 和 LTRharvest[6] 是目前为止鉴定 LTR 最敏感的程序,但假阳性依然很高。RepeatMasker[7] 基于数据库,使用同源方法来预测 LTR,但不同物种 LTR 差异较大,构建物种特有的 LTR 库非常必要。在 2017 年密歇根州立大学园艺系的 Shujun Ou 团队开发 LTR_retriever[4] 平台用于 LTR 的鉴定,文章发表在 Plant Physiology 上。这是一款整合软件,以一个或多个 LTR 预测软件鉴定 LTR 的结果作为输入文件,通过不同模块(图 5-1)对 LTR 进行过滤和修正来对预测软件的预测结果进行整合和调整,以得到非冗余精准且完整的物种特异 LTR 库,再使用 RepeatMasker[7] 进行预测

image

LTR_retriever 软件从 sensitivity(敏感性)、specificity(特异性)、accuracy(准确性)、precision(精确度)四个维度对 LTR 鉴定结果进行评估,其具体意义见图 。以真实 LTR 和非 LTR 序列作为参考库,使用软件进行预测。对预测结果分为以下四类:

  • TP:真阳性,真实的 LTR,被准确预测出
  • FN:假阴性 ,真实的 LTR,未被准确预测出
  • TN:真阴性 ,非 LTR 序列未被预测当成 LTR
  • FP:假阴性,非 LTR 序列被当成 LTR

从下图公式可知敏感性代表对真正 LTR 的检出能力,特异性代表排除非 LTR 序列的能力,精确性代表正确检出的能力,精确度代表检出结果的真阳性率,精确度越高则表明结果越可靠。

5-2

使用 LTR_retriever 对现有软件预测 LTR 结果进行,评估结果(图 5-3)显示 LTR_retriever 明显优于其他现有软件,而 Shujun Ou 团队在 2019 发表在 Genome Biology 上的有关转座子注释方法中推荐 LTR 的鉴定方法是使用以 LTR_finder 和 LTRharvest 软件鉴定结果作为 LTR_retriever 的输入文件[8]。

image

诺禾致源 LTR 分析流程

(1)先使用 LTR_finder 和 LTRharvest 对 LTR 进行鉴定,(2)再利用 LTR_retriever 进行整合,构建非冗余精准的物种特异 LTR 数据库,(3)同源预测方法进行注释,再过滤掉假阳性。为您注释出全面且精确的物种 LTR 序列,包括 intact LTR、solo LTR、LTR 相关序列,非典型 LTR 等。明确 LTR 含量在基因组中的占比,在染色体上的分布情况(图 6-1)。

image

根据物种 LTR 蛋白结构域数据库,对 LTR-RT 进行结构注释和家族鉴定。LTR 分析很多,(1)可根据物种 LTR 鉴定结果、生物学意义进行特殊分析,例如通过聚类分析,确定基因组中主要的 LTR 属于何种家族(图6-2 );(2)对 LTR 进行插入时间评估分析,探索 LTR 的进化动态(图6-3 );(3)构建特殊家族进化树,研究某类 LTR 的进化等。此外,(4)转座子诱导的表观遗传变化经常影响相邻基因的差异表达并产生新的调控模式,例如前面所提的苹果表皮颜色性状文献中检测到红苹果 redTE 序列中有几个区域明显高度甲基化,这为 LTR 分析提供新的思路。

6-2
6-3

表 诺禾合作发表有关 LTR 分析高分合作文章

image

LTR预测和插入时间预测方法

LTR又叫长末端重复,顾名思义,其插入的位置比较有特点,就是两端会有几乎同样的重复序列。同时,插入片段的3端精确而稳定,但是5端是高度可变的。因此可以根据LTR两端的序列的差异,进行LTR插入时间评估。

四、技术路线

我们用LTR_FINDER软件配合PSSCAN,软件在基因组中寻找分数大于等于6分的LTR序列,同时过滤LTR_FINDER中重复结果。提取LTR两侧侧翼序列,MUSCLE比对,用DistMat软件,并选用Kimura模型计算距离,然后评估时间。

有人肯定要问了,得到插入时间之后,有啥用?得到插入时间之后,要和历史上的事件进行联系,比如冰川期阿,欧亚板块分离啊,什么非洲起源等等联系,有理有据的描绘一个故事。

五、LTR的其他说明

1.转座子在物种间分布的差异

TE在物种中的含量和物种基因组复杂程度无关,有些复杂的多细胞生物(如针叶树、蝾螈等)可以含有较多的TE,但是有些单细胞生物(比如阴道毛滴虫、Anncaliia algerae等)也会含有较多的TE。

image

有些研究认为,物种中TE的含量和其物种的有效群体数量(在一个理想群体中,在随机遗传漂变影响下,能够产生相同的等位基因分布或者等量的近亲交配的个体数量)相关。有效群体数量越大,自然选择效能越高,因而对TE的选择压力也越大。比如,在有效群体数量很大的果蝇中,TE含量较低,而在有效群体数量较小的脊椎动物中,TE插入受到选择压力较小,可以很快的在群体中固定下来。不过,有些有效群体数量相近的物种, 其TE含量有时也会有很大差异。所以有效群体数量的差异并不足解释TE的分布差异。

(小的群体中,由于不同基因型个体生育的子代个体数有所变动而导致基因频率的随机波动称为遗传漂变)

而且各类不同的TE分布差异也很大,比如LTR在开花植物中分布很多;non-LTR在哺乳动物中分布很多;DNA转座子在斑马鱼和线虫中分布很多。有效群体数量的差异也不足以解释这一现象。

虽然水稻、玉米和拟南芥中的DNA 甲基化整体变化趋势相似,但它们之间仍然存在差异,这种差异与转座元件的组成密切相关。转座元件的扩增可能是造成 DNA 甲基化修饰变化的潜在原因。在不同植物中,转座元件差异所带来的基因组结构变异,可能是塑造植物表观基因(epigenomics)的重要原因。

2.TE含量和基因组大小

除了极少数已知真核生物外(疟原虫、弓形虫、肠脑炎微孢子虫、泰勒原虫),所有的真核生物物种中都含有TE。巧合的是,上述几种例外都是单细胞生物,而且后两者是真核生物中基因组最小的。转座元件所占比例与基因组大小存在着一定的正相关性。

在一些较大的基因组中,比如蝾螈基因组,其大小有120Gb。这么大的基因组主要是LTR转座元件造成的。植物基因组通常也可以通过转座元件迅速增大。其中涉及的转座元件可能涵盖较多的TE家族,但是个别TE的作用可能会格外显著。比如棕水螅在3600万年前从绿水螅中分化出来,随后其基因组大小从300Mb迅速增大到了1Gb,造成这一现象的原因就是CR1 non-LTR转座子。

非必要DNA的删除是另一个决定基因组大小和TE含量的因素。除了转座元件外,蝾螈形成的大基因组和其较低的DNA删除率也有很直接的关系。在拟南芥和水稻中,异位重组造成的基因组高删除率抵消了转座造成的基因组扩大,维持了拟南芥和水稻的基因组大小稳定。在鸟类和哺乳动物中,也有同样的现象。

3.TE多样性

TE在物种之间的分布,除了丰度不同外,种类分布也存在很大差异。宿主和TE之间的竞争作用会导致TE家族结构的形成,扩大TE的亚家族种类(比如L1)。其他一些转座元件,比如Helitrons可以通过获取宿主DNA的片段形成新的亚家族。

不管在什么尺度来衡量,真核生物的TE分布都具有很高的多样性。比如在斑马鱼中,其TE丰度和多样性在脊椎模式生物中都是最高的,含有近2000个TE家族,涵盖了所有的亚纲和几乎所有的超家族。其中,DNA转座子特别丰富,含有1000个不同时期形成的DNA转座子家族,这在鱼类中很不寻常。

但是这并不是说基因组越大,其TE多样性越高。比如云杉是一类裸子植物,其基因组大小20Gb,其中的转座子主要集中在LTR超家族中,含有大量的拷贝数。而且其中的大多数转座子发生在500万-6000万年前。在水稻和玉米中,所有的转座子都晚于500万年。这说明尽管TE在云杉中的多样性很低,但是很多已经存在基因组中的TE会被缓慢的移除掉。与云杉相反,在很多开花植物中,尽管其基因组很小,但是其TE的多样性却很高。甚至在所有陆生植物中,基因组大小和TE多样性还表现出负相关关系。

TE家族的划分一般按照 80-80-80 方法,即如果两个TE插入的序列长度都超过80bp,有超过80%的序列的相似性超过80%,那么我们可以认为这两个TE是来自同一个家族。因为序列相似性比较高,该家族的TE可以用一个共同的序列来表示该家族共同祖先的序列。特别是当该家族的TE在较短时间内经历了爆发,并且这些TE只经历了中性选择的时候。但是,也有些时候根据 80-80-80 原则定义的家族和其共同序列并不能够反映各个TE间真实的进化关系。

4.转座元件的进化起源

TE的进化关系和物种进化关系并不一致,TE可以进行物种之间的水平转移,甚至是在脊椎动物和无脊椎动物之间长距离的转移。有些TE在进化的过程中可能丢失或灭绝了。所以,研究转座元件之间的进化关系非常困难。

在过去数十年的研究中,人们发现,所有主要转座元件的亚纲subclass在真核生物进化分支中均有分布。对TE核心蛋白的分析也显示这些亚纲在真核生物进化早期就已经存在。同时TE的进化是高度模块化的,可以反复获得或者丢失某些蛋白模块。

尽管各种不同元件的结构非常多样,但是在复制和转座过程中涉及的蛋白种类却很有限,大概可以分为5类:逆转录酶RT,整合酶IN,酪氨酸重组酶YR,HUH/Rep,DNA合成酶pPolB

5.转座子在基因组上的分布并不随机

对于不同类型的转座子,基因组可以看成是其生态系统,转座子通过与基因组环境以及和其他转座子之间复杂的相互作用,实现转座子自身的扩增。这种相互作用类似于生态学中的寄生、共生、竞争等关系。因而,转座子在基因组上的分布也并非完全随机分布。

自然选择和遗传漂变对转座子的分布有重要影响。一般情况下,插入事件对宿主多是有害的,自然选择会将其从群体中移除。某些对宿主适应性影响不大的转座子在遗传漂变的作用下,可能会在群体中固定下来。这也解释了为什么基因组中有些区域富集转座子,有些区域则很少含有转座子。

比如,在人类基因组中,逆转座子LINE1 (L1)是能够发生在人类基因的外显子中的,但是人类基因外显子中却很少发现L1。究其原因,还是外显子的转座插入给宿主带来了较大的危害,自然选择倾向于将其淘汰。研究还发现,转座子在不同哺乳动物进化分支上的分布是相对保守的,即不同物种的基因组中,转座子的分布比较相似****。

很多TE插入表现出很强的位点偏倚,倾向于选择那些不会影响细胞功能的基因组位点进行插入。转座子的插入还会受到自然选择压力,如果插入对宿主细胞造成严重伤害,则这种转座插入不利于转座子本身。更有一些极端的转座子只能在特定的基因组序列中插入,以便在最大可能减少对宿主的伤害。

不同类型的转座子在基因组的位置具有一定的偏好,如Copia和Gypsy富集在基因组着丝粒区域,MITEs 偏爱插入到基因区间。一些转座子可以介导miRNA形成,例如一些MITEs转座子的回文结构,具有转录成miRNA的可能性

基因间的“垃圾”序列为TE的插入和长期存在提供了一个安全的场所。比如在酵母菌中,LTR转座子的插入会避开宿主基因组的基因序列。Copia和Gypsy通过趋同进化,能够选择在Pol-III转录基因序列的上游插入,避免干扰宿主基因表达。

很多TE的插入靶标位于基因5'端的上游,这种靶标选择倾向会给TE自身带来益处。首先在该区域的插入能够避免插入对编码蛋白的干扰,同时这些区域的染色体多以染色质形态存在,有利于TE自身的表达和转座。很多物种DNA转座子都采用了这种策略来实现自身利益最大化,比如果蝇中的P元件、玉米中的MuDR,大米中的mPing和拟南芥中的VANDAL21等。

** 在拟南芥和其他一些植物中,类Copia的逆转座子也进化出了一些机制,实现在宿主非必需基因中插入。这些机制主要是通过识别核小体组蛋白H2A.Z来实现的,该组蛋白不存在于必需基因组中,只存在于和适应环境压力相关的非必需基因中。这也提示,TE非随机插入带来的基因组突变可能也有利于宿主适应外界环境的变化。**

还有一种TE的插入策略比较特殊,它们倾向于选择其他的TE序列作为自己的插入靶点。

这一系列的证据都在说明,转座子基因组上的分布受到转座子自身特性和宿主基因组选择压力的共同作用,从而使其在基因组上的分布并非随机。

6.影响TE长期存在的因素

** 所有的新TE插入都会受到来自宿主水平的自然选择。特别是当TE对宿主产生有害作用时,比如:干扰到宿主基因的表达;TE表达产物对宿主细胞有毒副作用;同家族TE导致的宿主染色体异位重组。**

TE导致的异位重组是限制TE增殖的主要因素。减数分裂过程中未对齐的同源染色体之间发生的不平等交叉引起的复制称为异位重组。

序列较长的TE更容易造成异位重组,因而其受到的选择压力也应该更大。实验观测也确实如此,比如LTR和LINE等较长的转座子常常会聚集在低重组区(中心粒 周围的异染色质区,中心粒大部分植物没有),在这些区域内,TE受到的选择压力会相对较小。与之相反,一些较短的转座子,比如SINE和MITE,通常富集在基因较多的染色体区域,这些区域通常重组率也比较高。

** 第二个导致TE受到选择的因素是其对基因表达的影响。可自主移动的转座子其自身通常会含有启动子和调节序列,如果其插入到基因序列中,那么对宿主基因的表达会产生较大影响。比如,在人类基因组中,L1转座子很少出现在基因序列中,比较老的LTR插入也很少出现在基因序列两侧5kb的的范围内。这都证明了携带启动子的LTR在人类基因组中受到很强的自然选择压力。即便有些插入出现在基因中,也常常是内含子中,而且是内含子的中段部分,以尽量避免对外显子的影响。**

当然,还要说明一点,TE并不一定只给宿主带来坏处,还有可能给宿主带来适应优势,比如果蝇中Doc(non-LTR)的插入导致了Cyp6g1基因表达增加,该基因提高了宿主对DDT等杀虫剂的抗药性。

参考文献:
[1] Wicker T, Sabot F, Hua-Van A, et al. A unified classification system for eukaryotic transposable elements[J]. Nature Rev. Genet., 2007, 8(12):973-982.

[2] Liyi Zhang,Jiang Hu,Jingjing Li,et al. A high-quality apple genome assembly reveals the association of a retrotransposon and red fruit colour.[J]. Nature Communications, 2019.

[3] Zhao Xu and Hao Wang. LTR_FINDER: an efficient tool for the prediction of full-length LTR retrotransposons[J]. Nucleic Acids Research, 2007, 35: W265–W268.

[4] Ou S , Jiang N . LTR_retriever: a highly accurate and sensitive program for identification of long terminal-repeat retrotransposons[J]. Plant Physiology, 2017:pp.01310.2017.

[5] Mccarthy E M , Mcdonald J F . LTR_STRUC: a novel search and identification program for LTR retrotransposons[J]. Bioinformatics, 2003, 19(3):362-367.

[6] David Ellinghaus, Stefan Kurtz and Ute Willhoeft. LTRharvest, an efficient and flexible software for de novo detection of LTR retrotransposons[J]. BMC Bioinformatics, 2008, 9:18.

[7] A.F.A. Smit, R. Hubley& P. Green RepeatMasker at http://www.repeatmasker.org .

[8] Ou S , Jiang N . Benchmarking transposable element annotation methods for creation of a streamlined, comprehensive pipeline.[J]. Genome Biology, 2019,20:275.

[9] Zhao G , Zou C , Li K , et al. The Aegilops tauschii genome reveals multiple impacts of transposons[J]. Nature Plants, 2017.

[10] Zhang Qun-Jie,Li Wei,Li Kui et al. The Chromosome-Level Reference Genome of Tea Tree Unveils Recent Bursts of Non-autonomous LTR Retrotransposons to Drive Genome Size Evolution.[J] .Mol Plant, 2020.

[11] Ticao Zhang, et al.. Genome of Crucihimalaya himalaica, a close relative of Arabidopsis, shows ecological adaptation to high altitude.[J].PNAS, 2019.

转座子相关数据库

TREP
http://botserv2.uzh.ch/kelldata/trep-db/index.html

Dfam
https://dfam.org/

http://wap.sciencenet.cn/blog-1509670-1205415.html?mobile=1
参考链接:
https://www.jianshu.com/p/a93cdbc36339

你可能感兴趣的:(LTR 介绍)