基因组转座元件及其生信分析工具

1. 概念

转座元件是一类能改变其自身在基因组当中的位置的DNA重复序列,它能够使得突变产生,也能“逆转”已有突变,它能改变生物细胞的遗传属性和基因组稳定性。1951年,美国冷泉港著名女性细胞遗传学家Barbara McClintock发表文章“Induction of Instability at Selected Loci in Maize”,首次在玉米种发现这类“跳跃基因”,这一研究成果使其在1983年荣获诺贝尔生理学或医学奖。

简单来说,转座元件可以分成两类:Class I和Class II。 Class I又被称为Retrotransposon,逆转录转座子,指那些通过“复制-粘贴”机制来实现其在基因组中“跳跃”的转座元件,这种类型的转座元件能不断增加其自身在基因组中的拷贝数。这类转座元件在跳跃的过程中,依赖其中一类元件——LINE1,长散在元件所编码的ORF1p和ORF2p。ORF1p行使RBP的功能,携带转座元件的RNA中间体进入细胞核,在ORF2p(含有一个EN,核酸内切酶和一个RT,逆转录酶)的帮助下,完成基因组的重组。Class II,也叫做DNA转座子,这种类型的转座子主要是通过“剪切-粘贴”的机制进行“跳跃”。不像Class I,它们的转座反应仅依赖部分元件编码的转座酶。在此分类基础上,根据各种元件的结构特征,转座元件还可以被细分为不同的family和subfamily。

Fig.1 转座元件的种类

转座元件在不同物种中所占的比例不同,比如在人基因组中,大约有50%的序列为转座元件,且有文献报道说有些基因是由转座元件进化而来。在某些植物中,转座元件在基因组中所占的比例可能高达95%。

Fig.2  各物种转座元件所占的比例


Fig.3 转座元件作用方式

基因组中大部分转座元件都是dysfunction的,它们积累了很多突变以及发生结构截短事件。除此之外,不同的物种机体也进化出了各种各样的抑制机制,如转座子启动子区高甲基化等来限制转座元件在宿主基因组中的“频繁跳跃”。尽管如此,一定数量的转座元件任然活跃在生物基因组中。转座元件除了通过插入基因组的方式来引起插入位点基因的功能之外,它们也许还承担着重要的细胞功能调控的功能。比如,转座元件自身结构中的调控元件被发现与基因组调控通路中一些必须的顺式调控作用存在着co-opt的现象;在哺乳动物基因组中,很大一部分的调控元件结合位点、人类基因组超过一半的开放染色质的区域被证实是由转座元件衍生而来。总之,除了癌症之外,大量的人类细胞活动过程,如细胞干性与细胞分化,胎盘形成,X染色体失活以及免疫系统均被证实收到转座元件的影响。

2. 转座元件的特征与功能


3. 转座元件生信分析工具

(1) 分类工具和数据库

关于TE的信息被编目为三种类型的存储库:以TE为中心(TE-centric),以基因组为中心(genome-centric) 和以多态为中心(polymorphism-centric)。以TE为中心的存储库收集各类TE家族的共有序列;以基因组为中心的存储库将参考基因组中的所有单个TE元件进行编录;多态性为主的存储库包含不同于参考基因组中的个体独有的插入。

A. TE-centric repositories

这类存储库关注转座元件本身,在这种类型的数据库中,我们能检索到各类转座元件家族,亚家族的共有序列,它们主要被用在基因组中转座元件的分类和注释。

RepBase Update (https://www.girinst.org/repbase/update/) 是目前检索真核生物基因组中各类移动元件/转座元件共有序列集的最常用的数据库之一。这个数据库旨在给出每一类TE家族的共有序列和代表型元件类型。它将转座元件分为三类:DNA转座子,LTR逆转录转座子(Long Terminal Repeat Retrotransposons)和non-LTR逆转录转座子。

Dfam是一个较RepBase更“年轻”的真核生物TE-centric数据库,这个数据库更正式地定义了转座元件,并且将共有序列一样的转座元件形成一个“集合”,利用隐马尔可夫模型(hidden Markov models)来进行多序列比对(multiple sequence alignments)。

B. Genomr-centric repositories

以基因组为中心的TE数据库主要集合了参考基因组上注释的各个转座元件。这类数据库能够展示各物种基因组内以及不同TE家族中包含的转座元件的多样性。另外,由于能够在完整的参考基因组中进行检索,这种类型的数据库能够提供TE元件本身序列外的“侧翼序列”,从而给出更准确的我们想要检索的TE元件类型,序列以及在参考基因组当中的位置信息。

在研究哺乳动物转座元件时,Dfam数据库是唯一包含以上信息的数据库。同时RepeatMasker(http://www.repeatmasker.org/)也能提供基因组上不同的TE元件的序列以及位置信息通过基因组浏览器。

在研究植物转座元件时,由于很多植物的基因组中有大量的转座元件序列,因此至目前已有为数不少的存储库。例如,TREP,一个可用于研究植物和真菌中转座元件的数据库。这个存储库有两个子库,一个包含不同TE元件子类的共有序列(nrTREP),另一个包含单个插入的TE元件的完整序列(total_TREP);同时这个存储库中还有一个数据库是对那些插入序列进行蛋白预测的(PTREP)。

 P-MITE一个植物特有的数据库,其中MITErepdb主要包含共有序列信息而MITEdb主要用于注释41种植物基因组中的各个微型倒置重复转座元件(miniature inverted repeat TE, MITE)。

RiTE是特别用于水稻及其相关物种基因组中重复元件研究的数据库,这个数据库中包含水稻基因组中全部转座元件的序列,共有序列以及单个转座子在参考基因组中的插入信息。

MASiVEdb数据库包含和RiTE差不多的信息,只是MASiVEdb包含更多的植物物种的转座子注释信息。

还有一些数据库是对那些插入到基因组上各基因的编码区的转座元件做汇总,包括TranspoGene, HESAS, 以及LINE FUSION GENES

C. Polymorphism-centric repositories

所谓多态性插入事件,即在参考基因组中找不到这个插入但是却在某个或某些特定的个体当中找到了,包括生殖细胞系多态性插入(germline polymorphism insertions)以及体细胞系多态性插入(somatic polymorphism insertion)。随着越来越多的个体基因组序列被测定,越来越多转座元件多态性插入事件被揭示,这些多态性插入事件的人群频率以及功能也就能被有效评估。同时这种以插入多态性为中心的数据库集成了大量个体中TE的插入事件,从而更好地展示了转座子的多样性。这类多态性为主的转座元件数据库能够将TE与表型联系起来,并且一些数据库能给出相应插入事件的推测的功能。

植物研究中这类数据库有PGSB PlantDB等。人类基因组研究中主要有两个以多态性为主的数据库——dbRipeuL1db。dbRip数据库现在有3605个转座元件,其中包括800个L1插入,但是从2012年开始就没有再更新。euL1db数据库专门集合了非参考基因组的LINE1插入事件,现在一共有142,495个数据。在euL1db数据库中,有正常人和癌症病人的、每个样本的生殖细胞性和体细胞性多态性L1插入,同时并通过meta-逆转录转座元件插入多态性(MRIPs)对两者结果做了合并。

其他逆转录转座元件,如Alu, SVA的多态性被存储在NCBI的dbVar中。

D. Challenges and remaining gaps

目前TE相关的数据库主要还有两个方面值得优化:

一是物种特异的转座元件库的需求。建立物种特异的转座子数据库能够帮助评估不同物种之间转座元件的异同。同时由于现在不同的数据库之前存在大量的重复数据,因此合并这些不同物种之间共享的或者说相对同源性高的转座子种类对于提高检索效率以及增加物种间转座元件信息的联系将会由不小的帮助。

另一方面是我们急需一个完整的人类基因组中TE多态性的资源。这个意思是指虽然现在有了相对比较优秀的关于人类基因组中LINE1插入多态性的数据库(euL1db),但是其他类型的转座元件还是只能通过NCBI的结构变异数据库(dbVar)来进行检索。但是其实在不少癌症当中发现Alu元件的插入多态性与LINE1是具有协同一致性的,因此能有一个包含所有转座元件插入的信息,而不仅仅是某一类型的转座子,可能对于今后真正评估转座元件与发育,疾病发生等各种生物表型的相关性和作用会更有帮助。

(2) 基因组序列转座元件注释

Fig.4 TE发现和注释工具

不论有无已经组装的基因组,从测序数据当中去找到并注释转座子序列都是可以的。依赖于参考基因组的注释策略主要有两类:一类是基于数据库进行注释,将测序得到的序列与数据库中已知的TE共有序列以及TE相关的结构域进行比对;另一类是从头注释。不依赖参考基因组的注释策略是使用测序的原始数据进行从头注释,这种类型的注释策略可能可以寻找到信息的TE转座元件类型,并且对于进行新元件的分类也非常有帮助。

Fig.5 TE注释策略

A. 基于数据库进行注释

这一策略的核心思想是在全基因组范围内对不同家族的转座子的共有序列以及功能结构域进行检索。最终得出结果的好坏与所用数据库的质量与特异性有关。RepeatMasker是最常用的TE序列工具,是当前研究在进行TE注释时的金标准,它以RepBase和Dfam两大数据库为支持,

B. 

C. 

(3) 多态性TE插入检测和关键事件挖掘工具

Fig.6 多态性TE插入事件的检测

A. TE多态性检测方法

不同生物个体基因组中移动元件插入和缺失多态性的检测依赖于已经进行过元件注释参考基因组的存在。与单核苷酸多态性(SNPs)相似,转座元件多态性通常与不同表型相关,有些多态性事件已被证实与某些疾病的发生相关,如血友病(haemophilia)以及雷氏综合征(Rett syndrome)。现在已经有很多软件开发出来用于鉴定生殖细胞系以及体细胞系的转座元件插入多态性。

用于检测生殖细胞系TE多态性(germline TE insertion polymorphisms)的短读长方法

二代测序的一般读长为100-250bp,这对于从属于重复序列的转座元件来说,从短读长的reads中鉴定出它们是一种挑战。目前针对二代短读长测序产生的数据分析生殖细胞系TE多态性的方法主要有三种:① 使用split-read(SR)信息,② 依赖于不一致的读取对(discordant read pair, DRP)比对或 ③ 基于TE特定motif的识别。

• Split reads: When one portion of an NGS read map to one location and other portion of the same read map to a different location of a genome. When the read both the portions is of equal length, this is called a balanced split.

• Discordant reads: Discordant reads have different categories

A) Based on mapping Distance

R1-----> Unexpected mapping distance <-----R2

B) Based on read orientation (Expected read orientation for Paired-end data should be R1 (Forward) R2 (Reverse): FR orientation, but in case of discordant reads, orientations are either FF or RR)

R1-----> R2-----> [FF orientation]

R1<----- R2<---- [RR orientation]

Fig..7 用于检测生殖细胞系TE多态性(germline TE insertion polymorphisms)的短读长方法和生信分析工具

第①种SR的方法能够检测出那些同时包含插入位置的侧翼基因组信息以及转座元件起始或终止序列的reads;第②种方法主要是通过寻找末端配对的reads和标记实例,其中两个末端彼此远离排列,方向相反或者只有一个读数在参考基因组上对齐。通常来说可以把这两种方法用于检测样本中TE多态性的第一步,其中,由于是直接瞄准转座元件和宿主序列的连接区段进行检测,SR相关的工具可提供更精确的插入位点信息,而DRP相关方法能提供更高的敏感度因为该类方法可以得到更多支持所检测到的插入事件的reads,因此在实际运用这两类方法去做转座元件鉴定时,通常推荐优先使用DRP相关的生信分析工具得到更多的位点,再通过SR相关的生信分析工具来进一步确定

鉴定短读长测序reads中germline TE insertion polymorphism的第③种方法是基于TE元件所特有的motif。所谓的“motif”这里可以理解为转座元件的特征序列,例如长末端重复元件(Long Terminal Repeat, LTR)两端的长末端重复序列;盘基网柄菌中间体重复序列(Dictyostelium intermediate repeat sequence,DIRS)和DNA转座子(也叫class II elements)中的末端倒置重复(Terminal inverted repeats, TIRs)。不同的转座元件家族进行转座作用所依赖的发生机制有所不同,目前主要有三个常见的特征用作插入事件的监督,它们分别是:插入位点的目标序列重复(target sites duplications, TSDs)的存在;L1介导的逆转录转座作用通过带有3' 多聚腺苷酸尾;3' 转导(3' transduction)。

不同家族的转座元件转座所产生的靶标位点重复序列(target region duplications, TSDs)的长度一般不同。比如一段固定长度的,大约4-6nt之间的TSD,存在于Class I中的长末端重复序列(LTRs)和DNA转座子插入位点,但是DIRS这类元件中没有,或者在长散在重复元件(LINEs)和短散在重复元件(SINEs)的长度非常多样。TIF以及NGS TE Mapper这两个生信分析工具能够直接检测到那些跨越转座元件末端并且含有了TSDs序列的reads。其他的检测方法参加Figure 7,通过运用这些工具对短读长二代测序数据进行分析,被测个体与参考基因组相比的多态性的生殖细胞系转座元件插入事件得以检测,同时,通过对群体中每个个体进行独立的鉴别分析,然后将样本集合起来看做一个整体进行多个样本的鉴别(make joint calls)(PS:由于本人还是个生信小白,然后同学说关于如何make call这些可以去看GATK的官网介绍~ )。

用于检测体细胞TE多态性(somatic TE insertion polymorphisms)的短读长方法

目前也已经有多款软件能够用于从短读长二代测序数据中鉴定体细胞多态性TE插入事件,比如TraFiC,TranspoSeq,TranspoSeq-Exome以及Jitterbug等。值得注意的是,以对肿瘤组织中体细胞TE插入为例,这些工具通常都需要同时有癌组织和同一个样本的癌旁组织的测序数据。TraFiC通过鉴定LINE1的3'转导情况来检测L1元件的插入;TranspoSeq和TranspoSeq-Exome分别分析肿瘤全基因组测序(WGS)、全外显子组测序(WES);Jitterbug的特点是可以同时检测germline和somatic的LINE1插入。

基于实验进行TE捕获的短读长测序检测方法

通过实验进行目标区域捕获的方法来富集TE,形成特定转座元件的二代测序文库再进行上机测序使我们能够以更低的成本和更小的数据中寻找样本中感兴趣的转座元件相关的信息。目前利用捕获来富集转座元件TE的方法主要有:L1-seq, RC-seq, TIPseqHunter和SLAC-seq。通过这类实验方法,那些只存在一小部分细胞中的含有TE插入的序列得以放大从而被检测出来;虽然这些方法的具体做富集时的操作不同,但它们的策略具有相似性,例如L1-seq, SLAV-seq以及TIPseqHunter主要是通过扩增L1Hs(一类年轻的、具有自主转座能力的、活跃在人类基因组中的LINE1元件的亚家族)的3'端和基因组上与L1Hs连接的侧翼序列(flanking nucleotides)来形成富集;类似的,ME-Scan这个方法扩增的是样本池基因组中AluYb8/9的3’端的Alu与基因组的连接位点,同理TE-NGS扩增单个样本中L1Hs,AluYa5/8和AluYb8/9的3'末端。

RC-seq(2011年版本,目前该方法开发的作者已经进行了改进,且近期都有文章,作者是澳大利亚昆士兰大学的Geoffrey Faulkner教授)通过芯片的方法捕获L1,Alu和SVA这三种元件的5'和3'末端,这种策略能有效避免二代测序建库过程产生的测序偏好;SIMPLE则是仅设计L1的5'端相关的引物去扩增全长的L1,因此理论上这种方法能检测到的是仍然具有转座能力的L1元件。

上面在讲到利用计算机软件鉴定转座元件的插入的时候提到其中一个方法是利用短读长测序中的split-read (SR)以及DRP (Discordant read pair)进行鉴定,在实验方法中,SLAV-seq和TIPseqHunter也引入了机器学习的方法来提高精确度(accuracy)。

长读长检测TE插入的工具

因为转座元件(TEs)从属于基因组重复序列,那么用二代测序的方法研究它在特定样本人群中的特征肯定比研究某个单一位置的基因要更具挑战性,显然三代长读长测序能够克服这一问题。

Fig.8 利用二代测序和三代测序研究转座元件的比较

长读长测序检测结构变异较之于短读长测序的优势在于单条read的读长够长(PacBio的读长大约是10kb左右;Oxford Nanopore的读长更长,能达到30kb),能够跨越整个转座元件(eg, LINE1的全长大约是6kb左右),因此使用长读长三代测序的方法不仅能够更精确检测基因组中转座元件插入事件,对每个事件的定位更准确,同时也能实现对更复杂的结构变异事件,例如转座元件的嵌合插入(指的是转座元件插入到转座元件序列中)等的研究。

LoRTE是依赖Pacific Biosciences (PacBio)单分子实时长读长测序(single-molecule real-time long-read sequencing)平台来鉴定多态性TE插入的工具之一。比起短读长测序方法,三代测序能反应出某个具体的转座元件插入事件中转座元件的全部序列,从而为该插入事件的下游功能分析和生物信息验证提供帮助。其他可用于鉴定长读长测序数据中TE插入事件的生信工具还有SMRT-SV(专门用于结构变异SV鉴定的一个工具)、SNIFFLES等。SMRT-SV借助本地化的从头组装工具对每个变异位点生成一个共有序列从而进行结构变异的鉴定;SNIFFLES则通过split-reads (SRs)以及识别哪些错配率高或者覆盖差异较大的区域来进行转座元件插入的鉴定。在两个人类单倍体基因组上进行测试,结果表明SMRT-SV检测到的多态性TE插入事件中,超过89%是新发现的,即在千人基因组项目结构变异(1000 Genomes Project SV catalogue)中没有的,这个结果强调了长读长测序在检测转座元件插上上的优势,它能鉴定出二代测序遗漏的插入事件。

挑战与待解决的问题——转座元件的检测

利用短读长测序工具,如MELT来鉴定全基因组测序数据中转座元件TE插入事件是目前最常用的方法,但是,由于各种各样的原因现在用的多样的生信分析工具鉴定出来的TE插入事件的水平参差不齐,因此想要获得尽可能好的结果业内推荐同时使用多款工具。利用捕获来富集转座元件并进行测序的方法虽然能够提供更高的灵敏度但是这种方法的数据不能用于寻找新类型的转座元件,因此不能反映想要研究的样本中完整的转座元件插入图谱。而三代测序由于其自身的局限性,现在的应用还不够二代测序广,因此相关的数据还很零星。

(4) TEs功能识别和预测工具

转座元件插入对宿主基因组造成的直接影响包括:①产生新的基因或转录本;②调控基因表达;③导致基因组不稳定;④活跃的转座作用等。

Fig.9 转座元件的生物学意义以及相关分析工具 (左侧生物学过程,右侧为分析软件的罗列)

这一部分将主要介绍一些能够对基因组中固定的转座元件以及个体或某一群体群多态的转座元件进行功能预测的分析工具。

预测TE衍生的以及TE破坏的基因和转录本的工具

很多对TE进行注释的数据库同时罗列除了插入位点的基因并且生成了转录本用于评估这个位置的转座元件插入事件对宿主基因组的影响。举个例子,TranspoGene这个数据库中收集的是插入到了蛋白编码基因区的转座元件相关信息,基因信息以及相关的疾病信息,这个数据库目前支持检索的物种包括人类、小鼠、鸡、斑马鱼、果蝇、线虫和海鞘。这一团队还建立了一个收集TE衍生的microRNAs的数据库,名字为micro TranspoGene。如果想要检索转座元件的插入对某一基因产生的转录本的影响,HESAS这类的数据库你值得看看;HESAS主要是收集了插入到基因内的人源逆转录病毒(human endoogenous retrovirus, HERV),有相关的表达数据。LINE FUSION GENES是另一个记录插入到人类基因中的LINE的数据库,并对这些插入元件基于其发挥的功能进行了注释,如作为启动子,提供多聚腺苷酸化信号等。

TEtranscripts是一个主要用于处理那些不能很好比对的RNA reads,进行差异表达分析的软件工具,对不同的用于RNA测序数据进行生信分析的软件进行比较,结果表明TEtranscripts是最最能精确计算转座元件的表达情况的。此外,Mobilome-seq能够通过染色体外的,被TE软件注释的环形DNA(extrachromosomal circular DNA)的测序reads检测植物和部分真核基因组中转录后的TEs。

预测转座元件TEs对基因调控的影响

现在已经有很多对会产生影响的或者有生物学功能的转座元件进行识别的策略,比如评估转座元件与其他已经注释的基因组特征序列的重叠;寻找阴性或阳性选择的表征;鉴定过度表达的转录因子结合位点;探索与染色质、转录数据的相关性等。举个例子,GREAM这个网页工具可以帮助识别对特定的信号通路或基因集可能会产生影响的特定TE,该工具根据用户特定的基因列表输出一个在这些基因附近的过表达或者表达量下调的疑似基因组重复序列或者转座元件的短列表。

很多由转座元件衍生而来的序列现在仍然保有转录功能并且能够影响邻近基因的转录。有一小部分工具将ChIP-seq和RNA-seq的数据与具有调控元件结合位点的转座元件和基因的表达联系起来。比如,RepEnrich就可以用来研究转座元件的转录调控以及鉴定活跃的转座元件事件。这个工具主要是通过从ChIP-seq数据中提取特定存在于基于“复制-粘贴”模式进行转座的class I转座元件中RNA聚合酶I和RNA聚合酶II结合位点以及从RNA-seq数据中寻找TE的富集。另一个工具piPipes,通过整合DNA测序,ChIP-seq,RACE-seq,小RNA测序以及RNA测序的数据对转座元件和相关的piRNA的表达的分析。在后生动物中,(ps:后生动物指的是所有除原生动物以外的具有细胞组织结构的多细胞动物,原生动物是单细胞生物。),piRNA可以通过包括直接靶向转座元件并导致转座元件转录本降解等多种机制使得TE被沉默,这种沉默模式可以通过减数分裂传递给后代,从而帮助异染色质的重塑。piPipes中包含了很多独立的,用于分析每一种类型数据集的工具,这种工具组合使得最终工具使用者能够得到以下信息:转座元件和其他基因的表达情况;转座元件插入事件;结构变异以及piRNA导致产生的降解产物等等。

对于没有进行组装的reads以及没有注释的基因组,TEtools能够帮助进行mRNA和小RNA的分析,这个工具现在已经用于展示转座元件与piRNAs前体基因间的连锁表达。

对重复区域结构变异的检测

转座元件能够导致诸如非等位基因同源重组等的基因组不稳定性。然而,由于短读长测序数据在对转座元件相关的序列的正确比对上存在一定的难度,因此对重复序列区域内的结构变异研究也有一定的困难。因此为了把这些可能会比对到多个基因组位置的reads给捞出来研究重复序列区域内的拷贝数变异,有一项研究利用泊松公式对所有multi-mapped的reads能比对上的位置进行统计,然后分析出正确的比对位置。这种策略能够揭示重复区域的单拷贝数变异事件,但在处理一个区域存在多个拷贝数变异的事件的时候,它可能比较低效(less efficient)。另一个工具——PopSV则是通过比较比对上的基因组上的不同的位点的覆盖度来找到map率相对低的区域,而且这个方法能鉴别多态性CNVs。长读长测序数据处理工具SMRT-SV则可以用来研究与结构变异相关的转座元件。

新插入事件的鉴定

虽然只有很小一部分的转座元件还保有着转座能力,但是这些转座元件涉及的家族类型很多。为了去评估某个嵌入事件的TE的新旧(old or young,一般认为老的类型的TE没有转座能力,而较年轻的TE具有转座能力),TinT能对那些巢式嵌合(nested)的TE进行分析,并给他们编一个年龄表(chronology)。这些数据可以用来用来参与评估某个TE家族是否在宿主基因组中还活跃(即是否还具有转座能力)。较老的以及相对保守的嵌入可能具有对宿主有益的功能。TinT以RepeatMasker注释的巢式重复作输入,再根据元件的方向性、起始和终止位置以及序列的完整性等来判断新旧。可能活跃的转座元件可以通过构建TE下各类亚家族的系统发育树来进行识别。

一旦鉴定到了多态性的TE嵌入事件,接下来最重要的事情就是1. 验证生物学插入信号(大概是靶位点重复的鉴定,插入位点motif的识别等);2. 嵌入的TE元件的序列长度;3. 杂合度(zygosity, 主要指的等位基因处的TE嵌入情况);4. 周围的基因组调控元件的分布。在做群体基因组学分析的时候,每个个体中TE发生转座的频率也是一个值得关注的关键指标。目前已经有可以应用来获得这些信息的生信分析工具。比如,ITISJitterbug可以分析嵌入的TE元件的配型(zygosity)。有一些工具除了可以得到以上信息,还能进一步预测某个特定区域内的转座元件嵌入事件的生物学意义与影响,比如MELT,不仅可以鉴定新生的TE嵌入事件,还能给出每个事件的嵌入的位置、方向、种类、嵌入信号、序列长度等等,最重要的是通过分析嵌入位点附近的基因以及精确识别被影响的基因集来预测某一个具体的转座元件插入事件的生物学意义。而epiTEome则可以将TE与其甲基化状态联系起来,实现在对MethylC-seq数据进行鉴定新生TE插入事件的同时对DNA甲基化情况进行分析。

挑战与空缺(Challenges and gaps)

仔细分析一下现存的对转座元件的功能进行分析的工具,我们可以发现,现有的方法能够1. 识别推测的活跃的TE;2. 通过甲基化状态或者piRNA来评估TE的沉默状态; 3. 对TE于基因表达情况进行关联分析; 4. 识别转座元件序列上的调控元件结合位点。

然而,很多的工具都是以TE的共有序列为基础进行分析,而不是某一个具体的,完整的TE嵌入事件,具有一定的局限性。除此之外,虽然现有的工具能够对TE的生物学功能进行一定的预测,但是对于到底有多大作用,目前都还没有办法给出答案。最后,最值得注意的是,在寻找影响时,区分仅根据生化标记指定为活性的TE(例如活性染色质标记)与具有更强大功能证据的TE之间的区别非常重要。



在学习过程中,欢迎大家一起讨论~

--------------------------------------------------------------------------------------------------------------------------

• References: 

[1] Transposable elements. wikipedia, https://en.wikipedia.org/wiki/Transposable_element

你可能感兴趣的:(基因组转座元件及其生信分析工具)