lncRNA
70% 的人类基因组能够被转录,而其中仅有 1% ~ 2% 的转录本能够编码蛋白,余下 98% 均为非编码RNA(non-coding RNA,ncRNA)。在ncRNA中,长度大于 200 核苷酸称为长链非编码RNA ( long non-coding RNA, LncRNA) ,占全部 ncRNA 的80% ~ 90% 。有人认为基因组中的ncRNA的含量与生物体的发育和生理复杂性相关。
转座子是基因组中可移动的元件。根据不同的转座机制, 转座子可分为逆转座子(Class I)和DNA转座子(Class II)。逆转座子主要有长末端重复序列(long terminal repeat, LTR)逆转座子和非LTR逆转座子。LTR逆转座子主要包括Copia和Gypsy类。非LTR逆转座子包括长散布重复元件(long interspersed nuclear element,LINE)和短散布重复元件(short interspersed nuclear element,SINE)。逆转座子, 尤其是LTR逆转座子的“复制-粘贴”式扩增导致一些物种基因组大小增加。转座子不仅影响基因组大小, 而且影响基因组功能。
真核生物体内具有三种保守的多亚基RNA聚合酶(Pol I,II,和III),它们可以将核基因组转录成各种编码和非编码转录本。这三种RNA聚合酶都产生lncRNA,其中Pol I和Pol III专门用于产生lncRNA,而Pol II尽管在mRNA生物发生中起主要作用,但也产生一系列的lncRNA。值得注意的是,植物还使用另外两种酶,Pol IV和Pol V来产生lncRNA,这些lncRNA对于识别和沉默转座因子(TEs)至关重要。
非编码RNA(non-coding RNA,ncRNA)指不翻译成多肽的RNA。按照长度不同,短于200nt的归为小非编码RNA (small ncRNAs,sncRNAs),长于200nt的归为长非编码RNA (long ncRNAs,lncRNAs)。长链非编码RNA(long non-coding RNA,lncRNA)是细胞转录组中长度超过200nt,且不编码蛋白翻译的线性RNA,它们与mRNA相比还有一些其他特征,比如有的没有cap帽子或polyA尾巴(不知道怎么活下来的),很多存在二级结构且通过其发挥功能,还有大部分具有组织特异性等。真核生物启动子、增强子和基因间等区域转录可以产生lncRNA。lncRNA 除了数量庞大以外,还具有表达量较低、物种间保守性较差及细胞表达特异性等特点。
启动子上游区域、增强子、基因间区域及编码蛋白基因转录分别产生启动子上游转录本(promoter upstreamtranscript,PROMPT)、增强子RNA (enhancer RNA,eRNA)、基因间lncRNA (long intergenic noncodingRNA, lincRNA)和天然反义转录本(natural antisensetranscript,NAT)。
天然反义转录本:从其它转录本对应的DNA链的反义链转录,并与之有重叠的RNA分子。
lncRNA的分类
根据基因组上的位置关系,lncRNA主要可以分为以下三大类:
1、Intronic lncRNA,内含子lncRNA:主要产生于编码基因的内含子区域;
2、Intergenic lncRNA,基因间区的lncRNA,也称作lincRNA:主要产生于两个编码基因的中间区域;
3、Antisense lncRNA,反义lncRNA:主要产生于编码基因的反义链
lncRNA 也可以归于以下五类:(1)sense lncRNAs 正义lncRNA(2)antisense 反义lncRNA(3)bidirectional 双向IncRNA(4)intronic 内含子lncRNA(5)intergenic 基因间lncRNA
第三种分类:将lncRNA分为 反义型(antisense lncRNAs)、内含子型(intronic lncRNAs)、反向型(divergent lncRNAs)、基因间型(intergenic lncRNAs,基因区间的lncRNA)、启动子上游型(promoter upstream lncRNAs)、启动子相关型(promoter-associated lncRNAs)、转录起始位点型(transcription start site-associated lncRNAs),UTR associated lncRNA (非翻译区lncRNA),TE-associated IncRNAs(转座子),Enhancer-associated IncRNAs(增强子)。
lncRNA的特点
lncRNA和mRNA一样是由对应的基因转录而成,具有5'帽子和poly尾巴(有些会没有),通过剪接形成成熟体的lncRNA;同一基因可以形成不同的转录本的lncRNA。内含子和外显子都是针对基因DNA序列而不是RNA序列的。在lncRNA所对应的的DNA序列上,是分为内含子和外显子的,转录之后的转录本,经过剪接等作用,外显子,内含子拼接到一起成为一个成熟的lncRNA。但是它因为缺乏可识别的阅读框,所以不表达蛋白。
由蛋白质编码基因内含子转录产生的lncRNAs称作内含子lncRNAs。由同一启动子的蛋白质编码基因重叠的区域转录的LncRNA被分类为正义lncRNA。反义lncRNA:编码基因的反义链产生的lncRNA被分类为反义lncRNA或长的非编码天然反义转录本(lncNAT)。基因间的lncRNA(lincRNA)位于蛋白质编码基因之外。
lncRNA的本质是RNA,是由核苷酸组成的长链,有以下几个优势:(1) 可以轻松的与同源DNA序列(转录lncRNA的基因以及序列相似的基因)结合;(2) 可以轻松的与同源RNA序列结合;(3) 其丝带般的特点可以折叠成复杂的二级结构,轻松与多种蛋白质结合。也就是说,lncRNA情商极高,与上层领导(DNA)关系暧昧,与同事(RNA)关系很铁,与下属(蛋白质)关系紧密。其在转录前(转录沉默、转录激活等)、转录中(染色体修饰等)、转录后(核内运输等)等均具有重要的功能。
1、lncRNA的长度在200-100000nt之间,具有mRNA相似的结构,经剪接,具有ployA尾巴以及启动子结构,分化过程中有动态的表达以及不同的剪接方式,形成不同的lncRNA;
2、lncRNA一般无蛋白编码能力,但是有很多lncRNA能编码一些短肽;
3、lncRNA的保守性较低;
4、lncRNA的表达具有组织特异性以及时空特性。不同的组织表达lncRNA的量是不同的,即使是同一组织中,处于不同状态时表达量也不同;
5、lncRNA的定位有区别。不同的lncRNA在细胞内(外)的丰度不同。
lncRNA的产生有几种方式:
1.由于编码蛋白基因结构的变异导致原本可形成编码蛋白的转录本无法正常的翻译而形成 lncRNA。
2.染色体重组导致几个非转录区域临近,串联,从而产生多外显子的 lncRNA。
3.非编码基因在复制过程中的反转座插入形成新的 lncRNA。
4.串联重复序列的复制产生 lncRNA。
5.转座子或者反转座子的插入产生有功能的 lncRNA。
转座子插入可能带来功能性的启动子,使得非转录区域也有了转录活性,从而转录成为一个新的IncRNA
转座子对于lncRNA的意义
Kapusta 等对多个脊椎动物的 lncRNA 进行了研究,并且分析了lncRNA 在不同物种间的保守性,结果发现在 lncRNA 内部几乎无处不在的存在着转座子的痕迹,同时也发现转座子可能是导致不同脊椎动物中lncRNA 多样性的一个重要的原因。在人类基因组中,约40%的IncRNA起源于转座子区域,约80% IncRNA位点至少与1个转座子序列重叠。约25%的IncRNA启动子和3,端含有转座子,在植物中,海岛棉基因组也有大约60%的IncRNA转录于转座子区域。斑马鱼、人类和老鼠基因组中大量 IcRNA转录于转座子区域 。David Kelley 等在对人类的基因间lncRNA (lincRNA) 的研究中也发现有 83%的 lincRNAs 内部都含有转座子,并且转座子倾向的位于lincRNA 的转录起始位点附近,暗示了转座子可能参与lincRNA 的转录调控 。 转座子在 lncRNA 的转录调控以及起源中起了重要作用。
植物TE-lncRNA
已有研究表明, 含有转座子序列的lncRNA在自然界广泛存在, 称为转座子来源的lncRNA (TE-lncRNA)。在水稻(Oryza sativa)、玉米 (Zea mays) 和棉花(Gossypium raimondii)等植物中, TE-lncRNA主要来源于逆转座子序列。拟南芥和棉花TE-lncRNA的研究表明, TE-lncRNA调控株高和非生物胁迫应答等。
LncRNA已在拟南芥、水稻和玉米等多种植物中被鉴定。鉴定的lncRNA的数量取决于每个物种的鉴定技术,拟南芥中已报道的lncRNA数量在6480 至 6510 之间。
LncRNA已在拟南芥、水稻和玉米等多种植物中被鉴定。鉴定的lncRNA的数量取决于每个物种的鉴定技术,拟南芥中已报道的lncRNA数量在6480至6510之间。构建链特异性RNA文库并进行转录组测序(strandspecific RNA sequencing, ssRNA-seq),对lncRNA进行高通量发掘。通过ssRNA-seq, 在拟南芥、水稻和玉米中分别鉴定到47、611和398个TE-lincRNA, 约占全部lincRNA的23%、 50%和51% (Wang et al., 2017)。约18%的大豆lincRNA含有转座子序列, 来源于逆转座子的TE-lincRNA多于来源于DNA转座子的TE-lincRNA (Golicz et al., 2018)。
基于PacBio fl-cDNA和转录组等数据, 发掘玉米全基因组的lncRNA。结果表明, 约65%的lncRNA含有转座子序列, 属于TE-lncRNA。玉米TE-lncRNA含有的转座子序列主要来源于LTR逆转座子, LTR逆转座子来源的TE-lncRNA约占全部TE-lncRNA的86% (Lv et al., 2019)。
整合ssRNAseq、NCBI和EBI中的poly(A)转录组数据, 进行番茄lncRNA发掘。结果表明, 85%的番茄lncRNA含有转座子序列, 番茄基因组中存在LTR逆转座子来源的TE-lncRNA (Wang et al., 2016)。在棉花TE-lncRNA中, Gypsy类LTR逆转座子来源的TE-lncRNA占主要部分 (Zhao et al., 2018a)。
TE-lncRNA的分布与基因组中转座子类型和数目相关。水稻、玉米、大豆、 棉花和番茄中的TE-lncRNA主要来源于逆转座子。TE-lncRNA调控株高、果实成熟和非生物胁迫应答等生物学过程。
在物种进化过程中, 转座子与lncRNA相互作用。一方面, 转座子影响植物lncRNA的产生。由于非转座子来源的lncRNA比TE-lncRNA受到更强的选择压力,因此在进化过程中,植物lncRNA倾向于保留转座子序列。此外, 植物转座子的表观修饰影响lncRNA的转录活性。例如,棉花LINE类逆转座子去甲基化, 产生具有转录活性的TE-lncRNA。另一方面, lncRNA影响转座子活性。lncRNA可以作为small RNA前体, small RNA可导致转座子“沉默”。植物转座子以及lncRNA的相互作用不仅增强了各自结构与功能的多样性, 也有助于驱动生物进化和提高适应性。
声明:本篇多为资料整理总结,仅用于自学记录和交流,侵删,谢谢。参考:
Long non-coding RNA: its evolutionary relics and biological implications in mammals: a review
https://mp.weixin.qq.com/s/GIVJVT4oDjL_XTFsF8Nc6A
王益军,王亚丽,陈煜东.转座子来源的植物长链非编码RNA[J].植物学报,2020,55(06):768-776.
王昕. 番茄长链非编码RNA的进化和基于片段相似性鉴定番茄驯化过程中InDels[D].华中农业大学,2016.
https://mp.weixin.qq.com/s/JTR8Z65tS4SCnlAgk1ddhg