第3周:利用大豆小RNA图谱鉴定来自编码基因区的phasiRNA

原文来源:Arikit S , Xia R , Kakrana A , et al. An Atlas of Soybean Small RNAs Identifies Phased siRNAs from Hundreds of Coding Genes[J]. The Plant Cell Online, 2014, 26(12):4584-4601.

理解为产生phasiRNA的PHAS位点与编码蛋白的基因区有重叠可能更准确。
侵删

  小RNA是一类普遍存在的,多功能的抑制物,包括(1)microRNA(miRNA),由mRNA形成的茎环结构加工而成; (2)小干扰RNA(siRNA),在植物中通常由需要依赖RNA的 RNA聚合酶的过程衍生。我们构建并分析了大豆小RNA的表达图谱,鉴定了超过500个产生21个核苷酸的phased siRNAs(phasiRNA;来自PHAS位点)的位点,其中483个与注释的蛋白质编码基因有重叠。通过整合miRNA与RNA end(PARE)数据的分析,检测到127个PHAS位点上的20个miRNA靶标。 PHAS位点的主要类别(208,占41%)与NB-LRR基因相对应;这些小RNA中的一部分优先在根瘤中积累。在PHAS位点中,还观察到TAS3的新代表和非经典相位模式。由miR4392触发的非编码PHAS位点优先在花药中积累;预测phasiRNA靶向转座因子,在大豆生殖发育中具有峰值丰度。因此,phasiRNA在双子叶植物中显示出巨大的多样性。我们鉴定了新的miRNA并评估了miRBase中记录的大豆miRNA的准确性,显着改善了大豆miRNA注释,促进了miRBase注释的改进并鉴定了高严谨性的新miRNA及其靶标。

文章做了些什么:

  1. 鉴定产生phasiRNA的位点,并注释(提供位置信息)
  2. 能识别PHAS区域的miRNA触发物
  3. phasiRNA的靶基因
  4. 鉴定miRNA,与已知数据库比较看数据库里的准不准,看能不能改正或是添加
  5. miRNA的靶基因
  6. 结合具体的生物学问题看看小RNA在什么条件下在哪些组织中高表达

介绍

  小非编码RNA在发育,细胞分化,适应生物和非生物胁迫以及基因组稳定性方面具有重要作用。小RNA的主要活性是通过靶标降解,翻译抑制或通过指导染色质修饰来对特定mRNA或基因表达模式进行负调控。迄今已鉴定出几种不同类型的小RNA。在植物中,研究最多的小RNA是microRNA(miRNA)和小干扰RNA(siRNA);这些是由不同的前体和不同的途径产生的。通常长度为21至22个核苷酸的miRNA衍生自通过RNA聚合酶II从MIRNA基因转录的长非编码RNA前体。miRNA前体形成由DICER-LIKE1(DCL1)或其他DCL酶(极少数)加工的茎环结构,产生3’具有两个核苷酸突出的单个小RNA双链体(miRNA / miRNA *)。小RNA双链体的一条链是成熟miRNA,被称为引导链,它会结合到Argonaute(AGO)蛋白上以形成效应复合物(所谓的用于RNA诱导的沉默复合物——RISC),其指导miRNA靶标降解或翻译抑制。双链体的另一条链,即miRNA *或passenger strand,迅速降解,通常不会积累。 siRNA通常来自完全互补的长双链RNA(dsRNA)前体,这些前体一般由RNA依赖性的RNA聚合酶(RDR)形成,也可能由退火了的正义/反义转录物形成。已经在植物中定义了几类siRNA,主要类别是异染色质siRNA,它在胞嘧啶甲基化和抑制性组蛋白修饰的建立和维持中起关键作用。 siRNA还能够作为移动信号起作用,通过siRNA的运动使沉默效应从细胞扩散到其它细胞或更长距离。

  科学家已经鉴定了一类相当有趣的siRNA,它们是长双链RNA前体以21个核苷酸为增量来逐步裂解的产物,产生定相的或完全间隔排列的小RNA。这些siRNA,即所谓的相位排列siRNA(phasiRNA),由特定的引导miRNA切割而产生,遵循单击或双击模式,分别对应一个22nt或两个21nt的miRNA的靶位点。切割的未加帽的mRNA产物用作RDR6的底物,产生dsRNA前体,然后被DCL4切割以产生21-核苷酸的定相siRNA。一些定相siRNA已经显示在靶基因的反式调节中起作用;因此,这类siRNA最初被称为tasiRNA,但是更多的基因位点产生具有未知反式作用的相同相位模式(PHAS基因座)的siRNA,因此一般用“phasiRNA”进行描述。tasiRNA通过对互补靶位点进行切割来调节mRNA,这如同许多植物miRNA一样。最着名的tasiRNA是由TRANS-ACTING SIRNA GENE3(TAS3)产生的反式小干扰RNA-生长素响应因子(tasiARF)的集合。tasiARF在抑制生长素响应因子基因(ARF2,ARF3 / ETTIN和ARF4)中起作用。已经在许多植物物种中鉴定出许多phasiRNA,包括拟南芥,水稻(Oryza sativa)和葡萄(Vitis vinifera)。已知PHAS基因座的数量在物种之间差异很大,从野生稻(Oryza rufipogon)中的800多个到拟南芥中的不到30个。在豆科植物中,分别在Medicago truncatula和大豆(Glycine max)中鉴定出114和41个PHAS基因座。

  大豆在经济上是世界上最重要的豆类,它是蛋白质和食用油的主要来源之一。大豆的基因组序列现在可公开获得。基因组序列与下一代测序技术产生的数据一起,使得能够在全基因组范围内鉴定和定量小RNA。迄今为止,已在大豆中鉴定出数百种miRNA。然而,许多新注释的miRNA及其靶标尚未得到很好的验证,甚至注释的miRNA也经常在更强大的实验数据后进行校正。PHAS基因座比miRNA的注释更差。与Medicago truncatula相比,在大豆中鉴定出的PHAS位点要少得多。凭借广泛的小RNA数据和更高的测序深度,可以发现更多的PHAS。在这项研究中,我们分析了从不同组织中创建的大量小RNA文库,以构建小RNA的表达图谱并全面鉴定大豆中的PHAS基因座。我们证明大豆中的许多蛋白质编码基因是PHAS基因座。除了先前被鉴定为豆科植物PHAS基因座的NB-LRR之外,我们发现了数百种其他产生phasiRNA的蛋白质编码基因。我们整合了RNA末端(PARE)数据的并行分析,以确定这些PHAS基因座的miRNA触发因子。从这些数据中,我们验证了在miRBase(版本20)中记录的大豆miRNA并且鉴定了新的miRNA,证明了许多先前报道的miRNA具有siRNA的特征。基于表达分析,我们证明了phasiRNA以及已知和新发现的miRNA在不同组织和不同处理下的特异性表达。

总结

  1. 第一段
  • 小RNA的重要性及作用方式(降解,抑制;根据和靶位点的结合紧密程度来分,结合紧密直接降解,不太紧密就抑制/干扰/微调)
  • 植物中小RNA的分类,miRNA的发生和作用过程,异染色质siRNA作用
  1. 第二段
  • phasiRNA的形成过程,命名原因,在物种中的含量
  1. 第三段
  • 全基因组范围内搜索鉴定小RNA已成为可能
  • 大豆中小RNA的研究现状:没有很好的验证,以及注释差
  • 这篇文章做了些什么,在上一个总结的基础上,加上整合PARE数据确定PHAS基因的miRNA触发位点,差异表达分析

结果

大豆小RNA和PARE文库的构建和测序

我们从大豆的营养和生殖组织构建并分析了69个小RNA文库,包括和发育中的根瘤;此外,我们整合了种子和种皮组织的公共数据。叶组织来源于充分浇水或干旱胁迫下的植物,或使用模拟生物胁迫的处理(即鞭毛蛋白和几丁质处理)。花组织的小RNA文库由未开放的花,开放的花,子房和花药制备。在接种后10,15,20,25和30天从发育中的根瘤取样制备根瘤的小RNA文库。我们构建的文库(即,除了来自公开数据库的种子相关数据之外的所有文库)包括每个样品的两到三个生物学重复

  • 充分利用公共数据库,构建文库时明确什么实验条件什么组织

保留了18至34个核苷酸范围内的小RNA reads,从所有文库中总共得到1,967,153,698个reads。去除与结构RNA(主要是rRNA或tRNA一类的)相匹配的序列后,保留了1,158,661,201个基因组匹配的reads(占总数的58.9%),相应的有138,436,684个独特的序列(能匹配到基因组的reads的11.9%,总reads数的7.0%)(我的理解是reads的种类)。将每个文库中的序列丰度标准化为TP5M。在根瘤文库中发现有最高比例的独特序列(27.5%),而在叶片文库中发现有最低比例(6.6%),可能反映了叶片中sRNA复杂性的饱和度(也就是没那么复杂,种类少),因而其具有最高的reads丰度。对reads长度分布的分析表明,不同长度的小RNA在不同组织中的比例不同(补充图1)。在几乎所有组织中,21和24个核苷酸的总reads丰度比例高于其他长度的小RNA,并且在组内重复和不同组织中一致;一个例外是在叶组织中,其中24核苷酸的reads的总丰度的比例大大降低(补充图1A,1C,1E和1G)。后一种情况与拟南芥叶片不同,其中24核苷酸reads的丰度很高(补充图2)。 在所有组织中24个核苷酸类reads中独特reads的比例大于21个核苷酸类reads,可能反映出,这些通常是来自一系列基因组重复序列的异染色质siRNA(补充图1B,1E,1F和1H)。如上所述,叶片文库具有相对较少的独特reads,其中最突出的类型(68%)是miRNA(补充图2)。在叶片文库中,miRNA主要仅包含三种:miR398c,miR3522变体和miR166a,并且在这些序列中,miR398c占21个核苷酸小RNA的22.5%。叶片中相当多的21个核苷酸小RNA来自基因间区(19%)。这些基因间区内的相关序列是最多样化的,占独特reads的69%。在生殖组织中,22个核苷酸的独特reads的比例很高,并且与21个核苷酸的小RNA相当(补充图1B),而在根瘤和种子组织中,22个核苷酸独特reads的占比高于21个核苷酸(补充图1F)。所有匹配基因组的reads用于miRNA评估和定相基因座鉴定(见下文)。

  • 这一段给了很多比例,每一个的意思,是怎么算的要清楚
  • 在叶片文库中,miRNA主要仅包含三种:miR398c,miR3522变体和miR166a —— 后面多注意一下这里的鉴定是怎么做到的
重新评估已注释的miRNA

miRBase版本20(http://www.mirbase.org)可追溯至2013年11月,包含来自70多种植物的超过6000个MIRNA基因。在大豆中,来自505种前体的554种成熟miRNA已经被记录。在miRBase中记录的许多miRNA基于与其他物种中保守miRNA的相似性进行计算鉴定(基于序列保守性的预测鉴定),一些通过小RNA文库深度测序验证了,很少一部分通过PARE数据(也称为降解组数据)验证其功能。在没有实验验证的情况下,如PARE数据或cDNA末端的5’快速扩增(PARE data or 5’-rapid amplification of cDNA ends),miRNA功能的预测结果可能比较模糊。对水稻miRNA的分析表明,许多预测的miRNA是不典型的,缺乏常规miRNA特征,或者它们是像siRNA的miRNA(siRNA-like)而不是典型的miRNA。siRNA-like miRNA的特性包括小RNA是多样的,分布式的,低丰度的并且在生成它们的基因位点的两条链上都能发现。使用小RNA深度测序数据结合PARE文库对miRBase中注释的水稻miRNA进行的分析极大地改善了典型miRNA的表征结果。在我们的研究中,使用迄今为止产生的最大的大豆小RNA数据集以及PARE数据,使我们能够评估miRBase注释的大豆miRNA(version 20)并发现新的miRNA。表征典型植物miRNA的标准基于Meyers等人,并且评估miRNA的过程基本上如Jeong等人所述。在除去与大豆1.1版基因组无法比较的注释miRNA后,530个先前报道的miRNA被重新评估以将每个miRNA表征为(A)弱表达的miRNA,其难以评估,但类似于异染色质siRNA;(B)与siRNA高度相似且可能是siRNA;(C)一种略微符合(原文:marginally meets)严格定义的miRNA(可能包括新进化的miRNA);(D)符合明确定义的miRNA所有标准的典型miRNA(参见方法;每个类的实例显示在补充图3中)。基于Meyers等人的miRNA家族标准,我们还通过与拟南芥的比较来评估大豆miRNA的保守性。在大豆和拟南芥之间产生231个保守的miRNA,在miRNA列表中相应地分配了名称(补充数据集1B);这些miRNA明显适合D类,即明确定义的miRNA。

  1. 可以基于序列保守性来预测鉴定miRNA
  2. 降解组数据验证miRNA的功能,降解组测序是对什么进行测序,mRNA吗?
  • 降解组测序(Degradome Sequencing)正是利用高通量测序技术结合生物信息学手段对这些mRNA降解片段进行大规模鉴定,进而鉴定miRNA调控靶基因的技术——miRNA的功能研究手段。降解组测序原理
  1. siRNA-like miRNA的特点,也反映了siRNA的特点
  2. 530个先前报道的miRNA
  • (A)弱表达的miRNA
  • (B)与siRNA高度相似且可能是siRNA
  • (C) 略微符合严格定义的miRNA(可能包括新进化的miRNA)
  • (D)典型miRNA
  1. 基于Meyers等人的miRNA家族标准,通过与拟南芥的比较来评估大豆miRNA的保守性。具体怎么做的?

评估miRNA并将基因座分类为上述类别的过程主要涉及三个标准,包括它们的丰度,丰度比和链比。通过检查与每个miRNA基因座匹配的两个最丰富的小RNA(“top1 + top2”)的reads计数来计算丰度,对于真实的miRNA,其通常代表miRNA双链体的两条链。总共530个miRNA的总丰度范围从低至1 TP5M到最高丰度4410万TP5M(miR166的两个最丰富的序列变体)和3690万TP5M(miR1507)。我们将191个miRNA前体指定为“弱表达”基因座;这些位点匹配reads的丰度<924 TP5M,低于保守miRNA基因座的95%(补充数据集1B)。对于第二个标准,丰度比,我们检查了两个最丰富的小RNA(top1 + top2)和所有与每个miRNA基因座匹配的小RNA之间的丰度比,而对于第三个标准,链的偏向性,每一个茎环结构是这样算的:有义链的小RNA序列的总丰度除以两条链的总丰度。在保守的miRNA中,95%的丰度比为0.565或更高,而在非保守miRNA只有17.5%的丰度比为0.565或更高(补充数据集1B)。按照Jeong等人的做法,我们将丰度比小于0.4的miRNA基因座定义为“siRNA-like”miRNA基因座,将比率在0.4和0.5之间的miRNA基因座指定为“marginal”miRNA基因座,与补充图3中显示的例子一致。95%的保守miRNA前体具有0.978或更高的链比,而只有23%(71/299)的非保守miRNA符合该值。我们认为具有小于0.8链比的miRNA前体作为“siRNA-like”miRNA,具有0.8到0.9链比的miRNA前体作为“marginal miRNA”。综合第二和第三标准,我们能够将312个miRNA分类为典型的miRNA,203个miRNA作为siRNA-like miRNA,15个miRNA作为marginal miRNA;312个miRNA包括从第一个标准(补充数据集1B)定义的191个弱表达的miRNA。“典型miRNA”类中的大多数miRNA长度为21和22个核苷酸,而“siRNA-like”类miRNA主要在已注释的miRNA中,它们具有24个核苷酸大小(补充数据集1B)。后一组miRBase中有的 siRNA-like ,24核苷酸的miRNA可能被错误地注释。

  1. 丰度:利用与每个miRNA基因座匹配的两个最丰富的小RNA(“top1 + top2”)的reads计数来计算丰度
  2. 丰度比:两个最丰富的小RNA(top1 + top2)和所有与每个miRNA基因座匹配的小RNA之间的丰度比
  3. 链的偏向性:每一个茎环结构是这样算的,有义链的小RNA序列的总丰度除以两条链的总丰度
  4. 191个miRNA前体被定义为“弱表达”基因座,因为丰度小
  5. 丰度比小于0.4的miRNA基因座定义为“siRNA-like”miRNA基因座,在0.4和0.5之间的miRNA基因座指定为“marginal”miRNA基因座
  6. 链比小于0.8的miRNA前体作为“siRNA-like”miRNA,链比在0.8到0.9之间的miRNA前体作为“marginal miRNA”
  7. 将312个miRNA分类为典型的miRNA(包括了191个弱表达的miRNA),203个miRNA作为siRNA-like miRNA,15个miRNA作为marginal miRNA
大豆中新miRNA和miRNA变体的鉴定

除了对先前报道的miRNA重新评估之外,我们还使用小RNA数据来鉴定新的miRNA并注释miRNA变体。用于鉴定新miRNA的流程改编自Jeong等人(补充图4)。在排除t / r / sn / snoRNA后使用124,526,477个不同的reads,对18至26个核苷酸之间的所有基因组匹配的reads进行过滤以获得reads丰度,包括那些至少在一个文库中 >= 50 TP5M比对到大豆染色体中超过20个位置的reads也被丢弃,因为它们过于重复而不能成为miRNA。在124,526,447个reads中,有29,133个序列通过第一个过滤条件,包括198个与已知miRNA匹配的序列。如Jeong等人所述,通过miREAP(https://sourceforge.net/projects / mireap)分析通过第一组过滤条件的候选前体。总计获得了对应4047个前体的2523个序列。在198个已报告的miRNA中,只有120个通过了第二个过滤条件。然后使用第三个过滤条件来评估单链bias(有义/总的 >= 0.9)和丰度bias([top1 + top2] /总的>= 0.7),为了保证一个前体仅产生一个或两个最主要的miRNA。总共对应361个前体的180个小RNA序列通过该过滤条件,包括71个已知的miRNA。应用第四个过滤条件以鉴定高质量的茎环结构,使用CentroidFold进行分析。来自332个前体的共151个候选序列通过了此过滤条件;来自上一步的所有71种已知miRNA也都通过了。在71种已知的miRNA中,与miRBase中记录的miRNA相比,我们发现44种变体(补充图4)。在排除已知的miRNA后,将22个高可信度候选序列指定为新的miRNA(补充数据集1C)。还通过比较小RNA reads和miRBase(补充数据集1D)中记录的那些来鉴定miRNA变体。发现大约20个长度不等的序列,和miRBase中记录的miRNA相比较,包含不同的核苷酸替换。这些miRNA变体的长度在19至24个核苷酸之间变化,包括1至4个核苷酸的替换。还在先前报道的miRNA(补充数据集1D)的相同前体上从不同位置鉴定了10种新miRNA。因此,能够从我们的数据集中鉴定出大量新的和已知的大豆miRNA。

重点是流程图和过滤条件

大豆不同组织和不同处理中miRNA的丰度差异

对所有69个小RNA文库中的新的和已知的miRNA及其变体进行丰度计数的差异评估。我们的数据的层次聚类揭示了许多miRNA表现出组织优先积累。我们选择了三组miRNA进行更详细的分析。第一组是显示组织优先水平的所有新型miRNA(图1A)。在22种新型miRNA中,6种仅在种子组织中观察到,包括gma-miR10196,gma-miR10195,gma-miR10191,gma-miR10188,gma-miR10194和gma-miR9756(图1A)。类似地,gma-miR10200富含于根瘤,gma-miR5030b富含于叶片。这些新型miRNA中的一些富含于一种以上的组织中;即,gma-miR10201,gma-miR10186,gma-miR10198,gma-miR10193和gma-miR9749在生殖组织和根瘤中富集(图1A)。第二组是在生殖组织中高度富集的miRNA。该组包括gma-miR395c,gma-miR395d,gma-miR395g,gma-miR169s,gma-miR156f和gma-miR4392(图1B)。在花组织中优先观察到的miRNA中,其中一些在花药中显示出高度富集,即gma-miR4392,gma-miR393和gma-miR167e。有趣的是,gma-miR4392在生殖组织中高度丰富,特别是在花药中,但在其他组织中几乎不存在(图1B,并在下面更详细地分析)。还存在优先存在于生殖组织以及根瘤中的miRNA,即miR172c,miR159b和miR395g(图1B)。以组织优先方式观察到的最后一组miRNA包括在发育中的根瘤中强烈存在但在其他组织中少量存在的miRNA。这些包括miR171b,miR171r,miR159f,miR172d和miR43945p(图1B)。不适合我们的三组中的任何一组的是许多富含种子组织的miRNA,即gma-miR176e / f和gma-miR1512c。这些种子特异性miRNA在其原始研究中得到了很好的描述。

探究了不同组织(或组织组合)中的miRNA富集差异。

一个家族中的miRNA在组织中差异累积;例如,包含22个成员的大型miR171家族显示出多样的富集模式(补充图5)。一些在根瘤富集,即gma-miR171s,gma-miR171r和gma-miR171b-3p,而其他的是富含于花和叶的。来自单个前体的miRNA的加工变体也以不同方式累积;变体gma-miR156c.2在子叶中高度富集,而gma-miR156c.1不存在(补充数据集1D)。gma-miR156c在大多数或所有组织中,但优先在种皮组织中表达。类似地,gma-miR3522.1优先在种子组织和叶组织中鉴定,而gma-miR3522仅在种子组织中以低水平存在(补充数据集1D)。

  • 什么叫基因家族?如何定义一个基因家族?什么样的序列才能被算作一个基因家族中的一个成员?

我们接下来发现了在应激处理中差异表达的miRNA。这是使用R软件包baySeq完成的,条件需满足似然值>=0.95,错误发现率<0.01。通过这些阈值,在两种基因型(IA3023和LD003309)的水胁迫叶中没有miRNA差异表达;然而,最接近的是gma-miR1446,富含于干旱胁迫的叶子(补充数据集1E;图1A)。我们发现9种miRNA在鞭毛处理的Dassel基因型中上调,可能模仿生物应激(补充数据集1E),而我们无法鉴定由几丁质处理产生的任何差异表达的miRNA。在我们的文库中,比起不同的处理,在不同的组织中,差异miRNA富集的现象更明显

图1.新的和组织优先miRNA的表达谱。
(A)在该研究中鉴定的新miRNA包括许多在特定组织或器官中差异富集的miRNA。
(B)对先前描述的大豆miRNA的分析还揭示了花,叶和根瘤中一系列的组织bias。

使用PARE文库进行miRNA靶标验证

使用PARE数据能够快速且精确地进行miRNA指导的靶标降解的实验验证。我们从花,叶和根瘤组织构建了PARE文库,并利用种子的公共PARE数据,包括超过6500万个不同的reads(补充数据集1F)。在PARE验证的miRBase注释的大豆miRNA靶标中,我们验证了262个miRNA的392个靶标,其中大多数是典型的miRNA。其中,261个与注释为蛋白质编码基因重叠,其余在基因间区或未注释的基因(补充数据集1G)。每个miRNA的靶标数量范围从1到23。在新miRNA和变体中,鉴定了8个新miRNA的9个靶标,并鉴定了33个新miRNA变体的129个靶标。其中,新miRNA和新miRNA变体的8和86个靶标分别与注释基因重叠,其余定位于基因间区(补充数据集1H),其可以是未注释的基因或非编码转录物如TAS基因座。

  • 降解组数据从生信角度如何分析?
  • 找出靶标之后,如何注释(定位于基因区,基因间区)?可以用Annovar吗?
全基因组范围内鉴定生成Phased siRNA的位点及其触发物

产生相位排列siRNA的植物基因座,即所谓的PHAS基因座,包括蛋白质编码和非编码转录物;豆科植物M. truncatula富含这种基因座,在其他植物物种中这种基因座的数量不定。我们将所有69个小RNA文库结合起来鉴定大豆PHAS基因座,随后通过逆向计算评估其miRNA触发物。以phasing P value <= 0.001(严格阈值)(图2A)为条件,鉴定了504个基因组上的PHAS基因座。其中,483(95.8%)与注释的蛋白质编码基因有重叠。这些PHAS基因座的主要类别(208个,占41.0%)对应NB-LRR类基因,其编码79个Toll白细胞介素1受体(TIR)-NB-LRR,5个coiled-coil (CC)-NB-LRR,和89个其他NB-LRR(图2A)。这些phasi-NB-LRR(pNL)占大豆基因组中鉴定的所有NB-LRR的65%(208/319),包括Kang等人鉴定的那些,加上使用Greenphyl DB鉴定的另外35个phasi-NBLRR基因(补充数据集1I)。大多数pNL基因座聚集在染色体3,6,13,15和16上,其含有30,21,15,14和40个pNL(图2C)。 在不同pNL之间phasiRNA的水平不同,一些在所有分析组织中显示高水平的siRNA,但是其他phasiRNA在特定组织中累积,如根瘤(图2B)。许多receptor-like kinase-encoding基因也产生phasiRNA,但这些只是大豆中已知的600个receptor-like kinase-encoding基因的一小部分(25个基因座)。在拟南芥中,大多数编码蛋白质的PHAS基因是含有三角状五肽重复区(PPR)的蛋白区域,但在大豆中我们发现仅有15个PPR编码PHAS基因座。几种不同的转录因子家族占PHAS基因座的15%(图2A),包括来自Aux / IAA和生长素响应因子家族的18个PHAS基因座(AUX-IAA-ARF),APETALA2中的10个PHAS基因座和乙烯 - 响应元件结合蛋白(AP2-EREBPs)基因家族,以及来自编码MYB / HD样蛋白的基因的另外10个PHAS基因座(图2A)。参与小RNA生物发生的基因,即DCL(5个基因座),SUPPRESSOR OF GENE SILENCING3(3个基因座)和AGO2(1个基因座)也是大豆PHAS基因座之一,表明可能发生反馈调节。最后,大量(126)的PHAS基因座与功能未知的基因重叠,其中许多是基因组中的单拷贝,表明顺式而非反式活性(图2A;补充数据集1I)。由于我们这次的数据集更广泛、更深入,504大豆PHAS基因座显着大于且包括我们之前在大豆中鉴定的41个基因座。

与蛋白质编码基因不同,一组21个PHAS基因座预测是非编码基因。这包括6个TAS3-like的基因座和先前报道的未命名的TAS-like基因座。两个TAS3基因座(TAS3a和TAS3b)高度富集(这里应该是指它们产生的phasiRNA吧),并且与拟南芥非常相似,而另外四个TAS3旁系同源物(TAS3c-f)在phasiRNA丰度,序列保守性或触发物排列方面不同(图3)。除花组织外,TAS3c和TAS3d产生的phasiRNA很少(图3A);TAS3a和TAS3b在大多数组织中稳定积累,在根瘤发育的过程中具有丰富的含量(图3A)。 TAS3e-和TAS3f-衍生的phasiRNA在根瘤中检测不到(图3A)。此外,我们还发现了非编码PHAS基因座,其仅在花药中产生phasiRNA,见下文。

借助(结合了AGO蛋白的miRNA)的触发物切割双链靶标而产生phasiRNA,在这个过程中RDR6酶负责合成dsRNA,这是DCL4酶加工成定相的21个核苷酸的sRNA的底物。为了鉴定PHAS基因座的miRNA触发物,我们整合了大豆miRNA和PARE数据。确定了127个PHAS基因座的20个miRNA触发物,每个触发物靶向1至20个基因座(补充数据集1I)。 3个miRNA触发超过10个PHAS基因座,包括gma-miR167e(触发10个PHAS基因座),gma-miR2109(11个基因座)和gma-miR1510b-3p(20个基因座);前者靶向ARF6和ARF8转录因子,后两者主要触发pNL。最后,我们观察到:在拟南芥触发phasiRNA发生的miRNA中观察到的特征——前体具有不对称凸起的茎环结构,在我们发现的许多miRNA触发物中都没有。

图2.编码蛋白质的PHAS基因。
比起其他研究过的植物基因组,大豆基因组含有更多的编码蛋白质的产生phasiRNA的基因座。
(A)编码PHAS基因座的类别和数量。
(B)NB-LRR家族中PHAS基因的表达谱和层次聚类。
(C)大豆基因组中phasi-NB-LRR基因的分布和聚类。

TAS3的新基因座和相位模式

在植物中,许多定相基因座由one-hit的22个核苷酸的miRNA触发,在切割位点下游产生phasiRNA;对于我们鉴定的大豆中的定相基因座也是如此(补充数据集1I)。TAS3基因座通常由miR390通过two-hit途径在两个位点结合触发,引发tasiARF产生。从所有六个大豆TAS3基因座产生保守的tasiARF:两个由TAS3a / b [597D(+)和598D(+)]产生,并且仅一个(597D(+))来自TAS3c / d / e / f(图3B)。在tasiARF GmTAS3c-597D(+)和GmTAS3d-597D(+)的第9和10位发现了单核苷酸变体(C-to-U)(图3B)。6个大豆TAS3基因座中的4个,TAS3a / b / c / d,其靶位点与经典的双击模型一致(图3C);另外两个,TAS3e和f,都是非典型的。 TAS3e具有三个gma-miR390结合位点,基本上是three-hit基因座,中间位点被切割以启动下游加工和598D(+)产生(图3C)。相对于拟南芥TAS3,大豆TAS3e具有非经典的定相方向,在21-核苷酸gma-miR390切割的位点的下游而不是上游。类似地,TAS3f中的定相是5’ miR390靶位点的下游,但gma-miR390结合位点的位置和数目是TAS3基因座的典型位点(图3C)。

我们的数据还表明tasiRNA可以在two-hit生物发生中起作用以触发额外的secondary siRNA。来自TAS3的tasiARF靶向并切割来自ARF3 / ETT和ARF4基因的转录物。在大豆中,ARF3 / ETT(Glyma13g24240)和ARF4(Glyma12g07560)的转录本不仅被tasiARFs GmTAS3a,b 597D(+)和GmTAS3a,b 598D(+)切割,而且ARF靶标也产生了phasiRNA(图4A;补充图7)。因此,两种tasiARF都是phasiRNA触发物,如使用two-hit途径从切割位点下游处理所证明的。更重要的是,这表明siRNA还可以通过生物发生的two-hit机制起到phasiRNA触发的作用(图4B)。

图3.大豆TAS3 TasiRNA的触发物和加工机制。
(A)来自大豆基因组中存在的六个TAS3基因座中的tasiRNA的总和在花,叶,根瘤和种子组织中的富集模式。 TAS3a和TAS3b是相同的,因此不能单独测量。
(B)源自TAS3a / b / c / d / e / f的TasiARF。所有TAS3 598D(+)和597D(+)siRNA的验证目标均在生长素响应因子(ARF)家族中,与其相对良好的保守序列一致(数据未显示)。
(C)在大豆TAS3基因座处存在两个或三个miR390靶位点,并且相对于这些靶位点的定相方向表明在TAS3e和TAS3f处由21个核苷酸的miRNA触发的siRNA的非典型加工方向。

图4.由TasiARF触发的ARF3 PHAS-Locus。
(A)大豆TAS3衍生的tasiARF在两个相同的位点靶向ARF3,通过PARE验证切割的59位点(下图)和未观察到切割的39位点。这种双击的tasiARF活性产生了定相siRNA(中图)。 y轴是phasing “score”,其是定相显著性的估计P值(参见方法)。较低的两个图像是我们的Web浏览器,显示小RNA(中间)或PARE数据(下部),橙色虚线表示tasiARF切割位点。有色斑点是在y轴上显示丰度的小RNA;浅蓝色斑点表示21个核苷酸的sRNA,绿色表示22个核苷酸的sRNA,橙色表示24个核苷酸的sRNA,其他颜色对应其他sRNA大小。红色框是带注释的外显子(粉红色是非翻译区域)。紫色线表示重复区的k-mer频数。
(B)来自图A的数据表明two-hit的phasiRNA生物发生的级联反应,其中21个核苷酸(nt)miR390触发21个核苷酸的tasiARF生物发生,并且通过two-hit机制,tasiARF触发来自ARF3和ARF4的额外二级siRNA的生成(参见补充图7在线)。 ARF siRNA可以顺式或反式起作用。

图5.源自Arogenate脱氢酶基因座的花药中高度富集的PhasiRNA。
(A)涉及雄激素脱氢酶的生化途径。
(B)来自雄激素脱氢酶相关基因座的phasiRNA产生的示意过程。在左侧,将形成发夹的基因片段加工成phasiRNA。
(C)来自不同组织中的两种arogenate dehydrogenase PHAS基因的miRNA触发物和phasiRNA的reads丰度水平(红色条)和基因表达水平(绿色条),其被标准化为RP5M和RP25M。

PhasiRNAs在不同组织和不同处理中的差异表达

方法

植物材料

为了获得生殖组织,大豆(Glycine max)栽培品种Williams 82在16小时光照/ 8小时黑暗,25℃的温室中培养。分别收集未开花、开花一天的花组织。从未开的花中解剖出花药和子房组织。为了获得根瘤组织,在接种大豆根瘤菌USDA110菌株后10,15,20,25和30天收集发育中的根瘤。为了获得水胁迫下的样品,将​​近交系IA3023和LD00-3309播种于两个盆中,​​一个作为对照,另一个胁迫处理。植物生长至V1阶段,并且所有盆2天灌溉一次至田间容量(1600mL水)。在V1阶段,胁迫组不予以灌溉,并且对照盆被灌溉直到实验结束。一旦处于胁迫下的植物的50%达到永久枯萎点(叶片水势为-8 至 -10 bars),从对照和胁迫组中收集叶样品。对于病原菌模拟处理,来自三个大豆品种Williams 82,Dassel和Vinton 81的叶样​​品用几丁质八聚体和水对照处理30分钟。来自相同品种的叶样品也用从细菌鞭毛蛋白22中保守22个氨基酸的肽和水处理30分钟。在RNA提取之前,立即将从所有组织收集的样品在液氮中冷冻。

sRNA和PARE的RNA提取和测序

使用Concert Plant RNA Reagent(Invitrogen / Life Technologies)从植物材料中分离总RNA。使用TruSeq Small RNA样品制备试剂盒(Illumina)构建小RNA文库。如前所述构建PARE文库(Zhai等,2014)。文库在Delaware Biotechnology Institute(Newark,DE)的Illumina HiSequation 2000上测序。

测序数据的计算分析

去除原始测序数据的接头序列,然后使用Bowtie(Langmead等人,2009)将其定位到大豆基因组(DOE-JGI Community Sequencing Program v1.1)。与大豆基因组完全匹配的reads(不包括那些匹配的tRNA,rRNA,snRNA和snoRNA)用于进一步研究。从miRBase(版本20; http://www.mirbase.org/)检索大豆成熟miRNA及其前体。

如何确定有没有匹配到tRNA,rRNA,snRNA和snoRNA?

miRNA预测流程

miRNA预测流程在补充图4中概述。该过程中的各个步骤使用Perl脚本(Jeong等,2011)与miREAP结合进行(https://sourceforge.net/projects/mireap/)和CentroidFold (Sato et al., 2009)。miREAP用于评估miRNA和miRNA *的配对,其参数设置为允许miRNA和miRNA *(-d 400)之间的最大距离为400个核苷酸,在前体末端延伸25个核苷酸(-f 25),关闭针对动物miRNA优化的过滤设置,包括对植物miRNA特征的微调(我们的miREAP修改版可根据要求使用)。此外,还要求两个miRNA特征:基于保守miRNA的特征,单链偏向性>=0.9,丰度偏向性>=0.7。CentroidFold按照默认设置使用,来显示整个miRNA前体结构,以进行手动评估。

miRNA靶基因预测和PARE验证

394个microRNA的全基因组靶基因被鉴定和验证;这涵盖了312个典型的miRNA,15个marginal miRNA,44个新的miRNA变体和23个新的miRNA。使用sPARTA包进行验证(Kakrana等,2015)。使用sPARTA的内置目标预测模块miRferno进行目标预测,其具有标准评分方案,分数阈值为<=7,随后是基于PARE的预测目标验证。以校正P值<=0.05并且在切割位点具有PARE reads丰度>=5为过滤条件,经验证的miRNA-靶基因相互作用被用于进一步解释。

定相分析

将sRNA reads比对到大豆基因组后,用匹配的坐标表示单个sRNA。由于在sRNA双链的3’端存在两个核苷酸的突出,因此与反义链匹配的sRNA添加了两个核苷酸的正偏移。使用9个循环的滑动窗口(189 bp)进行全基因组搜索,每次切换为3个循环(63 bp),当至少10个不同的reads落入9循环的窗口,至少50%匹配的特异reads长度为21个核苷酸,并且至少3个特异reads落入某个寄存器,此时报告窗口。接下来报告的具有重叠区域的窗口被组合成单个较长窗口。然后,使用Xia等人的算法,基于比对结果计算每个窗口的P值。对于相位P值<=0.001的基因座还需最终检查。绘制来自每个基因座的小RNA的P值和丰度并且肉眼检查以去除假阳性,例如具有许多低丰度峰的miRNA基因座可能错误地通过我们的过滤器。手动除去未注释的tRNA和类似rRNA的基因座。

miRNA的差异丰度分析

基于reads的丰度数据,使用Bioconductor的R软件包“baySeq”( Hardcastle and Kelly, 2010 ),对水胁迫和病原体模拟处理的样品进行成对(即对照与胁迫处理)的差异表达分析。>=0.95估计后验似然概率的聚集至显着不同水平的miRNA被鉴定出来。

数据获取

将大豆小RNA和PARE测序数据提交给NCBI Gene Expression Omnibus,编号GSE58779。


参考

降解组测序:http://www.ebiotrade.com/custom/LC_BIO/100427/index.htm

你可能感兴趣的:(第3周:利用大豆小RNA图谱鉴定来自编码基因区的phasiRNA)