Ribo-seq分析必看文献 | 知识（一）：15年玉米

https://onlinelibrary.wiley.com/doi/full/10.1111/tpj.13073

Ribosome profiling reveals dynamic translational landscape in maize seedlings under drought stress

总结：

植物可以通过各种机制在转录和翻译水平上对环境变化做出反应。到目前为止，人们对植物在转录水平上的胁迫反应已有了较为广泛的认识，而在翻译水平上对植物的胁迫反应知之甚少。为了揭示植物在干旱胁迫下的翻译情况，我们对正常和干旱条件下生长的玉米幼苗进行了Ribo-seq测序。对Ribo-seq数据和RNA-seq数据的比较分析表明，在转录水平上，基因表达的倍性变化与翻译水平的变化呈中度相关(R2=0.69)。然而，在干旱条件下，只有不到一半的响应基因被转录和翻译所共享，这表明干旱胁迫可以独立地引起转录和翻译反应。我们发现在干旱胁迫下，931个基因的翻译效率发生了明显的变化。进一步分析表明，基因的翻译效率受其序列特征(GC含量、编码序列长度和归一化最小自由能)的影响较大。此外，我们在2558个基因上检测到3063个上游开放阅读框架(uORFs)的潜在翻译，这些uORFs可能影响下游主要开放阅读框架(mORFs)的翻译效率。我们的研究表明，植物对干旱胁迫的反应具有高度动态的翻译机制，并与转录反应具有协同作用。

关键词：`maize`, `ribosome profiling`, `RNA-seq`, `drought stress`, `translational efficiency`, `uORF`

简介

Ribosome profiling

该方法可通过对核糖体结合的mRNA片段（RPF）的深度测序提供蛋白质合成的单核苷酸分辨率测量
技术来源于2009的一篇sicence
Genome-Wide Analysis in Vivo of Translation with Nucleotide Resolution Using Ribosome Profiling

image.png
建库流程，简单的来说就是只将核糖体结合的RNA（即正在翻译的RNA）拉下来进行建库，而不同于RNA-seq建库（将所有的RNA进行建库）

image.png
详细视频讲解见翻译组介绍与应用
在植物中首先运用于拟南芥中研究光形态问题

涉及缩写

uORF：upstream open reading frame
WW：well-watered
DS ：drought-stressed

Result

一、数据的产生以及Ribo-seq数据的特征

本文Ribo-seq建库方法

image.png

测序量如下，可以明显看到Ribo-seq所需要的测序量很高，而且由于大量的rRNA最终比对上的有效的Reads大约只有12%。

Ribo-seq测序量：
- WW seedlings：240 million reads
- DS seedlings: 150 million reads
RNA-seq测序量：
- WW seedlings：32 million reads
- DS seedlings : 48 million reads
数据的重复性高达0.9+
进一步分析RFP长度分析，发现都主要分布在30bp（Fig2 a）左右, 与之前的报道基本一致，但是与酵母中报道的28nt略长。在翻译过程中，核糖体一次推进三个核苷酸，同时作者本文中也在开始密码子后和终止密码子前也观察到了一个很强的三核苷酸周期性(Fig2 b)。在WW幼苗中RPF主要位于CDS区（97.5%）,其次是5'UTR(2.1%)和3'UTR(0.4%) (Fig2 d)。而在经历drought后DS中，RPF主要位于CDS区（95.9%）,其次是5'UTR(3.6%)和3'UTR(0.5%) (Fig2 d)。表明在UTR中特别是5'UTR上有潜在的翻译能力。

Fig 2

二、干旱胁迫改变翻译水平和转录水平的表达

差异基因数目统计（Fig3 a）
转录水平： 1646 up 2870 down
翻译水平： 1779 up 3832 down
为了进一步确认转录水平在干旱胁迫后受到抑制，与WW苗相比，DS苗中的多体比例从49.9%下降到33.9%，单体比例从34.9%上升到48%，说明DS幼苗中的翻译受到全基因组的抑制。

Fig 3
作者计算了转录组数据和Ribo-seq数据两者的相关性为0.69。进一步将基因分类，发现59%响应的基因属于C类和G类（转录水平与翻译水平变化一致）（Fig 4）

Fig 4

三、干旱胁迫导致大量基因的翻译效率发生显著变化

TE(Translational efficiency） = FPKMribosome-profiling / FPKMRNA-seq, 翻译效率TE代表RNA的使用率。
全基因组分析TE，发现基因的TE变幅达4000倍以上，表明大量基因经历了高度动态的翻译调控(Fig5 a), 作者观察到与光合作用有关的基因的转录丰度(P值=6.45e-13)和TE(P-值=2.64e-08)都比在幼苗中表达的所有其他基因的转录丰度高(P值=6.45e-13)和更高的TE(P-值=2.64e-08)(图5a)。这些光合作用相关基因的表达增加，表明它们除了具有较高的活性外，还具有更高的翻译效率。

Fig 5
作者猜想植物是否能够通过翻译效率的变化来对干旱胁迫做出反应？干旱处理后，作者检测到538个TE降低的基因(小于2.8倍，z评分<2)和393个TE增加的基因(大于2.7倍，z评分>2)(Fig5 b)，说明调节基因翻译效率可能是植物逆境反应的重要途径。

四、基因的翻译效率受其序列特征的影响。

据报道，基因的序列特征有助于增加与多核糖体体相关的mRNAs的比例，并进一步影响蛋白质的丰度。作者研究了CDS、3'UTR和5'UTR基因的三个序列特征(序列长度、归一化最小自由能(NMFE)和GC含量)，并估计了它们对相应基因翻译效率的潜在影响。
- 对于CDS: 翻译效率较高(log2(TE)>1)的基因具有较短的长度、较高的GC含量和较低的NMFE。
- 对于3'UTR: 较高的翻译效率基因和较低的翻译效率基因之间的差异相对较小。在3'UTR中，只有最高翻译效率组(Log2(TE)>1)的基因具有较短的长度、较高的GC含量和较低的NMFE。
- 对于5'UTR：翻译效率较高的基因(log2(TE)>1)具有较短的长度、较低的GC含量和较高的NMFE。
接下来，作者检查具有一致和不一致表达模式的基因的序列特征是否不同。基于Kolmogorov-Smirnov检验(KS检验)，累积曲线表明，与非协调组(Fig 3c 中非重叠部分的基因)相比，位于同一组(Fig 3c 中重叠部分的基因)的基因在CDS中的GC含量(P值=3.7e-11)趋向于较高的GC含量(P-value=1.6e-12)和低NMFE(P-value=1.6e-12)(图3c中的非重叠部分的基因)(Fig 6b、c).。此外，50个UTR中GC含量较低的基因往往受到一致的调控(P-值=1.2e-4；图S9j)。

Fig 6

五、广泛的上游开放阅读框架(UORF)

缺水使5'UTR中RPFs的比例增加了1.7倍(Fig 2d)，暗示着5'UTR的某些元件可以参与胁迫的应答。而uORF(位于5'UTR区的小ORF)已报道能够抑制下游主要的ORFs(mORFs)的翻译(by reinitiation and leaky scanning and have been identified in several organisms)。在玉米中之前只有两个经典的含uORF的基因被报导。而通过Ribo-seq可以从全基因组上去鉴定这种含有uORF的基因。
作者首先基于玉米基因组中存在AUG起始密码子的基因，进行了uORF预测。为了更准确地鉴定含有uORF的基因，我们对过滤得到的基因集(FGS)中的26 971个玉米基因进行了研究，这些基因与其他4个草种(水稻(Oryza Sativa)、短腿草(Braqupodium Distthon)、谷子(Setaria Italica)和高粱(Sorghum Bicolor)是共线性的。得到7927个含有uORF的基因(平均每个基因含有2个uORF, 长度平均为36bp)。进一步进行过滤，得到2558（including 45 classical genes like Lc)个基因，这些基因包含3063个平均长度为105bp的核糖体结合的uORF。

六、翻译后的uORF抑制了mORF的翻译

作者为了鉴别翻译的和未翻译的uORF之间的特征差异，比较了与mORF重新启动有关的三个参数：uORF长度、5'uTR的长度和NMFE。作者发现翻译后的uORF比未翻译的具有更长的长度(P值<2.2e-16)和更强的折叠能力(P值<2.2e-16) (Fig 7a、c)。然而，带有翻译的uORFs的基因显示出较短的5'UTR长度 （Fig7 b）。翻译的uORFs从uORF到mORFs起始密码子的相对距离(P<2.2e-16)和从uORF到转录起始位点(TSS)(转录起始位点，P=1.4e-9)的相对距离都较短(Fig7 d、e)。
在翻译后的uORFs中，鸟嘌呤在-3(P-值=0.02)和+4(P-值=3.0e-4)位置的概率高于未翻译的uORF(P-值=0.02)。
与未翻译的uORFs相比，翻译的uORFs显著降低了相应基因的TE(Fig7 g)。此外，翻译的uORFs数量的增加进一步促进了TE的减少。
uORFs被报导响应糖信号 (Wieseet al., 2004)、光 (Liu et al., 2013)and 病原菌的侵染(Pajerowska-Mukhtar et al., 2012)。作者检测了在干旱后uORF的翻译效率，发现相对于正常的幼苗，uORF的翻译效率要高。说明玉米在干旱胁迫下uORFs的翻译在全基因组范围内都得到了增强（Fig7 h）。TE效率增加的uORF的比例与位于5'UTR中RFPs增加的比例一致(Fig 2d)。

Fig 7

Ribo-seq分析本文提供图

Ribo-seq相关分析方法

reads过滤：fastq_illumina_filter 使用参数-keep N -v 保留最佳质量的reads。
Adapter切除：fastx_clipper 使用参数-Q 33 -a CTGTAGGCACCATCAAT -l 25 -n -v进行切除，然后在使用fastx_trimmer使用参数-Q 33 -f 2 去除每次读取的5'端第一个核苷酸（原因是它在逆转录过程中经常代表一个未模板化的加成。）。
rRNA过滤：从NCBI下载rRNA序列信息，然后bowtie使用参数–chunkmbs 1000 -un -al去除由于rRNA造成的污染。
Tophat2 比对：将玉米B73的基因组序列通过Tophat2使用参数–bowtie1 -N 2 -I 50000 -p 3进行比对
翻译丰度的计算：通过Cufflinks使用参数–p 3 -G -u来进行计算，只考虑比对到CDS上的reads, FPKM最终来衡量每个基因的翻译丰度。
翻译效率计算: 只考虑FPKM ≥ 1的基因进行样本间的重复性和进行后续分析。
- TE = FPKM_{(translational_level)} / FPKM_{(transcriptional_level)}
3碱基周期性图: i = 4 * read number i/((read number (i - 2) + read number (i - 1) + read number (i + 1) + read number (i + 2)), 然后绘制每个点对应的图
Normalized minimal free energy (NMFE)计算：定义二级结构的序列稳定性，它由RNAfold计算，并由序列长度规格化
uORF预测：predict uORFs with the sequence structure of (ATG-3n-TAG|TAA|TGA), 通过uORF的FPKM值是否大于1分类为表达和不表达。
motif图绘制：Seqlogo

个人比较震撼的是文中在干旱胁迫后由`5'UTR`区的`RFPs`的比例增加，通过文献的积累想到`5'UTR`区的`uORF`对胁迫的响应并且对下游`mORFs`的翻译效率的影响。这篇文章应该是植物中分析`Ribo-seq`数据，特别是这种两两比较翻译效率变化等的必看的一篇文献吧, 最后提醒的是本文是发表于15年，所以这篇文章的数据开始分析时候肯定在15年之前甚至更早，所以这篇文章中很多软件都比较老，所以方法借鉴就好，新的工具自己通过经验和文献来更新。

Ribo-seq分析必看文献 | 知识（一）：15年玉米

总结：

关键词：maize, ribosome profiling, RNA-seq, drought stress, translational efficiency, uORF

简介

一、 数据的产生以及Ribo-seq数据的特征

二、干旱胁迫改变翻译水平和转录水平的表达

三、干旱胁迫导致大量基因的翻译效率发生显著变化

四、基因的翻译效率受其序列特征的影响。

五、广泛的上游开放阅读框架(UORF)

六、翻译后的uORF抑制了mORF的翻译

Ribo-seq分析本文提供图

Ribo-seq相关分析方法

你可能感兴趣的:(Ribo-seq分析必看文献 | 知识（一）：15年玉米)

关键词：`maize`, `ribosome profiling`, `RNA-seq`, `drought stress`, `translational efficiency`, `uORF`

一、数据的产生以及Ribo-seq数据的特征