基因组文章 | 茶树《Molecular Plant 》2020

转自:https://mp.weixin.qq.com/s?__biz=MzA5NzE1MTYwMw==&mid=2650849497&idx=1&sn=0831fe0dc984fd8b0aaae5bc451f3f35&chksm=8b515fc5bc26d6d35020392d2ea035602916f02a322592cad38d291c947a386f787250f7455c&scene=21#wechat_redirect

2020年4月25日 Molecular Plant 在线发布了第一个小叶茶染色体级别的高质量参考基因组图谱,该成果是高立志教授团队自2017年第一个大叶茶变种基因组发布以后,首个染色体级别小叶茶变种基因组,该精确组装的基因组全面解析了与儿茶素,茶氨酸和咖啡因生物合成相关基因家族的准确信息,首次绘制了构成庞大茶树基因组的重复序列全景图,使研究者能够准确地探究逆转录转座子的多样性。由于茶是自交不亲和的植物,基因组大且杂合度和重复序列含量高,基因组测序和组装仍然具有挑战。诺禾致源凭借测序平台优势和专业的生信团队在本研究基因组测序和组装方面提供了专业的支持。
图片

茶树是山茶科山茶属的一员,栽培比较广的主要包括两个变种:大叶茶变种(CSA;又称阿萨姆)和小叶茶变种(CSS;又称中国茶变种)。近年来茶学研究者经过不懈努力基于 NGS 测序技术公布了第一个大叶茶变种(CSA-YK10)基因组和一个小叶茶变种(CSS-SCZ)基因组,但是由于 NGS 技术所产生短 reads 的限制,通过 SMRT 长读长测序技术解析具有庞大基因组且含有大量的重复序列的茶树而言显得尤为重要。

在这里,作者首先通过 Kmer 分析在二十多个代表性的小叶茶品种中选用杂合度较低的小叶茶良种碧云 CSS-BY(基因组杂合度约为1.22%)为材料,采用单分子实时测序(SMRT)和 Hi-C 技术将组装获得的约 ~2.85-Gb 的基因组序列(占基因组长度的~97.88%)挂载到了15条假染色体上(图 1),其 Contig N50长度为625.11Kb,Scaffold N50长度高达195.68Mb,是之前报道的小叶茶变种舒茶早 CSS-SCZ 基因组的9.32倍和140.78倍。基于同源比对和 de novo 预测该基因组含有74.13%的重复序列,其含量明显大于先前报道的 CSS-SCZ 基因组注释结果,此外 CSS-BY 基因组中 LTR 逆转录转座子含量是 CSS-SCZ 的2.5倍。所有这些结果表明,除了茶树品种之间基因组大小可能发生变化外,与以前的基于 NGS 的基因组相比,高质量 CSS-BY 基因组明显提高了重复序列发现与识别的能力。

图1 染色体级别的“碧云”茶树参考基因组图谱

(A)15条假染色体;(B)基因密度;(C)TEs 的分布;(D)Ty3-gypsy LTR-RTs 的分布;(E)Ty1-copia LTR-RTs 的分布;(F)DNA-TEs 的分布;(G)SSRs 的密度;(H)叶(YL)、嫩芽(TS)、花(FB)、果(FR)和茎(ST)的转录表达密度 (I)基因组共线性分析;

作者又对 CSS-BY 和 CSS-SCZ 基因组共线性分析发现仅检测到21.80%的共线基因,两种小叶茶基因组共线性如此之低,令人难以置信,于是作者对两个版本的 contig 数量进行统计,又对同源区域进行比对分析,发现 CSS-BY 基因组 contig 数量少、序列长,且能准确地鉴定几乎所有的转座子(图2),说明 SMRT 测序和组装生成了一个具有较高连续性组装结果,该版本包含准确的长片段信息。

图2 两个组装的小叶茶品种基因组同源区域的比较

早在大叶茶变种 CSA-YK10基因组中曾报导茶树基因组中重复序列含量极高(约占整个基因组的80.9%),其中含量最丰富的 LTR 逆转录转座子占到整个基因组的67.21%。高质量且能识别所有转座元件的 CSS-BY 基因组为了解 LTR 逆转录转座子是如何促成其大基因组的生成提供了一个良好的基因组资源。于是作者共提取13172个 Ty3-gypsy 和4630个 Ty1-copia 逆转录转座子序列构建系统发育树(图3),聚类结果共产生11个家族,其中 Tat 和 Tekay 家族占 Ty3-gypsy 超家族的98%,其在基因组进化过程中大规模扩增很大程度上促成了庞大的茶树基因组。作者又添加来自 CSA-YK10的4579个 Ty3-gypsy 和1406个 Ty1-copia 逆转录转座子序列联合构建系统发育树(图4),发现了类似的结果,暗示它们可能经历了相似的进化历史。

图3 小叶茶基因组 LTR 逆转录转座子系统发育分析。Ty1-copia(A)和 y3-gypsy(B)序列构成的系统发育树
图4 小叶茶和大叶茶 LTR 逆转录转座子系统发育分析。Ty1-copia(A)和 Ty3-gypsy(B)序列构建的系统发育树

作者又进一步追踪 LTR 逆转录转座子如何影响茶树基因组大小变异的动态历史。序列插入时间估计表明在过去的大约一百万年里,Ty3-gypsy 超家族(比如 Tat 家族)在基因组里一开始快速扩增占有明显优势,后来扩增速率迅速下降,取而代之的是 Ty3-gypsy 超家族的 Tekay 家族和非自治(non-autonomous)的 LTR 逆转录转座子家族快速爆发,进而推动了茶树基因组大小的变异与进化(图 5A)。然后作者又使用来自5个组织的 RNA-seq 数据来验证这一结论,结果表明约63.59%的 reads 比对到多拷贝非自治 LTR 逆转录转座子家族(例如TEL004;TEL013;TEL019),与多拷贝 Ty1-copia 家族(TEL003)和 Ty3-gypsy 家族(TEL001)相比,显示出较高的基因表达水平(图5B)。

图5 茶树基因组 LTR 逆转录转座子扩增历史

(A)Ty1-copia(蓝色)、Ty3-gypsy(绿色)和非自治(黄色)LTR逆转录转座子的插入时间;(B)LTR逆转录转座子家族转录表达水平

接下来研究者又提出一个新的疑问?非自治 LTR 逆转录转座子(本身不编码转座所需的蛋白、依赖于其它家族编码的蛋白完成转座过程)是如何阻碍自主逆转录子扩增进而影响基因组大小的变异与进化。于是作者就对基因组注释到的4000余个非自治 LTR 逆转录转座子根据蛋白编码结构域的不同分为四组(包括 gag、pol 中的 PR、RT 和 IN 结构域),一般自治 LTR 逆转录转座子中间区域至少包含2个基因,即 gag 和 pol 基因。令人惊讶的是,约94.23%LTR 逆转录转座子相关转录本的表达与 gag 和 pol 基因无关,只有5.77%的逆转录转座子相关转录本比对到至少一个上述基因。因此,该研究又发现了另外一个有趣的现象,即近期爆发的具有高表达水平非自主 LTR 逆转录转座子可能通过减少逆转录转座子所需酶的供应,进而影响了茶树基因组中 LTR 逆转录转座子的转座和扩增(图 6)


图片

图6 茶树基因组中 LTR 逆转录转座子家族中的“搭便车”的非自治转座子的进化动态 (A)LTR 逆转录转座子的插入时间;(B)TEL001反转录转座子家族的四组结构特征;(C)TEL001逆转录转座子家族内部基因区域的长度分布。结语

通读全文不难发现文章的亮点有三:1)基于 SMRT 长读长测序技术组装了一个高度重复、杂合且相对较大的茶树染色体级别基因组;2)高度连续且准确的基因组可以完全识别所有类型全长 LTR 逆转录转座子,探究了茶树基因组大小变异和进化动态;3)研究发现非自治 LTR 逆转录转座子的迅速崛起是竞争性利用同家族自治的 LTR 逆转录转座子的逆转录酶来完成转座和扩增这一有趣现象,为后续探究 LTR 逆转录转座子的科学研究者提供了一个思路借鉴。

参考文献:

Zhang Qun-Jie,Li Wei,Li Kui et al. The Chromosome-Level Reference Genome of Tea Tree Unveils Recent Bursts of Non-autonomous LTR Retrotransposons to Drive Genome Size Evolution.[J] .Mol Plant, 2020.

你可能感兴趣的:(基因组文章 | 茶树《Molecular Plant 》2020)