Nature在线发表了小麦D基因组供体——粗山羊草的基因组研究论文

昨天Nature在线发表了小麦D基因组供体——粗山羊草的基因组研究论文,第一作者是美国加州大学戴维斯分校罗明成教授,美国农业部农业研究组织顾永强,约翰霍普金斯大学医学院Daniela Puiu, 乔治亚大学Wang Hao和亥姆霍兹慕尼黑研究中心的Sven O.Twardziok,通讯作者是Steven L. Salzberg, Katrien M. Devos和Jan Dvořák,特别是该团队的leader Jan Dvořák,对这个项目付出了很大的心血。国内的中国农大也参与了该研究。详细的作者名单如下图所示。

Nature在线发表了小麦D基因组供体——粗山羊草的基因组研究论文_第1张图片

节节麦是六倍体小麦D基因组的二倍体祖先,与二粒小麦(野生二粒小麦基因组在science发布)杂交经染色体加倍之后形成具有42个(28+14)染色体的异源多倍体。作为小麦的二级基因源,节节麦是一个重要的遗传资源。本文基因组组装至染色体水平主要结合了3个来源的数据,BAC序列,全基因组重测序序列以及BioNano单分子光学图谱技术,其实还有用到PacBio技术以及遗传图谱。最终大概95.2%的序列被组装为7条染色体。

Aegilops基因组有7条染色体,这些染色体是由12条祖先染色体通过非整倍体减少进化而来。在草类家族中非整倍体减少的主要形式是嵌套的染色体插入,染色体通常通过其末端插入另一染色体的着丝粒相邻区域。节节麦的1D,2D,4D和7D染色体就是通过5D染色体可能起源于与水稻9号染色体以及12号染色体对应的祖先染色体短臂的端对端融合,随后涉及5DL的Os9部分和4DS的Os3部分的相互易位。

基因组的84%是转座子序列。其中,最多的是长末端重复反转录转座子(LTR-RTs),占到了65.9%。Gypsy and CACTA 分别是最丰富的RNA和DNA转座子超家族。发现的1113个新的TE家族中,大多数的拷贝数较少; 而新的短散在核重复序列(通常被称为SINE)家族在这方面却是例外。文中还研究了这些TE在染色体上的分布规律,Gypsy和一些未分类的LTR-RTs的分布密度从染色体端粒向着丝粒增加,而Copia和CACTA超家族的密度以及外显子的密度,都是在相反的方向上增加,即端粒密度大,着丝粒密度小。我们对LTR-RT插入时间的测定表明TE在约100万年出现扩增高峰。

对基因组上的编码基因进行注释共获得83117个基因,其中包括39622个高可信度的基因以及43495个低可信度的基因,38775个HCC基因可被放到染色体上,但这些基因中只有5050个是单拷贝基因。BUSCO的1440个单拷贝基因中,1408个(97.8%)可在注释的基因中找到。与短柄草,水稻,大麦,高粱以及拟南芥的基因相比,总体来说,节节麦的基因,外显子和转录本最长,而外显子数目却少于它们。接下来是对小麦族特异基因以及抗病基因进行了分析。

Nature在线发表了小麦D基因组供体——粗山羊草的基因组研究论文_第2张图片
Nature在线发表了小麦D基因组供体——粗山羊草的基因组研究论文_第3张图片

接下来对基因在染色体上的分布规律以及与重组率之间的关系进行了研究。基因密度与重组率成正相关,端粒基因密度和重组率都很高,而着丝粒附近基因密度和重组率又都很低。实际上,端粒区域基因密度的增加主要是由于岛间(inter-insular)距离缩短造成的。

Nature在线发表了小麦D基因组供体——粗山羊草的基因组研究论文_第4张图片

SSR的在染色体上的密度也与重组率成正相关。

Nature在线发表了小麦D基因组供体——粗山羊草的基因组研究论文_第5张图片

最后是与其他植物基因组的贡献性分析,这里就不在细说了。

文中有很多详细的数据分析,有时间最好读读原文。

后面我们会重点说说数据的下载和使用。



                                      欢迎关注“小麦生信联盟”,了解小麦最新研究进展

Nature在线发表了小麦D基因组供体——粗山羊草的基因组研究论文_第6张图片

你可能感兴趣的:(Nature在线发表了小麦D基因组供体——粗山羊草的基因组研究论文)