一、来源
High-quality genome assembly, annotation and evolutionary analysis of the mungbean (Vigna radiata) genome. November 2020.
DOI:10.22541/au.160587196.63922177/v1
单位:江苏农科院
主要结果:
- 通过Nanopore+Illumina+HiC组装苏绿基因组,组装大小473.67,contig N50=11.3Mb,scaffold N50=42.4。
- 52.8%的重复序列,LTRs占33.9%。
- 预测了33924个基因,95.7%注释率。
- 绿豆与其关系最近的小豆分化时间约11.66万年前,绿豆特有基因家族277个,其中18个正选择基因。
绿豆研究进展:
- 中绿VC1973A基因组草图
- 叶发育
- 白粉病抗性powdery mildew resistance
- 豆象抗性bruchid resistance
- 耐盐 salinity tolerance
- 基因组多样性和GWAS(GBS),种皮光泽
二、结果
测序组装
苏绿一号,测序约122.9Gb数据,深度259.5X,其中Oxford Nanopore (142.4X)。
组装先使用canu纠正reads,再用wtdbg2组装。原始组装结果用Racon对nanopore reads 进行三轮纠错,使用Pilon利用二代测序数据进行3轮纠错。组装大小473.67 Mb,359 contigs, N50 =11.32 Mb。
HiC-Pro利用唯一比对reads鉴定有效和无效互作,使用LACHESIS进行聚类、排序和定向,最后挂载11条染色体。基因组大小470.45Mb(挂载率99.32%,组装率87.8%)。
a-e 代表 the distribution of FPKM, gene density, density of Copia
retrotransposable elements, density of Gypsy retrotransposable elements and GC density, respectively, with
densities calculated in 200-kb windows.
f 代表 syntenic blocks.
组装评价
三方面评估:
- 组装连续性和覆盖度。二代测序reads比对99.07%;CEGMA评估连续性449个(98.03%)核心保守基因。
- 完整性。BUSCO评估,92.43%。
- HiC聚类热图。
编码基因预测
三个来源:
- ab initio :Genscan, Augustus (v2.4), GlimmerHMM (v3.0.4), GeneID (v1.4) and SNAP
- homology-based:GeMoMa (v1.3.1)
- unigene-based prediction :Hisat (v2.0.4) and
Stringtie (v1.2.3), and PASA (v2.0.2)组装,TransDecoder (v2.0) and GeneMarkST(v5.1)预测。
EVM整合,PASA优化。共预测33,924个蛋白编码基因,20,446个三种证据都有。
基因功能注释
BLAST (v2.2.31) against NR, KOG,
GO, KEGG and TrEMBL database, performed KEGG pathway。
共32,470个基因注释(95.71%)。
InterProScan(包括Prosite, PRINTS, PFAM, ProDom, Smart, TIGRFAMs, SignlP, Trans memberane等)进行motif注释,共注释2,765 motifs and 35,154 domains。
非编码RNA注释
microRNA, rRNA使用Rfam数据库;
tRNA使用tRNAscan-SE。
最后鉴定86 miRNA, 352 rRNA and 653 tRNA belonging to 23, 4 and 22 families respectively。
假基因预测
假基因序列与功能基因类似,但由于突变丢失了功能。
使用BLAT将预测蛋白序列寻找可能的同源基因序列,再用GeneWise寻找不成熟的终止密码和基因序列上的移码突变,从而获得假基因,共4320个,平均长度2237bp。
重复序列注释
使用Repbase库和从头预测的重复库(采用LTR FINDER和RepeatModeler),数据库鉴定采用PASTEClassier,合并以上两个重复库作为最终库。RepeatMasker注释。共52.83%,重复元件长度46.4 Kb - 215.1 Mb。大部分是LTR(33.92%),包括56.6% Gypsy LTRs, 39.77% Copia LTRs and 3.63% other types of LTRs。
使用MISA检测简单串联重复(SSRs),共224,409 SSRs (136,045 mono-, 56,033 di-, 28,959
tri-, 1,977 tetra-, 1,098 penta-, and 297 hexa-nucleotide repeats)。全长3,252,656 bp(~0.69%)
进化分析和分歧时间估计
从绿豆和10个近缘物种(Vigna radiata , cowpea, common bean, soybean, Vigna angularis , Lablab purpureus ,Medicago
truncatula , Lotus japonicus , Vigna subterranea and Arabidopsis thaliana)中OrthoMCL软件鉴定单拷贝直系同源基因,基于该数据集采用MUSCLE+MEGA+PHYML构树。
使用Mcmctree通过最大似然树估计分歧时间,并用化石证据矫正。
全基因组复制
为研究绿豆进化,将之与其他4种双子叶植物(Vigna radiata, Arabidopsis thaliana(Arabidopsis)比较,基于两物种间或物种内的成对同源基因计算4DTv (4-fold degenerate synonymous sites of the third codons)。
Vigna radiata vs Arabidopsis thaliana有分化峰值,Vigna radiata vs common bean存在低峰。表明绿豆和拟南芥分化的时间比绿豆和普通豆(菜豆)分化更早。
LTR插入时间估计
采用突变率来估计LTR插入时间。苏绿中的LTR插入事件不是很活跃。
正选择基因
通过评估单拷贝基因的Ka/Ks来检测正选择基因。共检测到18个基因。GO富集在membrane-enclosed lumen 和cell junction。