2022年,《Nature communications》期刊发表的“Short- and long-read metagenomics expand individualized structural variations in gut microbiomes”研究论文中,通过建立了ONT三代测序和Illumina二代测序数据混合组装的新方法,表征了来自健康人类的数百个肠道微生物组中结构变异(SV)的精细遗传变异。研究表明长读长显著提高了宏基因组组装的质量,同时能够可靠地检测大量扩展的结构变异类型(特别是包括大插入和倒位)。
期刊:Nature communications
影响因子:17.694
发表时间:2022
DOI:10.1038/s41467-022-30857-9
一、研究背景
深入了解肠道微生物群的遗传变异是了解其功能和对宿主健康和疾病影响的重要要求。大多数关于微生物组的组成和功能的见解都是基于鸟枪法宏基因组测序数据获得的,该数据支持不同种群的单核苷酸多态性(SNPs)和结构变异(SVs)的分析。ONT相对较长的读长已经被广泛用于组装复杂的真核基因组和解决包括串联重复和大结构变异在内的困难区域。
二、实验设计
该研究建立了ONT三代测序和Illumina二代测序数据混合组装的新方法,检测出了更多包括插入突变、缺失突变和基因倒位在内的微生物结构变异(SVs)。同时,对100个健康人群横断面队列和由10个人群纵向跟踪队列进行宏基因组学和代谢组学的联合分析,具体实验设计如下图。
三、实验结果
1、混合测序提高了人类肠道宏基因组组装的质量
与单独使用illumina宏基因组组装结果相比,二代+三代的混合组装方式获得了更少的contigs数,且组装总序列数量多了5.1%,平均N50值提高了2倍多。对contigs进行分箱后得到宏基因组组装基因组(MAGs),通过混合组装方式得到了9,612个MAGs(每个样本20~83个),平均N50为117kb,去除冗余后得到692个MAGs(图2b,2c),其中有623个在UHGG数据库中可查询到,且有208个质量较高的MAGs,其余的67个MAGs都是新的MAGs。在全面性方面,159个非冗余的MAGs均包含了23S、16S和5S rRNA三种序列,448个MAGs(64.74%)至少含有其中一种类型的rRNA序列。
相比之下,基于Illumina的组装方式得到的MAGs数量少了11%(616个),平均N50值也约为混合组装的一半,且只有9个MAGs(1.46%)含有三种类型的rRNA序列,只有258个MAGs(41.88%)含有至少一种rRNA序列。
2、扩大肠道微生物群结构变异检测范围
基于ONT的长序列能发现更多SVs的特点,在本研究中通过MAGs的比对,发现多种类型的SVs。对于189个菌使用dRep比对,鉴定出了317,558个插入突变,34,129个缺失突变和1,373个基因倒位(图2d)。其中,大于500 bp的SVs在每种SV类型中占很大比例(图2e-g)。
在插入和缺失的分布中观察到两个峰,因此假设SVs的两个峰是原核基因组中不同生物过程的结果,特别是在转座子/原噬菌体和其他移动元件的活性方面。鉴于此,随机选取插入突变和缺失突变两个峰中(140~160bp和1050~1150bp,图2e)SVs片段进行分析,结果表明两个峰内的SV之间存在显著差异,且移动元件在短SVs片段中更多,从而推断短序列的SVs可能与噬菌体整合和其他移动元件相关;但并不是所有SVs都有可检测的移动元件,这只提供了部分和合理的解释。
接下来,通过重新匹配参考MAG或者MAG中含有SV的序列,以进一步验证检测出的SVs的可靠性。人工检查最终证实,发现97%以上随机挑选SVs集与ONT多处位置的Reads数目一致,从而验证了单分子测序得到特异SVs的可靠性(图3a),同时也发现同一个体相同细菌基因SVs的低异质性。
在本研究的SV数据集中,一个明显的趋势是,细菌基因组中SVs的频率在不同的分类群之间是不均匀的。对种水平(MAGs)的SVs分析发现,SVs总数与所有样本中的MAGs数以及样本基因组大小成正比。
3、SV作为肠道微生物组的高度个性化特征具有功能信息性
对两个人群的189个MAGs分析发现,不同个体间每Mb基因组中有16.7的SVs,而同一个体不同时间点每Mb基因组中SVs的中位值为0(图3d)。因此,SVs可以很好地区分不同个体之间的细菌种类和集体肠道微生物群。
在种群规模上对SV相关基因功能进行了功能富集分析,发现共有267个通路与插入突变和缺失突变(图4a)相关,但未发现与基因倒位相关的通路,可能是由于它们的数量少于插入/缺失。在受影响最大的30条途径中(根据富集程度排名)中有19条与代谢相关的途径,包括例如“聚糖降解”、“鞘脂代谢”和多种碳水化合物代谢的途径。
4、SVs使细菌与代谢物和宿主表型的联系复杂化
基于健康人群的横断面队列中不同样本的代谢组分析表明,SVs使细菌种类和代谢物之间的相关性复杂化,导致同一细菌种类内的菌株水平功能差异与代谢物显著相关。SVs与代谢的关联分析发现,70个SVs影响了细菌与74个粪便代谢物显著性关联,31个SVs影响了细菌与66个尿液代谢物的关联,2个SVs影响了细菌与2个血清代谢物显著关联。
12个SV-affected基因的存在,使得Fusicatenibacter saccharivorans与粪便样本中新海藻糖代谢物的关联不显著(图4d);同样,33个SV-affected基因的存在使得Agathobacter rectalis与F1P间不再存在显著相关性(图4e)。在代谢物和受SV影响的基因中,发现了四种受SV影响的代谢物,共有11个受SV影响的基因被归类到四个KEGG通路,其中SV影响的基因和代谢物都参与,这些发现显著表明SV通过影响相关基因的功能来塑造细菌-代谢物相关性。
为进一步研究SVs突变对表型的影响,选取横截面队列样本中受SVs影响的两个代谢物F1P和neotrehalose与空腹血糖做关联分析,发现F1P和新海藻糖均与空腹血糖显著负相关,且F.saccharivorans与空腹血糖也显著负相关,但在SVs亚组中,关联变得不显著(图4h);SVs的存在也使得A.rectalis与glucose的关联减弱(图4i)。
因此,研究结果表明,通过控制SV的影响,使细菌丰度和代谢物浓度之间的相关性复杂化,结合SV可以提高细菌和宿主健康表型相关分析的检测能力。
5、在群落水平上,噬菌体和CRISPR结构高度相关
使用基于机器学习的软件ProphageHunter对所有MAGs进行分析,得到基因组大小在1,236bp和91,792bp之间的以长尾噬菌体Siphoviridae和肌尾噬菌体Myoviridae为主的2247个噬菌体(图5a)。对噬菌体元件和细菌基因组进行关联分析,得到1,077个噬菌体-宿主对(图5b),其中只有72个在MVP数据库中。相比之下,二代测序数据只检测到1815个噬菌体,其中80.77%在混合组装中检测到。从结果可以看出,ONT-二代混合组装数据更有利于噬菌体的发现。
除噬菌体外,菌群基因中还有用于抵抗病毒重复感染的CRISPR-Cas系统,以防御噬菌体的再感染。对所有MAGs的分析发现了150,058个CRISPR spacers,平均每个样本中1665±560个spacers,大部分的spacers是新发现的,只有17,600个(11.73%)在CRISPROpenDB数据库出现,22,962(15.30%)在西方人群的肠道菌群中出现。相比之下,基于二代测序的组装方式,只发现了9,542个spacers。因此,新的宏基因组组装方式具有更强的发现基因元件(如CRISPR spacers)的能力。
对原噬菌体/CRISPR spacers的β多样性分析发现,横截面队列中个体的差异性显著大于跟踪队列个体内的差异性。群体水平对原噬菌体和CRISPR spacers的组成分析表明两者间有较强的共变,揭示原噬菌体和病毒群落组成间相关性的普氏分析结果表明,横截面队列中不同个体间原噬菌体和病毒组成显著相关(图5c)。对宏基因组数据中活性病毒序列的分析发现,2,247个鉴定出的原噬菌体中有47个有潜在活性的,从而表明细菌基因中存在大量无活性的原噬菌体,从而保持SVs的稳定性。
四、研究结论
综上所述,本研究建立了基于三代测序和二代测序的混合组装方式,不仅提高了数据质量,扩大了遗传变异的检测范围,也有利于原噬菌体以及CRISPR spacers等基因元件的发现。SVs调节影响宿主代谢组和健康的细菌功能,要求对细菌对人类健康和疾病的贡献进行更精细的研究,而不仅仅是关注细菌丰度。将长读长(ONT)进一步纳入肠道微生物组研究将有助于深入剖析特定时间的肠道微生物组功能,并加深研究人员对人类各种肠道疾病轴的理解。
参考文献
Short- and long-read metagenomics expand individualized structural variations in gut microbiomes. Nature communications, 2022.