Science | 高通量单菌株分辨率的基因组测序用于人类肠道微生物组研究

文献下载链接：High-throughput, single-microbe genomics with strain resolution, applied to a human gut microbiome
Supplementary materials：Figs.S1 to S13；Tables S1 to S8；Movies S1 to S10
发表期刊：《Science》
影响因子：63.714
时间：2022年

文章亮点概览

0. 文章亮点

（1）Microbe-seq：微生物单菌株基因组测序实验方法

作者开发了一项微生物单细胞基因组测序的方法用于人类肠道微生物组研究：使用集成的微流控液滴生成装置，将成千上万的微生物单独封装到液滴中。在每一个液滴中溶解微生物，进行全基因组扩增，并用特定的条形码标记DNA；最后，汇集所有液滴中的DNA序列并构建NGS测序文库。

（2）微生物参考基因组构建方法

由于微生物组研究的参考基因组是未知的，因此作者开发了一个通用的计算框架（可以整合来自同一物种多个微生物的测序reads，生成一个较为全面的参考基因组列表），通过比较来自同一物种的不同微生物个体基因组，可以确定是否存在多菌种共存，并构建菌株分辨率基因组。

高通量样本制备流程：单菌封装-->菌类裂解-->全基因组扩增-->DNA片段化-->分子标记-->pooling

1. Microbe-seq高通量样本制备原理（基于微流控装置）

整个实验流程用到5款微流控液滴生成装置：

装置A：分离微生物（试剂：微生物悬液；裂解试剂；油）
装置B：扩增试剂封装（试剂：样本液滴；油；扩增试剂）
装置C：片段化试剂封装（试剂：样本液滴；油；Nextera transposomes）
装置D：Beads封装（试剂：样本液滴；油；beads；PCR试剂）
装置E：去除合并液滴（试剂：样本液滴；油）

图1. 微流控装置设计图; 装置A.用于分离微生物：编号1-4分别为微生物悬液，裂解试剂，油的注入孔，产物回收孔；装置B.扩增试剂封装：编号1-6分别为样本液滴注入孔，油注入孔，扩增试剂注入孔，油注入孔，电极，产物回收孔；装置C. 片段化试剂封装：编号1-6分别为样本液滴注入孔，油注入孔，片段化试剂注入孔，油注入孔，电极，产物回收孔；装置D.Beads封装：编号1-7分别为样本液滴注入孔，油注入孔，beads注入孔，PCR试剂注入孔，油注入孔，电极，产物回收孔；装置E.去除合并液滴：编号1-4分别为样本液滴注入孔，油注入孔，产物回收孔，废液孔。图片中的虚线矩形框都有对应的视频在Supplementary materials

1.1 单菌封装（装置A）

droplets=microbe+ lysis reagents
通过液滴微流控装置生成液滴，每个液滴尽可能包含单个微生物，同时体系内包含裂解试剂（液滴大小在50um左右）

单菌封装示意图（截图来自Supplementary materials）

1.2 菌类裂解（PCR仪）

最终将所有的液滴收集在回收管内，通过温度孵育的方式，裂解液滴内的微生物（注意：此时液滴相互为封闭状态，每个微生物的DNA都保留在自己的单一液滴中）

The incubation program for lysis : 
37°C for 30 min, 
75°C for 15 min,
95°C for 5 min and sample storage at 4°C

1.3 扩增试剂封装（装置B）

将上一步的样本液滴注入到装置B，在此与扩增试剂混合，并形成体积更大的液滴

扩增试剂封装示意图-1（截图来自Supplementary materials）

使用电场将其与含有扩增试剂的第二个液滴合并

扩增试剂封装示意图-2（截图来自Supplementary materials）

1.4 全基因组扩增（PCR仪）

收集所得到的体积更大的液滴，并通过孵育扩增的方式提高DNA含量

The incubation program for MDA :
30°C for 6-8 hours, 
65°C for 10 min and sample storage at 4°C

1.5 片段化试剂封装（装置C）

将上一步的样本液滴注入到装置C，在此与片段化试剂混合（Nextera adapters），形成体积更大的液滴

片段化试剂封装示意图-1（截图来自Supplementary materials）

与上一步程序类似，在此使用电场将其与含有片段化试剂的液滴合并

片段化试剂封装示意图-2（截图来自Supplementary materials）

1.6 片段化（PCR仪）

将上一步所有的液滴收集在回收管内，通过温度孵育的方式片段化DNA

The incubation program for tagmentation:
55°C for 10 min, and sample storage at 10°C

1.7 Beads封装（装置D）

装置D首先将Beads与PCR试剂混合成凝胶珠液滴（此时液滴体积较大）

Beads封装意图-1：Beads与PCR试剂混合（截图来自Supplementary materials）

随后，装置D将上一步的样本液滴逐个与凝胶珠液滴合并（带有DNA条形码引物的水凝胶微球+PCR试剂）

Beads封装意图-2：样本液滴与（Beads+PCR）试剂混合（截图来自Supplementary materials）

与上一步程序类似，在此使用电场使得液滴合并更高效

Beads封装意图-3（截图来自Supplementary materials）

1.8 生成引物序列（PCR仪）

引物序列通过组合条形码的扩展生成：

The incubation program for barcoding：
72°C for 4 min, 
98°C for 30 s; 
10 cycles of 98°C for 7 s, 
60°C for 30 s and 72°C for 40 s; 
72°C for 5 min
sample storage at 4°C，slow ramping of 2°C/s at this step

通过PCR反应将这些条形码引物连接到每个液滴内的DNA分子片段上。
引物包含两部分：用于标记液滴的条形码序列和Nextera adatpers。

作者观察到PCR后一些液滴的合并，可能发生在PCR的高温阶段。考虑到较大的液滴可能含有来自多种微生物的DNA，因此用图1中的 装置E去除合并液滴。

1.9 pooling并构建NGS文库

最终打破液滴，添加用于illumina测序的接头序列

后续省略掉不然太罗嗦...

2. Microbe-seq方法验证（微生物群落模型的单细胞基因组测序）

SAG的概念：具有相同barcode的测序序列的集合即称为一个single-amplified genome (SAG)。
SAG的纯度：将一个SAG中的所有比对到参考基因组的reads作为分母，共享同一个物种参考基因组的reads数作为分子，比值最高的参考基因组所对应物种即为SAG所包裹的微生物物种信息，而该比值也被称为SAG的纯度。
SAG的基因组覆盖率：对于每一个高纯度的SAG，其对应物种参考基因组的碱基长度为分母，参考基因组中被SAG的reads所覆盖的碱基数为分子，其比值即为SAG的基因组覆盖率。

2.1 实验设计

4种相似浓度的菌株混合（其中各菌株的参考基因组已知）：

革兰氏阳性：S. aureus（金黄色葡萄球菌）；B. subtilis（枯草芽孢杆菌）
革兰氏阴性：E. coli（大肠杆菌）；K. pneumoniae（肺炎克雷伯菌）

2.2 实验结果

革兰氏阴性菌的基因组覆盖率偏低，猜测可能有2种原因：
（1）Microbe-seq基于酶裂解微生物的方法，不太适用于革兰氏阴性菌（有可能存在不能裂解的情况）
（2）革兰氏阴性菌的基因组偏大

（1）Microbe-seq可以实现高通量单基因组测序：包括4种混合菌株的模拟群落最终获得 5497 SAGs(Table S1)
（2）SAGs的reads几乎来源于单个微生物：SAGs的纯度大多数超过95%(图B)
（3）SAGs基因覆盖率产生差异：革兰氏阳性菌（S. aureus，B. subtilis）的SAGs基因组覆盖率平均值分别为25%，17%；革兰氏阴性菌（E. coli，K. pneumoniae）的SAGs基因组覆盖率平均值分别为8%，9%（Fig.S2）
（4） 完整基因组覆盖需要SAGs组装：每个SAGs的基因组信息都是不完整的，但通过50个SAGs的reads组装，可以拼接出完整的微生物基因组（图C）

图2.模拟群落的SAG质控结果；Table S1. 不同微生物的SAGs质控表；图B. 模拟群落中所有SAGs的纯度分布：大多数超过95%；Fig.S2.模拟样本中四种细菌的SAGs的基因组覆盖率：横坐标表示单个SAG的基因组覆盖率（不超过60%），纵坐标表示不同基因组覆盖率对应的SAGs比例，线条颜色表示不同的微生物，竖虚线表示对应物种的平均覆盖率；图C. 完整基因组覆盖需要SAGs组装：横坐标为随机抽取的SAGs数量，纵坐标为对应SAGs的total combined coverage（downsample处理每个物种的SAGs，组装对应SAGs基因组信息计算覆盖率），不同的颜色代表不同物种，误差条表示标准偏差

3. Microbe-seq：人肠道微生物样本的实验设计与数据分析

3.1 实验设计

实验材料：
健康人粪便样本（一年半的时间内取样7次）

实验方法：
对于供试者的每一份粪便样本，均执行以下实验操作
（1）Microbe-seq
（2）19个菌株分离培养+基因组测序（组装基因组质量参考）
（3）宏基因组测序（微生物多样性参考）

3.2 微生物基因组组装与注释（Microbe-seq数据）

3.2.1 基因组组装步骤

step1：识别同一物种对应的SAGs
step2：根据碱基序列的overlap区域denovo组装，如SAGs reads-->contigs -->SAG’s partial genome
step3：通过hash function为每个SAG’s genome赋予标签
step4：通过层次聚类的方式将相似的SAG’s genome放入preliminary data bins（基于hash标签计算相似性）
step5：对于每一个data bin，其中的reads组合在一起（不区别来自哪个SAG）组装成bin’s tentative genome
step6：计算每个bin’s tentative genome的hash 标签，并以此计算相互之间的相似性
step7：重复进行以上步骤（拆分、聚类和组装bin’s tentative genome），优化bin的序列以保证其中的reads仅来源于一个分类单元
step8：通过ANI度量各bin之间的 tentative genome序列相似性，ANI>95%的tentative genome被合并组装成对应单个物种的精细基因组

解释汇总：
（1）判断bin仅包含一种分类单元的方法：如果比对到bin’s tentative genome的两条不同的contigs，存在于两个不重叠的SAGs亚群（说明bin中数据可能包含了2种不同的物种），则需要对bin中的数据做优化
（2）ANI概念： average nucleotide identity，通过比较两个基因组的同源序列来估算其相似性的度量指标
（3）为什么step8用ANI评估相似性？step8 可以看到多个bin可能包含同一物种的基因组，这里每个相似的bin组合了很多SAGs的基因组（覆盖率足够大了），所以足以与其他bin中的基因组产生共享物种的overlap序列。

3.2.2 基因组质量评估

通过计算单拷贝的marker基因评估以下2个指标：

完整性：本次分析组装出的一个分类单元基因组的部分

污染：来自其他分类单元的基因组的部分

高质量基因组：52个（完整性>为0.9，污染<为0.05）
中质量基因组：24个（完整性>为0.5，污染<为0.1）
超过3/4的SAGs（16723）都包含在以上76个基因组中，除此之外有6个基因组的SAGs数量低于24，因此最终组装的基因组质量偏低。

分离菌培养+基因组测序的实验方法，其组装的基因组被认为“行业金标准”，实验设计时作者分离并单独培养了该供体粪便样本中的19种菌，将Microbe-seq数据组装的基因组与其对比，17个物种的ANI>99.5%，说明作者开发的基因组组装算法还是比较可靠的。

3.2.3 基因组注释

将组装好的基因组与公共数据库 GTDB-Tk比对，ANI>95%作为标准确定其对应的物种类型。本次实验获得了来自不同门的广泛物种组合，包括厚壁菌门、拟杆菌门、放线菌门、变形菌门和梭菌门，包括粗粪杆菌、均匀拟杆菌和褐孢杆菌这类在人类肠道微生物群中已知非常丰富的物种。
同时从该人类供体分离培养的19个物种菌株也在存在于图3中（17个物种的ANI>99.5%）

图3. 该供试者肠道微生物组中的76种菌：由核糖体蛋白序列构建的系统发育过程由圆圈中心的树状图表示；每个物种的门由每个列出的物种名后面的背景颜色表示(GTDB-Tk数据库)；来自该人类供体的分离株的19个菌株用星号标记；用于共组装的SAGs数量（丰度）由最外层的条形图表示，52个高质量基因组用灰色表示，24个中等质量基因组用无阴影表示

3.2.4 人肠道菌株级基因组识别

3.2.4.1 分析方法

前面的研究步骤都只将分析定位在 “物种” 级别，接下来作者又将进一步做菌株水平的基因组异质性分析。

理论：一个SAG代表一个细胞，同种菌株的SAGs的基因组相似度高，因而可以通过基因组序列比较将ANI高的SAGs聚类为一簇。
现实：每个SAGs捕获的基因组信息都不全面（5%-50%），同种菌株对应SAGs共享基因组信息也不尽相同，因此直接比较SAGs的基因组来区分菌株是不现实的。
解决办法：以解析物种A的菌株组成举例，（1）将其SAGs序列比对到物种A的组装基因组，（2）识别出所有的SNP位点，（3）根据SAGs之间的SNP相似性，将所有SAGs聚类并区分为不同的菌株（来源于同种菌株的SAGs拥有相似的SNP集合）

3.2.4.2 方法验证

基于SNP相似性的算法，可用于菌株分群，文章正文里作者以普通拟杆菌举例：

（1）普通拟杆菌可以根据SNP相似性划分为4种菌株，同种菌株的SAGs对应SNP相似性大于95%（图A, 图B）
（2）通过microbe-seq组装得到的“菌株级”基因组与分离培养的菌株基因组高度相似（ANI高于99.9%），同时获得未被分离培养的strainB的基因组信息（图C）
（3）7个不同的取样时间段里，供体内普通拟杆菌不同菌株的比例存在动态变化（图D）

图3. 普通拟杆菌株水平的基因组异质性分析；图A.普通拟杆菌的聚类分群图：此次检测到的普通拟杆菌分为4种菌株；图B. SAGs共享SNP比例的散点图和频率分布直方图：散点图的横坐标表示strianA SAGs对应SNP共享比例，散点图的纵坐标表示strain B SAGs对应SNP共享比例，横纵坐标旁边的直方图表示相应SNP共享比例下对应SAGs的数量，其中四边形的点表示strainA SAGs，圆形的点表示strainB SAGs；图C. 普通拟杆菌的系统发育树（包含组装基因组和分离培养基因组）：横坐标表示各分支基因组之间的ANI值，同一分支的strain C和 isolate S1表示为同一种菌株；图D.4种拟杆菌菌株在7个取样点的相对丰度：横坐标表示取样时间，纵坐标表示不同菌株的SAGs比例，不同形状和颜色的点代表不同菌株

后续作者也将该方法用于其他菌种的菌株分型，详细信息参考 (fig. S9 and tableS4)

3.3 人肠道微生物关联分析

HGT概念：基因水平转移（Horizontal gene transfer,HGT），又称横向基因转移或侧向基因转移，指在不同物种之间所进行的DNA片段的流动。（打破了亲缘关系的界限，使基因能够在不同的物种之间进行交换，它经常在人类肠道微生物组中观察到）
HGT事件：在本篇文章中，作者指定两个物种基因组之间存在一个至少5kb的共同序列，相似性为99.98%，才能够称为 “HGT事件”。

3.3.1 人肠道微生物HGT分析

3.3.1.1 分析方法

step1: 在各物种基因组中寻找到HGT序列（仅对比高质量基因组）
step2：将SAGs的reads比对到HGT sequence做假阳性验证（如果HGT事件是污染的结果，则只有一小部分SAGs能够覆盖到HGT序列）
step3：从分离培养菌的基因组中验证HGT事件（选做）
step4：将HGT事件分解到单个菌株，查看菌株之间的HGT异质性
step5：计算每段HGT序列的共享菌株种类

3.3.1.2 方法验证

使用 “3. Microbe-seq：人肠道微生物样本的实验设计与菌株检出”中的数据做分析和方法验证

（1）在49个仅包含单一菌种的基因组中，作者发现了66个HGT事件（图A）
（2）在包含多个种菌株的基因组中：厚壁菌门的各株系HGT事件各不相同；拟杆菌门中B. vulgatus的两种菌株与该菌门的其他物种之间均存在HGT事件（图A，图B）
（3）几乎一半的HGT gene（包含HGT序列）共享3种以上的菌株（图C）

图4.不同菌株之间的HGT事件；图A. 49个单一菌株基因组之间的HGT事件：颜色与每个物种对应的门匹配；图B. 多菌株物种之间的HGT事件：横坐标的序号与图A中的单一菌株序号一致，纵坐标表示不同菌株，方框颜色填充表示横纵坐标对应菌株发生HGT事件；图C. HGT基因共享的物种数量分布：横坐标表示物种数量，纵坐标表示HGT基因的比例

3.3.2 宿主-噬菌体关联分析

多样性分析揭示了病毒的存在，特别是crAssphage，目前从人类肠道微生物组（68,69）中识别出的最丰富的噬菌体。噬菌体的一般调节作用，被认为是调节细菌的丰度和行为.这种基于液滴的方法不仅封装了单个细菌，还封装了与之物理共存的任何噬菌体.

3.3.2.1 分析方法

step1：每个SAG中的reads比对到 crAssphage 参考基因组（筛选出存在crAssphage的SAGs）
step2：存在crAssphage的SAGs比对到76个物种的组装基因组（筛选出与crAssphage存在共生的菌种）
step3：将与crAssphage存在共生SAGs的信息精确到菌株水平

3.3.2.2 方法验证

使用 “3. Microbe-seq：人肠道微生物样本的实验设计与菌株检出”中的数据做分析和方法验证

（1）本次实验检出的76种微生物中，只有B. vulgatus与crAssphage显著关联（图A）
（2）B. vulgatus中，只有strain A与crAssphage显著相关（图B）

图5. 宿主-噬菌体特异性关联分析；图A. 噬菌体与76种微生物的关联分析：所有P值均采用单侧Fisher精确检验计算，只有B. vulgatus与crAssphage显著关联；图B. B. vulgatus的4种菌株与crAssphage的关联分析：只有一种最丰富的 strain A与crAssphage显著相关

3.4 人类肠道微生物群的多样性分析

作者在人肠道微生物样本取样后，每份样本平行做了microbe-seq和宏基因组测序，用来验证两种方法做 “微生物群的多样性分析” 的优劣。不过，宏基因组做多样性分析的优势更大（虽然获得的是bulk数据，但DNA来源却是数百万细胞），microbe-seq的通量仍然局限在10k以下。

以下附表来源于文献的Supplementary materials，个人感觉红框内的数据颇有争议（不知是否是数据填写错误），欢迎各位读者帮忙答疑解惑！

microbe-seq与metagenomics比较

4. 结论汇总

4.1 方法优势

（1）实现菌株级基因组分析：无需培养细菌，通过液滴微流控的方法封装单个细菌并标记和扩增其DNA，测序获得50+个SAGs，即可整合组装出对应菌株基因组
（2）实现细菌菌株的HGT分析：microseq用于人类肠道微生物研究时，在49个仅包含单一菌种的基因组中发现了66个HGT事件，同时，特定噬菌体菌株与细菌之间的体内关联可以为研究噬菌体如何调节微生物组成提供特定的起点，并可能指导基于噬菌体的治疗方法的后续发展
（3）实现菌株多样性分析：对微生物群落的现有物种多样性和丰度进行准确的分析
（4）实现微生物群落菌株级动态变化分析：如疾病、饮食或抗生素治疗时，随着作用时间推移监测微生物菌株水平变化差异

4.2 方法劣势

（1）SAGs基因组覆盖率低：革兰氏阳性菌的覆盖率为20%左右，革兰氏阴性菌的覆盖率为8%左右
（2）细菌通量低：一份样本单次实验大概率只能获得1000-2000个SAGs
（3）群落多样性检测精度低：microseq仅能捕获群落中的部分微生物，对微生物群落多样性的检测精度不及metagenomics（群落中的低丰度菌株很可能不被捕获，或SAGs过少不能被组装）
（4）细菌裂解偏好性：研究中革兰氏阴性菌的基因组覆盖率低，作者推测可能有细菌不能被裂解的情况导致

Science | 高通量单菌株分辨率的基因组测序用于人类肠道微生物组研究

0. 文章亮点

（1）Microbe-seq：微生物单菌株基因组测序实验方法

（2）微生物参考基因组构建方法

1. Microbe-seq高通量样本制备原理（基于微流控装置）

1.1 单菌封装（装置A）

1.2 菌类裂解（PCR仪）

1.3 扩增试剂封装（装置B）

1.4 全基因组扩增（PCR仪）

1.5 片段化试剂封装（装置C）

1.6 片段化（PCR仪）

1.7 Beads封装（装置D）

1.8 生成引物序列（PCR仪）

1.9 pooling并构建NGS文库

2. Microbe-seq方法验证（微生物群落模型的单细胞基因组测序）

2.1 实验设计

2.2 实验结果

3. Microbe-seq：人肠道微生物样本的实验设计与数据分析

3.1 实验设计

3.2 微生物基因组组装与注释（Microbe-seq数据）

3.2.1 基因组组装步骤

3.2.2 基因组质量评估

3.2.3 基因组注释

3.2.4 人肠道菌株级基因组识别

3.2.4.1 分析方法

3.2.4.2 方法验证

3.3 人肠道微生物关联分析

3.3.1 人肠道微生物HGT分析

3.3.1.1 分析方法

3.3.1.2 方法验证

3.3.2 宿主-噬菌体关联分析

3.3.2.1 分析方法

3.3.2.2 方法验证

3.4 人类肠道微生物群的多样性分析

4. 结论汇总

4.1 方法优势

4.2 方法劣势

你可能感兴趣的:(Science | 高通量单菌株分辨率的基因组测序用于人类肠道微生物组研究)