积微论坛--用微生物组时序数据重现生物膜装配动态过程PPT对应的讲解和提问

生物信息学习的正确姿势

NGS系列文章包括NGS基础、高颜值在线绘图和分析、转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这)、ChIP-seq分析 (ChIP-seq基本分析流程)、单细胞测序分析 (重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程)、DNA甲基化分析、重测序分析、GEO数据挖掘(典型医学设计实验GEO数据分析 (step-by-step))、批次效应处理等内容。

点击阅读原文观看视频!

用微生物组时序数据重现生物膜装配动态过程

主讲人介绍

积微论坛--用微生物组时序数据重现生物膜装配动态过程PPT对应的讲解和提问_第1张图片

王金锋,博士。2011年入职中国科学院北京生命科学研究院工作至今。现任副研究员,中国科学院大学硕士生导师,中国生物工程学会微生物组学与技术专业委员会委员,“热心肠”智库专家。主要从事微生物互作与菌群塑造、菌群与宿主健康等微生物组学和生物信息学方向的研究。作为项目负责人主持国家自然科学基金3项,并承担了国家重点研发计划和中国科学院重点部署项目子课题、技术创新项目等。于Cell(2020)、Gut(2018、2020)、The ISME Journal(2019)、Nature Communications(2016)和Genome Biology(2015)等杂志发表第一、共一和通讯作者论文近20篇,五年来被引用超千次,多篇入选ESI高被引论文。担任《Critical Reviews in Microbiology》、《mSystems》和《Applied and Environmental Microbiology》等杂志审稿专家。

时序数据及其应用

积微论坛--用微生物组时序数据重现生物膜装配动态过程PPT对应的讲解和提问_第2张图片

横断数据或也称为剖面数据(cross-pal data),就是对单一时间点进行采样分析,例如对分娩前的孕妇的口腔、皮肤等多个部分进行微生物测序,这就是剖面的研究。

随着微生物组的研究,剖面数据发展为时序数据也称为纵向数据,纵向数据是针对同一个体进行多时间点采样而获得的数据,例如新生儿从出生时到出生后四个月的随访研究就是纵向数据。

时序数据能够描绘事物不同特征(菌群丰度、多样性)随时间变化的规律,也能更清晰地展现不同状态(健康或疾病)之间的转换情况,并根据之前的特征预测某些状态未来的发展。

追踪口腔生物膜的菌群动态

积微论坛--用微生物组时序数据重现生物膜装配动态过程PPT对应的讲解和提问_第3张图片

下面将讲解我们实验室今年发表在Gut上的一篇文章 — 追踪口腔生物膜的菌群动态,这篇文章基于时序数据从微生物多样性聚类溯源菌群网络等多个方面进行分析。

研究消化道入口菌群动态的意义1

积微论坛--用微生物组时序数据重现生物膜装配动态过程PPT对应的讲解和提问_第4张图片

我们把口腔作为消化道入口,它的微生物种类和数量都比较丰富。早先普遍认为在胃酸屏障下,口腔微生物无法进入肠道。但近几年的研究发现口腔对肠道微生物的输送是持续的、频繁的

例如PPT所示的eLife的这篇文章,研究来源于健康人、糖尿病患者、结肠癌患者等口腔与肠道配对的样本,发现有近60%的物种会发生频繁的传播,近20%的物种偶尔进行传播。

研究消化道入口菌群动态的意义2

积微论坛--用微生物组时序数据重现生物膜装配动态过程PPT对应的讲解和提问_第5张图片

许多研究发现口腔菌群和很多疾病相关,例如龋齿、糖尿病、胰腺癌等等。

Gut的2019年的一篇文章发现结直肠癌患者的口腔菌群和肠道菌群均存在相似的聚合双杆菌,聚合双杆菌是结直肠癌的风险致病菌。另外一些研究也发现消化道癌症患者口腔菌群也会发生相应改变。

除了发现口腔菌群和许多疾病存在联系外,口腔的微生物信息有着易采样、易操作、损伤小的优势,所以研究者们希望利用微生物标志物和建立微生物模型开展疾病的早期诊断和预后监控。

那问题来了,口腔菌群是否会发生剧烈波动?如果有动态波动,那什么时候更可能向肠道输入有害菌?另外用于预测模型开发的菌群是否足够稳定不会影响诊断结果?

洗牙前后唾液和牙菌斑的时序数据

积微论坛--用微生物组时序数据重现生物膜装配动态过程PPT对应的讲解和提问_第6张图片

于是针对以上问题开展基于洗牙前后唾液和牙菌斑的时序数据对口腔微生物的组成影响的研究。

微生物在口腔的存在形式大致分为两种:一种是游离态,即存在在唾液中的微生物;一种附着态,例如牙菌斑。

通常通过洗牙来清除牙菌斑,但是洗牙后过一段时间又会产生牙菌斑,这段时间就是牙菌斑重新堆积的过程。基于此,研究9名成人在洗牙前后11个时间点的微生物群落变化,这是一个典型的时序数据分析。

微生物组成Alpha多样性

积微论坛--用微生物组时序数据重现生物膜装配动态过程PPT对应的讲解和提问_第7张图片

从唾液和牙菌斑的菌群的alpha多样性结果来看,唾液菌群(对应图中黄色线)alpha多样性的Simpson和Shannon指标在整个采样周期保持平稳;而牙菌斑菌群(对应图中蓝色线)的alpha多样性在洗牙前最高,高于唾液,洗牙后先降低后升高,在洗牙后3d处于最低值,1-2周后逐渐回升到相对稳定状态,开始高于唾液微生物。

微生物组成的Beta多样性

积微论坛--用微生物组时序数据重现生物膜装配动态过程PPT对应的讲解和提问_第8张图片

之后通过Bray-curtis距离来查看菌群结构随时间变化的情况。

唾液菌群的beta多样性在整个采样周期低于牙菌斑菌群的beta多样性且基本保持平稳。牙菌斑菌群的个体间相似度在洗牙后3d最大,这与alpha多样性结果对应 (左下图)。

比较不同时间点和洗牙前进行比较,可以看到牙菌斑菌群在洗牙后7h-3d而非1h-4h,与洗牙前群落结构差异最大,之后的时间段里群落结构差异逐渐缩小,特别是3个月的时候和洗牙前就很相似了。

Bray-curtis距离进行PCoA分析

积微论坛--用微生物组时序数据重现生物膜装配动态过程PPT对应的讲解和提问_第9张图片

对Bray-curtis距离进行PCoA分析,可以看到唾液和牙菌斑样本分别聚类,形成彼此独立的两簇。不同时间点的唾液样本排列紧凑,提示菌群结构随时间波动较小。而不同时间点的牙菌斑菌群呈现随时间梯度分布的特点,从洗牙前到偏离最大的1d、3d,再经过2w和1m的逐渐变化,到3m时基本恢复到接近洗牙前的状态。

微生物的补充方向和时间

积微论坛--用微生物组时序数据重现生物膜装配动态过程PPT对应的讲解和提问_第10张图片

在OTU水平将前一个时间点作为源,后一个时间点作为汇,对每一个时间点的菌群进行溯源。结果显示微生物补充的方向主要是从唾液到牙菌斑,图中灰色的部分是不确定的外源,可以看到牙菌斑的所有时间点都进行了微生物的补充,洗牙后7h-7d、7d-1m的两个时间段的增幅较为明显,特别是前一个时间段,而唾液的外源微生物补充极少。

细菌丰度展现出的时间动态

积微论坛--用微生物组时序数据重现生物膜装配动态过程PPT对应的讲解和提问_第11张图片

从细菌丰度上能发现高丰度的厚壁菌和变形细菌在牙菌斑菌群中的数量变化尤为明显,且呈现早期升高、后期降低的趋势;其它细菌门类的数量变化趋势与之相反,明显的分化时间大致位于洗牙后3d。

唾液菌群中各细菌门类的数量变化基本趋于平稳。

牙菌斑堆积的三个阶段

积微论坛--用微生物组时序数据重现生物膜装配动态过程PPT对应的讲解和提问_第12张图片

左边的热图可以看到通过对时间段进行聚类能把所有时间点分为三个阶段,洗牙后的0 h至7 h洗牙后1天到7天洗牙后2 w到3 m和洗牙前这三个阶段。

右边的热图展示的是不同时间点与洗牙前相比丰度存在显著差异的菌,蓝色表示显著减少,红色表示显著增加,数字表示P值。可以看到与洗牙前相比,不同的菌在不同发育阶段的变化模式不尽相同——如多数菌在中后期已经恢复、卟啉单胞菌一直没有完全恢复、链球菌等只在中期显著增加。

不同发育阶段的微生物互作

积微论坛--用微生物组时序数据重现生物膜装配动态过程PPT对应的讲解和提问_第13张图片

这个无向网络图展示了三个阶段的丰度显著变化菌属的共存关系,图中的实虚线代表正负相关性、三个颜色代表三个阶段、线条粗细代表相关性强弱、节点大小代表菌属的平均相对丰度、数字代表度。发现菌属间的正负关系在不同发育阶段基本保持一致,少数发生变化,另外连接度高的节点多为生物膜发育中期显著增加的菌属。

研究价值

  • 研究了外力扰动(洁牙)时,崩解的口腔生物膜恢复到初始状态的过程,明确了其发生、发展和成熟三个时期的准确时间跨度

  • 揭示了口腔菌群的动态变化规律,为评估它们作为标志物的稳健性提供了新方法

微生物组的时序数据的计算

积微论坛--用微生物组时序数据重现生物膜装配动态过程PPT对应的讲解和提问_第14张图片

下面将介绍微生物组时序数据的计算方法和经验。

例如年龄数据,一般情况下难以对一个人进行数十年的随访,但是可以对大量人群中不同年龄的个体进行采样,尽管是单一时间点采样的横断数据,但在人群中呈现连续时间分布的特点。这时候这样的数据同样能够描绘事物不同特征(菌群丰度、多样性)随时间变化的规律,也能展现不同状态(健康或疾病)之间的转换情况,并根据之前的特征预测某些状态未来的发展。

按照时间段进行分组的分析结果展示 (未发表数据)

积微论坛--用微生物组时序数据重现生物膜装配动态过程PPT对应的讲解和提问_第15张图片

针对上述提到的数据,可以将人群划分成不同的年龄段,然后计算微生物多样性随人群年龄增长变化的模式、比较组内同一年龄段个体间菌群的相似性、分析组间不同年龄段群体菌群的变化幅度。

比如这里的alpha多样性结果,每10岁是一个时间段,能看到随着年龄的增加微生物先增加后减少,而beta多样性也可以看到这样一个趋势。

来源追踪

积微论坛--用微生物组时序数据重现生物膜装配动态过程PPT对应的讲解和提问_第16张图片

对于时序数据进行来源追踪就是将先前一个或多个时间点作为源,将后续时间点作为汇。可以实现追踪不同年龄段人群的微生物演替和波动幅度比较不同组别在菌群动态上的异同分析不同组别在相同年龄段菌群驻留和补偿的差异

利用Sourcetracker溯源

积微论坛--用微生物组时序数据重现生物膜装配动态过程PPT对应的讲解和提问_第17张图片

Sourcetracker是基于贝叶斯模型的实现溯源的一个R包。

Sourcetracker使用方法

积微论坛--用微生物组时序数据重现生物膜装配动态过程PPT对应的讲解和提问_第18张图片

输入数据是分组信息(metadata)OTU丰度表,metadata文件需要包含样本ID号、样本描述信息、指定原本是来源(source)还是溯源目标(sink);OTU丰度表开头是两行注释,行名是OTU的编号或注释结果,列名是样本名,中间填充的是相对丰度的数值。

Sourcetracker结果呈现

积微论坛--用微生物组时序数据重现生物膜装配动态过程PPT对应的讲解和提问_第19张图片

输出结果以样本为行、来源为列、填充比例值的表格以及相应的图形。图形可以选饼图、柱状图或箱线图,堆积面积图是较适合展现时序数据的可视化形式。

利用Feast溯源

积微论坛--用微生物组时序数据重现生物膜装配动态过程PPT对应的讲解和提问_第20张图片

Feast是另一个实现溯源的软件,其输入数据也是分组信息(metadata)和OTU丰度表,输出结果如PPT所示,给出了估计结果的百分比。

时序数据中的状态间转换

积微论坛--用微生物组时序数据重现生物膜装配动态过程PPT对应的讲解和提问_第21张图片

桑基图是一个很好展示群落状态类型或群落门类随时间转换的形式。另一个是马尔科夫链,比如右图展示了随孕周增长,孕妇菌群各种群落状态类型(Community State Type)的自转率和它转率。线条粗细表示转换率高低。

桑基图和马尔科夫链绘制方法

积微论坛--用微生物组时序数据重现生物膜装配动态过程PPT对应的讲解和提问_第22张图片

桑基图可以通过R包、桑基图官方网站或ImageGP来绘制。

马尔科夫链是通过R的Markovchain包来实现,其输入数据也是包含了样本名、取样时间、分组等的数据表,大家可以根据实际需要来选择。

基于时序数据的有向互作网络

积微论坛--用微生物组时序数据重现生物膜装配动态过程PPT对应的讲解和提问_第23张图片

虽然上文介绍的共存网络是一个无向网络,但是时序数据也可以用LSA来构建有向网络来推测网络在时间序列中的变化。

预测菌群状态的发展方向

积微论坛--用微生物组时序数据重现生物膜装配动态过程PPT对应的讲解和提问_第24张图片

近年来菌群分析中常用的分类器或预测模型也适用于时序数据,可以通过时间点1的菌群状态来推测时间点2的菌群状态。使用的模型和剖面数据一致,如随机森林、支持向量机、XGBoost、卷积神经网络、机器学习等。

小结

积微论坛--用微生物组时序数据重现生物膜装配动态过程PPT对应的讲解和提问_第25张图片

  • 以口腔生物膜菌群数据为例,通过追踪洗牙前后牙菌斑堆积来解析群落的重建过程,分享典型时序微生物组研究的分析思路及内容。

  • 介绍菌群的多样性、相似性、聚簇、共存网络等常规分析手段在时序微生物组计算中的应用。

  • 讲述如何依靠分组以及对同一批数据进行不同的分组比较和距离计算,来衡量菌群相似程度随时间梯度的变化,寻找群落结构高变或剧烈波动的时期。

  • 在连续时间点的纵向研究中引入贝叶斯、马尔科夫链和机器学习算法,向大家推荐这些分析涉及到的计算工具及其使用方法。

刘永鑫老师总结亮点

  • 时序数据分析可以应用处理公共大数据

  • 可以对时序数据继续进一步分组,可能会发现更有意思的点

提问

  • Q:网络分析问题:样本通过聚类分为3个时间阶段,是对这3个时间阶段分别绘制网络吗?如果是分别绘制的网络,那怎么把三个网络结果最终绘制成一个网络呢?W:是对这3个时间阶段分别绘制网络。手动使用AI进行合并,可以选一个时间阶段对应的微生物属水平共存网络,再把剩下两个阶段的微生物属水平共存网络添加进去。另外也是由于通过相关系数筛选后,一般每个细菌最多与其他四个细菌相关,绝大多数是与一到两个细菌相关,所以很容易进行合并

  • Q:来源追踪分析时,有没有筛选OTU的丰度?W:有,去除了低丰度的OTU

  • Q:假设来源追踪分析时有两个source,怎么区分两个source共有的OTU是来自哪个source?W:软件不单是依据OTU的有无来判断OTU的来源,还会从其他条件判断OTU的来源,这个与具体软件分析的算法相关。

  • Q:同一个生态位/生物膜有很多细菌呈现相似的功能,怎么通过网络展示这些细菌的关系等?W:一个方式是做共线性网络,其实现原理是填入细菌或删除细菌来查看网络的变化;还有些方法是基于实验,例如将3,5种分离株或细菌混成一个个小的群落来看其变化。

  • Q:可以介绍下选刊的经验技巧吗?W:可以从两点出发:1. 衡量自己工作层次,工作量适合哪个水平的期刊;2. 选刊时看期刊要求,比如Gut的70%以上的文章都是以letter形式发表的,这些都是基于之前发表的文章再进行讨论和分析,所以这个文章中提到了想要解答两个问题,这两个问题就来源Gut之前发表过的文章。

  • Q:缺失数据是如何进行处理的?W:缺失数据是没有获得这些数据,有些可能只缺了唾液,但是洁牙后其他时间点的数据都是有的,有的话就可以在后续分析中使用。

  • Q:时间序列检验一般用配对检验,但是因为数据存在缺失,所以会用秩和检验吗?如果缺失就用秩和检验吗?W:嗯,这篇文章主要就是用的秩和检验。

  • Q:怎么得到出PPT中热图展示的这23个菌?W:每个时间点和洗牙前相比有丰度显著差异的属。

  • Q:分析中有没有校正了年龄、性别、饮食等因素?如果校正有什么方法吗?W:本批数据来自9个人的洁牙后11个时间阶段的数据,数据本身就比较难采集就没有收集更多的数据进行校正。

  • Q:随机森林怎么通过时间点1来预测时间点2?W:依据目前的已知的时间点和菌群来训练模型,类似于横断数据使用随机森林的方式。用的先前时间点的数据预测其后时间点的数据状态。

文章对应链接Gut:北京生科院赵方庆团队揭示人体口腔菌群的稳定性和动态变化规律

往期精品(点击图片直达文字对应教程)

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集

 

你可能感兴趣的:(大数据,机器学习,人工智能,数据分析,数据挖掘)