刘永鑫Adam

遗传：微生物组数据分析方法与应用

本文版权归《遗传》杂志，已获授权，转载请联系杂志社

微生物组数据分析方法与应用

刘永鑫^1,2，秦媛^1,2,3，郭晓璇^1,2，白洋^1,2,3

1. 中国科学院遗传与发育生物学研究所，植物基因组学国家重点实验室，北京 100101

2. 中国科学院遗传与发育生物学研究所，中国科学院–英国约翰英纳斯中心植物和微生物科学联合研究中心，
北京 100101

3. 中国科学院大学现代农学院，北京 100049

原文链接：http://www.chinagene.cn/CN/10.16288/j.yczz.19-222

录用日期：2019-09-02

引文：刘永鑫, 秦媛, 郭晓璇 & 白洋. 微生物组数据分析方法与应用. 遗传. 2019, 41: 1-18. doi:10.16288/j.yczz.19-222

Yong-Xin Liu, Yuan Qin, Xiaoxuan Guo & Yang Bai. Methods and applications for microbiome data analysis. Hereditas(Beijing). 2019, 41: 1-18. doi:10.16288/j.yczz.19-222

有声版正文，校稿阶段录音，41分钟。

摘要: 高通量测序技术的发展衍生出一系列微生物组(microbiome)研究技术，如扩增子、宏基因组、宏转录组等，快速推动了微生物组领域的发展。微生物组数据分析涉及的基础知识、软件和数据库较多，对于同领域研究者开展学习和选择合适的分析方法具有一定困难。本文系统概述了微生物组数据分析的基本思想和基础知识,详细总结比较了扩增子和宏基因组分析中的常用软件和数据库，并对高通量数据下游分析中常用的几种方法，包括统计和可视化、网络分析、进化分析、机器学习和关联分析等，从可用性、软件选择以及应用等几个方面进行了概述。本文拟通过对当前微生物组主流分析方法的整理和总结，为同领域研究者更方便、灵活的开展数据分析，快速选择研究分析工具，高效挖掘数据背后的生物学意义提供参考，进一步推动微生物组研究在生物学领域的发展。

关键词: 微生物组；数据分析；扩增子；宏基因组；分析流程

Methods and applications for microbiome data analysis

Yong-Xin Liu^1,2, Yuan Qin^1,2,3, Xiaoxuan Guo^1,2, Yang Bai^1,2,3

1. State Key Laboratory of Plant Genomics, Institute of Genetics and Developmental Biology, The Innovative Academy of Seed Design, Chinese Academy of Sciences, Beijing 100101, China

2. CAS-JIC Centre of Excellence for Plant and Microbial Science, Institute of Genetics and Developmental Biology, Chinese Academy of Sciences, Beijing 100101, China

3. College of Advanced Agricultural Sciences, University of Chinese Academy of Sciences, Beijing 100101, China

Abstract: Development of high-throughput sequencing stimulates a series of microbiome technologies, such as amplicon sequencing, metagenome, metatranscriptome, which have rapidly promoted microbiome research. Microbiome data analysis involves a lot of basic knowledge, softwares and databases, and it is difficult for peers to learn and select proper methods. This review systematically outlines the basic ideas of microbiome data analysis and the basic knowledge required to conduct analysis. In addition, it summarizes the advantages and disadvantages of commonly used softwares and databases used in the comparison, visualization, network, evolution, machine learning and association analysis. This review aims to provide a convenient and flexible guide for selecting analytical tools and suitable databases for mining the biological significance of microbiome data.

Keywords: microbiome; data analysis; amplicon; metagenome; pipeline

微生物组(microbiome)是指包括细菌、古菌、低(高)等真核生物、病毒等微生物的基因和基因组，及其周围环境在内的全部^[1]。研究表明微生物组在人类和动植物的营养吸收^[2]、疾病抵抗^[3]和环境适应中起重要作用^[4,5]。

近年来第二代测序(next generation sequencing, NGS)技术的发展使得基于非培养方法研究微生物组成为可能，并推动了微生物组研究进入了黄金发展时期^[6]。目前对微生物组样本的研究主要集中在3个层面(图1A)：(1)微生物培养层面：培养组学(Culturome)是该层面最重要的研究手段。通过在固体培养皿挑单菌落或使用96孔板液体高通量培养的方式获得微生物群落中可培养的菌落，随后结合标记基因(marker gene)测序、分离纯化等方法进行菌种鉴定和保藏。目前该方法已在人类^[7]、拟南芥(Arabidopsis thaliana)^[8]、水稻(Oryza sativa)^[9]等物种中应用和报道；(2) DNA层面：针对DNA易于提取和保存的特点，研究者相继发展出扩增子(amplicon)、宏基因组(metagenome)^[10]和宏病毒组(metavirome)等测序研究手段^[11]。扩增子测序常用的标记基因主要包括原核生物的16S rRNA基因、真核生物的18S rRNA基因以及转录间隔区(internal transcribed spacers, ITS)等。由于扩增子测序仅能获得研究对象的物种组成信息，要想进一步研究物种所携带的其他功能基因，就需要开展宏基因组测序和分析；(3) mRNA层面：通过对微生物组样本提取RNA进行宏转录组(metatranscriptome)测序，可以根据微生物组样本中的基因表达谱进一步揭示微生物群落原位功能^[12]。病毒包括DNA和RNA病毒两大类，想要全面开展宏病毒组学研究需要宏基因组结合宏转录组测序(图1A)。

鉴于微生物组编码的基因近千万^[13]，想要从微生物组海量数据中挖掘有效信息，必须了解和掌握本领域相关软件和数据库的使用，才能在计算机或服务器上开展可重现(reproducible)的数据分析。而传统的生物学家由于生物信息学知识相对薄弱、微生物组数据分析经验不足等情况，在数据分析过程中经常会面临Linux使用、代码重用和软件选择等众多困难。本文系统概述了当前微生物组数据主流分析的基本思路和步骤，同时对开展微生物组数据分析提供了建议，最后对本领域常用分析方法的优缺点和适用范围进行总结，以期对同行更高效地开展微生物组数据分析，挖掘大数据背后的生物学规律有所帮助。

图1 微生物组研究方法概述

Fig. 1 Methods in microbiome research

A：微生物组常用的研究层面和对应方法。微生物组按研究层面主要分为微生物培养、DNA和mRNA等3个层面；按研究技术主要包括培养组学(culturome)、扩增子(amplicon)、宏基因组(metagenome)、宏病毒组(metavirome) 和宏转录组(metatranscriptome)等测序技术^[1,12]。B：微生物组研究的基本步骤。基于测序技术为基础的微生物组研究，主要分为样本制备、测序、数据处理和统计分析四个阶段。C：微生物组数据分析的基本步骤、常用环境和思想。组学数据分析主要分3步，图中箭头上描述了实现分析的常用语言环境Shell和/或R；图中箭头下展示各步分析的目的，即通过降维和可视化的基本思想，实现将大数据转化为可读图表。

1 微生物组数据分析的基本步骤

微生物组研究主要分为4个阶段(图1B)：(1)微生物组样品制备：基于科学的实验设计，采集来自人、动植物或环境中的微生物组样本，并根据研究的目的，选择提取DNA或RNA等；(2)宏组学(meta- omics)数据产出：抽提样品的DNA或RNA后，通过构建测序文库和进行高通量测序来获得宏组学数据。例如，扩增子16S rRNA基因片段主要采用双端250 bp (pair-end 250 bp, PE250)测序，单个样本3~5万条序列的深度；宏基因组多采用PE150测序，获得微生物部分至少2千万条序列(150 bp220 Mb = 6 Gb)；(3)数据处理(质控定量)：当获得微生物组数据后，首先要进行质量控制，包括去除测序和建库过程中人为添加的引物、接头以及测序过程中产生的低质量序列等。此外，宿主相关的微生物组测序结果中含有大量宿主序列，需采用比对宿主基因组的方式去除。获得的纯净序列(clean data)再比对至参考数据库或从头(De novo)组装的参考基因集，定量为特征表(feature table)，根据序列注释类型可将特征表分为物种或功能基因组成表；(4)统计分析和可视化：特征表还需要进一步结合样本元数据(metadata)进行统计分析，并选择合适的图形进行可视化，有利于生物学规律的观察和总结，提高结果的可读性和传播性(图1B)。本文将主要对第3和第4步骤做进一步讨论和总结。

当获得微生物组原始数据后，如何对其进行分析至高可读性的出版级别图表？为便于理解，本文将微生物组数据分析过程划分为3个主要步骤(图1C)：

第一步：原始数据转换为特征表。微生物组数据通常为NGS产生的fastq格式序列文件，包括碱基序列和质量值，序列数量级可达10⁶~10⁹条。这就需要在高效的Shell环境下使用命令行工具对大数据进行质控和定量，降维至数量级为10³~10⁵的特征表。特征表常为计数型数据(count data)，如物种分类学(taxonomy)表、可操作分类单元(operational taxonomic unit, OTU)表、扩增序列变异(amplicon sequence variant, ASV)表、基因丰度(gene abundance)表和通路丰度(pathway abundance)表等。

第二步：特征表转换为多样性和/或差异特征。例如，微生物组研究中扩增序列变异表和基因丰度表仍然很大，因此研究者常采用Alpha或Beta多样性分析、物种或功能层级注释、差异比较等方法，将数据表进一步降维至10¹~10³。该数据结果更方便研究者运用专业知识挖掘规律和解释生物学问题。

第三步：数据可视化为出版级图表。近年来可视化语言和工具的发展提高了数据挖掘和结果解读的效率，如折线柱、柱状图、箱线图、散点图和热图等的广泛使用，更易于帮助研究者发现数据中的规律(图1C)。

从微生物组数据分析的全过程中可以看出，降维和可视化是大数据分析的核心指导思想，即把数据降维至可读的数量，通过可视化分析方便同领域研究者阅读和传播。实现这两个过程主要涉及两种语言环境，即首先通过Linux系统中的Shell语言配合工具软件实现大数据分析和降维，然后利用R语言(https://www.r-project.org)实现基于特征表的统计和可视化。因此熟悉Shell和R这两门语言的基础操作即可满足研究者微生物组数据分析的绝大多数需求。当然，微生物组分析中也常涉及Perl、Python、Java等语言的使用，它们更多作为软件和脚本在Shell环境下运行，用户可以根据自己的基础和习惯选择不同的语言环境进行分析和可视化。

2 微生物组数据分析常用的环境

微生物组数据分析需要在专门的语言环境下开展，熟悉常用的语言环境能够帮助我们更好地利用现有工具开展数据分析。目前本领域的分析工具主要集中在Shell和R两种语言环境下运行。几乎所有的服务器都是Linux系统，默认的Shell环境自带上百个命令和Bioconda近万个生物信息软件可快速搭建各种分析流程^[14]。R语言开源免费，官网CRAN (https://cran.r-project.org/)发布了14767个统计和可视化包，Bioconductor (http://www.bioconductor.org)上更有1741个生物学专用包(数量统计截止2019年8月20日)，可实现最灵活的统计分析。掌握这两门语言基础，可以高效地利用现有软件开展数据分析、统计和可视化。本文重点介绍Shell和R语言，是因为这两类语言环境下有非常多可利用的生物学软件(包)，用户可以通过极少的代码串联现有工具来实现数据分析。特别是对于初级使用者来说，学习和应用相对更加便捷。

Shell语言是与Linux系统交互命令的合集，几乎所有的微生物组分析工具都有可以在Linux服务器的的Shell环境下运行，而在其他环境中搭建分析流程非常困难。如果用户的电脑为Windows系列，需要安装远程访问Linux服务器的软件，如XShell、putty或ssh secure shell等，这里推荐使用商业化开发且对学校免费的XShell。而Mac系统是类UNIX系统内核，系统自带的Terminal程序即可实现远程访问Linux。R语言自带图形界面RGui，可以实现交互式统计分析和可视化，RScript命令可在命令行下执行R脚本。近两年快速发展的集成开发环境RStudio (https://www.rstudio.com/)，自2018年升级至1.1版后同时支持Shell和R脚本的编辑和运行。RStudio是跨平台软件，在Windows/ Mac/Linux上都可以轻松安装，还有服务器版本可以在网页中运行，保证不同终端无需安装任何额外程序，即可保持数据分析工作环境的一致性。对于初学数据分析的研究者来说，可通过学习RStudio来掌握数据分析、代码管理、程序调试、结果图片调整和保存等操作。

有了好用的分析代码管理工具，还需要学习语言基础读懂分析代码，才能使用和修改现有的分析流程和方法。对于以数据分析为主的研究者，建议系统学习Shell和R语言基础。Shell语言推荐学习《鸟哥的LINUX私房菜基础学习篇(第四版)》，其中Linux的基本命令、文件系统和Shell脚本编写可重点学习，服务器管理员还需要学习系统和用户管理等内容。R语言推荐学习《ggplot2：数据分析与图形艺术(第2版)^[15]，该工具书对系统认识各种图形、了解绘图原理和实现数据可视化非常有帮助。此外，通过学习网络上相关研究者整理总结的的基础知识和代码注释，对于初学者以及偶尔使用数据分析的研究者来说，可能更具有针对性和时效性。

3 微生物组领域常用软件

近10年，随着高通量测序技术的发展和应用，微生物组研究领域的相关分析方法和工具也取得了快速发展，大量优秀的软件、流程和可视化工具相继发布，进一步推动了本领域的发展。

3.1 扩增子分析软件

扩增子分析是微生物组领域应用最广泛的技术，可以快速获悉研究对象中的微生物多样性。本文将重点介绍3款(mothur, QIIME和USEARCH)在近10年内发表且引用过万次的扩增子分析软件(图2)，其他更多相关软件介绍详见表1。

(1) Mothur：由美国密歇根大学的Patrick D. Schloss教授团队在2009年发布的首个扩增子分析流程^[16]。它整合了之前发表的OTU定义软件DOTUR^[17]、OTU差异比较工具SONS^[18]以及其他可用工具，实现了第一套较完整的分析流程，让广大研究者开展扩增子分析成为可能(图2)。

(2) QIIME：2010年，美国科罗拉多大学的Rob Knight教授(现单位美国加州大学圣地亚哥分校)团队发布QIIME (发音同chime)分析流程^[19]。该流程可在Linux或Mac系统中运行，相比mothur具有更多的优点，主要包括：整合了200多款相关软件和包，实现每个步骤更多软件和方法的选择；提供150多个脚本，实现各种个性化分析，并可以应对不同类型数据和实验设计；流程开放程度高，容易整合新软件和方法；增强统计和可视化，实现多样性、物种组成、差异比较和网络等众多方法和出版级图表绘制。由于QIIME允许同领域研究者较自主地开展扩增子数据的个性化分析和可视化，逐渐成为本领域最受欢迎的软件(图2)。为了满足日益增长的测序数据量和可重复计算的要求，Gregory J. Caporaso教授于2016年起发起了基于Python 3语言从头编写的QIIME 2项目^[20]。该项目实现了分析流程的可追溯以满足科研可重复计算的要求；同时推出了一系列新算法，如基于进化距离的快速算法条型(Striped) UniFrac^[21]、物种分类新方法q2-feature-classifier^[22]等；更重要的是软件的可扩展性和得到了同际同行的广泛支持，如接头和引物序列去除工具cutadapt^[23]、序列质量控制R包DADA2^[24]、聚类和去冗余的软件VSEARCH^[25]、纵向和成对样本分析工具longitudinal^[26]等，甚至包括宏基因组、宏代谢组分析和中文帮助文档，极大了提高了流程的适用范围和易用性。

(3) USEARCH-based的扩增子分析流程。虽然已经发布了两套较完整的扩增子分析流程，但研究中存在的诸多问题却仍没有很好的解决。物理学背景的生物信息学家、独立研究员Robert Edgar在本领域开发了一系列经典的算法和软件，如高速序列比对软件USEARCH^[27]、嵌合体检测软件UCHIME^[28]、OTU代表性序列鉴定算法UPARSE^[29]和测序数据错误过滤和去噪算法UNOISE等^[30]。这些算法和软件的推出，极大的提高了扩增子数据分析的速度和准确度。在以上算法和软件的基础上，Robert逐渐将USEARCH发展成为包括近200种命令的完整扩增子分析流程，而且跨平台、体系小巧、无依赖关系和容易安装，其32位版免费，64位商业版和非赢利版分别售价1485和885美元，条件允许的实验室推荐购买，软件分析速度快且易用性强，可有效降低入门学习成本并节约宝贵时间。同时也有USEARCH类似的工具推出，如64位完全免费的VSEARCH^[25]，可实现USEARCH的核心功能，但下游分析功能略少。

从使用难易程度看，推荐初涉扩增子分析人员从使用USEARCH^[25]或VSEARCH^[25]开始，这两款软件允许用户在Windows或Mac笔记本上完成多达几百个样本的分析项目。对于有一定基础且有Linux服务器的研究者，可进一步学习QIIME 2来实现更多种类的分析方法。

统计分析和可视化部分的工作常在R语言中实现。扩增子数据分析常用R包有vegan^[31]、phyloseq^[32]和microbiome^[33]。Vegan是群落生态包，可实现多样性、主坐标等分析，在微生物生态领域有广泛应用，甚至发展出了基于ggplot2版本的ggvegan^[31]。Phyloseq^[32]包的功能主要包括多样性分析、差异比较和可视化等。针对没有R使用经验的用户，phyloseq还推出了网页版工具shiny-phyloseq^[34]，在浏览器中即可实现扩增子数据交互式分析。Microbiome 包^[33]包括多样性、核心OTU、物种组成、相关性和格式转换等80余个分析函数，提高微生物组分析的工作效率。

图2 近10年来微生物组领域的重要软件和算法

Fig. 2 Important softwares and algorithms of microbiome in the past decade

图中橙色为Patrick D. Schloss教授开发的分析流程mothur，绿色为Rob Knight教授主持开发的QIIME系列分析流程，蓝色显示Robert Edgar独立研究员编写的相关软件和算法。

表1 扩增子分析常用软件和数据库

Table 1 Softwares and databases for amplicon analysis

名称	链接	简介	参考文献
QIIME	http://qiime.org/	扩增子分析流程，功能最全、体积大、扩展性强、依赖关系多、仅限Linux或Mac系统	[19]
QIIME 2	https://qiime2.org/ https://github.com/YongxinLiu/ QIIME2ChineseManual	新一代扩增子分析流程，分析过程封装为压缩格式，支持分析过程全记录的可重现分析，开发并整合许多新算法处理大数据更快，可扩展性强和中文帮助文档	[20]
USEARCH	http://www.drive5.com/usearch/	比对工具，现发展为拥有200多个命令的扩增子分析流程，体积小巧、跨平台、计算速度快，但64位版收费，提供中文帮助文档(https://github.com/YongxinLiu/UsearchChineseManual)	[25]
mothur	https://www.mothur.org/	最早的扩增子分析流程，体积小巧、跨平台	[16]
VSEARCH	https://github.com/torognes/vsearch	扩增子分析流程，实现了USEARCH大部分的功能，喜欢USEARCH分析流程风格的替代软件，支持在QIIME 2中使用	[25]
Qiita	https://qiita.ucsd.edu/	在线扩增子分析平台，可存储数据	[35]
MGnify	https://www.ebi.ac.uk/metagenomics/	在线扩增子和宏基因组分析平台，可存储数据	[36]
gcMeta	https://gcmeta.wdcm.org/	中国科学院微生物所开发的在线扩增子和宏基因组分析平台	[37]
Greengenes	https://greengenes.secondgenome.com/	16S rRNA基因数据库，QIIME推荐数据库，但13年发表后无更新，功能注释软件PICRUSt和BugBase依赖此数据库	[38]
SILVA	https://www.arb-silva.de/	rRNA基因数据库，包括真核、细菌和古菌三域的大小亚基序列，更新快、序列全，适用于物种分类和嵌合体检测	[39]
RDP	https://rdp.cme.msu.edu/	核糖体16S/28S数据库，适合物种注释，同时有在线分析流程	[40]
UNITE	https://unite.ut.ee/	真核生物ITS数据库，常用于真菌ITS扩增子测序分析中嵌合体检测和物种分类	[41]
vegan	https://cran.r-project.org/package=vegan	微生物生态学领域的排序方法、多样性分析和可视化的R包，更有可视化增加的ggvegan版本https://github.com/gavinsimpson/ggvegan	[31]
phyloseq	https://joey711.github.io/phyloseq	扩增子分析R包，提供多样性分析、差异比较和进化树的可视化功能，同时提供网页版shiny-phyloseq	[32,34]
microbiome	http://bioconductor.org/packages/ microbiome/	扩增子分析辅助R包，提供核心OTU/ASV计算、相关分析等函数	[33]

续表

名称	链接	简介	参考文献
PICRUSt	https://github.com/picrust/picrust	基于Greengenes 16S rRNA基因预测宏基因组基因功能信息。现发布第2版实现对任意16S序列功能预测且数据库增大10倍	[42]
Tax4Fun	http://tax4fun.gobics.de/	基于SILVA 16S OTU表预测功能组成，第2版更新数据库和方法(https://sourceforge.net/projects/tax4fun2/)	[43]
FAPROTAX	http://www.loucalab.com/archive/ FAPROTAX/	原核分类学功能注释，获得元素循环相关文献挖掘的物种功能注释，适合于农业、环境相关研究菌种功能描述	[44]
BugBase	https://bugbase.cs.umn.edu/	物种水平微生物表型预测，如革兰氏阳/阴性、厌氧/需氧等	[45]
FUNGuild	http://www.stbates.org/guilds/app.php	真菌的物种功能分类注释	[46]

3.2 宏基因组分析软件

近年来，鸟枪法宏基因组(shotgun metagenomic)测序随着通量提高和价格下降得到了进一步发展，随之而来的是大量相关软件的研发和发表(表2)。较扩增子测序相比，宏基因组测序不仅能获得无偏的物种组成，还得获得研究对象的功能组成，甚至能拼接出部分微生物的基因组草图。

对于人类肠道这类研究较多的领域，可选择基于参考数据库比对快速实现宏基因组物种和功能组成定量的分析方案，如MetaPhlAn2^[47]、Kraken2^[48]实现序列的物种分类，HUMAnN2^[49]实现功能组成定量。对于缺少高质量宏基因组参考数据库的领域，则需要从头(De novo)拼接宏基因组数据，并进行基因预测。常用的宏基因组拼接软件有MEGAHIT^[70]和metaSPAdes^[50]等，基因注释软件如Prokka^[51]和GeneMarkS-2^[52]等(表2)。对于多样品或多批次的宏基因组数据进行合并分析，通常还要采用CD-HIT^[53]构建非冗余基因集(non-redundancy gene catalog)，实现将所有样本基于统一的参考序列进行定量和比较。获得的基因集比对至多种蛋白功能注释数据库，提供更多角度观察数据的生物学意义，如常用的数据库有碳水化合物基因数据库CAZy^[54]、抗生素抗性基因综合数据库CARD^[55]和毒力因子数据库VFDB^[56]等。

表2 宏基因组分析常用软件和数据库

Table 2 Metagenome analysis softwares and databases

名称	链接	简介	参考文献
MultiQC	https://multiqc.info/	多样本质控和分析结果汇总	[66]
Trimmomatic	http://www.usadellab.org/cms/index.php? page=trimmomatic	Java编写的质量控制软件，实现快速去除低质量、接头和引物序列。被质控流程KneadData流程整合为默认质控软件。	[67]
Bowtie 2	http://bowtie-bio.sourceforge.net/bowtie2	序列比对工具，短读长序列快速比对至参考序列，结果为SAM/BAM格式	[68]
MetaPhlAn2	https://bitbucket.org/biobakery/ metaphlan2/	物种组成定量流程，包括人工整理的上万物种中的上百万个标记基因数据库，结果可直接用于LEfSe分析	[47]
HUMAnN2	https://bitbucket.org/biobakery/humann2	功能组成定量流程，默认基于UniRef数据库注释序列，获得基因家族、通路丰度和覆盖度的功能组成表	[49]
UniRef	https://www.uniprot.org/uniref/	非冗余蛋白序列数据库，用于宏基因组分析中序列或基因的功能注释	[69]
Kraken 2	https://ccb.jhu.edu/software/kraken2/	物种分类软件，基于K-mer方式匹配NCBI 非冗余数据库实现超高速物种注释，内存要求高	[48]
MEGAHIT	https://github.com/voutcn/megahit	宏基因组拼接软件，内存消耗低，计算速度快、嵌合体率较低、N50偏低	[70]
metaSPAdes	http://cab.spbu.ru/software/spades/	宏基因组拼接软件，内存消耗大，计算时间长，但有更长的N50，也存在拼接错误和嵌合体比例升高的风险	[50]
MetaQUAST	http://quast.sourceforge.net/metaquast	拼接结果评估，输出拼接指标和可视化图形的PDF和交互式网页版报告	[71]
Prokka	http://www.vicbioinformatics.com/ software.prokka.shtml	原核基因组注释流程，主要用于基因组、宏基因组中的编码基因预测，生成提交NCBI所需要的注释文件	[51]
GeneMarkS-2	http://exon.gatech.edu/GeneMark/ genemarks2.cgi	基因组注释网页工具，用户无需服务器和安装软件，浏览器中实现宏基因组中基因预测	[52]
CD-HIT	http://weizhongli-lab.org/cd-hit/	序列去冗余，实现核酸、蛋白构建非冗余基因集	[53]
Salmon	https://combine-lab.github.io/salmon/	非比对基因定量，基于K-mer方式超快速实现序列分配，无中间文件生成，直接获得计数型结果	[72]
DIAMOND	https://github.com/bbuchfink/diamond	比BLAST更快的蛋白比对工具	[73]
eggNOG	http://eggnogdb.embl.de/app/emapper#/ app/downloads	同源组蛋白数据库	[74]
GhostKOALA	https://www.kegg.jp/ghostkoala/	在线KEGG注释工具，可为基因序列分配KO编号	[75]
CAZy	http://www.cazy.org/	蛋白功能注释：碳水化合物基因数据库	[54]
CARD	https://card.mcmaster.ca	蛋白功能注释：抗生素抗性基因综合数据库	[55]
Resfams	http://www.dantaslab.org/resfams	蛋白功能注释：抗生素抗性基因数据库	[76]
VFDB	http://www.mgc.ac.cn/VFs/	蛋白功能注释：毒力因子数据库	[56]
MetaBAT 2	https://bitbucket.org/berkeleylab/metabat/	主流分箱工具	[57]
MaxBin 2	https://sourceforge.net/projects/maxbin2/	主流分箱工具	[58]
CONCOCT	https://github.com/BinPro/CONCOCT	主流分箱工具	[59]
metaWRAP	https://github.com/bxlab/metaWRAP	分箱流程，依赖140余款工具，可实现conda快速安装，默认对3种主流分箱结果提纯，提供多种可视化方案	[60]
DAS_Tool	https://github.com/cmks/DAS_Tool	分箱流程，对5种主流分箱工具结果提纯	[61]

续表

名称	链接	简介	参考文献
Athena	https://github.com/elimoss/metagenomics_workflows/	基于10×建库宏基因组测序的组装软件	[63]
OPERA-MS	https://github.com/CSB5/OPERA-MS	基于Illumina、Nanopore和PacBio的二、三测序数据混合组装软件	[64]
MAGpy	https://github.com/WatsonLab/MAGpy	分箱结果下游比较基因组分析流程	[65]
OrthoFinder	https://github.com/davidemms/ OrthoFinder	同源基因鉴定，基于多个细菌基因组中的蛋白组鉴定单拷贝同源基因和构建多基因进化树	[77]
Microbiome helper	https://github.com/LangilleLab/ microbiome_helper	微生物组分析中常用格式转换工具集，方便分析和流程搭建	[78]

宏基因组测序除了可以揭示研究对象的物种和功能组成外，还可能通过分箱(binning)方法组装出单菌基因组。近年来分箱软件快速发展，使获得不可培养微生物的基因组成为可能。目前常用的分箱工具有MetaBAT 2^[57]、MaxBin 2^[58]和CONCOCT^[59]等，但结果差别较大。去年发表了两款分箱提纯工具metaWRAP^[60]和DAS_Tool^[61]解决了分箱工具选择难、结果差异大的问题，他们通常整合3~5款分箱工具的结果，进一步筛选和综合利用，获得更高质量的单菌基因组，同时提供分箱的定量、注释等一系列常用分析功能。值得注意的是，分箱获得的单菌基因组存在着不完整和高污染等问题，因此想要提高宏基因组中单菌组装的完整性，从实验手段进行改进并采用配套专用分析方法是未来的发展方向，如采用流式细胞术单细胞分选^[62]、10×建库^[63]、二三代混合测序^[64,65]等新方法在宏基因组拼接和分箱中取得了较好的效果。宏基因组分析中常用的软件和数据库简介详见表2。

3.3 统计和可视化工具

扩增子和宏基因组分析获得的物种和功能组成表统称为特征表，是第二代测序数据分析结果中的通用格式，在下游分析中可以通过选择多种R包、图形化界面、命令行或网页版工具进行数据的转换和呈现。Bioconductor网站提供了上千种生物学数据分析R包，例如计数型数据可选基于负二项分布模型的差异统计R包edgeR^[79]或DESeq2^[80]，组成型数据差异分析可选limma包^[81]，结合已知影响因素数据校正的差异比较可选支持广义线性混合效应模型的lme4包^[82]。STAMP是为微生物组数据开发的跨平台、图形界面统计分析工具^[83]，可以实现主成分分析、多种统计方法进行两组或多组差异比较，结果可选散点图、箱线图、柱状图、热图和扩展柱状图等展示方法。LEfSe可以实现基于线性判别分析寻找特征向量的命令行工具^[84]，结果可选柱状图和基于GraPhlAn绘制的进化分枝图(Cladogram)等展示方式^[85]，没有Linux服务器或不熟悉命令行工作的研究者还可以选择网页版LEfSe开展分析。此外，还有一些专门收集整理微生物组工具并提供在线分析和可视化的平台，让用户在浏览器中即可完成分析工作，例如MicrobiomeAnalyst^[86]可实现基于特征表和元数据进行数据筛选、标准化、多样性分析、差异比较和机器学习等多种分析和可视化方案。

3.4 网络分析

网络分析是一门基于图论的学科，因其独特的视角和直观的可视式结果在微生物组数据分析中也有广泛的应用。2018年，FEMS Microbiology Review发表综述文章系统介绍了目前主流网络分析方法的优缺点、适用范围和选择依据^[87]；Nature Reviews Microbiology发表综述文章介绍了网络图在群落结构研究中的作用和意义^[88]；此外，陈亮2017年在宏基因组公众号发布的《Co-occurrence网络图在R中的实现》对相关基础概念和具体的实现方法进行了介绍，也可供学习参考。常用的分析方法有网页工具MENAP^[89]，本地相似分析LSA^[90]、专为微生物组稀疏型数据开发的相关性算法SPARCC^[91]、作为Cytoscape^[92]插件使用的CoNet^[93]、R语言中的WGCNA^[94]和SpiecEasi^[95]包等。具体的操作也比较容易实现，例如在R语言环境中使用WGCNA^[94]包计算网络相关性质，采用igraph^[96]包实现网络的可视化。对于网络的进一步分析、可视化细节调整，可将网络数据导入Cytoscape^[92]或Gephi^[97]中调整细节。目前该分析已在pH与微生物群落组装^[98]、妊娠糖尿病与健康孕妇微生物组结构、洗牙后口腔微生物群落结构恢复等研究中得到应用^[99,100]。

3.5 进化分析

微生物组数据非常适合开展进化分析，因为单物种的研究需要搜集和整理大量相关研究中的同源基因，而微生物组研究中的扩增子测序可获得的序列就是成千上万的同源基因，方便开展物种系统发育关系研究。进化分析主要分为多序列对齐、进化树构建和进化树美化等3个基本过程。由于微生物组中序列种类多且复杂度高，需要选择计算速度快的工具。多序列对齐可采用MAFFT^[101]或MUSCLE^[102]；进化树构建可选FastTree^[103]或IQ-TREE^[104,105]；最后采用Evolview^[106]或iTOL^[107]在线进行进化树的可视化和美化。推荐将序列对应的物种和丰度信息表使用R脚本table2itol (https://github.com/mgoeker/ table2itol)格式化为iTOL的输入文件。此外，R语言中的ggtree包也可以实现进化树的注释和美化^[108]。展示物种注释层级结构的进化分枝图(Cladogram)，推荐使用GraPhlAn进行可视化^[85]。宏基因组测序是鸟枪法随机片段测序，进化分析需要采用OrthoFinder^[77]基于分箱结果鉴定单拷贝同源基因，并构建多基因进化树。

3.6 机器学习

机器学习是当前计算机算法研究中最热门的领域，专门研究计算机如何模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能^[109]。目前在微生物组领域常用的机器学习方法有随机森林(Random Forest)、支持向量机(support vector machine, SVM)和Adaboost等。其中随机森林分类(Classification)在饮食习惯分型^[110]、疾病诊断^[111]、植物亚种预测^[9]等领域有较多应用；随机森林回归(Regression)在婴儿营养健康^[2]、法医学^[112]、时间序列预测^[113]等领域有广泛的应用。开展随机森林分析可在R语言中通过使用randomForest包实现^[114]。深度学习是机器学习领域新发展的方法，最近预印本服务器BioRxiv在线发表了基于肠道菌群数据的深度学习可准确预测人类真实年龄^[115]，此项研究还被Science杂志新闻报导。

3.7 其他分析工具

许多其他领域的分析方法在微生物组中也得到了推广和应用。全基因组关联分析(genome-wide association study, GWAS)^[116]在鉴定人类疾病相关基因中发挥了巨大作用，目前也应用于微生物组领域来大规模探索人类与微生物组间的调控规律^[117,118]、植物微生物组与产量^[119]等。环境因子关联分析也有较多的分析方法在微生物生态学中得到广泛应用，如揭示温度^[120]、pH^[121]和盐分^[122]等在不同环境中是微生物群落结构的决定因素。更多关于微生物组下游分析工具的介绍，详见表3。

4 分析代码重用

很多文章中的分析和可视化结果并非基于发表软件，而且作者自编程实现的分析。如果想参考文章中的分析方法和图表，根据方法描述自行组合工具或编写代码是非常有挑战的工作。目前很多文章发表时提供了分析代码，链接位于文章“代码可用(Code Available)”栏目，代码保存于Github等代码备份网站。基于文章作者分享的代码和测试数据，

更容易重复文章中发表的分析方法，在理解的基础上替换为自己的数据开展分析，甚至可在源代码基础上修改分析方案，获得更合理的结果。分析代码的重现性在研究中可极大地提高工作效率，节省研究者大量开发分析代码的时间。表4列举了一些提供可重复分析代码的实验室，供研究者参考。

表3 微生物组下游通用分析工具

Table 3 Downstream softwares for microbiome analysis

名称	链接	简介	参考文献
edgeR	http://bioconductor.org/packages/edgeR/	数字基因表达数据的经验分析R包，常用于基于计数型数据和负二项分布模型进行差异统计	[79]
DESeq2	http://bioconductor.org/packages/DESeq2/	基于负二项分布的差异基因表达分析R包，与edgeR包类似	[80]
limma	http://bioconductor.org/packages/limma/	基于线性模型分析芯片数据R包，可用于微生物组数据差异比较	[81]
lme4	https://github.com/lme4/lme4/	拟合线性和广义线性混合效应模型，可结合已知影响因素数据校正的差异比较	[82]
STAMP	http://kiwi.cs.dal.ca/Software/STAMP	图型界面的微生物组统计与可视化软件，跨平台，Windows中安装方便，但不支持中文，Linux/Mac中安装困难	[83]
LEfSe	https://bitbucket.org/biobakery/biobakery/wiki/lefse	微生物组生物标记挖掘工具，支持Linux命令行、网页界面、多组比对，结果可视化为柱状图和进化分枝图	[84]
GraPhlAn	https://bitbucket.org/nsegata/graphlan	进化分枝图可视化工具	[85]
MicrobiomeAnalyst	http://www.microbiomeanalyst. ca/	在线微生物组特征表分析平台，支持几十种常用分析和可视化，可导出网页版分析报告	[86]
igraph	https://igraph.org/r/	网络图可视化平台，可在R语言中可实现网络图可视化、布局和细节调整	[96]
Cytoscape	https://cytoscape.org/	网络分析和可视化图型界面分析平台，功能强大，跨平台，扩展插件丰富	[92]
Gephi	https://gephi.org/	网络分析和可视化软件，样式比较美观	[97]
MAFFT 7	https://mafft.cbrc.jp/alignment/ software/	多序列对齐软件，序列对齐速度快	[101]
MUSCLE	https://www.drive5.com/muscle/	多序列对齐软件，序列对齐速度快	[102]
IQ-TREE	http://www.iqtree.org/ http://iqtree.cibiv.univie.ac.at/	进化树构建，在运行速度上有较明显的优势，跨平台，速度快，提供在线版	[104,105]
iTOL	https://itol.embl.de/	进化树可视化、编辑和美化工具，功能全面，支持结果生成分享链接	[107]
randomForest	https://cran.r-project.org/web/ packages/randomForest/	实现随机森林分类和回归分析的R包	[114]

表4 部分提供统计分析代码的实验室

Table 4 Labs that provide statistical analysis codes

研究单位	课题组	链接	参考文献
美国密歇根大学	Patrick D. Schloss	http://www.schlosslab.org	[123]
美国斯坦福大学	Susan Holmes	http://statweb.stanford.edu/~susan	[124]
德国马普植物育种研究所	Paul Schulze-Lefert	https://github.com/garridoo	[125]
美国北卡罗来纳大学教堂山分校	Jeffery L. Dangl	https://github.com/surh/pbi https://github.com/isaisg/	[126,127]
EMBL-EBI	Robert D. Finn	https://github.com/Finn-Lab	[128]

续表

研究单位	课题组	链接	参考文献
比利时鲁汶大学	Jeroen Raes	https://github.com/raeslab	[129]
美国贝勒医学院	Christopher J. Stewart	https://github.com/StewartLab	[130]
美国俄勒冈大学	James F. Meadow	https://github.com/jfmeadow	[131]
中国科学院遗传与发育生物学研究所	Yang Bai	https://github.com/microbiota	[132,133]

5 结语与展望

近10年来，第二代测序技术通量的提高和价格的下降，极大地推动了微生物组领域的发展，使得研究者拓宽了微生物组研究对象的深度和广度，揭示了极端环境、植物、动物、人类肠道、海洋、土壤等领域的微生物组成和功能^[6]。目前宏基因组研究主要以短读长的Illumina Seq/Nova系列或华大基因的BGI Seq系列平台产出数据为主，虽然获得数据通量大，但数据拼接质量仍有较大提升空间。近年来，Pacific BioSciences (PacBio)和Oxford Nanopore Technologies (ONT)等三代测序技术快速发展，虽然受到测序错误率高和配套软件缺乏的困扰，但在读长、测序速度等方面的优势正在逐渐突显。Charalampou等^[134]应用ONT技术对患者呼吸道细菌宏基因组进行测序，实现了6 h内快速诊断致病菌。

目前微生物组研究中应用最广泛的是扩增子测序技术，该技术可以快速地揭示群落的微生物组成，而且具有操作简单、成本低、有效避免宿主污染、方便开展大规模研究等优势。但扩增子的研究范围仅限引物可扩增部分DNA的物种组成，而且受扩增基因拷贝数和多态性的影响，如果想进一步了解微生物组的全貌和功能基因，宏基因组是更有效的研究方法。宏基因组不仅可以无偏的获得研究对象中细菌、真菌、古菌、病毒和原生动物等一切以DNA为遗传物种的物种序列信息、确定其物种和功能组成，更有潜力获得未培养物种的功能基因，甚至是基因组草图。目前虽然已经有一些宏基因组分箱、分箱提纯的工具，但仍处于发展的初级阶段，还有很多有待改进的方向，如计算不同长度K-mer频率、比对参考数据库去除已知物种降低复杂度和/或结合三代长读长的测序数据等^[64,135]。

提高微生物组数据分析的效率，高质量的参考数据库是基础，而这一领域的发展依赖于大规模培养组学的应用和更多高质量参考基因组的公布。同时，对发表数据的分类整理、提高可用性以及进一步挖掘也十分必要。例如，R包curatedMetagenomicData整理了46个研究中的8184个宏基因组样本，对超100 TB的原始数据采取了严格质控进而获得了相关物种和功能组成表，方便同领域研究者对数据进一步挖掘和查询^[136]；ML Repo数据库整理来自15篇文章中的33个人类微生物组IBD、糖尿病、肥胖和癌症等分类和年龄回归数据集，研究者可按类浏览下载这些数据，用于进一步挖掘和方法评估^[137]；意大利特伦托大学Nicola Segata团队利用来自不同地理位置、生活方式和年龄人群的9428个宏基因组，突破性地重建了15万个人体微生物基因组草图^[138]。以上对发表数据整理和再利用的例子，为今后开发更多基于发表数据的数据库和分析工具提供了借鉴和参考。

参考文献(References)：共138篇，略，详见原文。请点击阅读原文下载全文。

(责任编委: 赵方庆)

猜你喜欢

10000+：菌群分析宝宝与猫狗梅毒狂想曲提DNA发Nature Cell专刊肠道指挥大脑

系列教程：微生物组入门 Biostar 微生物组宏基因组

专业技能：学术图表高分文章生信宝典不可或缺的人

一文读懂：宏基因组寄生虫益处进化树

必备技能：提问搜索 Endnote

文献阅读热心肠 SemanticScholar Geenmedical

扩增子分析：图表解读分析流程统计绘图

16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun

在线工具：16S预测培养基生信绘图

科研经验：云笔记云协作公众号

编程模板: Shell R Perl

生物科普: 肠道细菌人体上的生命生命大跃进细胞暗战人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难，我们建立了“宏基因组”专业讨论群，目前己有国内外5000+ 一线科研人员加入。参与讨论，获得专业解答，欢迎分享此文至朋友圈，并扫码加主编好友带你入群，务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份，另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助，首先阅读《如何优雅的提问》学习解决问题思路，仍未解决群内讨论，问题不私聊，帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战，关注“宏基因组”

点击阅读原文，跳转文章主页下载全文

你可能感兴趣的:(遗传：微生物组数据分析方法与应用)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
swagger访问路径 igotyback swagger
Swagger2.x版本访问地址：http://{ip}:{port}/{context-path}/swagger-ui.html{ip}是你的服务器IP地址。{port}是你的应用服务端口，通常为8080。{context-path}是你的应用上下文路径，如果应用部署在根路径下，则为空。Swagger3.x版本对于Swagger3.x版本（也称为OpenAPI3）访问地址：http://{ip
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
2021-08-26 影幽
在生活中，女人与男人的感悟往往有所不同。人生最大的舞台就是生活，大幕随时都可能拉开，关键是你愿不愿意表演都无法躲避。在生活中，遇事不要急躁，不要急于下结论，尤其生气时不要做决断，要学会换位思考，大事化小小事化了，把复杂的事情尽量简单处理，千万不要把简单的事情复杂化。永远不要扭曲，别人善意，无药可救。昨天是张过期的支票，明天是张信用卡，只有今天才是现金，要善加利用！执着的攀登者不必去与别人比较自己的
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
2018-07-23-催眠日作业-#不一样的31天#-66小鹿小鹿_33
预言日：人总是在逃避命运的路上，与之不期而遇。心理学上有个著名的名词，叫做自证预言；经济学上也有一个很著名的定律叫做，墨菲定律；在灵修派上，还有一个很著名的法则，叫做吸引力法则。这3个领域的词，虽然看起来不太一样，但是他们都在告诉人们一个现象：你越担心什么，就越有可能会发生什么。同样的道理，你越想得到什么，就应该要积极地去创造什么。无论是自证预言，墨菲定律还是吸引力法则，对人都有正反2个维度的影响
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
每日一题——第九十题互联网打工人no1 C语言程序设计每日一练 c语言
题目：判断子串是否与主串匹配#include#include#include//////判断子串是否在主串中匹配//////主串///子串///boolisSubstring(constchar*str,constchar*substr){intlenstr=strlen(str);//计算主串的长度intlenSub=strlen(substr);//计算子串的长度//遍历主字符串，对每个可能得
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
《庄子.达生9》钱江潮369
【原文】孔子观于吕梁，县水三十仞，流沫四十里，鼋鼍鱼鳖之所不能游也。见一丈夫游之，以为有苦而欲死也，使弟子并流而拯之。数百步而出，被发行歌而游于塘下。孔子从而问焉，曰：“吾以子为鬼，察子则人也。请问，‘蹈水有道乎’”曰：“亡，吾无道。吾始乎故，长乎性，成乎命。与齐俱入，与汩偕出，从水之道而不为私焉。此吾所以蹈之也。”孔子曰：“何谓始乎故，长乎性，成乎命？”曰：“吾生于陵而安于陵，故也；长于水而安于
水泥质量纠纷案代理词徐宝峰律师
贵州领航建设有限公司诉贵州纳雍隆庆乌江水泥有限公司产品质量纠纷案代理词尊敬的审判长、审判员：贵州千里律师事务所接受被告贵州纳雍隆庆乌江水泥有限公司的委托，指派我担任其诉讼代理人，参加本案的诉讼活动。下面，我结合本案事实和相关法律规定发表如下代理意见，供合议庭评议案件时参考：原告应当举证证明其遭受的损失与被告生产的水泥质量的因果关系。首先水泥是一种粉状水硬性无机胶凝材料。加水搅拌后成浆体，能在空气中
腾讯云技术深度探索：构建高效云原生微服务架构我的运维人生云原生架构腾讯云运维开发技术共享
腾讯云技术深度探索：构建高效云原生微服务架构在当今快速发展的技术环境中，云原生技术已成为企业数字化转型的关键驱动力。腾讯云作为行业领先的云服务提供商，不断推出创新的产品和技术，助力企业构建高效、可扩展的云原生微服务架构。本文将深入探讨腾讯云在微服务领域的最新进展，并通过一个实际案例展示如何在腾讯云平台上构建云原生应用。腾讯云微服务架构概览腾讯云微服务架构基于云原生理念，旨在帮助企业快速实现应用的容
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
使用 FinalShell 进行远程连接（ssh 远程连接 Linux 服务器）编程经验分享开发工具服务器 ssh linux
目录前言基本使用教程新建远程连接连接主机自定义命令路由追踪前言后端开发，必然需要和服务器打交道，部署应用，排查问题，查看运行日志等等。一般服务器都是集中部署在机房中，也有一些直接是云服务器，总而言之，程序员不可能直接和服务器直接操作，一般都是通过ssh连接来登录服务器。刚接触远程连接时，使用的是XSHELL来远程连接服务器，连接上就能够操作远程服务器了，但是仅用XSHELL并没有上传下载文件的功能
18-115 一切思考不能有效转化为行动，都TM是扯淡！成长时间线
7月25号写了一篇关于为什么会断更如此严重的反思，然而，之后日更仅仅维持了一周，又出现了这次更严重的现象。从8月2号到昨天8月6号，5天！又是5天没有更文！虽然这次断更时间和上次一样，那为什么说这次更严重？因为上次之后就分析了问题的原因，以及应该如何解决，按理说应该会好转，然而，没过几天严重断更的现象再次出现，想想，经过反思，问题依然没有解决与改变，这让我有些担忧。到底是哪里出了问题，难道我就真的
山东大学小树林支教调研团青青仓木队——翟晓楠山东大学青青仓木队
过了半年，又一次启程，又一次回到支教的初心之地。比起上一次的试探与不安，我更多了一丝稳重与熟练。心境、处境也都随着半个学期的过去而变得不同，半个学期中，身体上的，心理上的，太多的逆境让我变得步履维艰，曲曲折折，弯弯绕绕，我仿佛打不起精神，没有胃口，没有动力。感觉走的不顺畅的时候，支教这个旅程，给了我力量。自告奋勇承担起队长这一职务的我，从组织时的复杂和困难的经历，协调各种问题，从无到有，和校长和队
直返最高等级与直返APP：无需邀请码的返利新体验古楼
随着互联网的普及和电商的兴起，直返模式逐渐成为一种流行的商业模式。在这种模式下，消费者通过购买产品或服务，获得一定的返利，并可以分享给更多的人。其中，直返最高等级和直返APP是直返模式中的重要概念和工具。本文将详细介绍直返最高等级的概念、直返APP的使用以及与邀请码的关系。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开