唐名威

宏基因组大数据分析的质量控制流程规范

宏基因组大数据分析的质量控制流程规范

郑广勇1，杨桢1，曹瑞芳1，刘婉2，李亦学1,2，张国庆1,2

1. 中国科学院上海生命科学研究院生物医学大数据中心，上海 200031

2. 上海生物信息技术研究中心，上海 201203

摘要：宏基因组数据具有数据量大、复杂度高的特点，从数据类型来看，其涵盖了元数据和测序数据。为了保证宏基因组数据后续功能分析的有效性和正确性，需要对这些元数据和测序数据进行严格的质量控制检测。详细描述了宏基因组数据的质量控制流程，包括元数据和测序数据的信息检查、低质量片段的过滤等过程，从而为宏基因组数据分析提供了预处理的规范，这将为微生物组大数据分析提供坚实的基础。

关键词：微生物组；宏基因组；大数据分析；二代测序；质量控制

doi:10.11959/j.issn.2096-0271.2018025

论文引用格式：郑广勇, 杨桢, 曹瑞芳, 等. 宏基因组大数据分析的质量控制流程规范[J]. 大数据, 2018, 4(3): 3-12.

ZHENG G Y, YANG Z, CAO R F, et al. Quality control of big data analysis for metagenomics[J]. Big Data Research, 2018, 4(3): 3-12.

1 引言

近年来，随着二代测序技术及各种高通量组学技术的快速发展，生物医学研究进入大数据时代。实验技术和信息技术的发展，使生物医学数据开始从万亿字节的TB级跃升到千万亿字节的EB级，引发了后基因组时代的生物医学研究的深刻变革。生物医学研究已经从第一范式的实验科学，或快或慢地进入第二范式理论科学、第三范式计算科学，直到最新的第四范式数据密集型科学。数据质量对大数据分析与挖掘的价值日益凸显。目前，测序能力的提升极大地推动了包括微生物组学在内的各种组学的快速发展，进而催生了大量以微生物为主要研究对象的国际合作项目，使得微生物组和微生物系统组成为生物医学大数据的重点研究方向之一。微生物组是指存在于特定环境或生态系统中的微生物以及它们携带的遗传信息和生物学功能的总和[1]。微生物组与人类健康有极为重要的关系，人体微生物组由数百至数千种不同的微生物组成，其细胞总数可达数万亿之多，数量远超人体自身细胞数量，其中独特的微生物基因数量多达2 000万个，数目远远超过人的基因数目（大约 2.5 万个）。通过对人体微生物组进行研究，可以解析人类健康、营养、代谢等方面的科学问题。

2 国内外相关研究

目前，宏基因组（metagenome）技术是微生物组研究的重要手段之一，该技术利用基因组学策略研究特定环境样品中包含的全部微生物的遗传组成及其功能模式 [2]。宏基因组技术直接从环境样品中提取DNA样本，避开了传统的微生物分离培养方法，为研究和利用占微生物种类99%以上的不可培养的微生物提供了一种新的途径和良好的策略。近年来，高通量测序技术的快速发展为微生物表型及其遗传机制的探索提供了新的技术方案[3]。宏基因组技术在农业、林业、环保、医药等领域都有着广泛的应用，提供了丰富的人体、动植物、各类环境的科学研究数据[4-8]。2005年以来，以国际宏基因组联盟为代表的微生物组研究计划带动了很多国家的相关研究，例如美国的人类微生物组计划（Human Microbiome Project， HMP）[9]和欧盟的人类肠道微生物联盟（Metagenomics of the Human Intestinal Tract Consortium，MetaHIT）[10]。这些项目的实施，推动了数据库和数据挖掘等基础研究工作的开展，并对相关数据标准与质量控制等提出了新的要求。相对传统组学数据而言，宏基因组测序数据量大、涉及的微生物基因组复杂度高，而且可能存在大量未知物种，传统的基于单一组学或单一物种的分析方法无法直接应用于宏基因组研究，针对宏基因组数据的采集、整理、存储以及后续研究分析等仍缺乏统一的规范。因此，宏基因组研究急需建立一套涵盖样本信息以及测序数据采集、整理、存储、交换、分析的数据规范与标准。从数据流程看，宏基因组的分析过程包括元数据和测序数据质量控制、微生物群落组成分析、群落功能生态分析、菌群差异功能分析等步骤（如图1所示）。其中，元数据和测序数据质量控制是后续一系列分析的基础，直接影响整个分析的完整性和正确性，因而在整个数据分析过程中具有十分重要的意义。本文对宏基因组研究中的元数据及测序数据的预处理过程中的相关质量控制标准进行了简要探讨，从而为宏基因组数据分析提供支撑。

图1 宏基因组数据主要分析流程

3 宏基因组数据质量控制

宏基因组的测序数据具有数据量大、复杂度高的特点，其数据分析有一些特定的要求，具体而言主要有以下几个方面。

● 宏基因组研究中样本收集、存储、运输等信息都对微生物菌群差异分析有重要影响，因此需要在元数据中记录这些信息，并在质量控制流程中对元数据和测序数据进行一致性检查，以保证后续分析的正确性。

● 宏基因组研究通常依赖二代或三代测序技术，其测序速度比一代测序技术有显著提升，但其测序长度及准确度却有所下降，因此在宏基因组数据质量控制流程中必须对数据进行去噪、剔除接头、切除无效序列等操作，以保证结果的可靠性。

● 与宿主相关的微生物样品测序结果中通常包含一定数量的宿主基因片段，这些片段会对后续的微生物菌群分析产生干扰，因此在宏基因组数据质量控制流程中必须去除这些宿主基因片段，以保证后续分析的有效性。

● 需要对样本的测序深度进行一定的评估，从而保证不同分组样本差异分析的需求。

笔者在长期的微生物组大数据分析过程中，根据宏基因组的数据特点和数据分析的要求，提出了一套完整的数据质量控制流程（如图2所示），具体包括：元数据和测序数据的一致性检查、测序数据的质量检测、低质量测序序列的过滤及切除、接头序列及无关序列的剔除、宿主及污染序列的过滤、混合样本的数据分割、样本菌群的组成分析、不同分组样本的主坐标分析（principal coordinate analysis，PCoA）这8个步骤，下面将对这些步骤进行详细论述。

图2 宏基因组数据质量控制流程

3.1 元数据和测序数据的一致性检查

元数据是对数据进行描述的数据（data about data），主要对数据的属性进行表述。元数据主要包括数据来源、数据收集整理模式以及数据可靠性等信息，是实验数据的重要组成部分。就宏基因组研究而言，元数据提供了项目技术设计、材料来源、实验方案、结果描述等至关重要的信息[11]。目前国际基因组标准联盟（Genomic Standards Consortium，GSC）已开发了针对基因组[12]、宏基因组[13]及扩增子[14]研究的多种元数据标准框架，框架包括组学数据的检查列表以及取样环境描述包（environmental package）。其中，宏基因组数据标准框架的制定原则指出，人体样本和环境样本的最少信息集合应当以样本为出发点，保证样本的基因型和表型关联分析、不同分组样本的差异分析、样本菌群组成的机理研究分析的需求，因此笔者建议宏基因组的元数据中应当包含如下基本信息。

● 人体样本：个人基本生理信息、生活行为方式、膳食结构、营养状况、既往病史等信息。

● 环境样本：样本获取过程中的采集地点、大气、水文、温度、压力、运输方法、存储媒介等信息。

同时，笔者建议使用国际宏基因组数据标准框架制定的标准词汇来描述元数据，从而给出精确的元数据语义信息，进而建立可共享的、可被机器处理的本体支持，利于未来的数据资源整合。在元数据完整性检查完成后，需要开展元数据与测序数据的一致性检查，重点检查测序数据的样本是否符合元数据描述的样本，查看是否存在数据遗漏、差错匹配、错误标注等现象，这些都会对后续的数据分析造成严重的影响。这种一致性检查是数据完整性、有效性的重要质量控制步骤。

3.2 测序数据的质量检测

目前，宏基因组研究大都采用二代测序技术。以illumina为代表的二代测序技术基本都运用边合成边测序的策略，在碱基链合成的过程中，随着合成链的增长， DNA聚合酶的效率会不断下降，特异性也逐渐变差，从而造成碱基合成错误率增高。此外，测序仪在开始进行合成反应时，也会由于反应不够稳定带来质量值的波动。测序数据的质量好坏会影响下游的分析，不同测序平台的测序错误率存在较大差异，因此在数据分析前，需要确定原始数据是通过哪种测序平台产生的、其错误分布规律如何、是否存在一定测序偏向性、是否受序列中碱基含量分布（GC含量）影响等[15]。目前对原始测序数据进行质量检测，通常使用FastQC和PRINSEQ[16]这两种检测软件包。FastQC软件包既有图形操作界面，又有命令行操作模式，能同时支持多种文件格式，包括FastQ、SAM和BAM格式等。其测序质量报告主要包括：读段（reads）各位置的碱基质量值分布、碱基的总体质量值分布、reads各个位置上碱基分布比例、GC含量分布、reads各个位置的非确定碱基数目、是否含有测序接头序列等。PRINSEQ是另一款常用的测序质量检测软件，其报告内容主要包括：reads数目以及长度频率分布、碱基质量频率分布、序列复杂度、GC含量、重复序列及接头信息等。

3.3 低质量测序序列的过滤及切除

原始测序数据通常包含测序分值较低的碱基序列，其处理方式包括过滤和切除。对于全长质量都比较低的序列，可直接进行过滤处理；而对于只有部分片段质量较低的序列，则可以通过片段切除的方法来处理。最基本的切除方法为设定特定的切除长度或剩余长度，这种方法会去除部分测序质量较好的片段，从而造成一定的信息损失，因此更为通用的方案是从序列任意一端开始，逐个切除低于质量阈值的碱基。如目前较为流行的低质量序列切除与过滤软件Trimmomatic[17]及PRINSEQ均支持从任意一端开始切除低质量碱基。另一种方案为滑窗策略，将窗口内的碱基质量与设定的阈值进行比较，如果滑窗内的碱基数值低于质量阈值，则切除整个滑窗的碱基。用户可根据实际情况设置滑窗大小及质量阈值。另外，值得注意的是，测序时如果无法判定一个碱基是哪种碱基，通常标记为N字符，不同的组装比对软件对于N字符的处理方式完全不同，有的用4种碱基随机替代N字符，有的则是用固定的某个碱基替代N字符，由于N字符会导致错误的组装和比对，因此含N字符较多的序列同样需要在组装和比对前进行切除或过滤操作。

3.4 接头序列及无关序列的剔除

高通量测序过程一般会使用测序接头序列，接头序列的存在可能会导致基因组组装和转录本组装出现问题，因此需要在分析数据之前予以去除。此外，其他的测序标签以及引物片段也需要去除。去除接头及标签序列是一项比较困难的任务，首先，这些序列可能存在测序错误，需要考虑应对错配、插入缺失片段（indels）以及不确定碱基（N字符）的情况；其次，如果测序的目标序列较短， reads可能会延伸到3’端的接头序列。而这种“读穿”的情况会导致reads中含有部分3’端的接头序列无法被识别。此外，某些公共来源的测序数据可能根本无法知道接头序列信息。目前较为常用的接头序列切除软件包括Trimmomatic[17]、TagCleaner[18]和Cutadapt等。这些软件均可以应对错配，并允许用户指定测序和标签序列的最小重叠，TagCleaner还可以应对indels以及不确定碱基。假如接头序列未知，可以先用TagCleaner软件预测，再进行后续的切除。另外，值得注意的是，在测序文库的制备过程中，聚合酶链式反应（PCR）过度扩增可能导致重复序列的出现，在后续分析过程中，这些重复序列应当剔除。此外，某些低复杂度的序列由于缺乏信息量，很难可靠地比对到参考序列上，因此也应当予以剔除。

3.5 宿主及污染序列的过滤

宏基因组测序是对样本中所有DNA分子进行测序，因此获得的数据中可能含有不属于微生物的序列，例如与人类健康相关的宏基因组研究多使用与人体相关的组织或样本（如口腔菌斑、唾液、皮肤及粪便样本等），这些样本中可能存在人类基因组序列污染。此外，研究样本也可能存在其他生物体或载体的序列污染，从而对后续分析造成影响，因此在质量控制过程中需要剔除宿主序列以及可能的污染序列。最直接的方法就是把序列比对至宿主基因组及可能的污染源序列上，然后剔除这些序列。FastQ Screen、BWA [19]、Bowtie[20]、SOAP等工具可以把序列比对至用户怀疑的污染源序列上，如果存在一致序列则予以剔除。

3.6 混合样本的数据分割

测序时，为了区别不同样本来源的序列，需要在待测序列中加入一段具有特定序列的编码序列（barcode）。在质量控制过程中，为了获得不同样本的完整数据，需要根据码序列对混合样本进行分割，将一个FastQ文件中的序列分别存储到多个样本文件中。

3.7 样本菌群的组成分析

在获得测序数据之后，首要工作是对相关样本进行菌群组成分析。在早期宏基因组研究中，通常需要对测序数据进行拼接，获得contig序列，之后通过一些常用的序列比对算法（如BLAST算法、BL AT算法等），将拼接后的序列比对至微生物参考基因组序列，从而获得与序列相关的物种分类信息。然而，不同于其他高等生物基因组的拼接，由于微生物的多样性，宏基因组研究中测序数据的拼接往往存在一定的难度，导致序列准确度不高。此外，传统的BLAST算法在对海量的拼接后数据进行比对时往往耗时较长，BLAST算法速率为目前二代测序常用的比对软件（如BWA、bowtie和SOAP等）速率的数百分之一至数十分之一，通常某些样本完成所有序列比对可能花费数天甚至更久的时间。因此笔者建议在实际分析过程中，使用二代测序的比对软件，把测序片段（不经过拼接）直接比对到参考物种的标识基因，从而快速获取物种分类信息及丰度信息，为后续的样本主坐标分析提供足够的信息。例如，目前国际人类微生物组计划项目中采用Metaphlan软件进行数据处理，该软件可以直接将测序序列比对至微生物参考数据库中（涵盖了美国生物技术信息中心基因组数据库中的2 887个微生物基因组数据），从而获得测序样本的菌群组成信息[21]。

3.8 不同分组样本的主坐标分析

主坐标分析是一种微生物组学数据分析中常用的降维及可视化方法，主要用于研究数据相似性或差异性，在微生物群落相关研究中，不同样本之间及不同环境之间微生物组成差异往往较大，所获得的物种丰度表通常由稀疏矩阵构成，因而不太适合使用其他组学数据通常采用的主成分分析方法。在主坐标分析中，首先对物种丰度组成的距离矩阵进行分解，获得一系列的特征值和特征向量，然后对特征向量进行排序，选择前几位的特征向量作为主要坐标，并将样品投影到这些向量的坐标轴上进行可视化展示。在对基于不同分类水平的物种丰度信息进行PCoA时，样本的物种组成越相似，它们在PCoA图上的距离越小。通过不同分组样本的主坐标分析，可以检测样本的测序质量以及深度是否提供了足够的信息来区别不同的分组样本，因而不同分组样本的主坐标分析是宏基因组数据分析质量控制流程中非常重要的步骤。

4 宏基因组数据质量控制应用实例

本文以一套已公开发表的肠道微生物宏基因组数据为例进行质量控制流程结果展示，该数据为正常人群与肝硬化人群肠道微生物队列研究数据，相应宏基因组测序数据下载自欧洲生物信息研究中心核酸数据库（ID：ERP005860）。本文选取部分有代表性的样本，对元数据和测序数据进行包括元数据整理、元数据和测序数据一致性检查、测序质量评估、低质量序列过滤、测序接头片段去除、宿主基因剔除、样本菌群组成分析、样本主坐标分析在内的质量控制检测。其原始数据测序片段的质量评估结果如图3所示，个别样本总体测序质量偏低，后续分析需加以控制或予以剔除。

图3 测序片段不同位置碱基质量分布

质量控制前后样本原始数据及干净数据质量统计见表1（括号内为质量控制后的数值）。质量控制前后各样本重复序列百分比、序列平均长度及读段总数等均有明显变化，这表明了对原始测序数据进行相关质量控制的必要性。随后，笔者对各样本的菌群组成及微生物丰度进行评估，并在此基础上开展了样本的主坐标分析，结果如图4所示，正常样本与疾病样本可观察到一定的分布差异，表明了质量控制流程的有效性。

表1 质量控制前后序列质量统计

图4 主坐标分析结果

5 宏基因组数据质量控制应用效果

上述宏基因组数据质量控制实例表明，本文提出的质量控制流程可以对宏基因组研究中的元数据和测序数据质量进行有效评估，从而为后续分析提供干净的数据。具体而言主要有以下几个方面。

● 元数据和测序数据的一致性检查保证了取样样本和测序样本的对应关系，并赋予测序样本表型信息，从而为测序样本的基因型和表型关联分析、不同分组样本的差异分析、样本菌群组成的机理研究分析提供支持。

● 宏基因组数据质量控制流程中的质量检测、低质量测序序列的过滤及切除、接头序列及无关序列的剔除等步骤可以为后续的功能分析提供干净的分析数据，保证结果的可靠性。

● 宿主及污染序列的过滤，可以去除宿主基因片段对后续菌群组成分析的影响，保证分析的有效性。

● 不同分组样本的菌群组成和主坐标分析，可以在一定程度上评估样本的测序深度是否足够，即在当前的测序深度和质量条件下是否提供了足够的信息来满足分组样本差异分析的需求。

6 结束语

近年来，随着各种微生物组项目的开展，已有大量的宏基因组数据发布。如何充分利用和挖掘这些数据，对其进行更为深入的二次分析，从而获得新的发现，是一个极为重要的问题。宏基因组数据多分散在不同的数据库中或者不同的研究者手中，其数据收集和分析标准存在较大的差异，从而给数据的整合带来较大的障碍。如果能从生态类型（biotype）、数据类型（datatype）等角度系统整合这些数据，并提供统一的质量控制评价标准，将为宏基因组研究提供更大的便利。因此制定规范合理的数据质量控制标准，从而有效整合这些不同来源和类型的宏基因组数据，是未来的发展方向和趋势。本文对宏基因组数据分析过程中的质量控制流程进行了探讨，这将加速宏基因组学的相关研究。在此基础上，整合微生物的分类、进化、生态以及相关组学的数据，构建统一的微生物组数据仓库，并辅以微生物云服务平台，将解决微生物组研究各种数据分散在不同地方的局面，为微生物组大数据提供科学的管理机制和运行范式，从而为我国微生物组学研究提供技术支撑及基础大数据平台。

点击下方阅读原文即可获取全文

作　者　简　介

郑广勇（1977－），男，博士，中国科学院上海生命科学研究院生物医学大数据中心副研究员，主要研究方向为计算生物学、系统生物学以及生物医学大数据的深度挖掘。

杨桢（1981－），男，博士，中国科学院上海生命科学研究院生物医学大数据中心副研究员，主要研究方向为生物医学大数据的深度挖掘。

曹瑞芳（1989－），女，中国科学院上海生命科学研究院生物医学大数据中心工程师，主要研究方向为生物医学数据库和知识库的构建。

刘婉（1987－），女，博士，上海生物信息技术研究中心助理研究员，主要研究方向为微生物相关数据库与数据仓库、生物医学数据审编。

李亦学（1955－），男，博士，中国科学院上海生命科学研究院生物医学大数据中心研究员，主要研究方向为计算生物学、生物医学大数据的系统研究。

张国庆（1978－），男，博士，中国科学院上海生命科学研究院生物医学大数据中心研究员，主要研究方向为生物医学数据库和知识库的构建。

《大数据》期刊

《大数据（Big Data Research，BDR）》双月刊是由中华人民共和国工业和信息化部主管，人民邮电出版社主办，中国计算机学会大数据专家委员会学术指导，北京信通传媒有限责任公司出版的科技期刊。

关注《大数据》期刊微信公众号，获取更多内容

guava loadingCache代码示例 IM 胡鹏飞 Java 工具类介绍
publicclassTest2{publicstaticvoidmain(String[]args)throwsException{LoadingCachecache=CacheBuilder.newBuilder()//设置并发级别为8，并发级别是指可以同时写缓存的线程数.concurrencyLevel(8)//设置缓存容器的初始容量为10.initialCapacity(10)//设置缓存
系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
为什么会出现“与此站点的连接不安全”警告？
当浏览器弹出“与此站点的连接不安全”的红色警告时，不仅会让访客感到不安，还可能直接导致用户流失、品牌信誉受损，甚至引发数据泄露风险。作为网站运营者，如何快速解决这一问题？一、为什么会出现“与此站点的连接不安全”警告？浏览器提示“不安全连接”，本质上是检测到当前网站与用户之间的数据传输未经过加密保护。以下是触发警告的常见原因：1.未安装SSL证书SSL（SecureSocketsLayer）证书是网
什么是证书吊销列表？CRL 解释 WoTrusSSL ssl https
数字证书是安全在线互动的支柱，用于验证身份和确保加密通信。但是，当这些证书被盗用或滥用时，必须立即撤销它们以维持信任。这就是证书撤销列表(CRL)的作用所在。CRL由证书颁发机构(CA)维护，对于识别和撤销已撤销的证书，防止其造成危害至关重要。在本指南中，我们将探讨什么是CRL、它们如何运作以及为什么它们对网络安全至关重要。什么是证书吊销列表(CRL)？证书吊销列表(CRL)是证书颁发机构(CA)
有必要获得WHQL测试认证吗，有什么好处？
什么是WHQL认证？WHQL是MicrosoftWindowsHardwareQualityLab的缩写，中文意思是Windows硬件设备质量实验室，主要是对Windows操作系统的兼容性测试，检验硬件产品和驱动程序在windows系统下的兼容性和稳定性。当某一硬件或软件通过WHQL测试时，制造商可以在其产品包装和广告上使用“DesignedforWindows”标志。该标志可以证明硬件或软件已经
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
驱动程序为什么要做 WHQL 认证? GDCA SSL证书网络协议网络
驱动程序进行WHQL（WindowsHardwareQualityLabs）认证的核心价值在于解决兼容性、安全性和市场准入三大关键问题，具体必要性如下：️‌一、规避系统拦截，保障驱动可用性‌消除安装警告‌未认证的驱动在安装时会触发Windows的‌红色安全警告‌（如“无法验证发布者”），甚至被系统强制拦截。通过WHQL认证的驱动获得微软数字签名，用户可无阻安装‌。满足系统强制要求‌Windows1
求是网：“内卷式”竞争的突出表现和主要危害有哪些？加百力财经研究科技知识人工智能大数据
"内卷式"竞争主要表现为：企业层面的低价竞争、同质化竞争和营销"逐底竞争"；地方政府层面的违规优惠政策、盲目重复建设和设置市场壁垒。危害体现在三个层面：微观上导致"劣币驱逐良币"，损害消费者利益；中观上破坏行业生态，挤压产业链利润空间；宏观上扭曲资源配置，抑制创新活力。什么是“内卷式”竞争？概括其一般特征，是指经济主体为了维持市场地位或争夺有限市场，不断投入大量精力和资源，却没有带来整体收益增长的
WHQL签名怎么申请 GDCA SSL证书 windows
WHQL（WindowsHardwareQualityLabs）签名是微软对硬件和驱动程序进行认证的一种方式，以确保它们与Windows操作系统的兼容性和稳定性。以下是申请WHQL签名的基本步骤，供您参考：1.准备阶段准备硬件设备和驱动程序：确保您的硬件设备已经准备好，并且对应的驱动程序已经经过充分的测试，能够在各种配置和环境下正常工作。获取EV代码签名证书：根据微软的要求，驱动程序进行WHQL认
JSON 与 AJAX Auscy json ajax 前端
一、JSON（JavaScriptObjectNotation）1.数据类型与语法细节支持的数据类型：基本类型：字符串（需用双引号）、数字、布尔值（true/false）、null。复杂类型：数组（[]）、对象（{}）。严格语法规范：键名必须用双引号包裹（如"name":"张三"）。数组元素用逗号分隔，最后一个元素后不能有多余逗号。数字不能以0开头（如012会被解析为12），不支持八进制/十六进制
发票合并工具小朋的软件园前端 javascript java html 服务器
"发票合并工具"是一款专为高效整理票据设计的实用工具，支持将来自不同渠道的发票文件（如PDF文档、各类图片格式）快速整合为排版规范的PDF文件，尤其适用于财务报销场景下的批量票据处理需求。核心功能亮点多格式兼容：无缝导入PDF文件及常见图片格式（.png/.jpg/.jpeg/.bmp），适配多来源发票整合需求。智能布局配置：提供灵活的页面布局选项（每页2/3/4张发票），其中"2合1"模式针对报
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
k8s:安装 Helm 私有仓库ChartMuseum、helm-push插件并上传、安装Zookeeper 云游 docker helm helm-push
ChartMuseum是Kubernetes生态中用于存储、管理和发布HelmCharts的开源系统，主要用于扩展Helm包管理器的功能核心功能‌集中存储‌：提供中央化仓库存储Charts，支持版本管理和权限控制。‌‌跨集群部署‌：支持多集群环境下共享Charts，简化部署流程。‌‌离线部署‌：适配无网络环境，可将Charts存储在本地或局域网内。‌‌HTTP接口‌：通过HTTP协议提供服务，用户
上位机知识篇---SD卡&U盘镜像
常用的镜像烧录软件balenaEtcherbalenaEtcher是一个开源的、跨平台的工具，用于将操作系统镜像文件（如ISO和IMG文件）烧录到SD卡和USB驱动器中。以下是其使用方法、使用场景和使用注意事项的介绍：使用方法下载安装：根据自己的操作系统，从官方网站下载对应的安装包。Windows系统下载.exe文件后双击安装；Linux系统若下载的是.deb文件，可在终端执行“sudodpkg-
【LeetCode 热题 100】24. 两两交换链表中的节点——（解法一）迭代+哨兵 xumistore LeetCode leetcode 链表算法 java
Problem:24.两两交换链表中的节点题目：给你一个链表，两两交换其中相邻的节点，并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本题（即，只能进行节点交换）。文章目录整体思路完整代码时空复杂度时间复杂度：O(N)空间复杂度：O(1)整体思路这段代码旨在解决一个经典的链表操作问题：两两交换链表中的节点(SwapNodesinPairs)。问题要求将链表中每两个相邻的节点进行交换
Guava LoadingCache sqyaa. java并发编程 Java知识 jvm 缓存 guava
LoadingCache是GoogleGuava库提供的一个高级缓存实现，它通过自动加载机制简化了缓存使用模式。核心特性自动加载机制当缓存未命中时，自动调用指定的CacheLoader加载数据线程安全：并发请求下，相同key只会加载一次灵活的过期策略支持基于写入时间(expireAfterWrite)和访问时间(expireAfterAccess)的过期可设置最大缓存大小，基于LRU策略淘汰丰富的
JavaScript 树形菜单总结 Auscy microsoft
树形菜单是前端开发中常见的交互组件，用于展示具有层级关系的数据（如文件目录、分类列表、组织架构等）。以下从核心概念、实现方式、常见功能及优化方向等方面进行总结。一、核心概念层级结构：数据以父子嵌套形式存在，如{id:1,children:[{id:2}]}。节点：树形结构的基本单元，包含自身信息及子节点（若有）。展开/折叠：子节点的显示与隐藏切换，是树形菜单的核心交互。递归渲染：因数据层级不固定，
基于定制开发开源AI智能名片S2B2C商城小程序的社群游戏定制策略研究说私域人工智能小程序游戏
摘要：本文聚焦社群游戏定制领域，深入探讨以社群文化和用户偏好为导向的定制策略。通过分析互动游戏活动、社群文化塑造等关键要素，结合定制开发开源AI智能名片S2B2C商城小程序的技术特性，提出针对性游戏定制方案。研究旨在提升社群用户参与度与游戏体验，为社群游戏发展提供理论支持与实践指导。关键词：社群游戏定制；定制开发开源AI智能名片S2B2C商城小程序；社群文化；用户偏好一、引言在数字化社交蓬勃发展的
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
LeetCode 148. 排序链表：归并排序的细节解析进击的小白菜 2025 Top100 详解 leetcode 链表算法
文章目录题目描述一、方法思路：归并排序的核心步骤二、关键实现细节：快慢指针分割链表1.快慢指针的初始化问题2.为什么选择`fast=head.next`？示例1：链表长度为偶数（`1->2->3->4`）三、完整代码实现四、复杂度分析五、总结题目描述LeetCode148题要求对链表进行排序，时间复杂度需为O(nlogn)，且空间复杂度为O(logn)。由于链表的特殊结构（无法随机访问），归并排序
前端项目架构设计要领
1.架构设计的核心目标在设计前端项目架构时，核心目标是模块化、可维护、可扩展、可测试，以及开发效率的最大化。这些目标可以通过以下几个方面来实现：组件化：将UI功能封装为可复用的组件。模块化：将业务逻辑分解为独立的模块或服务。自动化构建与部署：实现自动化构建、测试和部署流程，减少人为操作的错误。代码规范化与检查：确保团队协作时，代码风格和质量一致。2.项目目录结构设计一个清晰合理的目录结构对大型项目
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
嵌入式系统LCD显示模块编程实践
本文还有配套的精品资源，点击获取简介：本文档提供了一个具有800x480分辨率的3.5英寸液晶显示模块LW350AC9001的驱动程序代码，以及嵌入式系统中使用C/C++语言进行硬件编程的实践指南。该模块的2mm厚度使其适用于空间受限的便携式设备。内容包括驱动程序源代码、硬件控制接口使用方法，以及如何在嵌入式系统中进行图形处理、电源管理与性能优化。1.嵌入式系统原理1.1嵌入式系统概念嵌入式系统是
深入剖析OpenJDK 18 GA源码：Java平台最新发展想法臃肿
本文还有配套的精品资源，点击获取简介：OpenJDK18GA作为Java开发的关键里程碑，提供了诸多新特性和改进。本文章深入探讨了OpenJDK18GA源码，揭示其内部机制，帮助开发者更好地理解和利用这个版本。文章还涵盖了PatternMatching、SealedClasses、Records、JEP395、JEP406和JEP407等特性，以及HotSpot虚拟机、编译器、垃圾收集器、内存模型
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR

宏基因组大数据分析的质量控制流程规范

你可能感兴趣的:(宏基因组大数据分析的质量控制流程规范)