唐名威

大数据系统软件创新平台与生态建设

王建民，王晨，刘英博，刘璘

清华大学软件学院，北京 100084

大数据系统软件国家工程实验室，北京 100084

摘要：针对大数据系统软件开源生态发展现状、大数据系统软件技术与领域应用发展的迫切需求与工程化瓶颈，系统地介绍了大数据系统软件共性技术的研发思路以及大数据系统软件国家工程验室研制的“数为平台”的技术架构，包括大规模多源异构数据的一体化管理、异构数据的交互式分析框架、数据可视化与智能数据工程、大数据混源软件可信验证、领域大数据应用开发与运行环境等。给出了基于平台建设开放的大数据软件创新平台与生态的模式，并在工业制造业、气象环保服务领域开展应用示范。

关键词：大数据系统软件 ; 开源软件生态 ; 领域大数据应用 ; 国家工程实验室

论文引用格式：

王建民, 王晨, 刘英博, 刘璘. 大数据系统软件创新平台与生态建设. 大数据[J], 2018, 4(5): 104-112

WANG J M, WANG C, LIU Y B, LIU L. Big data system software eco-system and platform construction. Big Data Research[J], 2018, 4(5):104-112

1 引言

大数据系统软件连接大数据计算平台与大数据应用软件，是大数据系统的基础。大数据系统软件对分布式硬件平台资源进行统一抽象，为大数据处理提供一体化存储管理、分析框架、全生命周期数据工程、安全保障等基础共性功能，为大数据应用提供开发运行环境，是大数据产业的“核心驱动程序”。

国际大数据系统软件的发展以开源软件为主导方式，逐渐形成了以Hadoop、Spark、TensorFlow生态为代表的、支持大数据应用开发的共性基础软件与工具平台。例如以国际开源软件基金会（Apache）等社区为平台，实现了技术的快速演进，IBM等公司也以开源软件为基础，包装了各自的商业化发行版本。Hadoop 是大数据领域非常重要的开源框架，基于简单的编程模型，对大型数据集进行分布式处理。Spark是面向大规模数据处理的通用引擎，现已形成包括批处理、流式处理、统计分析、图计算等在内的数据分析软件栈。TensorFlow是将复杂的数据结构传输至人工智能神经网进行分析和处理的开源软件平台，用于语音识别或图像识别等机器学习和深度学习任务。相比于成熟的关系型数据库技术，大数据时代的数据处理技术与系统更多被认为是“负载优化系统”。以谷歌公司为例，针对其网页搜索服务的需求设计了分布式存储文件系统（GFS）、基于列族的无模式（schema-less）存储与键值索引、基于任意数据切分（MapReduce）的高容错分布式计算框架。

顺应大数据系统软件开源实践，聚焦领域化与生态化创新，是大数据系统软件的发展方向。大数据领域国家工程实验室作为一个公共的平台，通过大数据系统软件关键技术的创新和突破，促进大数据与各行业应用的深度融合，以应用带动大数据系统软件技术和产品研发，形成一批代表性示范应用案例。

2 大数据系统软件工程挑战

在“互联网+”时代，大数据应用正在从消费互联网发展到产业互联网，领域大数据应用与消费互联网应用有显著区别，数据类型以时序数据、科学数据、过程数据以及非结构化工程数据等数据类型为主，其使用者也从互联网公司的高级技术人员转变为传统领域的技术与业务人员。这对当前主要基于开源项目的大数据系统软件技术和产品在领域数据特征、多源知识融合、数据处理过程、应用开发效率、安全可控保障等方面提出了新的挑战。大数据系统软件关键技术的研发需求主要包括以下几个方面。

（1）针对领域数据特征的挑战

为应对开源数据管理引擎产品能力缺失的问题，研发面向设备高频时间序列数据、遥感数据、科学数据等领域数据的管理技术，整合多种类型异构数据管理引擎的一体化管理技术以及面向新型硬件设备的优化技术，解决“不管用”的问题。

（2）针对多源知识融合的挑战

为解决开源数据分析框架交互性与异构性支持不足的问题，研发面向人与机器、算法协同工作环境，实现差异化数据类型与负载和异构硬件设备的分析框架自动适配，降低领域人员分析应用门槛，解决“不会用”的问题。

（3）针对数据处理过程的挑战

为解决开源大数据软件栈中数据工程工具集较为欠缺的问题，研发数据采集、数据集成、数据清理、数据可视化探索分析等丰富的数据工程支撑工具，提升数据处理的效率，解决“不够用”的问题。

（4）针对应用开发效率的挑战

为应对开源大数据系统软件产品在应用开发上的能力缺失问题，研发支撑大数据应用开发与运行一体化、智能化的管理工具，领域大数据实验床以及面向新型硬件设备的优化能力的研发和工程化，解决“不好用”的问题。

（5）针对安全可控保障的挑战

为应对开源软件代码来源（链）难以控制、版本变化迅速、质量缺乏统一标准的问题，研发面向大数据应用的混源大数据系统的可信验证体系，实现对大数据系统软件可靠性、可用性、正确性等方面的可信验证，解决“不敢用”的问题。

最终，在大规模多源异构数据一体化管理、交互式异构数据分析框架、数据可视化与智能数据工程、领域大数据应用开发运行环境、大数据混源软件可信验证等领域取得重大突破，通过以上5个方面形成大数据系统软件体系，促进中国大数据产业的发展。

3 大数据系统软件技术架构

以工业领域为例，从领域数据特征角度来看，机器设备产生的高通量时间序列数据、设计仿真阶段的非结构化工程数据等领域数据缺少有效的管理技术，同时对不同种类数据进行一体化管理的能力不足，缺少管用的大数据系统软件；从多源知识融合的角度来看，现有大数据分析软件使用门槛高、交互性支持不够，仅提供计算框架与分析类库，很难让具有机械、电子、液压、自动化等领域知识的技术人员独立使用；从数据处理过程的角度来看，由于大数据可视化、数据集成、数据清理等数据工程工具缺失，工业领域的技术人员会花费大量的时间反复尝试手动对数据进行处理，分析效果也受到了制约；从应用开发的角度来看，大数据应用系统开发涉及的系统选型、参数配置、模型选择、运行优化等工作步骤都需要基于专家知识进行反复迭代，应用开发使用门槛过高，加大了开发成本；从安全可控保障的角度来看，混源大数据系统的安全可信成为大数据开发利用亟待解决的核心问题。大数据系统软件国家工程实验室针对以上问题与需求，重点在大规模多源异构数据一体化管理、交互式异构数据分析框架、数据可视化与智能数据工程、领域大数据应用开发运行环境、大数据混源软件可信验证等领域开展研发，以形成开放的大数据系统软件体系，提升中国大数据产业的实践能力。

3.1 大规模多源异构数据一体化管理技术

多源异构数据是指数据源不同、数据结构或类型不同的数据集合。数据源不同、数据类型不同，使得这类数据集的使用变得非常复杂，因此大规模多源异构数据的一体化管理技术变得十分重要。需要突破的是针对不同类型数据的存储与查询技术，并在充分考虑多源异构数据的来源和结构随着时间的推移不断增加与变化的特点的情况下，研究如何形成可扩展的一体化数据管理系统。

现有大数据系统软件开源社区及商业产品对图数据、关系数据、键值数据等类型已经有比较成熟的技术。但是对各行业领域中广泛存在的时序数据、科学数据、过程数据以及非结构化工程数据的管理能力则有所欠缺。此外，随着计算机硬件技术的发展，越来越多的、性能强大的新型存储硬件加入了大数据管理系统的硬件平台中，如固态硬盘（solid state drives，SSD）、非易失性随机访问存储器（non-volatile random access memory， NVRAM）等，促进了灵活、可定制的数据中心架构的出现，这对如何进行异构硬件和系统软件的有效管理和协同优化提出了新的挑战。

这项研究的重点是多种类型数据的分布式存储技术，重点开发时序数据、过程数据、科学数据、非结构化工程数据等重要领域数据的分布式存储系统；研究多源异构数据的统一存储模型、统一数据查询接口及查询协同优化技术，开发多源异构数据一体化管理系统；研究新型存储硬件与开放计算平台上的数据管理软硬件协同优化技术。

3.2 交互式异构数据分析框架技术

对大规模多源异构数据进行高效分析计算是挖掘大数据价值、发现特殊规律和洞见的关键。在分析任务中，分析师通过分析算法库运行需要的统计算法或机理模型，借助分布式或并行计算框架完成大规模模型训练，并对分析结果进行解释。上述过程不断迭代，得到最终的决策结论。在此过程中，分析师需要根据任务需求调用不同的算法库，根据不同计算硬件的编程环境手动编写、调用各种计算资源的程序，并且对黑盒的分析模型进行解释，整个分析流程的关键步骤没有完整贯通，分析门槛很高。

这项研究的重点是开发面向新型计算硬件、国产CPU整机系统、超级计算机集群的高性能计算框架，研制分布式计算与高性能计算的融合计算框架，实现多层异构软硬件计算资源的统一调度和协同优化；开发分析模型可视化工具，实现分析算法的智能调试与人机交互协同；开发分析工作流管理工具，实现大数据分析生命周期的流程化管理，提高数据分析的易用性。

3.3 数据可视化与智能数据工程技术

完整的数据分析流程除了数据分析活动外，还有大量的数据准备活动，包括数据的获取、清理、集成以及分析之前的数据探索和分析之后的结果可视化。在实践中，这些步骤需根据分析目标和结果进行反复的迭代与试错，流程中需要的工具被统称为数据工程工具集，承担这部分工作的人员主要是数据分析师和领域专家。数据工程技术在大数据时代遇到的挑战有两点：首先，现有产品针对海量异构数据的支持不足，可扩展性差，且对时间序列等新型数据的数据工程方法缺乏支持；其次，现有产品的智能化程度不高，在操作中需要大量人工参与，要求具备较丰富的领域知识，使用效率不高，过程繁复。

针对上述问题，需重点开发支持海量数据的可视化分析工具，研发面向工业、国家安全、公共服务等领域中的文本、复杂网络、时序数据、高维特征数据4类典型大数据的可视化工具。开发多源异构数据的智能数据获取、数据画像、智能数据清理、智能数据集成等智能数据工程工具，解决传统数据工程任务耗时长、成本高的问题。

3.4 大数据混源软件可信验证技术

一个具体的大数据应用解决方案往往由开源系统与闭源系统结合完成，或以黑盒的方式调用外部服务，这就形成了大数据混源系统。大数据混源系统的分布式特性、开源/闭源结合的特性导致其代码量庞大，版本匹配、接口匹配、数据安全难以控制，这就对其可信验证提出了迫切的需求。现有的可信验证技术体系尚未综合考虑大数据混源系统的上述两种特性，例如将系统当作黑盒的基于测试用例的和基于动态测试的方法、基于代码分析的静态分析方法、基于众包数据的数据挖掘方法、基于系统设计原理的模拟仿真方法等，都难以支持大数据混源软件的可信验证。此外，大数据系统的复杂性导致其可信验证中难以避免状态空间爆炸的问题，导致验证效率不高。

这项研究的重点在于结合分布式系统建模技术和混源系统可信建模技术，研发大数据系统软件的综合建模工具，支持分布式环境下节点间的消息传递、任务的异步分发与同步汇总等分布式特征的建模，支持自主可控代码、第三方开源或闭源代码的混源特征建模，并支持两类建模技术的有效统一；研究基于高性能计算的并行可信验证算法，开发高性能可信验证系统，大幅提升软件验证的规模和效率。

3.5 清华“数为平台”技术框架

大数据系统软件国家工程实验室为实现大数据系统软件的快速、自动、智能构造和运维，突破大数据系统软件技术瓶颈，研发了大数据系统软件与工具栈——清华“数为平台”，其总体框架如图1所示。“数为平台”采用模型驱动的软件系统构造方法，提供了交互式的数据建模与业务建模支持，是支持可定制性和可扩展性的大数据应用服务开发平台，降低了领域大数据系统研发的代价。在以HDFS、Kafka、TensorFlow为代表的大数据系统开源软件生态基础上，重点研发了以下大数据系统软件构件。

图1 大数据系统软件“数为平台”总体框架

● 可定制的数为框架（dataway framework，DWF）：提供对数据、功能、表单的底代码量可定制平台，支持移动端和PC端定制，具有灵活多样的可扩展性，能够对接主流大数据系统（Strom、Hadoop、Kafka、Spark、TensorFlow等）。从系统开发构建的角度看，可定制的数为框架是大数据软件组件集成的数据总线、控制总线和交互总线，负责数据源/数据集管理、算法管理、构件定义、构件交互、运行监控和人机交互设计组件。

● 多源数据和数据集管理：时序数据库TSFile/IoTDB具有多数据源接入能力，支持结构化、非结构化、时序数据数据源定制，可围绕数据源定义不同种类数据集。

● 算法库管理：内嵌数十种数据处理算法，包括数据提取、数据清洗、数据集成、统计分析、机器学习、深度学习、迁移学习等。

● 数据处理流程管理器：支持基于流程的数据处理活动选择、编排与执行，提供数据处理过程监控。

● 数据质量控制：建立数据质量分析知识库，批量分析海量数据特征，实时评估数据质量情况，并在条件具备的情况下对低质量数据给出修正建议。

● 机器学习工作坊：针对不同种类的数据集开展大规模训练任务，产生训练模型，并且可以可视化评估机器学习的过程，找到瓶颈，帮助调优。

● 模型库管理：可以管理机器学习算法产生的各种预测模型，并基于模型提供在线数据服务。

4 领域大数据应用研发——“1+X”模式

大数据技术在领域中的应用和落地涉及一个复杂的大数据全生命周期，包括大数据的采集提取清理（数据工程）、管理、分析、可视化等多个主要阶段，如图2所示。各阶段需要满足海量、异构、实时、人机交互等功能或性能需求。例如，大数据的采集通常是在多源异构环境中进行的，难以保证足够高的数据质量，而这种复杂性将会为大数据分析与建模带来不确定性甚至错误的结果。可见，大数据生命周期中各个阶段紧密相连、环环相扣，协作形成大数据应用解决方案。

图2 大数据应用开发的过程框架

在大数据应用开发的过程中，数据工程师需要掌握多个阶段的大数据系统软件技术，根据领域的数据类型（时间序列、流程数据、非结构化数据等）、功能需求（采集、存储、计算、分析、展现等）和性能需求（如读写时延、并发量等），在大数据软件组件中选择恰当的构件，并手动进行配置和部署，然后在此基础上进行应用开发。随着大数据系统软件的复杂性不断增加，软件发布迭代的频率也越来越高，大量的手动配置、反复试错不能满足快速交付的需求。此外，在开源大数据生态系统上进行应用开发和运行具有很高的门槛，易用性成为领域用户对大数据系统软件的迫切的需求之一。面向领域的应用还需要研制领域特定的工作环境，通过配套的软硬件资源和平台，为大数据技术提供实验、测试环境，实现大数据技术与领域知识的深度融合，为大数据技术的领域化提供有效的渠道。

为此，需要建设大数据应用的开发与运行环境，实现多样化大数据系统软件的快速、自动、智能的装配和运维，为领域专家提供“端到端”的大数据系统软件技术支持。具体说，就是领域专家只需要关注输入端的数据和需求以及输出端的结果和决策即可，两端之间的中间环节，包括数据准备、管理、分析、可视化等，都尽可能地对领域专家隐藏。在构建大数据应用系统的过程中，领域专家无须深入了解中间环节，可将其整体视为黑盒来使用。

重点针对新型工业、国家安全、公共服务等领域大数据应用开发与运行难的问题，研制领域大数据应用开发运行环境，开发需求适配、构件选型、参数配置、自动部署、日志管理、日志分析、性能调优、故障诊断等开发运行工具，支持多样化应用需求建模与系统软件适配，自动构建领域大数据应用系统，通过日志数据的机器学习与可视化分析实现大数据应用系统智能运维和优化，提高大数据系统软件的易用性，降低大数据技术在各领域应用的门槛。

以“数为平台”为基础，大数据系统软件国家工程实验室提出了“1+X”应用架构模式，与制造、能源、农业、民生、军事等多个重点行业与多个国家级的产业优势单位合作，沉淀领域平台，构建产业应用，推动大数据技术同实体经济深度融合发展，与气象、环保、工业制造、能源等企业用户开展领域大数据平台和应用系统研发。

以气象大数据平台为例，为支撑中央和28个省的天气预报业务，需要对数值模式、卫星云图、雷达、闪电及遍布全球的地面和高空观测数据进行分析和处理。数据规模大、时效性要求高，并且持续快速增长。基于清华“数为平台”的新一代中国天气预报大数据平台突破了气象大数据分布式管理、处理、分析与可视化等一系列技术，将海量气象数据的存取速度提升百倍。在全球范围内，首次实现了全部气象数据从网络文件集群系统到大规模数据处理平台的升级换代。

在工业制造业的应用过程中，通过深入研究产业特点，基于平台的云端结合的设计思路，建设了国内价值最高的智能装备大数据平台，采集4 000余种类型的设备状态、作业操作、环境参数等实时数据；支持远程发动机运行参数调优，辅助装备远程操作；实时汇总和分析全国每台设备施工量、能耗与排放。例如：实时车辆分布及各省份排名情况；行驶、停止的车辆比例，高发故障的分布及排名情况；不同载重状态的车辆台量和占比，物流车在全国各省市的平均碳排放量和车辆的空驶情况。为生产厂商、运输企业、交管、环保、安全生产等政府部门提供实时的数据支持。物流车数据分析处理流程如图3所示。

图3 物流车数据分析处理流程

5 结束语

大数据时代，软件系统与工程面临的机遇挑战体现在互为依赖的两个方面。一方面，软件系统与工程应针对大数据处理的需求，研究如何开发支持大数据处理各个环节的软件技术与系统，形成面向大数据的软件工程——面向大数据生命周期的一体化集成设计开发环境。另一方面，在软件系统与工程实施过程中，会涉及大量具有大数据特征的系统运行过程数据，因此有必要对这些多维数据进行充分的关联挖掘和机器学习，发现数据驱动的开发和运行规律，形成基于大数据的软件工程方法学，指导大数据软件系统的开发——面向软件生命周期的大数据应用系统运行分析工具。

本文分析了大数据系统软件生态、领域应用、开发运行环境现状与挑战，介绍了大规模多源异构数据一体化管理、交互式异构数据分析框架、数据可视化与智能数据工程、领域大数据应用开发运行环境、大数据混源软件可信验证等大数据系统国家工程实验室的技术研发主题，并介绍了依托工程实验室开发的大数据系统软件清华“数为平台”，该平台形成了面向大数据系统开发和应用全生命周期的技术与应用环路，在制造、能源、农业、民生、军事等行业已成功应用，并逐步形成大数据系统软件协同研发社区与应用创新生态环境。

The authors have declared that no competing interests exist.

作者已声明无竞争性利益关系。

作者简介

王建民（1968-），男，清华大学软件学院教授、院长，数据科学研究院副院长，大数据系统软件国家工程实验室执行主任。

王晨（1983-），男，大数据系统软件国家工程实验室、清华大学数据科学研究院工业大数据中心总工程师，四川省工业大数据创新中心总经理，北京市工业大数据创新中心总工程师，昆仑数据联合创始人，《中国制造2025》路线图（操作系统与工业软件）编写组成员。

刘英博（1978-），男，清华大学软件学院副研究员，主要从事工业软件、软件工程、工业大数据平台技术、工业大数据分析方面的研究工作。

刘璘（1973-），女，清华大学软件学院副研究员，主要从事软件需求工程、知识工程、医疗数据分析技术方面的研究工作。

《大数据》期刊

《大数据（Big Data Research，BDR）》双月刊是由中华人民共和国工业和信息化部主管，人民邮电出版社主办，中国计算机学会大数据专家委员会学术指导，北京信通传媒有限责任公司出版的中文科技核心期刊。

关注《大数据》期刊微信公众号，获取更多内容

往期文章回顾

专题导读：大数据创新实践

基于公开数据的特殊人群在线活动特征挖掘

基于社会化大数据的音乐文化研究进展

基于密度的停留点识别方法

DeepEye：一个基于深度学习的程序化交易识别与分类方法

你可能感兴趣的:(大数据系统软件创新平台与生态建设)

C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
为什么会出现“与此站点的连接不安全”警告？
当浏览器弹出“与此站点的连接不安全”的红色警告时，不仅会让访客感到不安，还可能直接导致用户流失、品牌信誉受损，甚至引发数据泄露风险。作为网站运营者，如何快速解决这一问题？一、为什么会出现“与此站点的连接不安全”警告？浏览器提示“不安全连接”，本质上是检测到当前网站与用户之间的数据传输未经过加密保护。以下是触发警告的常见原因：1.未安装SSL证书SSL（SecureSocketsLayer）证书是网
求是网：“内卷式”竞争的突出表现和主要危害有哪些？加百力财经研究科技知识人工智能大数据
"内卷式"竞争主要表现为：企业层面的低价竞争、同质化竞争和营销"逐底竞争"；地方政府层面的违规优惠政策、盲目重复建设和设置市场壁垒。危害体现在三个层面：微观上导致"劣币驱逐良币"，损害消费者利益；中观上破坏行业生态，挤压产业链利润空间；宏观上扭曲资源配置，抑制创新活力。什么是“内卷式”竞争？概括其一般特征，是指经济主体为了维持市场地位或争夺有限市场，不断投入大量精力和资源，却没有带来整体收益增长的
WHQL签名怎么申请 GDCA SSL证书 windows
WHQL（WindowsHardwareQualityLabs）签名是微软对硬件和驱动程序进行认证的一种方式，以确保它们与Windows操作系统的兼容性和稳定性。以下是申请WHQL签名的基本步骤，供您参考：1.准备阶段准备硬件设备和驱动程序：确保您的硬件设备已经准备好，并且对应的驱动程序已经经过充分的测试，能够在各种配置和环境下正常工作。获取EV代码签名证书：根据微软的要求，驱动程序进行WHQL认
JSON 与 AJAX Auscy json ajax 前端
一、JSON（JavaScriptObjectNotation）1.数据类型与语法细节支持的数据类型：基本类型：字符串（需用双引号）、数字、布尔值（true/false）、null。复杂类型：数组（[]）、对象（{}）。严格语法规范：键名必须用双引号包裹（如"name":"张三"）。数组元素用逗号分隔，最后一个元素后不能有多余逗号。数字不能以0开头（如012会被解析为12），不支持八进制/十六进制
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
上位机知识篇---SD卡&U盘镜像
常用的镜像烧录软件balenaEtcherbalenaEtcher是一个开源的、跨平台的工具，用于将操作系统镜像文件（如ISO和IMG文件）烧录到SD卡和USB驱动器中。以下是其使用方法、使用场景和使用注意事项的介绍：使用方法下载安装：根据自己的操作系统，从官方网站下载对应的安装包。Windows系统下载.exe文件后双击安装；Linux系统若下载的是.deb文件，可在终端执行“sudodpkg-
JavaScript 树形菜单总结 Auscy microsoft
树形菜单是前端开发中常见的交互组件，用于展示具有层级关系的数据（如文件目录、分类列表、组织架构等）。以下从核心概念、实现方式、常见功能及优化方向等方面进行总结。一、核心概念层级结构：数据以父子嵌套形式存在，如{id:1,children:[{id:2}]}。节点：树形结构的基本单元，包含自身信息及子节点（若有）。展开/折叠：子节点的显示与隐藏切换，是树形菜单的核心交互。递归渲染：因数据层级不固定，
基于定制开发开源AI智能名片S2B2C商城小程序的社群游戏定制策略研究说私域人工智能小程序游戏
摘要：本文聚焦社群游戏定制领域，深入探讨以社群文化和用户偏好为导向的定制策略。通过分析互动游戏活动、社群文化塑造等关键要素，结合定制开发开源AI智能名片S2B2C商城小程序的技术特性，提出针对性游戏定制方案。研究旨在提升社群用户参与度与游戏体验，为社群游戏发展提供理论支持与实践指导。关键词：社群游戏定制；定制开发开源AI智能名片S2B2C商城小程序；社群文化；用户偏好一、引言在数字化社交蓬勃发展的
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
前端项目架构设计要领
1.架构设计的核心目标在设计前端项目架构时，核心目标是模块化、可维护、可扩展、可测试，以及开发效率的最大化。这些目标可以通过以下几个方面来实现：组件化：将UI功能封装为可复用的组件。模块化：将业务逻辑分解为独立的模块或服务。自动化构建与部署：实现自动化构建、测试和部署流程，减少人为操作的错误。代码规范化与检查：确保团队协作时，代码风格和质量一致。2.项目目录结构设计一个清晰合理的目录结构对大型项目
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
嵌入式系统LCD显示模块编程实践
本文还有配套的精品资源，点击获取简介：本文档提供了一个具有800x480分辨率的3.5英寸液晶显示模块LW350AC9001的驱动程序代码，以及嵌入式系统中使用C/C++语言进行硬件编程的实践指南。该模块的2mm厚度使其适用于空间受限的便携式设备。内容包括驱动程序源代码、硬件控制接口使用方法，以及如何在嵌入式系统中进行图形处理、电源管理与性能优化。1.嵌入式系统原理1.1嵌入式系统概念嵌入式系统是
深入剖析OpenJDK 18 GA源码：Java平台最新发展想法臃肿
本文还有配套的精品资源，点击获取简介：OpenJDK18GA作为Java开发的关键里程碑，提供了诸多新特性和改进。本文章深入探讨了OpenJDK18GA源码，揭示其内部机制，帮助开发者更好地理解和利用这个版本。文章还涵盖了PatternMatching、SealedClasses、Records、JEP395、JEP406和JEP407等特性，以及HotSpot虚拟机、编译器、垃圾收集器、内存模型
Android 开源组件和第三方库汇总 gyyzzr Android Android 开源框架
转载1、github排名https://github.com/trending,github搜索：https://github.com/search2、https://github.com/wasabeef/awesome-android-ui目录UIUI卫星菜单节选器下拉刷新模糊效果HUD与Toast进度条UI其它动画网络相关响应式编程地图数据库图像浏览及处理视频音频处理测试及调试动态更新热更新
22、文档：Google Docs的强大与易用性 pear55 探索云技术的无限可能 Google Docs 云端文档语音输入
文档：GoogleDocs的强大与易用性1.GoogleDocs简介GoogleDocs是Google提供的在线办公套件的一部分，它是一个基于云端的文字处
ARM嵌入式可编程控制器技术开发拉勾科研工作室 arm开发
PLC自动化设计|毕业设计指导|工业自动化解决方案✨专业领域：PLC程序设计与调试工业自动化控制系统HMI人机界面开发工业传感器应用电气控制系统设计工业网络通信擅长工具：西门子S7系列PLC编程三菱/欧姆龙PLC应用触摸屏界面设计电气CAD制图工业现场总线技术自动化设备调试主要内容：PLC控制系统设计工业自动化方案规划电气原理图绘制控制程序编写与调试毕业论文指导毕业设计题目与程序设计✅具体问题可以
Android ViewBinding 使用与封装教程积跬步DEV Android 开发实战大全 android
AndroidViewBinding使用与封装教程：一、ViewBinding是什么？核心功能：为每个XML布局文件自动生成一个绑定类（如ActivityMainBinding），直接暴露所有带ID的视图引用。优点：避免繁琐的findViewById()，类型安全且编译时检查。对比DataBinding：ViewBinding仅处理视图引用，无数据绑定功能。DataBinding支持双向数据绑定，
理解TCP连接中的进程阻塞与CPU调度机制 109702008 编程 #C语言网络 tcp/ip 网络人工智能
引言在计算机网络通信中，TCP连接的建立是一个经典的三次握手过程。当用户调用connect()函数发起连接时，内核会发送SYN报文并等待对方的SYN-ACK响应。此时，调用进程通常会进入阻塞状态，暂停执行直至连接成功或超时。这一机制看似简单，但其背后的内核实现却涉及进程调度、等待队列管理和CPU资源分配等复杂操作。本文将深入探讨阻塞状态的实现原理，并解析CPU在进程阻塞期间的行为。一、进程阻塞的实
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
Java大厂面试实录：谢飞机的电商场景技术问答（Spring Cloud、MyBatis、Redis、Kafka、AI等）
Java大厂面试实录：谢飞机的电商场景技术问答（SpringCloud、MyBatis、Redis、Kafka、AI等）本文模拟知名互联网大厂Java后端岗位面试流程，以电商业务为主线，由严肃面试官与“水货”程序员谢飞机展开有趣的对话，涵盖SpringCloud、MyBatis、Redis、Kafka、SpringSecurity、AI等热门技术栈，并附详细解析，助力求职者备战大厂面试。故事设定谢
【超硬核】JVM源码解读：Java方法main在虚拟机上解释执行 HeapDump性能社区 java 开发语言后端 jvm
本文由HeapDump性能社区首席讲师鸠摩（马智）授权整理发布第1篇-关于Java虚拟机HotSpot，开篇说的简单点开讲Java运行时，这一篇讲一些简单的内容。我们写的主类中的main()方法是如何被Java虚拟机调用到的？在Java类中的一些方法会被由C/C++编写的HotSpot虚拟机的C/C++函数调用，不过由于Java方法与C/C++函数的调用约定不同，所以并不能直接调用，需要JavaC
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
LeetCode算法题：电话号码的字母组合吱屋猪_ 算法 leetcode java
题目描述：给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。2->"abc"3->"def"4->"ghi"5->"jkl"6->"mno"7->"pqrs"8->"tuv"9->"wxyz"例如，给定digits="23"，返回["ad","ae","af","bd","be","bf","cd
基于开源AI智能名片链动2+1模式与S2B2C商城小程序的渠道选择策略研究说私域人工智能小程序
摘要：在数字化商业环境下，品牌与产品的渠道选择对其市场推广和运营成功至关重要。本文聚焦于如何依据自身品牌和产品特性，结合开源AI智能名片链动2+1模式与S2B2C商城小程序，运用科学的渠道选择方法，慎重挑选1-2个适宜平台，集中资源发力并取得成绩后再拓展其他渠道。通过理论分析与案例研究，探讨该策略的有效性和可行性，为企业渠道布局提供参考。关键词：渠道选择；开源AI智能名片；链动2+1模式；S2B2
深入解析 TCP 连接状态与进程挂起、恢复与关闭誰能久伴不乏 tcp/ip 网络服务器
文章目录深入解析TCP连接状态与进程挂起、恢复与关闭一、TCP连接的各种状态1.**`LISTEN`**（监听）2.**`SYN_SENT`**（SYN已发送）3.**`SYN_RECEIVED`**（SYN已接收）4.**`ESTABLISHED`**（已建立）5.**`FIN_WAIT_1`**（关闭等待1）6.**`FIN_WAIT_2`**（关闭等待2）7.**`CLOSE_WAIT`**
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc