阿里云大数据AI技术

MaxCompute半结构化数据思考与创新

作者： 周宇睿阿里云高级技术专家

本文将介绍MaxCompute在半结构化数据方面的一些思考与创新，介绍会围绕下面四点展开：

1.半结构化数据简析

2.传统方案优劣对比

3.MaxCompute半结构化数据解决方案

4.收益分析

半结构化数据简析

首先来介绍一下什么是半结构化数据。

半结构化数据是相对结构化数据和非结构化数据而言的，所以先来看一下什么是结构化数据和非结构化数据。

结构化数据的概念大家都比较熟悉。传统的关系型数据库是用表的方式对数据进行组织，表的内部定义了字段的数量、类型，以及各种各样字段的属性信息，这些定义本身就包含了丰富的信息。因为在结构化数据的场景中，字段属性被事先严格地定义，所以数据库也好，各种数据引擎、存储引擎都可以通过这些定义获得的信息，有针对性的对数据进行处理。这些处理包括但不限于建立索引，对数据进行排序，对数据进行列存化，也包括向量化执行等等，从而达到一个降低存储成本，提升访问效率的目的。通常来说，结构化数据可以达到非常好的数据读写性能，它的存储效率、压缩效率也可以做得非常好，但是它的灵活性会受到很大的限制。在很多的数据库或者数据仓库当中，如果想改变数据表的结构，通常来说是一个非常高风险的操作，可能会带来很多额外的数据管理成本。

相比之下，非结构化数据本身也是一个很容易理解的概念，我们日常生活中会接触到的，比如说视频、音频、图片、文章等等，都可以算作是一个比较典型的非结构化数据。非结构化数据里面很一个很重要的特征就是没有一个清晰的统一的协议对这些数据内部的结构进行约束，数据本身的内容也没有统一的规律。非结构化数据具备的优势就是几乎是无限的数据灵活性。当然这种无限的灵活性本身也是会有代价的，就是由于没有办法事先对数据本身的结构进行解析，因此很在大部分场景里面，数据引擎没有办法对数据结构进行有效的信息提取，所以一般来说非结构化数据的存储效率和访问性能都是比较差的。

说清楚了结构化数据和非结构化数据，我们再回过头来看看什么是半结构化数据，半结构化数据最重要的一个特征就是数据内部一般来说会包含数据本身的一个结构信息，我们会说它是一个自包含的数据结构。通过事先的一个约定的协议，我们可以很容易地对数据结构这个数据进行解析和数据内容的提取。

相比于传统的结构化数据，半结构化数据并没有受到来自外部的、来自数据仓库或者数据库的这种表级别的强约束。因此一般来说，半结构化数据会更加的灵活，它可以更好地根据具体的用户场景，用户需求进行动态的变化。也正是因为这个特征，通常来说半结构化数据会有多层嵌套的结构，比如说 Json，Xml，都是很典型的半结构化数据。从非结构化数据到半结构化数据，最后再到结构化数据，数据的灵活性是在不断下降的，但是数据的存储效率、访问性能也在不断地提升。半结构化数据在某种程度上可以说是兼顾了两种类型的优点，一方面它具有比较好的灵活性，另外一方面通过协议本身的结构化的约束，也为高效率的访问和解析提供了帮助。

半结构化数据是一种通用的数据传输和存储结构，被广泛地使用在日志分析、IoT设备的信息采集、移动设备的事件上报，以及自动驾驶等多样化的数据场景中。这也体现了半结构化数据的一个很大的特点，就是它的通用性非常好。同时由于半结构化数据本身的灵活性，它们可以在大部分数据场景下面承载和传递丰富的原始数据的信息。由于其解析协议非常简单，也能够支持我们快速地对数据进行解析和访问。所以一般来说，半结构化数据本身就是一个非常丰富的数据信息的载体。另一方面，比如Json、Xml，具有非常丰富和完善的数据生态，我们可以很方便地在各种语言、各种框架、各种平台上面对这些数据进行解析、生产和消费。多平台的通用性也让半结构化数据这种协议成为了事实上的一种数据的通信标准，可以广泛地接受和使用。从数据仓库处理的角度来说，半结构化数据本身的这种灵活性，也会给上游的业务部门以及中间的数据中台和下游的数据消费决策部门的独立运行，提供一个很好的缓冲。在一个比较大的公司或者团队中，上游是产生数据的业务部门，中间是负责数据处理维护的数据仓库的数据中台部门，还有下游负责决策和消费的决策部门，通常是独立运行的，有着截然不同的运行模式和目标。半结构化数据以其灵活性和易解析的特性可以很好地帮助各个部门进行独立的业务演进，避免由于上游部门频繁的业务迭代带来高昂的跨部门沟通以及数据维护的成本。

传统方案优劣对比

在传统的数据仓库中，半结构化数据解决方案分为schema on read和 schema on write两种形式。本质上来讲的就是数据引擎在数据读写的哪一个环节对数据结构进行解析。schema on read，顾名思义就是在数据导入的过程中不对数据做任何解析和处理，直接将数据进行存储，然后只有在数据访问的时候会根据用户具体的请求，依赖引擎的动态解析能力对数据进行解析。由于在数据写入的过程中我们没有对数据本身做出任何约束，因此schema on read的方案一般来说会提供比较好的数据灵活性。和schema on read相反，schema on write方案就是我们在数据写入的时候，就需要根据事先定义好的结构对数据进行解析，将这种半结构化数据的结构转换成传统的结构化数据，然后再导入到数据仓库当中。相比于schema on read，schema on write的灵活性较差，但是能够提供更好的存储和访问性能。

当用户将数据写入到数据仓库中，因为没有对数据进行任何解析，直接是以字符串的方式导入到数据仓库的，因此是以一种行式的数据结构进行存储的。当用户要对这个数据进行查找和解析，比如上图的案例，用户希望统计年纪在18岁以上的用户数量的时候，需要先提取年纪在18岁以上这个特征，由于在数据写入的时候没有提前对数据进行拆分，所以需要对整个数据进行全表扫描，拿到了所有的数据之后进行解压解码，然后获得具体的JSON数据结构，再进一步地根据用户的需求对这个JSON 结构进行处理，最终获得年龄字段。在整个执行链路当中，一方面数据的存储开销非常大，另外一方面整个查询效率由于需要full scan，还需要花费额外的CPU进行解压，同时对这个JSON的数据结构进行解析，所以它的数据解析效率，访问性能都是非常差的。

同样的一个查询请求，在schema on write的场景里面，我们可以只对用户的年龄字段进行读取，然后直接进行数据解压解码，获得完整的数据结构，再进行数据的解析和查询，它的存储效率和查询效率都会更高。

但是 schema on write的方案也不是完美无缺的。一般来说，采用 schema on write方案的时候，会假定上游业务部门不会对这些字段进行频繁的改动，整个数据结构处于一个相对稳定的状态。如果上游的业务部门处于一种快速迭代、快速适应的阶段，那么可能会不断地有增加字段、修改字段的需求。

在上游业务快速迭代的情况下，如果仍然选择使用schema on write 方案，下游的数据中台或者数据维护部门就需要不断地根据上游业务部门的改动，对数表的结构进行适配，不断地、频繁地执行表字段的增加或者修改，这将耗费巨大的业务维护成本。因此我们考虑有没有可能在允许上游业务部门频繁迭代、自由迭代的情况下，既获得比较好的查询效率和比较低的存储成本，又尽可能地降低数据仓库或者数据维护部门的数据维护成本。

这也就是我们提出来的数据仓库半结构化数据场景的一个核心的需求。希望能够同时兼顾数据查询的高性能、数据存储的低成本以及数据演进的灵活性。结合 schema on write和schema on read的优势，一方面在数据写入的过程中进行数据结构的提取和转换，同时也支持对数据读取过程中动态的自适应的访问，从而达到一个降低存储成本和保持灵活性的效果。

MaxCompute半结构化数据解决方案

MaxCompute是一个适用于数据分析场景的企业级的云服务数仓，以serverless 的架构提供快速的全托管的在线的数据仓库服务。它消除了传统数据平台在扩展性和弹性方面的限制，能够最小化用户运维投入，可以使用户以较低的成本高效地分析和处理海量数据。随着当前数据收集手段的不断丰富，各个行业数据的大量积累，数据规模已经增长到了传统的数据库或者软件行业无法承载的PB甚至EB的级别。MaxCompute提供了离线和流式的数据接入，能够支持超大规模的数据计算和查询加速能力，可以为用户提供包括面向多种计算场景的数据仓库解决方案以及分析建模的服务。MaxCompute还提供完善的数据导入方案和分布式计算的模型。用户不需要关心具体的分布式计算和维护细节，就可以完成大数据分析。通常来说 MaxCompute适用于100GB以上存储规模的计算需求量，最大可以到EB级别。MaxCompute在阿里巴巴集团内部得到了大规模的应用，适用于大型互联网企业的数据仓库和BI分析，网站的日志分析，电子商务场景的交易分析，以及用户特征和兴趣的挖掘。

上图展示了MaxCompute半结构化数据的一个具体场景。用户会将前端的业务数据和业务日志，通过实时或者分批次的方式导入数据仓库，然后与业务数据进行结合。从用户的诉求来看，他们希望能够最大限度地减少入仓过程中数据转换的链路，并提升数据导入的实时性。另一方面数据中台也会对数据进行定时的监控，保证数据质量，同时进行定时的报警触发。在数据的下游，多个不同的业务部门会对数据有不同的解析需求，用户会通过交互式分析、加速查询的方式生成可视化的数据报表。

在该场景中，上游的业务部门和中间的数据中台，还有下游的数据消费决策部门有着各自比较独立的数据需求，在这里半结构化数据就可以成为连接和缓冲各部门不同诉求的一个非常自然的选择。用户在引入半结构化数据的同时，一方面可以允许上游业务根据自身的需求独立演进，快速迭代，中台的数据维护成本也可以降到最低，同时下游各个不同消费部门各自的数据消费需求也可以得到很好的满足。

用户在将半结构化数据导入数据仓库的过程当中，发现在一个相对较短的周期，比如几个小时、几天甚至几周这样一个周期内，用户的数据结构基本上来说是保持稳定的，也就是说在一个较短的时间内，用户的字段的类型和数量是几乎保持不变的。因此在短周期而且空间相邻的数据当中，有机会去提取这些相对稳定的公共数据结构，然后将这些半结构化数据通过列存化的方式来降低存储成本并提升存查询效率。

在长周期的业务迭代中，比如几周甚至几个月的迭代周期里面，业务部门可能会根据具体的业务场景进行相对缓慢平滑的业务迭代，可以通过引擎自身带有的这种动态自适应的能力，去适应和发现长周期当中字段类型或者字段数量的变化，从而达到一个比较综合的半结构化数据的解决方案。

在如上的数据中可以通过对这个数据的扫描提取出来一个所有数据都具备的公共的数据类型，它中间会有四个字段，每个字段会有一个明确的类型，然后通过这个提取的类型，可以将原始的用户数据以及收集到的这个类型，同样地输入给数据转换器，数据转换器就可以将这个数据进行很好的列存化。实现在数据导入数据仓库的过程中，就对数据进行动态的解析，完成数据列存化的过程。

MaxCompute底层采用的是AliORC列存来进行数据的存储。AliORC 是阿里云自己研制的一个高性能的基于开源Apache ORC的数据格式，它能够天然地很好地对这种嵌套结构进行支持，能够在数据结构、数据文件的文件格式层面就很好地去保存不同节点之间的相互映射以及嵌套的信息。当要对某一个比较深的节点进行探查或者裁剪的时候，可以很自然地将这种JSON的路径和这种嵌套结构的节点进行一一映射，然后来做出一个很好的、很自然而高效率的列裁剪。

如上述例子，可以首先通过一个前面提到的schema提取的工作，将它提取成一个具有嵌套特征的数据结构，最终将它转化成一个基于AliORC的列存结构，将每列的数据进行连续的存放，甚至是嵌套类型内部的子节点，也可以把它进行列存化，实现连续存放从而获得更好的压缩性能以及更好的查询性能。

理想情况下用户的所有数据都具有比较好的稳定性和一致性，但是由于半结构化数据本身自有的这种灵活性的特点，很多场景下面脏数据是难以完全避免的。前面的例子假设所有的用户字段提供的数据类型都是非常干净，非常统一的，但在事实的生产环境中，很有可能会由于代码的bug，或是数据传输过程中的错误，导致数据的类型并不完全一致。比如上图中标红的第三个age字段，前面两个JSON数据中age字段都是整型，但是在第三行数据当中，age字段突然变成了一个字符串类型。在这种场景下面，没有办法很好地进行一个统一的公共类型的提取，因为整型和字符串类型很多时候并不是一个互相兼容的类型。在这种情况下，我们会将这种数据保存成一种内部的二进制数据结构，在这种二进制的结构当中，不仅会保存这个字段具体的数据信息，也会保存它的数据类型的信息。在这个例子里面将前两行数据的age字段，同时记录了它的数据类型，也就是它的整型信息，也记录了它的具体的值的信息。然后在第3行数据当中，记录的它是一个string类型，这样就达到了尽可能完整地保存用户数据的目的。因为从平台的角度来说，平台很难判断用户的这个类数据类型的变化到底是出于业务类型的考量、业务自然的演进，还是一个由 bug 导致的错误，所以从数据平台的角度，还是需要能够尽可能完整地保存用户信息。另一方面，这种使用独立的二进制的方式来保存信息的方式也尽可能地保证了数据列存的效率。能够最大限度地保证不同的字段仍然是通过列存的方式进行存储的。在数据访问的时候也尽可能地针对不同字段进行列裁剪。而且某一个列当中出现了脏数据，并不会对其它列的数据类型和数据存储访问效率造成影响。因此最大限度地将脏数据类型和普通数据类型进行了隔离。

另外一种比较棘手的场景就是稀疏数据类型的处理。在一些场景中，每一行用户数据中可能都会存在一些字段，这些字段出现的频率很低。如果使用前面这种公共类型提取的方案，将这些出现频率很低的字段仍然提取为一个独立的列，就会导致底层存储格式上列的数量无限膨胀，列存本身的效率就会变得非常低。因此在数据进行这种类型提取的过程当中，也需要对字段的频率进行统计。对频率较低的字段进行一个统一的归纳处理，将它们放到一个统一的特殊字段当中。在数据访问的过程当中，如果用户查找到了一些在列存化字段当中不存在的列，那么就会在特殊字段当中进行查找。通过这种处理，我们希望能够最终取得一个兼顾效率和灵活性的平衡。

接下来看一看数据引擎是怎么在具体的查询过程中进行自适应的查找的。前面提到，用户数据的结构在一个较长的周期里面是可能会不断地演进和变化的，因此在实际存储的过程中，不同的列存文件，其数据可能会受到用户业务长期演进的影响，因此不同的列存文件实际存储的用户数据的schema可能是不完全一致的。比如前面提到的这个SQL查询的例子，在这个查询过程中，用户要查询年龄这一列，然后将它cast成 int 类型之后，去查询所有大于 18 岁的用户的数量。在这样一个场景中，会先对这个SQL查询进行一个解析，然后把它做成一个 logical plan。在这个plan当中会有多个不同的算子，在最上游的这种聚合算子或者查询算子，它们都是一个强类型的算子，会期望输入的数据是一个整型。但是在底层的table scan读上来的时候，它其实是一个动态数据类型，并没有办法知道这个时候读上来的实际是一个什么类型，因此在中间需要增加一个动态数据转换的能力，将数据读上来的任何类型，通过一种best effort的方式转化成需要的数据类型，再去进行下一步的数据处理。如图中所演示的，会首先对这个数据文件进行列裁剪，读取出来age这个年龄字段。但是大家可以看到，在这个样例当中，不同的数据文件，读出来的age字段的类型是不一样的，有的文件里面可能读出来是字符串类型，有的文件读出来是整型，有的文件读出来是binary 的二进制类型。因此数据引擎就需要根据实际读上来的类型动态判断要不要在中间增加一个数据转换的算子，统一将数据转换成 int 类型，之后再交由上游的filter算子进行数据的处理，从而实现一个自适应的数据处理的能力。

收益分析

最后来看一下数据查询方面的收益。对比了前面提到的三种方案，一种是完全使用JSON字符串的方式，一种是JSON列存化的方式，另外一种就是原生的列存的方式。大家可以看到无论是数据在做table scan过程中读取的数据量，还是整个数据的查询时间，查询性能都会有接近一个数量级的提升。

相比于原生的列存，Json列存化的方案仍然存在一些提升的空间。在分析之后发现这里面存在的空间主要的原因还是在Json列存化进行数据解析的过程当中，没有办法完全地将日期类型等等很好地转换成对应的原生的列存类型，这也是下一步的工作当中需要改进的方向。

最后对MaxCompute这个半结构化数据的列存化方案进行一个总结。首先，MaxCompute半结构化列存方案是开箱即用的，不需要用户侧做任何改造。它可以最大限度地保证用户只要进行正常的数据导入，就可以享受到半结构化列存方案带来的红利，然后最大限度地降低用户侧改造带来的额外的数据维护成本。另外，通过在写入的时候对数据类型进行动态解析，能够最大限度地去利用数据结构之间的相似性，提取相邻数据之间的公共结构，对数据列存化。同时也对脏数据或者稀疏数据等场景进行了兜底，保证用户在各种场景下的半截刻画数据都可以尽可能地享受到的列存化方案带来的优势。同时通过这种数据的列成化以及数据引擎动态的访问能力，能够最大限度地提升数据的查询效率，达到接近于原生列存的查询效率。最后，通过使用内部的列式存储，能够最大限度地降低存储成本，从而达到降低存储成本的目的。

问答环节

Q：设置了列的类型就可以直接使用吗？

A:是的，阿里云MaxCompute在直接提供了一个叫做JSON的数据类型，用户只要设置了这个列的数据类型之后，就可以直接享受到提供了这个列式半结构化、列存化的这么一个带来的这种红利和优势，在用户在导入的过程中，或者用户在数据查询的过程中，都不需要进行任何额外的数据维护和操作。

Q：数据在列存的过程中怎么维护？

A：JSON 数据的我们在存储的过程当中并不会直接管理这个JSON内部的数据结构，就是说在数据的源数据存储过程中，并不会直接去理解说这个数据当中到底有多少结构，因为用户的结构可能是非常复杂，也会不断地演进的。因此只是在数据存储的过程中，在文件级别会保留 Json 的这个数据结构。然后会依赖数据结，数据引擎在访问过程中的这么一个动态的能力去对 JSON 的内部结构进行提取。

Q：阿里云MaCompute支持私有化部署吗？

A：支持的。

数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
数据仓库介绍阿龙的代码在报错数据分析数据仓库数据库
数据仓库数据仓库的概念数据仓库的主要特征数据仓库的主流开发语言-sql结构化数据sql语句数据仓库的概念数据仓库（英语：DataWarehouse，简称数仓、DW）,是一个用于存储、分析、报告的数据系统。数据仓库的目的是构建面向分析的集成化数据环境，分析结果为企业提供决策支持（DecisionSupport）。就是数据仓库只分析数据并不产生数据数据仓库的主要特征1、面向主题主题是一个抽象的概念，是
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
80 鑫_259b
科普一个谈恋爱的方法。在以前，谈恋爱千难万难，就难在对对方不知底细，不知道对方希望自己是一个怎样的人，要耗费大量的时间去试探、再磨合，往往会因为一些小事一些细节，满盘皆输。在一个信息化的时代，在一个大数据近乎变成了流行语的时代，我们要跟上时代的步伐，通过大数据，去寻找异性最希望自己展现出来的形象是什么，才可以在爱情的道路上少走弯路。那这个大数据怎么操作呢？上街发问卷？问别人的择偶标准？一来会被打死
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
数字化智能工厂数字化供应链架构、全景管理、全流程贯通方案数字化建设方案智能制造数字工厂制造业数字化转型工业互联网架构
随着信息技术的飞速发展，数字化转型已成为制造企业提升竞争力的关键途径。数字化智能工厂通过集成先进的物联网(IoT)、大数据、云计算、人工智能(AI)等技术，实现了生产过程的智能化、供应链管理的精准化及决策的科学化。本方案旨在构建一套完善的数字化供应链架构，实现全景管理、全流程贯通、智慧化升级，以数据为驱动，强化技术支撑与安全管理体系，推动企业向智能制造迈进。一、数字化供应链架构1.**集成化平台构
日记——我的歌单静若小猴
又到一年一度大数据汇总的时候了，听歌已经成为很多人生活里的一种乐趣。春夏秋冬，我们都有自己喜欢的歌，歌词歌曲唱出沃尔玛你的心声。还记得大学时候最喜欢听的《春天里》，我有一天单曲回放了30遍，总觉得听着仿佛看到自己声音。还有的歌，初听不知曲中意，再听已经是曲终人，听着歌流泪，听着歌入睡……还记得那些年少的故事吗，总觉得自己才是故事外的人，却不是自己已经入歌。一段时间会喜欢一个人的音乐，一段时间会沉静
Linux dmesg命令：显示开机信息 fafadsj666 linux 数据库数据挖掘机器学习大数据
通过学习《Linux启动管理》一章可以知道，在系统启动过程中，内核还会进行一次系统检测（第一次是BIOS进行加测），但是检测的过程不是没有显示在屏幕上，就是会快速的在屏幕上一闪而过那么，如果开机时来不及查看相关信息，我们是否可以在开机后查看呢？答案是肯定的，使用dmesg命令就可以。无论是系统启动过程中，还是系统运行过程中，只要是内核产生的信息，都会被存储在系统缓冲区中，已经为大家精心准备了大数据
大数据新视界 --大数据大厂之揭秘大数据时代 Excel 魔法：大厂数据分析师进阶秘籍青云交大数据新视界 Excel 数据分析函数公式数据透视表图表功能规划求解数据分析工具库大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
高职人工智能训练师边缘计算实训室解决方案武汉唯众智创人工智能训练师边缘计算实训室人工智能训练师实训室边缘计算实训室
一、引言随着物联网（IoT）、大数据、人工智能（AI）等技术的飞速发展，计算需求日益复杂和多样化。传统的云计算模式虽在一定程度上满足了这些需求，但在处理海量数据、保障实时性与安全性、提升计算效率等方面仍面临诸多挑战。在此背景下，边缘计算作为一种新兴的计算模式应运而生，通过将计算能力推向数据生成或用户所在的网络边缘，显著降低了数据传输的延迟，提升了处理效率，并增强了数据安全性。针对高等职业院校的人工
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S