猫耳呀

MaxCompute理解数据、运算和用户的大脑：基于代价的优化器

摘要：回顾大数据技术领域大事件，最早可追溯到06年Hadoop的正式启动，而环顾四下，围绕着数据库及数据处理引擎，业内充斥着各种各样的大数据技术。在云栖社区2017在线技术峰会大数据技术峰会上，阿里云大数据计算平台架构师林伟做了题为《MaxCompute的大脑：基于代价的优化器》的分享，为大家分享阿里巴巴大数据计算服务的大脑——基于代价的优化器的设计和架构。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data；此外，通过Maxcompute及其配套产品，低廉的大数据分析仅需几步，详情访问https://www.aliyun.com/product/odps。

摘要：回顾大数据技术领域大事件，最早可追溯到06年Hadoop的正式启动，而环顾四下，围绕着数据库及数据处理引擎，业内充斥着各种各样的大数据技术。这是个技术人的好时代，仅数据库领域热门DB就有300+，围绕着Hadoop生态圈的大数据处理技术更是繁花似锦。在云栖社区2017在线技术峰会大数据技术峰会上，阿里云大数据计算平台架构师林伟做了题为《MaxCompute的大脑：基于代价的优化器》的分享，为大家分享阿里巴巴大数据计算服务的大脑——基于代价的优化器的设计和架构。

MaxCompute简介

大数据计算服务(MaxCompute)是一种快速、完全托管的PB/EB级数据仓库解决方案，MaxCompute具备万台服务器扩展能力和跨地域容灾能力，是阿里巴巴内部核心大数据平台，承担了集团内部绝大多数的计算任务，支撑每日百万级作业规模。MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型，能够更快速的解决用户海量数据计算问题，有效降低企业成本，并保障数据安全。

MaxCompute架构

MaxCompute基本的体系结构如上图所示，最底层就是在物理机器之上打造的提供统一存储的盘古分布式文件存储系统；在盘古之上一层就是伏羲分布式调度系统，这一层将包括CPU、内存、网络以及磁盘等在内的所有计算资源管理起来；再上一层就是统一的执行引擎也就是MaxCompute执行引擎；而在执行引擎之上会打造各种各样的运算模式，比如流计算、图计算、离线处理、内存计算以及机器学习等等；在这之上还会有一层相关的编程语言，也就是MaxCompute语言；在语言上面希望为各应用方能够提供一个很好的平台，让数据工程师能够通过平台开发相关的应用，并使得应用能够快速地在分布式场景里面得到部署运行。

MaxCompute的研发思路

MaxCompute的研发思路主要分为以下四个方面：
高性能、低成本和大规模。希望打造的MaxCompute平台能够提运算的高性能，尽可能降低用户的使用成本，并且在规模上面能够达到万台机器以及多集群的规模。
稳定性，服务化。希望MaxCompute平台能够提供稳定性和服务化的方式，使得用户不用过多地考虑分布式应用的难度，而只需要注重于用户需要进行什么样的计算，让系统本身服务于用户，并能够提供稳定性，服务化的接口。
易用性，服务于数据开发者。希望MaxCompute平台是易用的，并且能够很方便地服务于数据开发工程师，不需要数据工程师对于分布式的场景进行很深的理解，而只要关注于需要用这些数据进行什么样的运算就可以，接下来就是由MaxCompute平台帮助数据开发工程师高效并且低成本地执行自己的想法。
多功能。希望MaxCompute能够具有更多的功能，不仅仅是支持流计算、图计算、批处理和机器学习等，而希望更多种类的计算能够在MaxCompute平台上得到更好的支持。
MaxCompute的大脑——优化器
基于以上的研发思路，MaxCompute平台需要拥有一个更加强大的大脑，这个大脑需要更加理解用户的数据，更加理解用户的计算，并且更加理解用户本身，MaxCompute的大脑需要能够帮助用户更加高效地优化运算，通过系统层面去理解用户到底需要进行什么样的运算，从而达到之前提到的各种目的，使得用户能够从分布式场景中脱离出来，不必去考虑如何才能使得运算高效地执行，而将这部分工作交给MaxCompute的大脑，让它来为用户提供更智能的平台，这也就是MaxCompute所能够为用户带来的价值。

那么MaxCompute的大脑究竟是什么呢？其实就是优化器。优化器能够将所有信息串联在一起，通过理解系统中数据的相关性以及用户的企图，并通过机器的能力去充分地分析各种各样的环境，在分布式场景中以最高效的方式实现对于用户运算的执行。在本次分享中以离线计算作为主要例子来对于MaxCompute的大脑——优化器进行介绍。

首先对于离线计算的概念进行简单介绍，MaxCompute离线计算架构设计如上图所示。在计算层面往往会存在一个类似高级语言的脚本语言，MaxCompute提供的是类SQL的脚本语言，将脚本语言通过FrontEnd提交进来，之后经过处理转化成为逻辑执行计划，逻辑执行计划在Optimizer（优化器）的指导下翻译成更加高效的物理执行计划，并通过与Runtime的连接之后由伏羲分布式调度系统将物理执行计划分解到运算节点上进行运算。

上述过程的核心就在于如何充分地理解用户的核心计划并通过优化得到高效的物理执行计划，这样的过程就叫做优化器Optimizer。目前开源社区内的Hive以及Spark的一些优化器基本上都是基于规则的优化器，其实对于优化器而言，单机系统上就存在这样的分类，分成了基于规则的优化器和基于代价的优化器。

在单机场景里面，Oracle 6-9i中使用的是基于规则的优化器，在Oracle 8开始有了基于代价的优化器，而Oracle 10g则完全取代了之前基于规则的优化器；而在大数据场景里面，像Hive最开始只有基于规则的优化器，而新版的Hive也开始引入了基于代价的优化器，但是Hive中还并不是正真意义上的代价优化器。而MaxCompute则使用了完全的基于代价的优化器。那么这两种优化器有什么区别呢？其实基于规则的优化器理论上会根据逻辑模式的识别进行规则的转换，也就是识别出一个模式就可能触发一个规则将执行计划从A改成B，但是这种方式对数据不敏感，并且优化是局部贪婪的，就像爬山的人只看眼前10米的范围内哪里是向上的，而不考虑应该先向下走才能走到更高的山顶，所以基于规则的优化器容易陷入局部优但是全局差的场景，容易受应用规则的顺序而生产迥异的执行计划，所以往往结果并不是最优的。而基于代价的优化器是通过Volcano火山模型，尝试各种可能等价的执行计划，然后根据数据的统计信息，计算这些等价执行计划的“代价”，最后从中选用代价Cost最低的执行计划，这样可以达到全局的最优性。

这里分享一个具体的例子帮助大家理解为什么基于规则的优化器无法实现全局的最优化。上图中的这段脚本的意思就是先在A、B和C上面做完join，join出来的结果在某一列上面进行group by操作并计算出平均值。可以将上述的查询过程画成树形的逻辑执行计划，在数据库领域往往是bottom-up的，也就是对于逻辑计划树而言，叶子节点是输入，最终的目标输出则是根节点，所以最终的数据流向是从下向上的。可以看到在这个逻辑计划里面，首先是对于A、B、C三个表进行join，假设Size(B)

基于代价的优化器则采用了不同的方案，它首先通过火山模型将查询展开成为多个等价的可执行计划。例子中可以先让A和B join之后再join C或者先让B和C join之后再join A，在这两个计划中，因为下面的计划中多了一个exchange，而对于基于代价的优化器而言会在最后面有一个Cost代价模型，通过计算发现第一个计划在Cost上面更优，所以就会选择最优的计划进行执行。在基于代价的优化器中做了很多分布式场景之下特有的Cost模型，并且考虑到了Non-SQL，因为很多场景是与互联网有关的应用，用户需要很多Non-SQL的支持，所以可以通过用户自定义函数帮助用户实现一些Non-SQL与关系数据结合的查询优化，最后还有一些多种分布式场景的优化，这也是基于代价的优化器区别于单机优化器所做的一些工作。

接下来分享一下Volcano火山模型的相关，其实Volcano模型是代价模型的一个引擎，这个引擎其实在单机系统上面就已经提出来了。Volcano模型里面也会有一些规则，但是与基于规则的优化器中的规则不同，这里面的规则更像是一些转化函数。Volcano模型首先会对于逻辑执行计划进行分组，之后在组上面要完成一件工作，就会先在组里面探索局部的表达式，然后根据一些规则应用一些变换，这些变换原则上都是代数等价的，在每次进行等价变化的时候其实并不是取代原来的逻辑执行计划树，而是在原本的基础之上分裂出新树。所以最后将会出现很多个等价的执行计划树，最终可以通过基于代价的优化器去选取最好的执行计划。Volcano模型的原则是首先希望每个规则更加局部性，也就是局部性和正交的规则越好，就越能够使得对于空间探索得更加全面。举个例子，如果在平面上定义了前后左右四个方向，那么就可以通过这四个方向搜索整个二维平面的任何一个点，同样的优化问题就是在空间里选取最好的计划，那么就希望在每一次变化时候的探索规则都能够正交，这样就可以用更少的规则去探索整个空间，这样如何去探索空间和选取探索最优路径就可以交给引擎了。

前面分享的比较抽象，这里进一步进行举例说明，希望能够加深大家对于优化过程的理解。假设有一个非常复杂的逻辑执行计划树，这就是真正需要做的用户的任务，现在将其中一小部分提取出来，在进行计划的优化时首先会分析有没有已有的规则可以与模式匹配，假设图中的两个节点正好能与模式匹配，一个是filter一个是project，理论上filter想要推到叶节点，也就是越早进行filter越好，现在就有一个模式：如果filter出现在project之上，也就是需要先做filter之后进行project，这样就可以转换成另一种计划，将这两个节点变成新的节点，也就是可以将filter和project换顺序，这样就是应用规则的过程。同样的还有另外一个节点，比如是aggregate操作能够与其他的模式匹配，之后就可以寻找对应的规则，并转化出等价的节点操作，这样就可以通过复用一棵树节点的模式来维护多棵树，在这里例子中可以看到使用了两个规则，看上去节点上是只是一个存储，但是实际上却描述了四棵等价树。之后会对于这四棵等价树花费的代价进行计算，最后选取花费代价最低的树作为执行计划。整体的基于代价的优化过程就是这样，但是可以看到当逻辑计划树规模很大并且规则变化有很多种的情况下，整个的探索空间还是非常庞大的，所以需要在很多因素上对于优化过程进行考虑。

接下来为大家介绍一下优化引擎的大致算法，下图是简化后的优化引擎算法，而在真正实施时还有很多需要考虑的因素下图中并没有表示出来。

首先会将一个逻辑执行计划中的所有逻辑节点都注册进去，注册进去的同时就会将规则与已有的逻辑模式进行匹配，然后将匹配成功的规则推到规则队列里面，然后循环地弹出规则队列中的规则，并真正地应用这个规则。当然应用规则存在两种条件，一种就是应用之后能够产生等价树，也就是能够在树的局部分裂出另外一种树形状态，而在分裂出来的树上面也可能与其他的模式匹配，如果局部范围内的全部规则都已经匹配完成，就可以开始计算花费的代价。而当通过计算代价得出最佳方案之后，就可以放弃在该局部进行继续优化，如果认为当前的计划仍然不是最优的，就可以将该Cost记录下来，继续优化树的其他部分，直到最终找到最佳计划。

分布式查询中的优化问题实例

在这里给大家列举一些在分布式系统中有别与单机系统中分布式查询中的优化问题的实例。

例1其实很简单，就是对于两个表进行join操作，T1已经按照a，b进行了分区；T2已经按照a进行了分区，join的条件就是T1.a=T2.a。一种方法因为T1是按照a和b分区好的，join条件在a上面，所以需要对于T1按照a重新进行分区之后再与T2进行join。但是如果T1表非常大，远远大于T2表的规模，这时候就不想将T1按照重新进行分区，反而可以采用另一种方案，就是将T2作为一个整体，将T2的所有数据广播给T1每一个数据，因为join条件是在a上面做内连接，所以可以做这样的选择，这样就可以避免将很大的数据进行reshuffle。在这个场景中，如何去感知join的条件是关键。上图例子中的两个计划并不存在绝对的最优，而是需要根据的数据的大小、T2数据量以及T1数据分片的分布情况来决定哪一种方案才是最优解，对于这个问题在SIFMOD12上面有很多的论文进行了讨论，在此就不再展开详细的叙述。

再分享分布式优化问题的里另外一个例子，如图所示，T1和T2还是在a上面进行join，join完成之后会有一个条件限制T1.a>20，完成之后会进行project，并将完成的结果当做新的一列b，最终希望所有的结果是order by b的。T1和T2都是range partition好了，这里不是hash partition，而且因为已经进行了global sort，所以这里在做join的时候就可以利用到两个表之间的range partition boundary，而不需要重新reshuffle数据，比如目前已经知道大于20会在哪些分区里面出现，可以根据选择的boundary去读取相应的数据之后进行作为，可以尽量避免数据shuffling，在做完join之后，还会有一个用户定义方法，将这个方法出来的结果按照order by b的规则进行排序，假设这个foo()方法是单调递增的函数，这样就可以利用上面的条件也就是已经按照范围分区好了，经过join和foo()还能保存b的顺序，就不用引入一个exchange，可以直接order by b操作。这样就是分布式中的一个查询优化，也就是如果能够理解数据里面的分片，能够知道数据的分布式情况还能理解用户的自定义函数方法，以及这些方法通过什么样的途径与优化器进行互动，就可以对于分布式查询进行优化。这其实是通过了用户的Annotation就可以知道用户的方法具有什么样的特性，能够保持什么样的数据属性。

用户自定义函数UDF

在分布式系统特别是Non-SQL中需要大量的用户定义函数来进行扩展，因为很多查询过程不是像join和aggregate这么简单的，而需要对于很多比较独特的功能进行建模，所以需要用户自定义的函数实现。一旦有了用户自定义的函数，优化器往往难以理解UDF，那么优化的范围将会极大地受到限制，如上图中的中间黄色的节点包含了用户自定义的函数，但是可能系统并不知道这个函数所做的事情，那么在优化的时候就可能分成三个更小的可优化片段，在在三个小片段中进行进一步优化。如果优化器能够理解用户自定义的函数在做什么事情，那么就可以让优化器穿透UDF达到更大范围的优化。那么UDF有什么特性能够帮助优化器穿透它呢？其实可以分析UDF是不是Row-wise操作的，考虑它是不是一行一行处理，不存在跨行的，考虑UDF是不是单调函数，是不是在处理时有些列是不变的，也就是可以穿透的，它是不是可以保持数据分片或者保持排序，以及在Cost上面的一些信息，它的Selectivity高还是低，以及data distribution of output是多还是少等等都能优化器更好地优化，为优化器打开更大的优化空间，实现更加灵活的优化，帮助Cost模型选出更优的方案。这也是阿里巴巴目前在MaxCompute优化器上正在做的一些工作。

优化规则

MaxCompute基于代价的优化器做了大量的优化，实现如下图所示的各种优化，这里就不展叙述开了。可以从下图中看到在查询中有很多优化可以去做，这些所有的优化在整个系统引擎上面都是一个个算子，这些算子也在变化图，产生了很多个等价的树，由优化的引擎通过Cost模型去选择最佳的方案。

Cost模型

什么是Cost模型呢？其实Cost模型最需要关注的就是本身的代价模型。每个Cost模型都需要关注于局部，比如input是什么样的Cost，经过join之后又会得到什么样的Cost，而不需要关注于全局，全局方案的Cost则是由引擎通过累计得到的整体Cost。好的Cost模型力求能够反映客观的物理实现，Cost模型不需要得到和真实一模一样，Cost模型的最终目的是希望区别方案的优劣，只需要能够选出较优的计划，并不需要Cost的绝对值具有什么样的特性。现在传统的数据库的Cost模型还是很早以前的模型，就算硬件结构已经发生了变化，只要还是冯诺依曼体系结构，架构没有发生改变，Cost模型就可以用于选择最优的方案。

其实优化器还有很多其他方面的因素可以考虑，比如在规则方面，需要根据规则进行等价的变换，最后根据Cost模型选取最优的方案。随着逻辑计划规模的变大，如果枚举所有可能的方案就会极大地耗费时间，特别是在MaxCompute上希望逻辑执行计划越大越好，因为这样就能给优化引擎更大的空间，但是这就带来当枚举所有的计划时，有些枚举的计划其实是不必要的，可能已经处于在一个不优化的情况下了。所以如何去做有效的剪枝，如何去避免不必要的探索空间，也是实现一个好的优化器所需要考虑的。另外对探索空间的选择，可以将时间用在最有可能是最优化的计划的空间上面，这可能是一个比较好的选择，因为不能希望通过NP-hard的时间去选择最优的计划，而应该希望在有限的时间内选取比较好的执行计划，所以在优化领域中其实不一定需要寻找最佳的方案，而是要避免最差的方案，因为在优化上面总会存在时间约束。

为什么基于代价的优化器对于MaxCompute平台越来越重要了呢？

这是因为阿里巴巴希望能从Hive的一条条查询语句中走出来，提供更加复杂的存储过程。在上图中有一个展示，可以通过变量赋值以及预处理if-else编写出更加复杂的查询过程和存储过程，而基于规则的优化器会因为贪婪算法而越走越偏，最终很可能得不到全局最优方案，而逻辑计划的复杂化使得可以优化的空间变大了，但是同时也使得对于优化器的要求变得更高，所以需要更好的基于代价的优化器帮助选择比较好的执行计划。而在分布式以及Non-SQL等新型的场景下，使用基于代价的优化器有别于传统单机优化器的方式，所以需要有对于数据、运算和用户更加深刻的理解来使得基于代价的优化器更加智能。

理解数据

那么展开来看，什么叫做理解数据呢。在数据格式方面，理解数据需要对于更多的数据索引以及异构的数据类型进行理解，对于结构化的数据、非结构化的数据以及半结构化的数据都进行理解，而在大数据的场景里面数据是有一些Power-law属性的，有百万稀疏列的表格，需要在这样的场景下实现一个更好的优化；理解数据也需要理解丰富的数据分片方式，这是在分布式场景中才有的，数据分片可以是Range/Hash/DirectHash的，而存储可以是Columnstorage/Columngrouping的，还需要用Hierarchy Partition来进行分级分区；还会需要理解完善的数据统计信息和运行时数据，需要理解Histogram、Distinct value以及Data Volume等等。

理解运算

从理解运算方面，需要更加理解用户自定义的函数，能够与优化器进行互动，更够让用户通过Annotation的方式显示在运算中数据的属性上具有的特性，使得可以进行全局范围的优化。在运行时也会进行更多的优化，比如会在中间运行到一定阶段时需要判断数据量的大小，根据数据量的大小进行并行化的选择，并根据数据的位置选择网络拓扑上的优化策略。还可以做实时性，规模性，性能，成本，可靠性之间的平衡，并且使用网络Shuffling做内存计算以及流计算等。

理解用户

从理解用户的角度，需要理解在优化器上的用户场景，理解多租户场景下用户对规模，性能，延时以及成本不同需求等，并在这样的场景下让优化器选取最佳的方案；在生态上面，优化器是核心的优化引擎，希望能够在语言上面更多地开放，希望能与更多的语言和生态进行对接，也希望能够提供强大的IDE能来为开发者提供完整的开发体验；最后希望能够在统一的平台上提供多种运算的模式，使得优化器真正能够成为运算的大脑。

原文链接：https://yq.aliyun.com/articles/72240?spm=a2c41.11181499.0.0

开源大模型性能追平闭源模型技术路径分析 Mr' 郑开源
（预测实现时间：2025Q2）开源模型进化路径MoE架构稀疏训练分布式RLHF2024突破2023现状2025超越性能反超一、现状对比与瓶颈分析（2024Q3）1.核心差距量化指标能力维度闭源模型均值开源模型均值差距比例复杂推理(MMLU)86.7%79.2%8.7%代码生成(HumanEval)89.1%81.4%8.5%长文本理解(NarrativeQA)82.3%73.9%10.2%多模态理
Memcached服务器UDP反射放大攻击 weixin_30639719 memcached 网络操作系统
1、前言2月28日，Memcache服务器被曝出存在UDP反射放大攻击漏洞。攻击者可利用这个漏洞来发起大规模的DDoS攻击，从而影响网络正常运行。漏洞的形成原因为Memcache服务器UDP协议支持的方式不安全、默认配置中将UDP端口暴露给外部链接。2、原理分析这个漏洞的攻击方式属于DRDOS(DistributedReflectionDenialofService)分布式反射拒绝服务攻击。DRD
【大数据安全分析】网络异常相关安全分析场景扫地僧009 大数据安全分析网络安全大数据 web安全
引言在当今数字化时代，网络安全面临着前所未有的挑战。随着信息技术的飞速发展，网络环境变得日益复杂，各种网络攻击手段层出不穷。在大数据安全分析领域，威胁情报关联和账号异常分析已经取得了较好的效果，而网络异常分析同样具有重要的价值。网络异常相关安全分析场景丰富多样，通过对这些场景的深入研究和分析，可以及时发现潜在的网络安全威胁，采取有效的防范措施，保障网络系统的安全稳定运行。本文将详细介绍网络异常相关
ELK架构基础 skyQAQLinux linux elk
ELK知识点一、Elasticsearch（一）基本概念分布式搜索引擎基于Lucene的分布式、RESTful风格的搜索和分析引擎，能快速存储、搜索和分析海量数据。索引（Index）类似于传统数据库中的数据库，是文档的集合。一个Elasticsearch集群可包含多个索引。类型（Type）在Elasticsearch6.x之前，一个索引可包含多个类型，类似数据库中的表。从7.x开始，类型被废弃，一
国标GB28181网页直播平台EasyGBS国标GB28181软件与GB28181应用场景分析科技小E 音视频视频监控安全
随着5G、AI、云计算、大数据、物联网等新兴技术的快速发展，各行各业都在积极探索智能化、现代化的管理与运营模式。国标GB28181网页直播平台EasyGBS作为一款基于国标GB28181协议的视频云服务平台，凭借其强大的功能和广泛的应用场景，在众多领域中展现出了独特的优势。一、EasyGBS场景智慧交通在交通视频监控领域，通过搭建全套的国标系统，可满足GB/T28181的要求，实现和公安网的对接。
《小区综合管理服务平台设计与实现》任务书 zp8126 毕业设计任务书论文
任务书项目名称小区综合管理服务平台设计与实现项目背景随着信息技术的发展，社区服务逐渐向数字化、智能化方向转型。为了提高居民生活质量，增强物业管理效率，减少人力成本，构建一个高效便捷的小区综合管理服务平台显得尤为重要。本项目旨在通过结合云计算、大数据分析等技术手段，为用户提供包括但不限于物业报修、费用缴纳、公告通知、安防监控等功能在内的全方位服务体验。一、课题主要内容1.需求分析目标用户群体：明确平
Ubuntu 上安装和配置 Apache RocketMQ 4.7.1 java 凯 ubuntu apache rocketmq
在Ubuntu上安装和配置ApacheRocketMQ4.7.1需要以下步骤。RocketMQ是一个分布式消息队列系统，通常需要安装Namesrv（NameServer）和Broker组件。1.系统准备更新系统和安装依赖运行以下命令更新系统并安装必要的依赖项：sudoaptupdate&&sudoaptupgrade-ysudoaptinstall-yopenjdk-8-jdkwgetunzipR
Linux系统编程：网络编程与Socket通信详解 Dev-Kilig Linux linux 网络运维
引言网络编程是Linux系统编程的核心内容之一，而Socket是实现网络通信的基石。无论是Web服务器、即时通讯工具还是分布式系统，都依赖于Socket进行数据传输。本文将深入讲解Socket编程的基本概念，并通过C语言实现一个完整的TCP客户端-服务器通信示例，帮助初学者掌握网络编程的核心技能。一、Socket编程基础1.1什么是Socket？Socket（套接字）是网络通信的端点，用于在不同主
常见的几种设计模式（详细）——应用场景和实现方式 QiuYanping_ 设计模式单例模式观察者模式工厂方法模式装饰器模式策略模式责任链模式
文章目录单例模式应用实现工厂模式应用实现❓策略模式应用实现‍⚖️代理模式应用实现观察者模式（发布订阅模式）应用实现装饰器模式应用实现模版方法模式应用实现⛓️责任链模式应用实现单例模式整个程序运行过程中，类只有一个实例，减少内存消耗应用资源管理：需要共享的资源如数据库连接池、线程池等，确保只有一个实例管理这些资源全局配置：配置类日志记录器：在多线程或分布式环境中确保日志记录器唯一性实现实现时注意：构
深入HBase——引入黄雪超大数据基础 #深入HBase 大数据数据库 hbase
引入前面我们通过深入HDFS到深入MapReduce，从设计和落地，去深入了解了大数据最底层的基石——存储与计算是如何实现的。这个专栏则开始来看大数据的三驾马车中最后一个。通过前面我们对于GFS和MapReduce论文实现的了解，我们知道GFS在数据写入时，只对顺序写入有比较弱的一致性保障，而对于数据读取，虽然GFS支持随机读取，但在当时的硬件条件下，实际上也是支撑不了真正的高并发读取的；此外，M
人工智能爆火下，关于软件技术专业的发展思考 yzx991013 人工智能
软件技术专业作为信息技术领域的核心学科，其发展方向始终与技术进步和社会需求紧密相关。以下是软件技术专业未来发展的关键方向及学习建议：一、技术方向与前沿领域1.云原生与分布式架构方向：云原生技术（Kubernetes、Docker、Serverless）、微服务架构、分布式系统设计。原因：企业全面上云已成趋势，需要高效、弹性的云原生解决方案。学习建议：掌握AWS/Azure/GCP等云平台，学习服务
数字化转型三大核心要素：数据、技术、人才千千标寻大数据云计算人工智能 ai
数字化转型的三大核心要素——数据、技术和人才，是推动企业在数字经济时代取得成功的关键。数据数据是数字化转型的基础。高质量的数据能够为企业提供深刻的市场洞察和客户行为分析，帮助做出更明智的决策。通过有效管理和利用数据，企业可以优化运营流程，提升产品和服务质量，从而实现更高的效率和客户满意度。技术先进的技术支持是实现数字化转型的关键驱动力。无论是云计算、人工智能、大数据分析还是物联网，这些前沿技术的应
探索数据云的无缝桥梁：Apache Spark 与 Snowflake 的完美结合窦育培
探索数据云的无缝桥梁：ApacheSpark与Snowflake的完美结合spark-snowflakeSnowflakeDataSourceforApacheSpark.项目地址:https://gitcode.com/gh_mirrors/sp/spark-snowflake项目介绍在大数据处理的浩瀚宇宙中，Snowflake以其独特的云数据仓库能力闪耀，而ApacheSpark则是数据分析和
如何学BI大数据想做富婆大数据相关大数据 BI大数据
职业规划建议1.短期目标（1-2年）积累经验：通过实习或初级岗位（如数据分析师、商业分析师）积累经验。提升技能：深入学习SQL、Python、BI工具，掌握数据分析和可视化技能。建立作品集：完成个人项目或参与开源项目，展示数据分析能力。2.中期目标（3-5年）专业化发展：根据兴趣选择细分方向，如数据可视化、BI开发或数据运营。提升软技能：加强沟通、项目管理能力，提升商业敏感度。行业深耕：选择感兴趣
Seata分布式事务失败通知 huan_1993 seata seata 分布式事务分布式事务 seata失败通知分布式事务失败通知
一、背景在我们使用Seata作为分布式事务时，有些时候我们的分布式时候并不是每次都可以成功的，而对于这些失败的分布式事务就需要进行通知。这篇文章简单记录一下如何实现通知。二、功能实现此处模拟邮件通知，但是不真正发送邮件，只是简单记录一个日志。三、注意事项1、假设我们的分布式事务回滚失败，在AT模式中是会锁定表记录数据的。后期需要获取这条记录的全局锁操作，都会失败。举例：假设存在如下数据表记录数据账
[转载] awesome big data weixin_30343157 javascript java runtime ViewUI
原文:https://github.com/onurakpolat/awesome-bigdata#graph-data-model作者把分布式领域相关的大部分开源项目和论文分类整理了一遍,造福人类啊.AwesomeBigDataAcuratedlistofawesomebigdataframeworks,resourcesandotherawesomeness.Inspiredbyawesome
Mongodb快速上手是小V呀中间件 mongodb 数据库文档型数据库中间件
1.1Mongodb介绍官网：https://www.mongodb.com/中文官网：https://www.mongodb.com/zh-cn中文文档：https://www.mongodb.com/zh-cn/docs/MongoDB是一个开源的NoSQL数据库，采用文档导向（Document-Oriented）的存储方式，基于分布式架构，适合存储大量结构化或半结构化数据。通过灵活的sche
【Redis存在线程安全问题吗？】 @Corgi Java面试题 redis 面试题线程安全 java
Redis存在线程安全问题吗？Redis的线程安全性概述Redis线程安全性的挑战Redis线程安全性的示例示例1：客户端并发访问导致的问题示例2：分布式环境下的问题解决Redis线程安全问题的建议总结Redis的线程安全性概述Redis本身是一个单线程的键值存储数据库，它使用单线程模型来处理客户端请求。在Redis服务器内部，由于一次只有一个请求在处理，因此Redis的数据操作是原子的，这从根本
Redis系列学习文章分享---第六篇（Redis实战篇--Redis分布式锁+实现思路+误删问题+原子性+lua脚本+Redisson功能介绍+可重入锁+WatchDog机制+multiLock）码农阿豪@新空间 Redis系列疑难杂症解决方案 redis 分布式 lua
个人名片作者简介：java领域优质创作者个人主页：码农阿豪工作室：新空间代码工作室（提供各种软件服务）个人邮箱：[2435024119@qq.com]个人微信：15279484656个人导航网站：www.forff.top座右铭：总有人要赢。为什么不能是我呢？专栏导航：码农阿豪系列专栏导航面试专栏：收集了java相关高频面试题，面试实战总结️Spring5系列专栏：整理了Spring5重要知识点与
ClickHouse创建分布式表期待着2013 clickhouse 数据库
ClickHouse创建分布式表当数据量剧增的时候，clickhouse是采用分片的方式进行数据的存储的，类似于redis集群的实现方式。然后想进行统一的查询的时候，因为涉及到多个本地表，可以通过分布式表的方式来提供统一的入口。由于是涉及到分布式存储，保证高可用就必须有数据冗余—即副本(replica)。Clickhouse依靠ReplicatedMergeTree引擎族与Zookeeper实现了
华为昇腾部署 DeepSeek-R1 (671B) 大模型实战指南歌刎模型部署最前沿的大模型训练部署实践手册华为服务器 ai 人工智能 AIGC
概述本指南详细讲解如何在华为昇腾Atlas800IA2服务器集群上部署DeepSeek-R1671B大模型，涵盖从环境准备到服务化部署的全流程。通过本教程，您将掌握：模型权重转换与量化方法昇腾专用镜像的使用技巧多机分布式推理配置生产级服务化部署方案一、部署前准备1.1硬件要求部署类型服务器配置显存要求BF16推理4台Atlas800IA28*64GBW8A8量化推理2台Atlas800IA28*6
5. clickhouse 单节点多实例部署 Toroidals 大数据组件安装部署教程 clickhouse 单节点多实例伪分布安装部署
环境说明：主机名：cmc01为例操作系统：centos7安装部署软件版本部署方式centos7zookeeperzookeeper-3.4.10伪分布式hadoophadoop-3.1.3伪分布式hivehive-3.1.3-bin伪分布式clickhouse21.11.10.1-2单节点多实例dolphinscheduler3.0.0单节点kettlepdi-ce-9.3.0.0单节点sqoop
SpringBoot分布式应用程序和数据库在物理位置分配上、路由上和数量上的最佳实践是什么？陈老师还在写代码 SpringBoot100问 spring boot 数据库后端
在设计和部署SpringBoot分布式应用程序时，物理位置分配、路由和数据库数量的最佳实践对系统性能、可用性和可维护性至关重要。以下是相关建议：1.物理位置分配最佳实践：靠近用户部署：将应用实例部署在靠近用户的数据中心，减少延迟，提升响应速度。多区域部署：在多个地理区域部署应用实例，确保高可用性和灾难恢复能力。CDN使用：通过CDN分发静态资源，进一步降低延迟。2.路由最佳实践：负载均衡：使用负载
mysql、redis和MongoDB三大数据库的优点和区别 DreamCity07 mongodb 数据库 mysql
NoSQL的全称是NotOnlySQL，也可以理解非关系型的数据库，是一种新型的革命式的数据库设计方式，不过它不是为了取代传统的关系型数据库而被设计的，它们分别代表了不同的数据库设计思路。MongoDB：它是一个内存数据库，数据都是放在内存里面的。对数据的操作大部分都在内存中，但MongoDB并不是单纯的内存数据库。MongoDB是由C++语言编写的，是一个基于分布式文件存储的开源数据库系统。在高
推荐一款高效C++ JSON-RPC框架——libjson-rpc-cpp 卢红梓
推荐一款高效C++JSON-RPC框架——libjson-rpc-cpp项目地址:https://gitcode.com/gh_mirrors/li/libjson-rpc-cpp在当今的分布式系统中，远程过程调用（RPC）扮演着至关重要的角色，它允许跨网络进行无缝通信。今天，我要向大家介绍一个强大且灵活的C++库，用于实现JSON-RPC2.0和1.0协议的libjson-rpc-cpp。项目简
制造企业智慧物流架构解决方案有限无限资料库智能制造数字化制造架构
本文档主要内容如下：1.物流4.0与智慧物流物流4.0：作为工业4.0的重要组成部分，物流4.0强调通过信息化和智能化手段，实现物流供应链的高效协同和优化。智慧物流：利用物联网、大数据、云计算等技术，实现物流过程的自动化、智能化和可视化，提升物流效率和服务质量。2.未来企业核心竞争力：高效物流供应链协同核心环节：涵盖采购物流、生产物流、销售物流、供应网络、智能制造和分销网络。目标：通过高效的供应链
远程分布式 IO 模块中的数字量模块：工业自动化的 “神经末梢” 明达技术分布式自动化运维
在工业自动化的宏大舞台上，远程分布式IO模块正扮演着越来越关键的角色，而其中的数字量模块更是如同“神经末梢”，敏锐地感知和传递着工业生产中的各种状态信息。今天，就让我带您走进远程分布式IO模块中数字量模块的世界，揭开它神秘的面纱。数字量模块：精准感知与传递的使者数字量，简单来说，就是只有两种状态的量，比如开关的开与关、电机的启动与停止、阀门的打开与关闭等。数字量模块的核心任务，就是准确地采集这些数
分布式存储--大规模订单架构设计梦江河大数据分布式订单系统大数据
架构一：MySQL+HBase+ElasticsearchMySQL存储实时订单，HBase存储历史订单，Elasticsearch实现订单的多维度搜索。架构复杂，运维维护成本高架构二：MySQL+TablestoreTablestore其实是HBase+Elasticsearch，既能存储大量数据，也能全文搜索架构三：分布式数据库TiDB+全文搜索功能参考文章
Redis在京东到家的订单中的使用 weixin_33948416 数据库 java 大数据
背景Redis作为一款性能优异的内存数据库，在互联网公司有着多种应用场景，下面介绍下Redis在京东到家的订单列表中的使用场景。主要从以下几个方面来介绍：订单列表在Redis中的存储结构Redis和DB数据一致性保证Redis中的分布式锁缓存防穿透和雪崩订单列表在Redis中的存储结构订单列表数据在缓存中，是以用户的唯一标识作为键，以一个按下单时间倒序的有序集合为值进行存储的。大家都知道Redis
Zookeeper（21）Zookeeper的架构组成有哪些？辞暮尔尔-烟火年年微服务 zookeeper 架构分布式
Zookeeper是一个分布式协调服务，常用于分布式应用程序中，提供一致性、高可用性和可靠性。Zookeeper的架构主要由以下几个部分组成：客户端（Client）：客户端是与Zookeeper服务器进行交互的实体。客户端通过ZookeeperAPI进行连接、读写数据和注册Watcher等操作。服务器（Server）：Zookeeper集群中的每个节点都是一个服务器。服务器有三种角色：Leader
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在

MaxCompute理解数据、运算和用户的大脑：基于代价的优化器

你可能感兴趣的:(大数据,分布式)