西山创罪梦不觉

“数仓”-MPP与 MR的区别

5G场景网络数据延时的URLLC

MPP:多数据快速，单点并行查询秒级。

MR:分布式任务查询，海量数据小时级。

mpp计算引擎--simd (单指令多源数)

--ssvm(动态编译)

--smp(算子并行)

--llmp()

一、大数据处理框架

主流的大数据处理框架包括以下三类五种：

1、仅批处理框架：Apache Hadoop

2、仅流处理框架：Apache Storm、Apache Samza

3、混合框架：Apache Spark、Apache Flink

处理框架相比处理引擎，处理引擎为实际处理数据操作的组件，而处理框架为承担类似作用的一系列组件。如Apache Hadoop可以看作一种以MapReduce作为默认处理引擎的处理框架，另一个框架Apache Spark可以纳入Hadoop并取代MapReduce。组件之间的这种互操作性是大数据系统灵活性如此之高的原因之一。

1、批处理框架

批处理主要操作大容量静态数据集，并在计算过程完成后返回结果。批处理模式中使用的数据集通常符合下列特征：

· 有界：批处理数据集代表数据的有限集合

· 持久：数据通常始终存储在某种类型的持久存储位置中

· 大量：批处理操作通常是处理极为海量数据集的唯一方法

批处理非常适合需要访问全套记录才能完成的计算工作。需要处理大量数据的任务通常最适合用批处理操作进行处理。无论直接从持久存储设备处理数据集，或首先将数据集载入内存，批处理系统在设计过程中就充分考虑了数据的量，可提供充足的处理资源。由于批处理在应对大量持久数据方面的表现极为出色，因此经常被用于对历史数据进行分析。大量数据的处理需要付出大量时间，因此批处理不适合对处理时间要求较高的场合。

Hadoop的处理功能来自MapReduce引擎。MapReduce的处理技术符合使用键值对的map、shuffle、reduce算法要求。基本处理过程包括：

· 从HDFS文件系统读取数据集

· 将数据集拆分成小块并分配给所有可用节点

· 针对每个节点上的数据子集进行计算（计算的中间态结果会重新写入HDFS）

· 重新分配中间态结果并按照键进行分组

· 通过对每个节点计算的结果进行汇总和组合对每个键的值进行“Reducing”

· 将计算而来的最终结果重新写入 HDFS

由于这种方法严重依赖持久存储，每个任务需要多次执行读取和写入操作，因此速度相对较慢。但另一方面由于磁盘空间通常是服务器上最丰富的资源，这意味着MapReduce可以处理非常海量的数据集。同时也意味着相比其他类似技术，Hadoop的MapReduce通常可以在廉价硬件上运行，因为该技术并不需要将一切都存储在内存中。MapReduce具备极高的缩放潜力，生产环境中曾经出现过包含数万个节点的应用。MapReduce的学习曲线较为陡峭，虽然Hadoop生态系统的其他周边技术可以大幅降低这一问题的影响，但通过Hadoop集群快速实现某些应用时依然需要注意这个问题。围绕Hadoop已经形成了辽阔的生态系统，Hadoop集群本身也经常被用作其他软件的组成部件。很多其他处理框架和引擎通过与Hadoop集成也可以使用HDFS和YARN资源管理器。

2、流处理框架

流处理系统会对随时进入系统的数据进行计算。流处理方式无需针对整个数据集执行操作，而是对通过系统传输的每个数据项执行操作。流处理中的数据集是“无边界”的，这就产生了几个重要的影响：

· 完整数据集只能代表截至目前已经进入到系统中的数据总量。

· 工作数据集也许更相关，在特定时间只能代表某个单一数据项。

处理工作是基于事件的，除非明确停止否则没有“尽头”。处理结果立刻可用，并会随着新数据的抵达继续更新。流处理系统可以处理几乎无限量的数据，但同一时间只能处理一条（真正的流处理）或很少量（微批处理，Micro-batch Processing）数据，不同记录间只维持最少量的状态。虽然大部分系统提供了用于维持某些状态的方法，但流处理主要针对副作用更少，更加功能性的处理（Functional processing）进行优化。

Apache Storm是一种侧重于极低延迟的流处理框架，也许是要求近实时处理的工作负载的最佳选择。该技术可处理非常大量的数据，通过比其他解决方案更低的延迟提供结果。Storm的流处理可对框架中名为Topology（拓扑）的DAG（Directed Acyclic Graph，有向无环图）进行编排。这些拓扑描述了当数据片段进入系统后，需要对每个传入的片段执行的不同转换或步骤。Storm可与Hadoop的YARN资源管理器进行集成，因此可以很方便地融入现有Hadoop部署。除了支持大部分处理框架，Storm还可支持多种语言，为用户的拓扑定义提供了更多选择。

Apache Samza是一种与Apache Kafka消息系统紧密绑定的流处理框架。虽然Kafka可用于很多流处理系统，但按照设计，Samza可以更好地发挥Kafka独特的架构优势和保障。该技术可通过Kafka提供容错、缓冲，以及状态存储。Samza可使用YARN作为资源管理器。这意味着默认情况下需要具备Hadoop集群（至少具备HDFS和YARN），但同时也意味着Samza可以直接使用YARN丰富的内建功能。

3、混合处理框架

可同时处理批处理和流处理工作负载。这些框架可以用相同或相关的组件和API处理两种类型的数据，借此让不同的处理需求得以简化。混合框架意在提供一种数据处理的通用解决方案。这种框架不仅可以提供处理数据所需的方法，而且提供了自己的集成项、库、工具，可胜任图形分析、机器学习、交互式查询等多种任务。

Apache Spark是一种包含流处理能力的下一代批处理框架。与Hadoop的MapReduce引擎基于各种相同原则开发而来的，Spark主要侧重于通过完善的内存计算和处理优化机制加快批处理工作负载的运行速度。Spark可作为独立集群部署（需要相应存储层的配合），或可与Hadoop集成并取代MapReduce引擎。与MapReduce不同，Spark的数据处理工作全部在内存中进行，只在一开始将数据读入内存，以及将最终结果持久存储时需要与存储层交互。所有中间态的处理结果均存储在内存中。虽然内存中处理方式可大幅改善性能，Spark在处理与磁盘有关的任务时速度也有很大提升，因为通过提前对整个任务集进行分析可以实现更完善的整体式优化。为此Spark可创建代表所需执行的全部操作，需要操作的数据，以及操作和数据之间关系的Directed Acyclic Graph（有向无环图），即DAG，借此处理器可以对任务进行更智能的协调。为了实现内存中批计算，Spark会使用一种名为Resilient Distributed Dataset（弹性分布式数据集），即RDD的模型来处理数据。这是一种代表数据集，只位于内存中，永恒不变的结构。针对RDD执行的操作可生成新的RDD。每个RDD可通过世系（Lineage）回溯至父级RDD，并最终回溯至磁盘上的数据。Spark可通过RDD在无需将每个操作的结果写回磁盘的前提下实现容错。流处理能力是由Spark Streaming实现的。Spark本身在设计上主要面向批处理工作负载，为了弥补引擎设计和流处理工作负载特征方面的差异，Spark实现了一种叫做微批（Micro-batch）*的概念。在具体策略方面该技术可以将数据流视作一系列非常小的“批”，借此即可通过批处理引擎的原生语义进行处理。Spark Streaming会以亚秒级增量对流进行缓冲，随后这些缓冲会作为小规模的固定数据集进行批处理。这种方式的实际效果非常好，但相比真正的流处理框架在性能方面依然存在不足。

Apache Flink是一种可以处理批处理任务的流处理框架。该技术可将批处理数据视作具备有限边界的数据流，借此将批处理任务作为流处理的子集加以处理。为所有处理任务采取流处理为先的方法会产生一系列有趣的副作用。这种流处理为先的方法也叫做Kappa架构，与之相对的是更加被广为人知的Lambda架构（该架构中使用批处理作为主要处理方法，使用流作为补充并提供早期未经提炼的结果）。Kappa架构中会对一切进行流处理，借此对模型进行简化，而这一切是在最近流处理引擎逐渐成熟后才可行的。Flink的流处理模型在处理传入数据时会将每一项视作真正的数据流。Flink提供的DataStream API可用于处理无尽的数据流。Flink的批处理模型在很大程度上仅仅是对流处理模型的扩展。此时模型不再从持续流中读取数据，而是从持久存储中以流的形式读取有边界的数据集。Flink会对这些处理模型使用完全相同的运行时。Flink可以对批处理工作负载实现一定的优化。例如由于批处理操作可通过持久存储加以支持，Flink可以不对批处理工作负载创建快照。数据依然可以恢复，但常规处理操作可以执行得更快。另一个优化是对批处理任务进行分解，这样即可在需要的时候调用不同阶段和组件。借此Flink可以与集群的其他用户更好地共存。对任务提前进行分析使得Flink可以查看需要执行的所有操作、数据集的大小，以及下游需要执行的操作步骤，借此实现进一步的优化。

二、大数据计算引擎

计算引擎就是一种计算规则的高度抽象聚合体，使用者按照指定的方式编写对应接口代码，然后执行就能得到需要的结果（前提没有bug）。大数据计算场景分为两种：批处理（历史文件）和流处理（实时数据）处理：

1、批处理-Hadoop承载的MapReduce

它将计算分为两个阶段，分别为 Map（映射）和 Reduce（归约）。对于上层应用来说，就不得不想方设法去拆分算法，甚至于不得不在上层应用实现多个 Job 的串联，以完成一个完整的算法，例如迭代计算。

2、支持DAG计算的计算引擎

如Tez 和 Oozie，大多还是批处理的任务。hadoop2新增计算引擎，MapReduce是第二代，优化原有MapReduce框架结构，合并非必要计算过程，减少数据存储次数，执行时间大幅提升。

1个Tez = MR(1) + MR(2) + ... + MR(n)，Tez是Apache开源的支持DAG作业的计算框架，它直接源于MapReduce框架，核心思想是将Map和Reduce两个操作进一步拆分，即Map被拆分成Input、Processor、Sort、Merge和Output， Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等，这样，这些分解后的元操作可以任意灵活组合，产生新的操作，这些操作经过一些控制程序组装后，可形成一个大的DAG作业。总结起来，Tez有以下特点：
（1）Apache二级开源项目
（2）运行在YARN之上
（3）适用于DAG（有向图）应用（同Impala、Dremel和Drill一样，可用于替换Hive/Pig等）

3、内置DAG的计算引擎

Spark 为代表的第三代的计算引擎，特点主要是 Job 内部的 DAG 支持（不跨越 Job），以及实时计算，同时也能够很好的运行批处理的 Job。Spark不同于MapReducer只提供两种简单的编程接口，它提供了多种编程接口去操作数据，这些操作接口如果使用MapReduce去实现，需要更多的代码。Spark的操作接口可以分为两类：transformation（转换）和action（执行）。Transformation包含map、flatmap、distinct、reduceByKey和join等转换操作；Action包含reduce、collect、count和first等操作。

在批处理方面相比于MapReduce处理同样的数据，Spark所要求的硬件设施更高，MapReduce在相同的设备下所能处理的数据量会比Spark多。所以在实际工作中，Spark在批处理方面只能算是MapReduce的一种补充。Spark可以使用YARN作为资源管理器，Spark也可以处理Hbase和HDFS上的数据。

4、流批处理计算引擎

“Flink是一个大数据量处理的统一的引擎”。这个“统一的引擎”包括流处理、批处理、AI、MachineLearning、图计算等等。主要表现在 Flink 对流计算的支持，以及更一步的实时性上面。当然 Flink 也可以支持 Batch 的任务，以及 DAG 的运算。

没有哪一个框架可以完美的支持所有的场景，也就不可能有任何一个框架能完全取代另一个，就像 Spark 没有完全取代 Hadoop，当然 Flink 也不可能取代 Spark。

三、HIVE计算引擎的工作原理

1、MR计算引擎

Map在读取数据时，先将数据拆分成若干数据，并读取到Map方法中被处理。数据在输出的时候，被分成若干分区并写入内存缓存（buffer）中，内存缓存被数据填充到一定程度会溢出到磁盘并排序，当Map执行完后会将一个机器上输出的临时文件进行归并存入到HDFS中。

当Reduce启动时，会启动一个线程去读取Map输出的数据，并写入到启动Reduce机器的内存中，在数据溢出到磁盘时会对数据进行再次排序。当读取数据完成后会将临时文件进行合并，作为Reduce函数的数据源。

2、Tez计算引擎

Apache Tez是进行大规模数据处理且支持DAG作业的计算框架，它直接源于MapReduce框架，除了能够支持MapReduce特性，还支持新的作业形式，并允许不同类型的作业能够在一个集群中运行。

Tez将原有的Map和Reduce两个操作简化为一个概念——Vertex，并将原有的计算处理节点拆分成多个组成部分：Vertex Input、Vertex Output、Sorting、Shuffling和Merging。计算节点之间的数据通信被统称为Edge，这些分解后的元操作可以任意灵活组合，产生新的操作，这些操作经过一些控制程序组装后，可形成一个大的DAG作业。

通过允许Apache Hive运行复杂的DAG任务，Tez可以用来处理数据，之前需要多个MR jobs，现在一个Tez任务中。

3、Spark计算引擎

Spark是继Hadoop之后的下一代分布式内存计算引擎，于2009年诞生于加州大学伯克利分校AMPLab实验室，现在主要由Databricks公司进行维护（公司创始员工均来自AMPLab）。

Apache Spark是专为大规模数据处理而设计的快速、通用支持DAG（有向无环图）作业的计算引擎，类似于Hadoop MapReduce的通用并行框架，可用来构建大型的、低延迟的数据分析应用程序。

Spark 是基于内存的分布式批处理引擎，它最大的特点是延迟小，具有很高的容错性和可拓展性，它和其他引擎的最大的区别在于，它支持进行迭代计算， Spark 主要适用的场景在低延迟的迭代计算中，它和传统的数据处理引擎最大的不同，在于 Spark 会将计算中的临时文件或者临时数据存放在内存中，这样在进行反复的引用时，就不需要再从磁盘中进行数据读取，而是选择更快的内存进行该操作。那么相比于传统 Hadoop 架构，Spark 理论速度会高于 Hadoop100 倍以上，但是，这个参数是有条件的，在迭代的层级较少的时候，这个差距并不明显，还有可能 Spark 的计算速度没有 hadoop 快，但是当反复的重复引用和迭代层数多以后，这个差距就会越来越明显。

Spark具有以下几个特性。
1．高效性
Spark会将作业构成一个DAG，优化了大型作业一些重复且浪费资源的操作，对查询进行了优化，重新编写了物理执行引擎，如可以实现MRR模式。
2．易用性
Spark不同于MapReducer只提供两种简单的编程接口，它提供了多种编程接口去操作数据，这些操作接口如果使用MapReduce去实现，需要更多的代码。Spark的操作接口可以分为两类：transformation（转换）和action（执行）。Transformation包含map、flatmap、distinct、reduceByKey和join等转换操作；Action包含reduce、collect、count和first等操作。
3．通用性
Spark针对实时计算、批处理、交互式查询，提供了统一的解决方案。但在批处理方面相比于MapReduce处理同样的数据，Spark所要求的硬件设施更高，MapReduce在相同的设备下所能处理的数据量会比Spark多。所以在实际工作中，Spark在批处理方面只能算是MapReduce的一种补充。
4．兼容性
Spark和MapReduce一样有丰富的产品生态做支撑。例如Spark可以使用YARN作为资源管理器，Spark也可以处理Hbase和HDFS上的数据。
扩展：Spark On YARN提供了两种提交作业的模式：YARN Client和YARN Cluster。两个模式在运行计算节点，完成数据从读入、处理、输出的过程基本一样。不同的是，YARN Client作业的监控管理放在提交作业所在的节点，YARN Cluster则是交给YARN去决定，YARN会根据集群各个节点资源的使用情况，选择最为合适的节点来存放作业监控和管理进程。YARN Client一般用于测试，YARN Cluster用于实际生产环境。

RDD：

Spark提出了一个数据集抽象概念RDD，即弹性分布式数据集，它是一个只读的、带分区的数据集合，并支持多种分布式算子。RDD是Spark计算引擎的核心，具有以下几个特点：
（1）分布在集群中的只读对象集合，由多个Partition构成，这些Partition可能存储在不同机器上。
（2）RDD可以存储在磁盘或内存中，Partition可全部存储在内存或磁盘上，也可以部分在内存中，部分在磁盘上。
（3）通过并行“转换”操作构造：Spark提供了大量API听过并行的方式构造和生成RDD。
（4）失效后自动重构：RDD可通过一定计算方式转换成另外一种RDD，这种通过转换而产生的RDD关系称为“血统”。Spark通过记录RDD的血统，可了解每个RDD的产生方式，进而能够通过重算的方式构造因机器故障或磁盘损坏而丢失的RDD数据。
RDD只是一个逻辑概念，它可能并不对应磁盘或内存中的物理数据，而仅仅是记录了RDD的由来，RDD由五个部分组成：一组partition、每个partition的计算函数、所依赖的RDD列表、对于key-value类型的RDD包含一个partitioner（默认是hash）、计算每个partition所倾向的节点位置。
作用在RDD上的操作主要分为两类：transformation和action：transformation是转换的意思，主要作用为将一种RDD转换为另一类RDD。action是行动的意思，通过处理RDD得到一个或一组结果。

DAG：

Spark是一个通用的DAG引擎，这使得用户能够在一个应用程序中描述复杂的逻辑，以便于优化整个数据流，并让不同计算阶段直接通过本地磁盘或内存交换数据，而不是像MapReduce那样需要通过HDFS。

下面左图是MapReduce生成的DAG数据流，右图是Spark生成的DAG数据流。可以看出，Spark的实现要简洁的多，内部不同计算单元通过本地磁盘或内存交换数据，使得磁盘和网络IO的消耗更小，性能更加高效。

四、几种计算引擎的对比

1、Spark VS MapReduce

（1）spark是基于内存进行数据处理的，MapReduce是基于磁盘进行数据处理的
MapReduce的设计：中间结果保存在文件中，提高了可靠性，减少了内存占用。但是牺牲了性能。
Spark的设计：数据在内存中进行交换，要快一些，但是内存这个东西，可靠性不如磁盘。所以性能方面比MapReduce要好。
DAG计算模型在迭代计算上还是比MapReduce的效率更高
（2）spark中具有DAG有向无环图，DAG有向无环图在此过程中减少了shuffle以及落地磁盘的次数
Spark 计算比 MapReduce 快的根本原因在于 DAG 计算模型。一般而言，DAG 相比MapReduce 在大多数情况下可以减少 shuffle 次数。Spark 的 DAGScheduler 相当于一个改进版的 MapReduce，如果计算不涉及与其他节点进行数据交换，Spark 可以在内存中一次性完成这些操作，也就是中间结果无须落盘，减少了磁盘 IO 的操作。但是，如果计算过程中涉及数据交换，Spark 也是会把 shuffle 的数据写磁盘的！有一个误区，Spark 是基于内存的计算，所以快，这不是主要原因，要对数据做计算，必然得加载到内存，Hadoop 也是如此，只不过 Spark 支持将需要反复用到的数据给 Cache 到内存中，减少数据加载耗时，所以 Spark 跑机器学习算法比较在行（需要对数据进行反复迭代）。Spark 基于磁盘的计算也是比 Hadoop 快。刚刚提到了 Spark 的 DAGScheduler 是个改进版的 MapReduce，所以 Spark天生适合做批处理的任务。Hadoop 的 MapReduce 虽然不如 spark 性能好，但是 HDFS 仍然是业界的大数据存储标准。
（3）spark是粗粒度资源申请，也就是当提交spark application的时候，application会将所有的资源申请完毕，如果申请不到资源就等待，如果申请到资源才执行application，task在执行的时候就不需要自己去申请资源，task执行快，当最后一个task执行完之后task才会被释放。
优点是执行速度快，缺点是不能使集群得到充分的利用。
MapReduce是细粒度资源申请，当提交application的时候，task执行时，自己申请资源，自己释放资源，task执行完毕之后，资源立即会被释放，task执行的慢，application执行的相对比较慢。
优点是集群资源得到充分利用，缺点是application执行的相对比较慢。

MapReduce的缺陷：
1.仅支持Map和Reduce两种操作：由于MapReduce提供的编程结果比较低层次，因而实现一些常用的功能，如排序、分组等，需要编写大量的代码。
2.处理效率低：每次启动MapReduce均需要消耗大量资源，对于复杂的Hive Sql，需要拆解成多个MapReduce作业。
3.不适合迭代式和交互式计算：MapReduce是一种基于磁盘的分布式计算框架，追求的是高吞吐率而非高性能，因此在迭代式（机器学习）和交互式（点击日志分析）等场景下表现并不好。
Spark的特点：
1.高性能：Spark采用内存计算引擎，允许用户将数据放到内存中以加快数据读取；同时，Spark提供了更加通用的DAG计算引擎，使得数据可通过本地磁盘或内存流向不同的计算单元。
2.简单易用：Spark提供了丰富的高层次API，包括sortByKey、groupByKey等操作，并且提供了四种编程语言API：Scala、Python、Java和R，从代码量看，Spark比MapReduce少2~5倍。
3.与Hadoop完好集成：Spark作为新型框架，可以部署在YARN集群桑，读取和存储HDFS/HBase中的数据。

2、Tez VS MapReduce

Tez绕过了MapReduce很多不必要的中间的数据存储和读取的过程，直接在一个作业中表达了MapReduce需要多个作业共同协作才能完成的事情。
Tez和MapReduce一样都运行使用YARN作为资源调度和管理。但与MapReduce on YARN不同，Tez on YARN并不是将作业提交到ResourceManager，而是提交到AMPoolServer的服务上，AMPoolServer存放着若干已经预先启动ApplicationMaster的服务。
当用户提交一个作业上来后，AMPoolServer从中选择一个ApplicationMaster用于管理用户提交上来的作业，这样既可以节省ResourceManager创建ApplicationMaster的时间，而又能够重用每个ApplicationMaster的资源，节省了资源释放和创建时间。

相比MR，TEZ的计算效率有所提升。当查询需要有多个reduce逻辑时，Hive的MapReduce引擎会将计划分解，每个Redcue提交一个MR作业。这个链中的所有MR作业都需要逐个调度，每个作业都必须从HDFS中重新读取上一个作业的输出并重新洗牌。而在Tez中，几个reduce接收器可以直接连接，数据可以流水线传输，而不需要临时HDFS文件，这种模式称为MRR（Map-reduce-reduce*）。
Tez还允许一次发送整个查询计划，实现应用程序动态规划，从而使框架能够更智能地分配资源，并通过各个阶段流水线传输数据。对于更复杂的查询来说，这是一个巨大的改进，因为它消除了IO/sync障碍和各个阶段之间的调度开销。
在MapReduce计算引擎中，无论数据大小，在洗牌阶段都以相同的方式执行，将数据序列化到磁盘，再由下游的程序去拉取，并反序列化。Tez可以允许小数据集完全在内存中处理，而MapReduce中没有这样的优化。仓库查询经常需要在处理完大量的数据后对小型数据集进行排序或聚合，Tez的优化也能极大地提升效率。

3、Spark VS Tez

Spark与Tez都是以DAG方式处理数据，Spark更像是一个通用的计算引擎，提供内存计算、实时流处理、机器学习等多种计算方式，适合迭代计算。而Tez作为一个框架工具，特定为Hive和Pig提供批量计算。

Spark属于内存计算，支持多种运行模式，可以运行在standalone、yarn上，而Tez只能跑在yarn上，但是Spark不能与其他yarn应用跑在一起。Tez能解释释放资源，重用container，节省调度时间，对内存的要求不高，而Spark如果存在迭代计算，则container一直占用资源。如果需要快速且资源充足，则可以使用Spark，否则资源是瓶颈时选择Tez或者MR。

五、HIVE底层架构及编译过程

Hive 是数据仓库工具，再具体点就是一个 SQL 解析引擎，因为它即不负责存储数据，也不负责计算数据，只负责解析 SQL，记录元数据。Hive直接访问存储在 HDFS 中或者 HBase 中的文件，通过 MapReduce、Spark、 Tez 执行查询。
Hive本身是支持多种计算引擎的，无论底层的计算引擎是什么，一条SQL在Hive中的逻辑计划都是一样的，而根据不同的计算引擎，它生成的物理计划就会有所差别。比如Hive On Mr生成的物理计划更多描述的是Mapreduce的相关操作，Hive On Spark生成的物理计划更多描述Spark RDD的相关操作。

1、HIVE的底层架构

步骤1：UI 调用 DRIVER 的接口；

步骤2：DRIVER 为查询创建会话句柄，并将查询发送到 COMPILER(编译器)生成执行计划；

步骤3和4：编译器从元数据存储中获取本次查询所需要的元数据，该元数据用于对查询树中的表达式进行类型检查，以及基于查询谓词修建分区；

步骤5：编译器生成的计划是分阶段的DAG，每个阶段要么是 map/reduce 作业，要么是一个元数据或者HDFS上的操作。将生成的计划发给 DRIVER。如果是 map/reduce 作业，该计划包括 map operator trees 和一个 reduce operator tree，执行引擎将会把这些作业发送给 MapReduce ：

步骤6、6.1、6.2、6.3：执行引擎将这些阶段提交给适当的组件。在每个 task(mapper/reducer) 中，从HDFS文件中读取与表或中间输出相关联的数据，并通过相关算子树传递这些数据。最终这些数据通过序列化器写入到一个临时HDFS文件中（如果不需要 reduce 阶段，则在 map 中操作）。临时文件用于向计划中后面的 map/reduce 阶段提供数据。

步骤7、8、9：最终的临时文件将移动到表的位置，确保不读取脏数据(文件重命名在HDFS中是原子操作)。对于用户的查询，临时文件的内容由执行引擎直接从HDFS读取，然后通过Driver发送到UI。

2、HIVE的编译原理

Hive是如何将SQL转化为MapReduce任务的，整个编译过程分为六个阶段：

1、语法词法解析：Antlr定义SQL的语法规则，完成SQL词法，语法解析，将SQL转化为抽象语法树AST Tree；

2、语义解析：遍历AST Tree，抽象出查询的基本组成单元QueryBlock；

AST Tree生成后由于其复杂度依旧较高，不便于翻译为mapreduce程序，需要进行进一步抽象和结构化，形成QueryBlock。QueryBlock是一条SQL最基本的组成单元，包括三个部分：输入源，计算过程，输出。简单来讲一个QueryBlock就是一个子查询。QB的生成过程为一个递归过程，先序遍历 AST Tree ，遇到不同的Token 节点(理解为特殊标记)，保存到相应的属性中

3、生成逻辑执行计划：遍历QueryBlock，翻译为执行操作树OperatorTree；

Hive最终生成的MapReduce任务，Map阶段和Reduce阶段均由OperatorTree组成。逻辑操作符，就是在Map阶段或者Reduce阶段完成单一特定的操作。
基本的操作符包括TableScanOperator，SelectOperator，FilterOperator，JoinOperator，GroupByOperator，ReduceSinkOperator。ReduceSinkOperator将Map端的字段组合序列化为Reduce Key/value, Partition Key，只可能出现在Map阶段，同时也标志着Hive生成的MapReduce程序中Map阶段的结束。
Operator在MapReduce阶段之间的数据传递都是一个流式的过程。每一个Operator对一行数据完成操作后之后将数据传递给childOperator计算。由于Join/GroupBy/OrderBy均需要在Reduce阶段完成，所以在生成相应操作的Operator之前都会先生成一个ReduceSinkOperator，将字段组合并序列化为Reduce Key/value, Partition Key。

4、优化逻辑执行计划：逻辑层优化器进行OperatorTree变换，合并不必要的ReduceSinkOperator，减少shuffle数据量；

使用ReduceSinkOperator，减少shuffle数据量。大部分逻辑层优化器通过变换 OperatorTree ，合并操作符，达到减少 MapReduce Job ，减少 shuffle 数据量的目的。

Hive中的逻辑查询优化可以大致分为以下几类：
投影修剪
推导传递谓词
谓词下推：在join或聚合前提前进行数据过滤，减少参与join的数据量
将Select-Select，Filter-Filter合并为单个操作
多路 Join
查询重写以适应某些列值的Join倾斜

5、生成物理执行计划：遍历OperatorTree，翻译为MapReduce任务；

OperatorTree 转化为 Task tree的过程分为下面几个阶段：
对输出表生成 MoveTask；
从 OperatorTree 的其中一个根节点向下深度优先遍历；
ReduceSinkOperator 标示 Map/Reduce 的界限，多个 Job 间的界限；
遍历其他根节点，遇过碰到 JoinOperator 合并 MapReduceTask；
生成 StatTask 更新元数据；
剪断 Map 与 Reduce 间的 Operator 的关系；

6、优化物理执行计划：物理层优化器进行MapReduce任务的变换，生成最终的执行计划；

Hive中的物理优化可以大致分为以下几类：
分区修剪(Partition Pruning)；
基于分区和桶的扫描修剪(Scan pruning)；
如果查询基于抽样，则扫描修剪；
在某些情况下，在 map 端应用 Group By；
在 mapper 上执行 Join；
优化 Union，使Union只在 map 端执行；
在多路 Join 中，根据用户提示决定最后流哪个表；
删除不必要的 ReduceSinkOperators；
对于带有Limit子句的查询，减少需要为该表扫描的文件数；
对于带有Limit子句的查询，通过限制 ReduceSinkOperator 生成的内容来限制来自 mapper 的输出；
减少用户提交的SQL查询所需的Tez作业数量；
如果是简单的提取查询，避免使用MapReduce作业；
对于带有聚合的简单获取查询，执行不带 MapReduce 任务的聚合；
重写 Group By 查询使用索引表代替原来的表；
当表扫描之上的谓词是相等谓词且谓词中的列具有索引时，使用索引扫描；

六、MR实现HQL操作的原理（生成物理执行计划）

1、join的实现原理

在map的输出velue中为不同表的数据打上tag标记，在reduce阶段判断数据来源根据tag；

Map：
　　1、以 JOIN ON 条件中的列作为 Key，如果有多个列，则 Key 是这些列的组合
　　2、以 JOIN 之后所关心的列作为 Value，当有多个列时，Value 是这些列的组合。在 Value 中还会包含表的 Tag 信息，用于标明此 Value 对应于哪个表
　　3、按照 Key 进行排序
Shuffle：
　　1、根据 Key 的值进行 Hash，并将 Key/Value 对按照 Hash 值推至不同对 Reduce 中
Reduce：
　　1、 Reducer 根据 Key 值进行 Join 操作，并且通过 Tag 来识别不同的表中的数据

2、group by 的实现原理

将GroupBy的字段组合为map的输出key值，利用MapReduce的排序，在reduce阶段保存LastKey区分不同的key；

3、distinct的实现原理

当只有一个distinct字段时，如果不考虑Map阶段的Hash GroupBy，只需要将GroupBy字段和Distinct字段组合为map输出key，利用mapreduce的排序，同时将GroupBy字段作为reduce的key，在reduce阶段保存LastKey即可完成去重；

当有多个distinct字段时，对所有的distinct字段编号，每行数据生成n行数据，那么相同字段就会分别排序，这时只需要在reduce阶段记录LastKey即可去重。这种实现方式很好的利用了MapReduce的排序，节省了reduce阶段去重的内存消耗，但是缺点是增加了shuffle的数据量。需要注意的是，在生成reduce value时，除第一个distinct字段所在行需要保留value值，其余distinct数据行value字段均可为空；

4、order by的实现

只在reduce端执行，且1个order by 对应1个reducer。

你可能感兴趣的:(数仓,华为云)

华为物联网认证：开启万物互联的钥匙
在智能家居、智慧工厂、智慧城市逐渐普及的今天，物联网（IoT）技术成为推动数字化转型的核心力量。作为全球领先的ICT解决方案提供商，华为构建了完整的物联网技术认证体系，为行业输送专业人才。本文将带你客观了解华为物联网认证是什么、有哪些等级、以及考取的价值。一、什么是华为物联网认证？华为物联网认证是华为官方推出的物联网领域专业技术认证体系，聚焦物联网基础设施建设与开发能力培养。该认证基于华为云IoT
华为云挂载磁盘及初始化数据盘（Linux）_华为服务器怎么挂载硬盘 36氪（36Kr）频道首页程序员服务器 linux 华为云
Select(defaultp):pPartitionnumber(1-4,default1):接下来每步均使用默认值，直接按“Enter”。Partitionnumber(1-4,default1):Firstsector(2048-209715199,default2048):Usingdefaultvalue2048Lastsector,+sectorsor+size{K,M,G}(2048
如何在宝塔面板中配置SSL证书？奔跑吧邓邓子高效运维 ssl 服务器网络协议
提示：“奔跑吧邓邓子”的高效运维专栏聚焦于各类运维场景中的实际操作与问题解决。内容涵盖服务器硬件（如IBMSystem3650M5）、云服务平台（如腾讯云、华为云）、服务器软件（如Nginx、Apache、GitLab、Redis、Elasticsearch、Kubernetes、Docker等）、开发工具（如Git、HBuilder）以及网络安全（如挖矿病毒排查、SSL证书配置）等多个方面。无论
基于django+Spark+大数据+爬虫技术的国漫推荐与可视化平台设计和实现(源码+论文+部署讲解等) 阿勇学长大数据项目实战案例 Java精品毕业设计实例 Python数据可视化项目案例大数据 django spark 国漫推荐与可视化平台毕业设计 Java
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
HCCDA – AI华为云人工智能开发者认证-60道单选题题库及答案_华为人工智能入门级开发者认证题库 2401_89172925 人工智能华为云华为
单选题及答案AI模型的评测指标主要分为精度指标和性能指标，以下哪一项不属于常用的性能指标？A.FPS(FramesPerSecond)B.FLOPs(Floating-pointOperationsPerSecond)C.aPs（QueryPerSecond）D．F1值Mask＿Detection技能模板提供了口罩检测技能，针对每个人，若没有检测到人脸，也没有检测到口罩，则会显示什么信息？A.No
储能业 | 低成本部署！DolphinDB 打造抽水蓄能一体化解决方案 DolphinDB智臾科技物联网数据库大数据 DolphinDB 实时计算抽水蓄能电力
导语在电力行业抽水蓄电场景中，电力集团可以基于DolphinDB搭建轻量化实时数仓，有效破解高频数据写入、万亿级数据存储和秒级实时计算等核心难题。同时，该方案助力集团降本增效，提升运维效率，并实现对多个电站数据的统一管理与调度，加快数字化转型步伐。一、行业背景构建清洁低碳、安全高效的新型能源电力系统是实现“双碳”目标的一大关键任务。其中，抽水蓄能作为当前最成熟、最具规模化应用前景的物理储能技术，正
Android Studio flutter项目运行、打包时间太长小蜜蜂嗡嗡 android studio flutter android
AndroidStudio：AndroidStudioMeerkatFeatureDrop|2024.3.2Patch1flutterSdk：3.29.3系统：windowsfluttersdk从2.10.5升级到3.29.3，但是Flutter3.16开始新增了使用Gradle声明式plugins{}块，gradle文件配置方式改变了。而国内的阿里云、华为云等镜像仓库的更新并不是与google(
华为云welink考试试题_华为内部开启WeLink项目，华为云是这样考虑的-通信/网络-与非网... weixin_39820437 华为云welink考试试题
协同办公市场竞争激烈华为云WeLink是华为旗下智能工作平台，它融合消息，邮件，会议、音视频、云空间、小程序等服务，可助力用户随时、随地、通过各类终端设备等实现协作办公。华为还宣布携手合作伙伴成立华为云WeLink生态联盟，金山办公、中软国际、致远互联、罗技、华为商旅、红圈营销、合思费控、Coremail论客、芯盾集团、视源股份、喜马拉雅等成为首批生态伙伴。IDC曾发布了《2018年下半年中国企业
企业华为TaurusDB数据库国产替代要点全记录 OnlyLowG 华为数据库
背景国产化浪潮方兴未艾，为了避免被卡脖子。我们内部的SQLserver数据库也要下线。因为运维能力有限，优先选云厂商的产品，于是做了以下对比。数据库对比我们从成本、无运维化、sql兼容性、性能、索引依赖性、查询优化器、数据存储引擎、表关联性能、字段类型、索引、亿级数据查询能力、事务全方位对比下来看。再考虑到我们的服务器也在华为云，因而敲定了TaurusDB（原GaussDBForMysql）数据库
物联网pyqt5应用管理系统（Python、华为云）_python 基于pyqt的管理系统 2401_84010497 程序员物联网 python 华为云
产品简介：物联网应用管理系统是基于Python和PyQt5技术栈实现的应用端，旨在提供对烟感设备、水质设备和井盖设备等物联网设备的综合管理功能。该系统实现了设备管理、数据监控和远程控制等功能，并通过华为云平台实现了数据存储和云服务支持。主要功能：设备管理：系统支持对烟感设备、水质设备和井盖设备等物联网设备进行集中管理。用户可以查询数据信息，监测设备状态和报警信息进行下发报警操作。数据监控：通过系统
两台服务器虚拟成一个ip地址,两台服务器如何用一个ip地址 weixin_39631263 两台服务器虚拟成一个ip地址
两台服务器如何用一个ip地址内容精选换一换华为云帮助中心，为用户提供产品简介、价格说明、购买指南、用户指南、API参考、最佳实践、常见问题、视频帮助等技术文档，帮助您快速上手使用华为云服务。检查Pkey是否一致。查看弹性云服务器内部分配到的Pkey：cat/sys/class/infiniband/mlx5_0/ports/1/pkeys/*|grep-v"0x0000"检查Pkey是否一致如果环
手把手配置华为云DSC数据防泄漏规则：敏感文件外发拦截实战大熊计算机 #华为云华为云
数据防泄漏的紧迫性与DSC的核心价值（1）数据泄露的严峻现实：企业核心数据（设计图纸、财务报告、客户信息、源代码）通过邮件、网盘、即时通讯工具等渠道外泄，造成的不仅是直接经济损失，更是品牌声誉的毁灭性打击和合规风险。（2）传统防护手段的局限：防火墙、DLP终端代理等手段在云原生、混合办公环境下存在覆盖不全、维护复杂、用户体验差等痛点。（3）华为云DSC的破局之道：作为云原生的数据安全中心服务，DS
GaussDB架构深度解析：云原生与多模态融合的数据库新范式喜酱的探春 gaussdb 架构云原生
GaussDB架构深度解析：云原生与多模态融合的数据库新范式在数字经济时代，数据已成为企业核心资产，数据库作为数据管理的基石，正面临云原生、多模态、智能化与高可用性的多重挑战。华为云GaussDB凭借其前瞻性架构设计，实现了从传统数据库向新一代云原生数据库的跨越。本文将从分层架构、核心技术、应用场景三个维度，全面解析GaussDB如何重构数据库技术边界。一、GaussDB架构设计：分层解耦与云原生
实时数仓工具-SelectDB 清平乐的技术博客实时数仓数据仓库
一、SelectDB简介官网：https://www.selectdb.com/1、ApacheDorisApacheDoris是一款采用MPP架构的实时分布式OLAP数据仓库，专注于高效的实时数据分析。Doris项目于2013年内部开发，2017年正式开源，目前在GitHub上获得了接近13,000星，全球已有超过5,000家企业采用，社区活跃度极高，累计贡献者超过650人，且曾连续数月在大数据
针对数据仓库方向的大数据算法工程师面试经验总结巴基海贼王数据仓库大数据算法
⚙️一、技术核心考察点数据建模能力星型vs雪花模型：面试官常要求对比两种模型。星型模型（事实表+冗余维度表）查询性能高但存储冗余；雪花模型（规范化维度表）减少冗余但增加JOIN复杂度。需结合场景选择，如实时分析首选星型。建模实战题：例如设计电商销售数仓，需明确事实表（订单流水）、维度表（商品、用户、时间），并解释粒度选择（如订单级）。ETL流程与优化增量抽取方案：面试高频题。需掌握基于时间戳、CD
GaussDB数据库多租户技术：云原生时代的资源隔离与高效共享方案喜酱的探春 gaussdb 数据库云原生
GaussDB数据库多租户技术：云原生时代的资源隔离与高效共享方案引言在云计算时代，多租户技术已成为数据库服务的核心能力之一。它通过逻辑隔离实现资源的高效共享，既能满足企业对数据安全与定制化的需求，又能提升资源利用率、降低运营成本。华为云GaussDB数据库基于分布式架构与云原生理念，打造了全栈多租户解决方案，为SaaS服务商、企业级用户及开发者提供了灵活、安全、可扩展的数据库服务能力。一、多租户
华为大咖说企业应用AI大模型的“道、法、术” -- 法：落地篇（上）华为云PaaS服务小智人工智能大数据
本文作者：郑岩（华为云AI变革首席专家）全文约2865字，阅读约需7分钟在探讨企业如何应用AI大模型的“道、法、术”系列文章的前两篇文章中，我们已经深化了对“AI大模型”的理解，并通过“AI场景12问”洞察了潜在的AI应用场景。现在，我们将目光转向更为关键的实践环节，即本篇的核心——“AI变革五阶八步法”。或许您已经听说过“三层五阶八步”这一方法论。实际上，这一方法论自我们团队初步提出以来，经过集
Spring Boot集成RabbitMQ的使用码海浮生后端 Java 技术类 java-rabbitmq spring boot rabbitmq
作者：知识浅谈，CSDN签约讲师，CSDN博客专家，华为云云享专家，阿里云专家博主擅长领域：全栈工程师、爬虫、ACM算法微信：zsqtcyw联系我领取学习资料SpringBoot集成RabbitMQ的使用引言引入依赖配置RabbitMQ交换机、队列和绑定声明交换机和队列发送消息接收消息消息类型消息确认发送确认消费确认消息序列化监控与管理注意事项总结引言RabbitMQ是一个开源的消息代理和队列服务
PostgreSql类（PG、华为云DWS）数据库表结构/数据字典导出 Kerwin_Kuang postgresql 华为云数据库
近期存在华为云DWS数据库全部表结构导出的需求，遂研究了下如何通过SQL查询，可供参考SELECTC.relnameAS"表名",cast(obj_description(relfilenode,'pg_class')asvarchar)AS"表别名",A.attnameAS"字段名",A.attnotnullAS"是否允许为空",format_type(A.atttypid,A.atttypmo
华为云 Flexus 服务器初始化 netkiller-BG7NYT 多维度架构华为云服务器运维
华为云Flexus服务器初始化RockyLinux和AlmaLinux9镜像初始化为例配置域名服务器默认域名服务器无法解析外部域名[root@production~]#pingwww.netkiller.cnping:www.netkiller.cn:Nameorservicenotknown100.79.1.250内部域名服务器[root@production~]#cat/etc/resolv.
现代数据湖架构全景解析：存储、表格式、计算引擎与元数据服务的协同生态讲文明的喜羊羊拒绝pua 大数据架构数据湖 Spark Iceberg Amoro 对象存储
本文全面剖析现代数据湖架构的核心组件，深入探讨对象存储（OSS/S3）、表格式（Iceberg/Hudi/DeltaLake）、计算引擎（Spark/Flink/Presto）及元数据服务（HMS/Amoro）的协作关系，并提供企业级选型指南。一、数据湖架构演进与核心价值数据湖架构演进历程现代数据湖核心价值矩阵维度传统数仓现代数据湖存储成本高（专有硬件）低（对象存储）数据时效性小时/天级分钟/秒级
昇腾服务器安装系统,服务器安装系统剑啸九天昇腾服务器安装系统
服务器安装系统内容精选换一换yuminstallzlib-devel-y此处yum源为CentOS7.6镜像本地源，可自行根据需要在/etc/yum.repos.d路径下修改文件配置。tar-xvfSTAR-2.7.1a.tar.gzcdSTAR-2.7.1aexportBLAST_TOP=`pwd`visource/Makefile按“i”进入编辑华为云帮助中心，为用户提供产品简介、价格说明、购
华为云对象存储OBS 支持安卓/iOS/鸿蒙UTS组件敲代码的鱼哇框架整理华为云 android ios 对象存储 harmony NEXT
华为云对象存储OBS支持安卓/iOS/鸿蒙UTS组件介绍使用前须知vue代码调用示例权限说明API调用说明初始化配置（openClient）创建桶（createBucket）列举桶（listBuckets）删除桶（deleteBucket）桶是否存在（headBucket）列举桶内对象（listObjects）删除桶内对象（deleteObject）文件上传-可获取上传进度（uploadFile）
湖仓一体实时数据采集与存储实践 danny-IT技术博客企业级SQL Server深度实践 spring boot spark CDC DATALAKE
文章目录湖仓一体实时数据采集与存储实践1.实时数仓演进：从传统数仓到湖仓一体1.1传统数仓的局限性：批处理延迟与数据孤岛1.2湖仓一体（Lakehouse）的核心价值1.3典型行业场景解析案例1：金融实时风控案例2：电商库存同步2.CDC实时数据捕获技术选型2.1主流CDC技术对比Debezium实战配置2.2数据捕获模式详解全量快照模式增量日志模式2.3异常处理策略断点续传实现数据一致性保障3.
华为云Flexus+DeepSeek征文 | 基于CCE容器的AI Agent高可用部署架构与弹性扩容实践
华为云Flexus+DeepSeek征文|基于CCE容器的AIAgent高可用部署架构与弹性扩容实践嗨，我是IRpickstars！总有一行代码，能点亮万千星辰。在技术的宇宙中，我愿做永不停歇的探索者。✨用代码丈量世界，用算法解码未来。我是摘星人，也是造梦者。每一次编译都是新的征程，每一个bug都是未解的谜题。让我们携手，在0和1的星河中，书写属于开发者的浪漫诗篇。目录华为云Flexus+Deep
国产Cursor：智能编程新时代的得力助手 inscode_064
国产Cursor：智能编程新时代的得力助手随着科技的飞速发展，编程工具也在不断进化。近年来，国产编程工具逐渐崭露头角，其中最为引人注目的是由CSDN、GitCode和华为云CodeArtsIDE联合开发的AI跨平台集成开发环境——Cursor。这款智能化工具不仅为开发者提供了高效便捷的编程体验，还极大地降低了编程门槛，使更多人能够轻松上手编程。本文将深入探讨Cursor的应用场景及其巨大价值，并引
maxcomputer 和 hologres中的EXTERNAL TABLE 和 FOREIGN TABLE 静听山水 #Hologres 大数据
在阿里云的大数据和实时数仓产品中，MaxCompute和Hologres都支持类似于EXTERNALTABLE和FOREIGNTABLE的机制，但它们的实现和语义有所不同。下面分别说明：☁️一、MaxCompute中的EXTERNALTABLE和FOREIGNTABLE1.EXTERNALTABLEinMaxComputeMaxCompute的EXTERNALTABLE是指外部表，用于读取不属于M
Node.js升级工具n 奔跑吧邓邓子高效运维工具使用 nodejs npm
提示：“奔跑吧邓邓子”的高效运维专栏聚焦于各类运维场景中的实际操作与问题解决。内容涵盖服务器硬件（如IBMSystem3650M5）、云服务平台（如腾讯云、华为云）、服务器软件（如Nginx、Apache、GitLab、Redis、Elasticsearch、Kubernetes、Docker等）、开发工具（如Git、HBuilder）以及网络安全（如挖矿病毒排查、SSL证书配置）等多个方面。无论
SpringBoot整合RabbitMQ实现流量消峰：高效应对高并发的实战指南喵手零基础学Java java-rabbitmq spring boot rabbitmq
全文目录：开篇语目录前言什么是流量消峰？️RabbitMQ与SpringBoot整合基础1.**项目环境准备**2.**定义消息生产者与消费者**消峰场景案例分析案例实战：高并发下的订单请求处理Step1.模拟高并发请求Step2.测试流量消峰效果延伸阅读总结文末开篇语哈喽，各位小伙伴们，你们好呀，我是喵手。运营社区：C站/掘金/腾讯云/阿里云/华为云/51CTO；欢迎大家常来逛逛今天我要给大
Linux ARM(aarch64)架构服务器适配 doulbQuestion 国产化服务器
最新领导安排让在华为云上做项目的国产化适配,以前也有过几次在windowsSeriver,CentOS上搭建环境部署项目的经验,本以为是一个轻松的活,开始做才发现处处坑,一个月了[流泪][流泪][流泪]1.华为云服务器达梦数据库服务:达梦数据库服务(V8测试版)这个已经无力吐槽了,搞了两天之后才发现数据库是测试版的,首先jdbc驱动获取当前版本有问题导致无法连接数据库,到技术群反馈这个问题后拿到了
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。

“数仓”-MPP与 MR的区别

5G场景网络数据延时的URLLC

MPP:多数据快速，单点并行查询 秒级。

MR:分布式任务查询，海量数据 小时级。

你可能感兴趣的:(数仓,华为云)

MPP:多数据快速，单点并行查询秒级。

MR:分布式任务查询，海量数据小时级。