数据科学和工程

Spark任务动态伸缩机制介绍

背景

Spark默认使用的是资源预分配的模式。即在任务运行之前，需要提前指定任务运行需要的资源量。但是在实际线上生产环境使用过程就存在资源浪费和不足的问题，特别是Spark Streaming类型的任务。例如很多日志数据在一天中量并不是均匀分布的，而是一个“双驼峰”。对于预分配模式，就存在日志峰值期间，运算资源不足导致数据处理的延迟，而在日志低峰时期存在资源闲置却无法释放（特别是资源管理器粗粒度模式）。使得生产线上环境资源未能高效使用。

Spark在Spark 1.2版本后，对于Spark On Yarn模式，开始支持动态资源分配（Dynamic Resource Allocation，后文我们也简称DRA）。该机制下Spark Core和Spark Streaming任务就可以根据Application的负载情况，动态的增加和减少Executors。

第一部分配置实现

对于Spark on Yarn模式需要提前配置Yarn服务，主要是配置External shuffle service（Spark 1.2开始引入）。Spark计算需要shuffle时候，每个Executor 需要把上一个 stage 的 mapper 输出写入磁盘，然后作为 server 等待下一个stage 的reducer 来获取 map 的输出。因此如果 Executor 在 map 阶段完成后被回收，reducer 将无法找到 block的位置。所以开启 Dynamic Resource Allocation 时，必须开启 External shuffle service。这样，mapper 的输出位置（元数据信息）将会由 External shuffle service（长期运行的守护进程）来登记保存，Executor 不需要再保留状态信息，可以安全回收。

1.1 Yarn服务配置

首先需要对Yarn的NodeManager服务进行配置，使其支持Spark的Shuffle Service。

修改每台NodeManager上的配置文件yarn-site.xml：


<property>
   <name>yarn.nodemanager.aux-servicesname>
   <value>mapreduce_shuffle,spark_shufflevalue>
property>
<property>
　<name>yarn.nodemanager.aux-services.spark_shuffle.classname>
　<value>org.apache.spark.network.yarn.YarnShuffleServicevalue>
property>
<property>
　<name>spark.shuffle.service.portname>
　<value>7337value>
property>

配置服务依赖包。将$SPARK_HOME/lib/spark-1.6.0-yarn-shuffle.jar（注意实际版本号）复制到每台NodeManager的${HADOOP_HOME}/share/hadoop/yarn/lib/下。
重启所有NodeManager生效配置调整。

1.2 Spark core 任务配置

1.2.1 配置方法

通常配置Saprk应用任务的参数有三种方式：

修改配置文件spark-defaults.conf，全局生效；

配置文件位置：$SPARK_HOME/conf/spark-defaults.conf，具体参数如下：

//启用External shuffle Service服务
spark.shuffle.service.enabled true
//Shuffle Service服务端口，必须和yarn-site中的一致
spark.shuffle.service.port 7337
//开启动态资源分配
spark.dynamicAllocation.enabled true
//每个Application最小分配的executor数
spark.dynamicAllocation.minExecutors 1
//每个Application最大并发分配的executor数
spark.dynamicAllocation.maxExecutors 30
spark.dynamicAllocation.schedulerBacklogTimeout 1s
spark.dynamicAllocation.sustainedSchedulerBacklogTimeout 5s

spark-submit 命令配置，个性化生效；

参考下面的案例：

spark-submit --master yarn-cluster \
    --driver-cores 2 \
    --driver-memory 2G \
    --num-executors 10 \
    --executor-cores 5 \
    --executor-memory 2G \
    --conf spark.dynamicAllocation.enabled=true \
    --conf spark.shuffle.service.enabled=true \
    --conf spark.dynamicAllocation.minExecutors=5 \
    --conf spark.dynamicAllocation.maxExecutors=30 \
    --conf spark.dynamicAllocation.initialExecutors=10 
    --class com.spark.sql.jdbc.SparkDFtoOracle2 \
    Spark-hive-sql-Dataframe-0.0.1-SNAPSHOT-jar-with-dependencies.jar

代码中配置，个性化生效；

参考下面的scala代码案例：

val conf: SparkConf = new SparkConf()
conf.set("spark.dynamicAllocation.enabled", true);
conf.set("spark.shuffle.service.enabled", true);
conf.set("spark.dynamicAllocation.minExecutors", "5");
conf.set("spark.dynamicAllocation.maxExecutors", "30");
conf.set("spark.dynamicAllocation.initialExecutors", "10");

接下来我们介绍详细的参数含义。

1.2.2 配置说明

Property Name	Default	Meaning	Since Version
`spark.dynamicAllocation.enabled`	false	Whether to use dynamic resource allocation, which scales the number of executors registered with this application up and down based on the workload. For more detail, see the description here. This requires `spark.shuffle.service.enabled` or `spark.dynamicAllocation.shuffleTracking.enabled` to be set. The following configurations are also relevant: `spark.dynamicAllocation.minExecutors`, `spark.dynamicAllocation.maxExecutors`, and `spark.dynamicAllocation.initialExecutors` `spark.dynamicAllocation.executorAllocationRatio`	1.2.0
`spark.dynamicAllocation.executorIdleTimeout`	60s	If dynamic allocation is enabled and an executor has been idle for more than this duration, the executor will be removed. For more detail, see this description.	1.2.0
`spark.dynamicAllocation.cachedExecutorIdleTimeout`	infinity	If dynamic allocation is enabled and an executor which has cached data blocks has been idle for more than this duration, the executor will be removed. For more details, see this description.	1.4.0
`spark.dynamicAllocation.initialExecutors`	`spark.dynamicAllocation.minExecutors`	Initial number of executors to run if dynamic allocation is enabled. If `--num-executors` (or `spark.executor.instances`) is set and larger than this value, it will be used as the initial number of executors.	1.3.0
`spark.dynamicAllocation.maxExecutors`	infinity	Upper bound for the number of executors if dynamic allocation is enabled.	1.2.0
`spark.dynamicAllocation.minExecutors`	0	Lower bound for the number of executors if dynamic allocation is enabled.	1.2.0
`spark.dynamicAllocation.executorAllocationRatio`	1	By default, the dynamic allocation will request enough executors to maximize the parallelism according to the number of tasks to process. While this minimizes the latency of the job, with small tasks this setting can waste a lot of resources due to executor allocation overhead, as some executor might not even do any work. This setting allows to set a ratio that will be used to reduce the number of executors w.r.t. full parallelism. Defaults to 1.0 to give maximum parallelism. 0.5 will divide the target number of executors by 2 The target number of executors computed by the dynamicAllocation can still be overridden by the `spark.dynamicAllocation.minExecutors` and `spark.dynamicAllocation.maxExecutors` settings	2.4.0
`spark.dynamicAllocation.schedulerBacklogTimeout`	1s	If dynamic allocation is enabled and there have been pending tasks backlogged for more than this duration, new executors will be requested. For more detail, see this description.	1.2.0
`spark.dynamicAllocation.sustainedSchedulerBacklogTimeout`	`schedulerBacklogTimeout`	Same as `spark.dynamicAllocation.schedulerBacklogTimeout`, but used only for subsequent executor requests. For more detail, see this description.	1.2.0
`spark.dynamicAllocation.shuffleTracking.enabled`	`false`	Experimental. Enables shuffle file tracking for executors, which allows dynamic allocation without the need for an external shuffle service. This option will try to keep alive executors that are storing shuffle data for active jobs.	3.0.0
`spark.dynamicAllocation.shuffleTracking.timeout`	`infinity`	When shuffle tracking is enabled, controls the timeout for executors that are holding shuffle data. The default value means that Spark will rely on the shuffles being garbage collected to be able to release executors. If for some reason garbage collection is not cleaning up shuffles quickly enough, this option can be used to control when to time out executors even when they are storing shuffle data.	3.0.0

1.3 Spark Streaming 任务配置

对于Spark Streaming 流处理任务，Spark官方并未在文档中给出介绍。Dynamic Resource Allocation配置指引如下：

必要配置（Spark 3.0.0）

# 开启Spark Streaming流处理动态资源分配参数开关（默认关闭）
spark.streaming.dynamicAllocation.enabled=true

# 设置最大和最小的Executor数量
spark.streaming.dynamicAllocation.minExecutors=1（必须正整数）
spark.streaming.dynamicAllocation.maxExecutors=50（必须正整数，默认Int.MaxValue，即无限大）

可选配置（Spark 3.0.0）

这些参数可以不用配置，都已经提供了一个较为合理的默认值。

spark.streaming.dynamicAllocation.scalingUpRatio（必须正数，默认0.9）
spark.streaming.dynamicAllocation.scalingInterval（单位秒，默认60）
spark.streaming.dynamicAllocation.scalingDownRatio（必须正数，默认0.3）

第二部分动态配置原理和源码分析

介绍完使用配置后，接下来将详细介绍实现原理。以便理解各参数的含义和参数调优。

2.1 Spark Core任务

为了动态伸缩Spark任务的计算资源（Executor为基本分配单位），首先需要确定的度量是任务的繁忙程度。DRA机制将Spark任务是否有挂起任务(pending task)作为判断标准，一旦有挂起任务表示当前的Executor数量不够支撑所有的task并行运行，所以会申请增加资源。

2.1.1 资源请求（Request）策略

当Spark任务开启DRA机制，SparkContext会启动后台ExecutorAllocationManager，用来管理集群的Executors。

//package org.apache.spark SparkContext.scala

val dynamicAllocationEnabled = Utils.isDynamicAllocationEnabled(_conf)
    _executorAllocationManager =
      if (dynamicAllocationEnabled) {
        schedulerBackend match {
          case b: ExecutorAllocationClient =>
            Some(new ExecutorAllocationManager(
              schedulerBackend.asInstanceOf[ExecutorAllocationClient], listenerBus, _conf,
              cleaner = cleaner, resourceProfileManager = resourceProfileManager))
          case _ =>
            None
        }
      } else {
        None
      }
    _executorAllocationManager.foreach(_.start())

Start()方法将ExecutorAllocationListener加入到listenerBus中，ExecutorAllocationListener通过监听listenerBus里的事件，动态添加，删除Executor。并且通过Thread不断添加Executor，遍历Executor，将超时的Executor杀掉并移除。

Spark会周期性（intervalMillis=100毫秒）计算实际需要的Executor的最大数量maxNeeded。公式如下。

val maxNeeded = math.ceil(numRunningOrPendingTasks * executorAllocationRatio /
      tasksPerExecutor).toInt

逻辑代码：

  private def updateAndSyncNumExecutorsTarget(now: Long): Int = synchronized {    if (initializing) {      0    } else {      val updatesNeeded = new mutable.HashMap[Int, ExecutorAllocationManager.TargetNumUpdates]      numExecutorsTargetPerResourceProfileId.foreach { case (rpId, targetExecs) =>        val maxNeeded = maxNumExecutorsNeededPerResourceProfile(rpId)        if (maxNeeded < targetExecs) {          decrementExecutorsFromTarget(maxNeeded, rpId, updatesNeeded)        } else if (addTime != NOT_SET && now >= addTime) {          addExecutorsToTarget(maxNeeded, rpId, updatesNeeded)        }      }      doUpdateRequest(updatesNeeded.toMap, now)    }  }

当集群中有Executor出现pending task，计算判断条件maxNeeded > targetExecs，并且等待时间超过schedulerBacklogTimeout(默认1s)，则会触发方法addExecutorsToTarget(maxNeeded, rpId, updatesNeeded)。对于首次增加Executor。

spark.dynamicAllocation.schedulerBacklogTimeout = 1s（秒）

后续按照周期性时间sustainedSchedulerBacklogTimeout来检测pending task，一旦出现pending task，即触发增加Executor。

spark.dynamicAllocation.sustainedSchedulerBacklogTimeout = 1s(秒)

每次（轮）触发增加Executor资源请求，增加的数量翻倍，即是一个指数数列（2的n次方），例如：1、2、4、8。

2.1.2 资源释放（Remove）策略

对于移除策略如下：

如果Executor闲置（maxNeeded < targetExecs）时间超过以下参数，并且executor中没有cache（数据缓存在内存），则spark应用将会释放该Executor。

spark.dynamicAllocation.executorIdleTimeout（单位为秒） 默认60s

如果空闲Executor中有cache，那么这个超时参数为：

spark.dynamicAllocation.cachedExecutorIdleTimeout 默认值：Integer.MAX_VALUE（即永不超时）

对于Executor的退出，设计上需要考虑状态的问题，主要：

需要移除的Executor存在cache。

如果需要移除的Executor含有RDD cache。这时候超时时间为整型最大值（相当于无限）。

  private[spark] val DYN_ALLOCATION_CACHED_EXECUTOR_IDLE_TIMEOUT =    ConfigBuilder("spark.dynamicAllocation.cachedExecutorIdleTimeout")      .version("1.4.0")      .timeConf(TimeUnit.SECONDS)      .checkValue(_ >= 0L, "Timeout must be >= 0.")      .createWithDefault(Integer.MAX_VALUE)

Shuffle状态的保存问题。如果需要移除的Executor包含了Shuffle状态数据（在shuffle期间，Spark executor先要将map的输出写入到磁盘，然后该executor充当一个文件服务器，将这些文件共享给其他的executor访问）。需要提前启动External shuffle service，由专门外置服务提供存储，Executor中不再负责保存，架构上功能解耦。

另外添加和移除Executor之后，需要告知DAGSchedule进行相关信息更新。

2.1.3 配置建议

Spark的动态伸缩机制的几点建议：

给Executor数量设置一个合理的伸缩区间，即[minExecutors-maxExecutors]区间值。
配置资源粒度较小的Executor，例如CPU数量为3-4个。动态伸缩的最小伸缩单位是单个Executor，如果出现资源伸缩，特别是Executor数目下降后业务量突增，新申请资源未就绪，已有的Executor就可能由于任务过载而导致集群崩溃。
如果程序中有shuffle,例如(reduce*,groupBy*),建议设置一个合理的并行数，避免杀掉过多的Executors。
对于每个Stage持续时间很短的应用，不适合动态伸缩机制。这样会频繁增加和移除Executors，造成系统颠簸。特别是在 Spark on Yarn模式下资源的申请处理速度并不快。

2.2 Spark Streaming 任务

Spark Streaming任务可以看成连续运行的微（micro-batch）批任务，如果直接套用Spark Core的动态伸缩机制就水土不服了。一般一个微批任务较短（默认60秒），实际线上任务可能更小，动态伸缩的反应时间较长（特别是on Yarn模式），一个微批任务结束，动态伸缩策略还没生效。所以针对Spark Streaming任务，项目组设计新的动态机制（Spark 2.0.0 版本引入）。

提案：https://issues.apache.org/jira/browse/SPARK-12133

2.2.1 源码分析

Spark Streaming任务会统计微批任务运行时间的延迟时间，最朴素的想法就是按照这个度量指标来作为动态伸缩的触发指标。这部分源码在org.apache.spark.streaming.scheduler中：

周期性计算微批运行完成的平均时间，然后和batch interval进行比较；

这里的周期大小由参数spark.streaming.dynamicAllocation.scalingInterval决定，大小为scalingIntervalSecs * 1000。例如默认值为：60*1000毫秒，即60秒。

通过streamingListener计算微批平均处理时间（averageBatchProcTime），然后计算微批处理率（ratio，微批平均处理时间/微批处理周期）。

然后和参数值上限（scalingUpRatio）和下限（scalingDownRatio）进行比较。详细控制函数如下：

 private def manageAllocation(): Unit = synchronized {    logInfo(s"Managing executor allocation with ratios = [$scalingUpRatio, $scalingDownRatio]")    if (batchProcTimeCount > 0) {      val averageBatchProcTime = batchProcTimeSum / batchProcTimeCount      val ratio = averageBatchProcTime.toDouble / batchDurationMs      logInfo(s"Average: $averageBatchProcTime, ratio = $ratio" )      if (ratio >= scalingUpRatio) {        logDebug("Requesting executors")        val numNewExecutors = math.max(math.round(ratio).toInt, 1)        requestExecutors(numNewExecutors)      } else if (ratio <= scalingDownRatio) {        logDebug("Killing executors")        killExecutor()      }    }    batchProcTimeSum = 0    batchProcTimeCount = 0  }

增加Executor数量；如果ratio >= scalingUpRatio，然后按照下面的公司增加数量：
```
val numNewExecutors = math.max(math.round(ratio).toInt, 1)
```
例如ratio=1.6>0.9(scalingUpRatio)，这时候说明有大量微批任务出现了延迟，按照公式计算numNewExecutors=2。接下来会调用requestExecutors(numNewExecutors)方法去申请2个Executor。
减少Executor数量；如果ratio <= scalingDownRatio，这直接调用killExecutor()方法（方法中判断没有receiver运行的Executor）去kill Executor。

2.2.2 配置建议

Spark Streaming动态资源分配起作用前，需要至少完成一个Batch处理(batchProcTimeCount > 0)。

Spark Core和Spark Streaming的动态配置开关配置是分别设置的。

如果两个配置开关同时配置为true，会抛出错误。建议如下配置：
```
spark.dynamicAllocation.enabled=false （默认是false，可以不配置）spark.streaming.dynamicAllocation.enabled=true
```

第三部分总结

3.1 对比

Spark Core中动态伸缩机制是基于空闲时间来控制回收Executor。而在Spark Streaming中，一个Executor每隔很短的时间都会有一批作业被调度，所以在streaming里面是基于平均每批作业处理的时间。

3.2 `Structed Streaming`任务动态伸缩

在spark Streaming中，最小的可能延迟受限于每批的调度间隔以及任务启动时间。所以这不能满足更低延迟的需求。如果能够连续的处理，尤其是简单的处理而没有任何的阻塞操作。这种连续处理的架构可以使得端到端延迟最低降低到1ms级别，而不是目前的10-100ms级别，这就是Spark 2.2.0版本引入新的Spark流处理框架：Structed Streaming。

https://issues.apache.org/jira/browse/SPARK-20928

当然项目组自然也会考虑该框架的资源伸缩机制（未完成）

https://issues.apache.org/jira/browse/SPARK-24815

后续趋势上看，Spark项目会将更多精力放在Structed Streaming。

3.3 Spark Streaming 背压机制

为了应对Spark Streaming处理数据波动，除了资源动态伸缩机制，在Spark 1.5版本项目在Spark Streaming 中引入了的背压（Backpressure）机制。

Spark Streaming任务中，当batch的处理时间大于batch interval时，意味着数据处理速度跟不上数据接收速度。这时候在数据接收端(Receiver)Executor就会开始积压数据。如果数据存储采用MEMORY_ONLY模式（内存）就会导致OOM，采用MEMORY_AND_DISK多余的数据保存到磁盘上，增加数据IO时间。

背压（Backpressure）机制，通过动态控制数据接收速率来适配集群数据处理能力。这是被动防守型的应对，将数据缓存在Kafka消息层。如果数据持续保持高量级，就需要主动启停任务来增加计算资源。

参考文献及资料

1、Job Scheduling，链接：https://spark.apache.org/docs/latest/job-scheduling.html#configuration-and-setup

2、About Spark Streaming，链接：https://www.turbofei.wang/spark/2019/05/26/about-spark-streaming

更多关注工作号：

你可能感兴趣的:(spark)

Spark基本概念 javafanwk Spark 大数据 spark 架构大数据
Spark核心组件Driver将用户程序转化为作业（job）在Executor之间调度任务(task)跟踪Executor的执行情况通过UI展示查询运行情况ExecutorSparkExecutor是集群中工作节点（Worker）中的一个JVM进程，负责在Spark作业中运行具体任务（Task），任务彼此之间相互独立。负责运行组成Spark应用的任务，并将结果返回给驱动器进程它们通过自身的块管理器
Spark 基本概念 Buutoorr spark 大数据分布式 scala
#官网部分解释ClusterModeOverview-Spark3.3.0DocumentationApplication：指的是用户编写的Spark应用程序/代码,一个完整的main方法程序，包含了Driver功能代码和分布在集群中多个节点上运行的Executor代码,如main方法中有WordCount代码有哪些命令会产生一个Applicationspark/bin/pyspark【输入exi
Spark基础【RDD依赖关系--源码解析】 OneTenTwo76 Spark spark scala 大数据
文章目录一RDD依赖关系1RDD血缘关系2RDD依赖关系3RDD阶段划分4RDD任务划分一RDD依赖关系1RDD血缘关系相邻两个RDD之间的关系，称之为依赖关系，多个连续的依赖关系称之为血缘关系RDD只支持粗粒度转换，即在大量记录上执行的单个操作。将创建RDD的一系列Lineage（血统）记录下来，以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为，当该RDD的部分分区数
Hive重点面试题 Major Tom _ hive hadoop 数据仓库
文章目录Hive面试重点题目及答案1.Hive的优缺点及使用场景2.Hive与数据仓库的区别3.Hive的基本架构与元数据存储4.Hive内外部表的区别及适用场景5.Hive数据倾斜原因与解决方法6.HiveMapReduce的底层实现与优化方式7.Hive窗口函数的使用场景8.Hive分区与分桶的区别9.Hive的存储格式10.Hive计算引擎（MapReduce,Tez,Spark）的对比Hi
linux的apache安装,Apache Kylin | 安装指南姜白的树洞 linux的apache安装
软件要求Hadoop:2.7+,3.1+(sincev2.5)Hive:0.13-1.2.1+HBase:1.1+,2.0(sincev2.5)Spark(可选)2.3.0+Kafka(可选)1.0.0+(sincev2.5)JDK:1.8+(sincev2.5)OS:Linuxonly,CentOS6.5+orUbuntu16.0.4+在HortonworksHDP2.2-2.6and3.0,C
kylin linux 安装教程,Apache Kylin | 安装指南社本 kylin linux 安装教程
软件要求Hadoop:2.7+Hive:0.13-1.2.1+HBase:1.1+Spark2.1.1+JDK:1.7+OS:Linuxonly,CentOS6.5+orUbuntu16.0.4+用HortonworksHDP2.2-2.6,ClouderaCDH5.7-5.11,AWSEMR5.7-5.10,AzureHDInsight3.5-3.6进行测试。出于试用和开发的目的，我们建议您使用
Java 大视界 -- Java 与 Spark SQL：结构化数据处理与查询优化（五）青云交大数据新视界 Java 大视界 Spark SQL 结构化数据查询优化数据分区缓存策略日志分析电商数据分析 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
Hive 整合 Spark 全教程（Hive on Spark）字节全栈_rJF hive spark hadoop
hadoop.proxyuser.luanhao.groups*hadoop.proxyuser.luanhao.groups*2）HDFS配置文件配置hdfs-site.xmldfs.namenode.http-addressBigdata00:9870dfs.namenode.secondary.http-addressBigdata00:9868dfs.replication13）YARN配
如何使用Spark Streaming 会探索的小学生 spark 大数据分布式
一、什么叫SparkStreaming基于SparkCore，大规模、高吞吐量、容错的实时数据流的处理二、SparkStreaming依赖org.apache.sparkspark-streaming_2.112.1.2三、什么叫DStreamDStream：DiscretizedStream离散流，这是SparkStreaming对内部持续的实时数据流的抽象描述，即我们处理的一个实时数据流，在S
Spark 任务与 Spark Streaming 任务的差异详解 goTsHgo spark-streaming 分布式大数据 spark streaming 大数据分布式
Spark任务与SparkStreaming任务的主要差异源自于两者的应用场景不同：Spark主要处理静态的大数据集，而SparkStreaming处理的是实时流数据。这些差异体现在任务的调度、执行、容错、数据处理模式等方面。接下来，我们将从底层原理和源代码的角度详细解析Spark任务和SparkStreaming任务的差别。1.任务调度模型差异1.1Spark任务的调度模型Spark的任务调度基
4 Spark Streaming TTXS123456789ABC #Spark spark ajax 大数据
4SparkStreaming一级目录1.整体流程2.数据抽象3.DStream相关操作4.SparkStreaming完成实时需求1)WordCount2)updateStateByKey3)reduceByKeyAndWindow一级目录SparkStreaming是一个基于SparkCore之上的实时计算框架，可以从很多数据源消费数据并对数据进行实时的处理，具有高吞吐量和容错能力强等特点。S
spark和python的区别_Spark入门(Python) weixin_39934257 spark和python的区别
Spark是第一个脱胎于该转变的快速、通用分布式计算范式，并且很快流行起来。Spark使用函数式编程范式扩展了MapReduce模型以支持更多计算类型，可以涵盖广泛的工作流，这些工作流之前被实现为Hadoop之上的特殊系统。Spark使用内存缓存来提升性能，因此进行交互式分析也足够快速(就如同使用Python解释器，与集群进行交互一样)。缓存同时提升了迭代算法的性能，这使得Spark非常适合数据理
spark python入门_python pyspark入门篇 weixin_39686634 spark python入门
一.环境介绍：1.安装jdk7以上2.python2.7.113.IDEpycharm4.package:spark-1.6.0-bin-hadoop2.6.tar.gz二.Setup1.解压spark-1.6.0-bin-hadoop2.6.tar.gz到目录D:\spark-1.6.0-bin-hadoop2.62.配置环境变量Path，添加D:\spark-1.6.0-bin-hadoop2
spark streaming python_Spark入门：Spark Streaming简介(Python版) weixin_39531582 spark streaming python
SparkStreaming是构建在Spark上的实时计算框架，它扩展了Spark处理大规模流式数据的能力。SparkStreaming可结合批处理和交互查询，适合一些需要对历史数据和实时数据进行结合分析的应用场景。SparkStreaming设计SparkStreaming是Spark的核心组件之一，为Spark提供了可拓展、高吞吐、容错的流计算能力。如下图所示，SparkStreaming可整
Spark 学习-1 (python) 一二三四0123 spark 学习 python
Spark官方文档快速入门指南Spark架构-Spark教程1.基本概念RDD（resilientdistributeddataset）弹性分布式数据集，对分布式数据和计算的基本抽象。每个Spark应用由一个驱动器程序（driverprogram）发起集群上的并行操作，驱动器程序一般要管理多个执行器（executor）节点。当我们在集群上执行一个操作，不同的节点会对文件不同部分展开计算。驱动器程序
Python大数据之PySpark(三)使用Python语言开发Spark程序代码_windows spark python 2401_84181704 程序员大数据 python spark
算子：rdd的api的操作，就是算子，flatMap扁平化算子，map转换算子Transformation算子Action算子步骤：1-首先创建SparkContext上下文环境2-从外部文件数据源读取数据3-执行flatmap执行扁平化操作4-执行map转化操作，得到(word,1)5-reduceByKey将相同Key的Value数据累加操作6-将结果输出到文件系统或打印代码：#-*-codi
Spark入门（Python） nfenghklibra python spark
目录一、安装Spark二、Spark基本操作一、安装Sparkpip3installpyspark二、Spark基本操作#导入spark的SparkContext,SparkConf模块frompysparkimportSparkContext,SparkConf#导入os模块importos#设置PYSPARK的python环境os.environ['PYSPARK_PYTHON']="C:\\
hive表指定分区字段搜索_Hive学习-Hive基本操作（建库、建表、分区表、写数据）... weixin_39710660 hive表指定分区字段搜索
hive简单认识Hive是建立在HDFS之上的数据仓库，所以Hive的数据全部存储在HDFS上。Hive的数据分为两部分，一部分是存在HDFS上的具体数据，一部分是描述这些具体数据的元数据信息，一般Hive的元数据存在MySQL上。Hive是类SQL语法的数据查询、计算、分析工具，执行引擎默认的是MapReduce，可以设置为Spark、Tez。Hive分内部表和外部表，外部表在建表的同时指定一个
PyDeequ库在AWS EMR启动集群中数据质量检查功能的配置方法和实现代码 weixin_30777913 python spark 大数据云计算 aws
PyDeequ是一个基于ApacheSpark的PythonAPI，专门用于定义和执行“数据单元测试”，从而在大规模数据集中测量数据质量。PyDeequ框架在PySpark代码中提供了全面的数据质量检查功能，能够帮助用户&有效地监控和提升大规模数据集的数据质量。它在PySpark代码中的数据质量检查功能主要包括以下几个方面：核心组件指标计算（MetricsComputation）：利用分析器（An
spark 算子例子_Spark性能调优方法不让爱你的人失望 spark 算子例子
公众号后台回复关键词：pyspark，获取本项目github地址。Spark程序可以快如闪电⚡️，也可以慢如蜗牛?。它的性能取决于用户使用它的方式。一般来说，如果有可能，用户应当尽可能多地使用SparkSQL以取得更好的性能。主要原因是SparkSQL是一种声明式编程风格，背后的计算引擎会自动做大量的性能优化工作。基于RDD的Spark的性能调优属于坑非常深的领域，并且很容易踩到。我们将介绍Spa
Spark性能调优大数据侠客 spark相关问题汇总及解决 spark 性能调优
1、前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更
在AWS上使用KMS客户端密钥加密S3文件，同时支持PySpark读写和Snowflake导入 weixin_30777913 python spark 大数据云计算数据仓库
现有AWSEMR集群上运行PySpark代码，可以读写S3上的数据文件，Snowflake数据仓库也需要导入S3上的文件到表。现在要用AWSKMS有客户端密钥加密S3上的文件，同时允许PySpark代码，可以读写S3上的数据文件，Snowflake数据仓库导入S3上的文件到表。为了实现AWSEMR上的PySpark读写KMS加密的S3文件，并让Snowflake导入这些文件，请按照以下步骤操作：一
11 Spark面试真题 TTXS123456789ABC #Spark spark 面试大数据
11Spark大厂面试真题1.通常来说，Spark与MapReduce相比，Spark运行效率更高。请说明效率更高来源于Spark内置的哪些机制？2.hadoop和spark使用场景？3.spark如何保证宕机迅速恢复?4.hadoop和spark的相同点和不同点？5.RDD持久化原理？6.checkpoint检查点机制？7.checkpoint和持久化机制的区别？8.RDD机制理解吗？9.Spa
OLAP引擎比较小手追梦 hadoop rpc java
一，sparksql与dorisspark虽然是一个计算引擎，但sparksql也支持符合通用语法的sql查询，延迟为分钟级。doris是一个OLAP数据库，支持对大数据的复杂查询，延迟为秒级。doris比sparksql快，主要原因在于针对场景不同导致的架构不同。sparksql启动一个查询，需要进行资源调度、任务调度、任务分发，耗时更久。doris是常驻进程，启动一个doris查询后，快速的对
大数据毕业设计hadoop+spark+hive豆瓣图书数据分析可视化大屏豆瓣图书爬虫图书推荐系统 qq_79856539 javaweb java 大数据 hadoop 课程设计
系统总体目标基于Spark的个性化书籍推荐系统是一种基于大数据技术的智能推荐系统，它可以根据用户的历史行为和偏好，为用户提供个性化的书籍推荐。该系统采用Spark技术，可以实现大数据的实时处理，从而提高推荐系统的准确性和可靠性。此外，该系统还可以根据用户的习惯和偏好，提供更加个性化的书籍推荐，从而满足用户的需求。系统的使用者包含普通用户和管理员两类，普通用户是系统的主要服务对象，主流人群是经常查看
【spark床头书系列】Spark Streaming 编程权威使用指南 BigDataMLApplication spark 大数据流数据处理#大数据 spark 大数据分布式
SparkStreaming编程权威使用指南文章目录SparkStreaming编程权威使用指南概述快速示例基本概念链接初始化StreamingContext离散化流（DStreams）输入DStreams和Receivers基本源文件流基于自定义接收器的流作为流的RDD队列高级源自定义源接收器的可靠性在DStreams上的转换操作updateStateByKey操作transform操作窗口操作
Spark Streaming的背压机制的原理与实现代码及分析 weixin_30777913 spark 大数据 python
SparkStreaming的背压机制是一种根据JobScheduler反馈的作业执行信息来动态调整Receiver数据接收率的机制。在Spark1.5.0及以上版本中，可以通过设置spark.streaming.backpressure.enabled为true来启用背压机制。当启用背压机制时，SparkStreaming会自动根据系统的处理能力来调整数据的输入速率，从而在流量高峰时保证最大的吞
1-structedStreaming-基本流程(2.3.1) github_28583061 java spark 大数据 mysql hadoop
基本流程--spark2.3.1新定义接口--中间使用了一些过度接口为了兼容老版本如：BaseStreamingSourceDataSource为一个类，定义了可插拔的数据源，对应一些列旧的数据源DataSourceV2spark2.3.1新接口，只是一个接口，没有任何方法，需要配合ReadSupport或者WriteSupport接口等一起MicroBatchReadSupport--实现创建M
1-structedStreaming-基本流程(2.2.1) github_28583061 java spark 大数据 hadoop hive
基本流程spark2.2.1StructuredNetworkWordCount统计来自socket的wordcount创建stream，指定数据源DataStreamReader--从外部存储加载流数据的接口lines=spark.readStream.format("socket").option("host",host).option("port",port).load()加载数据流为Dat
python 分布式集群_Python搭建Spark分布式集群环境小国阁下 python 分布式集群
前言ApacheSpark是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。Spark最大的特点就是快，可比HadoopMapReduce的处理速度快100倍。本文没有使用一台电脑上构建多个虚拟机的方法来模拟集群，而是使用三台电脑来搭建一个小型分布式集群环境安装。本教程采用Spark2.0以上版本(比如Spark2.0.2、Spark2.1.0等)搭建集群，同样适用于搭建Spark1.6.2
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag