一位木带感情的码农

Hadoop生态圈（三十八）- YARN Fair Scheduler公平调度器深入研究

前言

部分内容摘自尚硅谷、黑马等等培训资料

1. 什么是Fair Scheduler

FairScheduler 是 Hadoop 可插拔的调度程序，提供了 YARN 应用程序公平地共享大型集群中资源的另一种方式。FairScheduler是一个将资源公平的分配给应用程序的方法，使所有应用在平均情况下随着时间的流逝可以获得相等的资源份额。
Fair Scheduler 设计目标是为所有的应用分配公平的资源（对公平的定义通过参数来设置）。公平调度是一个分配资源给所有application的方法，平均来看，是随着时间的进展平等分享资源的。

公平调度可以在多个队列间工作。如上图所示，假设有两个用户 A 和 B，分别拥有一个队列：

当 A 启动一个 job 而 B 没有任务时，A 会获得全部集群资源；
当 B 启动一个 job 后，A 的 job 会继续运行，不过一会儿之后两个任务会各自获得一半的集群资源。
如果此时 B 再启动第二个 job 并且其它 job 还在运行，则它将会和 B 的第一个 job 共享 B 这个队列的资源，也就是 B 的两个 job 会各自使用四分之一的集群资源，而 A 的 job 仍然用于集群一半的资源，结果就是资源最终在两个用户之间平等的共享。

FairScheduler 将应用组织到队列中，并在这些队列之间公平地共享资源。默认情况下，所有用户共享一个名为default的队列。如果应用明确在容器资源请求中指定了队列，则该请求将提交到指定的队列。可以通过配置，根据请求中包含的用户名或组分配队列。在每个队列中，使用调度策略在运行的应用程序之间共享资源。默认设置是基于内存的公平共享，但是也可以配置具有优势资源公平性的 FIFO 和多资源。

分层队列： 队列可以按层次结构排列以划分资源，并可以配置权重以按特定比例共享集群。
基于用户或组的队列映射： 可以根据提交任务的用户名或组来分配队列。如果任务指定了一个队列，则在该队列中提交任务。
资源抢占： 根据应用的配置，抢占和分配资源可以是友好的或是强制的。默认不启用资源抢占。
保证最小配额： 可以设置队列最小资源，允许将保证的最小份额分配给队列，保证用户可以启动任务。当队列不能满足最小资源时，可以从其它队列抢占。当队列资源使用不完时，可以给其它队列使用。这对于确保某些用户、组或生产应用始终获得足够的资源。
允许资源共享： 即当一个应用运行时，如果其它队列没有任务执行，则可以使用其它队列，当其它队列有应用需要资源时再将占用的队列释放出来。所有的应用都从资源队列中分配资源。
默认不限制每个队列和用户可以同时运行应用的数量。 可以配置来限制队列和用户并行执行的应用数量。限制并行执行应用数量不会导致任务提交失败，超出的应用会在队列中等待。

2. 启用Fair Scheduler

要使用 Fair Scheduler，首先在yarn-site.xml配置文件进配置：

<property>
	<name>yarn.resourcemanager.scheduler.classname>
	<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairSchedulervalue>
property>

3. 资源配置文件

Fair Scheduler的配置文件，位于类路径下，默认文件名fair-scheduler.xml，通过属性指定：


<property>
	<name>yarn.scheduler.fair.allocation.filename>
	  
	<value>fair-scheduler.xmlvalue>
property>

若没有fair-scheduler.xml这个配置文件，Fair Scheduler 采用的分配策略：调度器会在用户提交第一个应用时为其自动创建一个队列，队列的名字就是用户名，所有的应用都会被分配到相应的用户队列中。

4. Fair Scheduler配置

定制 Fair Scheduler 涉及到 2 个文件。首先，scheduler有关的选项可以在yarn-site.xml中配置。此外，多数情况，用户需要创建一个 “allocation” 文件来列举存在的 queues 和它们相应的 weights和capacities。这个“allocation”文件每隔10秒钟加载一次，更新的配置可以更快的生效。

4.1 调度器级别的参数

在HADOOP_CONF/yarn-site.xml中，主要用于配置调度器级别的参数。

属性一： 是否将与 allocation 有关的 username 作为默认的 queue name，当 queue name 没有指定的时候。如果设置成 false（且没有指定 queue name）或者没有设定，所有的 jobs 将共享 “default” queue。
属性二： 是否使用 “preemption”（优先权，抢占），默认为 fasle
属性三： 启动抢占后的资源利用率阈值。利用率是计算所有资源中容量使用的最大比率。默认值是 0.8f。
属性四： 在一个队列内部分配资源时，默认情况下，采用公平轮询的方法将资源分配各个应用程序，而该参数则提供了另外一种资源分配方式：按照应用程序资源需求数目分配资源，即需求资源数量越多，分配的资源越多。默认情况下，该参数值为 false。
属性五： 是在允许在一个心跳中，发送多个container分配信息
属性六： 如果 assignmultuple 为 true，在一次心跳中，最多发送分配container的个数。默认为 -1，无限制。
属性七： 一个 float 值，在 0~1 之间，表示在等待获取满足 node-local 条件的 containers 时，最多放弃不满足 node-local 的 container 的机会次数，放弃的 nodes 个数为集群的大小的比例。默认值为 -1.0 表示不放弃任何调度的机会。
属性八： 当应用程序请求某个机架上资源时，它可以接受的可跳过的最大资源调度机会。
属性九： 是否根据 application 的大小（job 的个数）作为权重。默认为 false，如果为 true，那么复杂的 application 将获取更多的资源。
属性十： 如果设置为 true，application提交时可以创建新的队列，要么是 application 指定了队列，或者是按照 user-as-default-queue 放置到相应队列。如果设置为 false，任何时间一个 app 要放置到一个未在分配文件中指定的队列，都将被放置到 “default” 队列。默认是 true。如果一个队列放置策略已经在分配文件中指定，本属性将会被忽略。
属性十一： 默认值 500ms，锁住调度器重新进行计算作业所需资源的间隔

4.2 分配文件队列的参数

可以在分配（allocation）文件中配置每一个队列，并且可以像 Capacity Scheduler 一样分层次配置队列，分配文件每10秒重载一次，因此允许在运行时进行修改。
队列的层次
通过嵌套元素实现的。所有的队列都是队列的孩子，即使没有配到元素里。在这个配置中，把dev队列有分成了eng和science两个队列。

Fair Scheduler中的队列有一个权重属性（权重就是对公平的定义），并把这个属性作为公平调度的依据。在每个资源池的配置项中，有个 weight 属性（默认为 1），标记了资源池的权重，当资源池中有任务等待，并且集群中有空闲资源时候，每个资源池可以根据权重获得不同比例的集群空闲资源。
- 例子中，当调度器分配集群40:60资源给prod和dev时便视作公平，eng和science队列没有定义权重，则会被平均分配。
- 权重并不是百分比，把上面的 40 和 60 分别替换成 2 和 3，效果也是一样的。注意，对于在没有配置文件时，按用户自动创建的队列，它们仍有权重并且权重值为1。
- 比如，资源池 businessA 和 businessB 的权重分别为 2 和 1，这两个资源池中的资源都已经跑满了，并且还有任务在排队，此时集群中有 30 个 Container 的空闲资源，那么，businessA 将会额外获得 20 个 Container 的资源，businessB 会额外获得 10 个 Container 的资源。
队列的默认调度策略（整体）
- 通过顶级元素进行配置，如果没有配置，默认采用公平调度。每个队列内部仍可以有不同的调度策略。
- 针对 Apache Hadoop 来说，Fair Scheduler 默认的调度策略（scheduling policy）是基于内存
- CDH 版本的 YARN 默认采用的调度策略是Fair Scheduler的DRF策略，即基于 vcore 和内存的策略，而不是只基于内存的调度策略。
每个队列的调度策略
- 尽管是 Fair Scheduler，其仍支持在队列级别进行 FIFO Schedule。每个队列的调度策略可以被其内部的元素覆盖。
- 例子中，prod队列就被指定采用 FIFO 进行调度，所以，对于提交到prod队列的任务就可以按照 FIFO 规则顺序的执行了。需要注意，prod和dev之间的调度仍然是公平调度，同样eng和science也是公平调度。
队列的设置
Fair Scheduler 采用了一套基于规则的系统来确定应用应该放到哪个队列。
- 例子中，元素定义了一个规则列表，其中的每个规则会被逐个尝试直到匹配成功。
- 所有Rule接受create参数，用于表明该规则是否能够创建新队列。create默认值为true；如果设置为 false 并且 Rule 要放置 app 到一个 allocations file 没有配置的队列，那么继续应用下一个 Rule；
- 上例第一个规则specified，则会把应用放到它指定的队列中，若这个应用没有指定队列名或队列名不存在，则说明不匹配这个规则，然后尝试下一个规则；
- primaryGroup规则会尝试把应用放在以用户所在的Unix组名命名的队列中，如果没有这个队列，不创建队列转而尝试下一个规则；
- 当前面所有规则不满足时，则触发default规则，把应用放在dev.eng队列中；
- 可以不配置queuePlacementPolicy规则，调度器则默认采用如下规则：
- 简单的配置策略：使得所有的应用放入同一个队列（default），这样就可以让所有应用之间平等共享集群而不是在用户之间。
运行Apps数量限制及AM资源限制
- 对特定用户可以运行的 apps 的数量限制
- 设置任意用户（没有特定限制的用户）运行 app 的默认最大数量限制
- 设置队列的默认运行 app 数量限制，可以被任一队列的maxRunningApps元素覆盖
- 设置队列的默认 AM 共享资源限制；可以被任一队列的maxAMShare元素覆盖
抢占（Preemption）
- 当一个 job 提交到一个繁忙集群中的空队列时，job 并不会马上执行，而是阻塞直到正在运行的 job 释放系统资源。为了使提交 job 的执行时间更具预测性（可以设置等待的超时时间），Fair 调度器支持抢占。
- 抢占就是允许调度器杀掉占用超过其应占份额资源队列的containers，这些 containers 资源便可被分配到应该享有这些份额资源的队列中。需要注意抢占会降低集群的执行效率，因为被终止的containers需要被重新执行。
- 通过设置一个全局的参数yarn.scheduler.fair.preemption=true来启用抢占功能。此外，还有两个参数用来控制抢占的过期时间（这两个参数默认没有配置，需要至少配置一个来允许抢占 Container）：
  - 公平共享抢占的默认阈值
    配置文件中的顶级元素为所有队列配置这个阈值；还可在元素内配置元素来为某个队列指定超阈值，默认是 0.5。
  - 公平共享抢占的默认超时时间
    配置文件中的顶级元素为所有队列配置这个超时时间；还可在元素内配置元素来为某个队列指定超时时间。
    
    如果队列在fair share preemption timeout指定时间内未获得平等的资源的一半（这个比例可以配置），调度器则会进行抢占 containers。
  - 默认最小共享抢占超时时间
    配置文件中的顶级元素为所有队列配置这个超时时间；还可在元素内配置元素来为某个队列指定超时时间。
    
    如果队列在minimum share preemption timeout指定的时间内未获得最小的资源保障，调度器就会抢占 containers。
  - 哪些情况下会发生抢占
    最小资源抢占，当前 queue 的资源无法保障时，而又有 apps 运行，需要向外抢占；
    公平调度抢占，当前 queue 的资源为达到 max，而又有 apps 运行，需要向外抢占；
最小最大资源设置
- 资源设置格式：X表示内存，单位为MB；Y表示虚拟CPU Core核数；注意分隔符
- 最小资源保证：
  - 在每个资源池中，允许配置该资源池的最小资源，这是为了防止把空闲资源共享出去还未回收的时候，该资源池有任务需要运行时候的资源保证。
  - 比如，资源池 businessA 中配置了最小资源为（5vCPU，5GB），那么即使没有任务运行，Yarn 也会为资源池 businessA 预留出最小资源，一旦有任务需要运行，而集群中已经没有其他空闲资源的时候，最小资源也可以保证资源池 businessA 中的任务可以先运行起来，随后再从集群中获取资源。
  - 如果一个队列的最小共享未能得到满足，那么它将会在相同 parent 下其他队列之前获得可用资源。在单一资源公平策略下，一个队列如果它的内存使用量低于最小内存值则认为是未满足的。
  - 在 DRF 策略下，如果一个队列的主资源是低于最小共享的话则认为是未满足的。如果有多个队列未满足的情况，资源分配给相关资源使用量和最小值之间比率最小的队列。
  - 注意一点，有可能一个队列处于最小资源之下，但是在它提交 application 时不会立刻达到最小资源，因为已经在运行的 job 会使用这些资源。
- 最大资源限制
  - 最多可以使用的资源量，fair scheduler 会保证每个队列使用的资源量不会超过该队列的最多可使用资源量。
  - 对于单一资源公平策略，vcores 的值会被忽略。一个队列永远不会分配资源总量超过这个限制。

4.3 资源调度分配案例一

根据用户组分配资源池，假设在生产环境 Yarn 中，总共有四类用户需要使用集群，开发用户、测试用户、业务 1 用户、业务 2 用户。为了使其提交的任务不受影响，在 Yarn 上规划配置了五个资源池，分别为 dev_group（开发用户组资源池）、test_group（测试用户组资源池）、business1_group（业务1用户组资源池）、business2_group（业务2用户组资源池）、default（只分配了极少资源）。并根据实际业务情况，为每个资源池分配了相应的资源及优先级等。

4.4 资源调度分配案例二

由于公司的 hadoop 集群的计算资源不是很充足，需要开启 yarn 资源队列的资源抢占。

只有一个队列的资源小于设置的最小资源时，才有可能启动资源抢占。
只要所有的资源队列的最小资源之和小于等于集群的资源总量就都是合理的。如果最小资源之和大于集群的资源总量，同时又开启了资源抢占模式，那么资源调度就会不停的处于资源抢占的模式（这样的逻辑当然是不合理的了）。
所有队列的最大资源配置之和可以大于集群的资源总量是合理的
每个队列的最大资源配置只要小于等于集群的资源总量就也是合理的。


<allocations>
  <defaultQueueSchedulingPolicy>drfdefaultQueueSchedulingPolicy>
  <defaultMinSharePreemptionTimeout>300defaultMinSharePreemptionTimeout>
  <pool name="default">
     <maxResources>0 mb, 0 vcoresmaxResources>
     <maxRunningApps>0maxRunningApps>
     <weight>0.0weight>
  pool>
  <pool name="online">
     <minResources>24000 mb, 12 vcoresminResources>
     <maxResources>48000 mb, 24 vcoresmaxResources>
     <maxRunningApps>12maxRunningApps>
     <weight>3.0weight>
  pool>

  <pool name="develop">
     <minResources>12000 mb, 6 vcoresminResources>
     <maxResources>24000mb, 12 vcoresmaxResources>
     <maxRunningApps>6maxRunningApps>
     <weight>2.0weight>
  pool>

  <pool name="bi">
     <minResources>12000 mb, 6 vcoresminResources>
     <maxResources>24000 mb, 12 vcoresmaxResources>
     <maxRunningApps>6maxRunningApps>
     <weight>1.0weight>
  pool>
  
       
  <userMaxAppsDefault>5userMaxAppsDefault> 

  
  <queuePlacementPolicy>
    
    <rule name="user" create="false" />
    <rule name="primaryGroup" create="false" />
    
    <rule name="secondaryGroupExistingQueue" create="false" />
    
    <rule name="default" queue="develop"/>
  queuePlacementPolicy>
allocations>

第一： 三个资源队列 default，online，develop，bi 四个队列；集群的共有 24core，48G 内存

该示例的最小资源之和是 100%，最大资源之和可以大于资源总量，最大值可以根据实际中的情况来划分。例如在线上要优先保证线上资源，所以 online 队列的最小资源比例为 70%，最大为 100%；develop，和 bi 的最小资源都是可以为 0 的，这样才能保证在紧急情况下 online 可以抢占 100% 的资源。
第二：queuePlacementPolicy

5. 演示Fair Scheduler

下面以三台机器为例，进行初步设置，运行程序 MapReduce 或 Spark 程序演示。
 开启 Fair Scheduler，相关参数配置，添加到HADOOP_CONF/yarn-site.xml中


<property>
	<name>yarn.resourcemanager.scheduler.classname>
	<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairSchedulervalue>
property>
  
<property>
	<name>yarn.scheduler.fair.allocation.filename>
	<value>fair-scheduler.xmlvalue>
property>

<property>
	<name>yarn.scheduler.fair.user-as-default-queuename>
	<value>truevalue>
property>

<property>
	<name>yarn.scheduler.fair.allow-undeclared-poolsname>
	<value>falsevalue>
property>

资源队列配置，文件HADOOP_CONF/fair-scheduler.xml，内容如下：


<allocations>
	<defaultQueueSchedulingPolicy>drfdefaultQueueSchedulingPolicy>
	<queue name="batch_mr">
		<weight>30weight>
		<schedulingPolicy>fairschedulingPolicy>
	queue>
	<queue name="engin_spark">
		<weight>55weight>
		<queue name="etl"/>
		<queue name="ml"/>
	queue>
	<queue name="default">
		<weight>15weight>
		<schedulingPolicy>fifoschedulingPolicy>
	queue>
	<queuePlacementPolicy>
		<rule name="specified" create="false"/>
		<rule name="primaryGroup" create="false"/>
		<rule name="default" queue="default"/>
	queuePlacementPolicy>
allocations>

启动 ResouceManager，打开 8088 页面

运行 MapReduce 中 WordCount 程序，指定运行队列 batch_mr

HADOOP_HOME=/export/server/hadoop
${HADOOP_HOME}/bin/yarn jar \
${HADOOP_HOME}/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.4.jar \
wordcount \
-Dmapreduce.job.queuename=batch_mr \
datas/input.data /datas/output

Hadoop生态圈（三十八）- YARN Fair Scheduler公平调度器深入研究_第11张图片

不指定运行队列，默认运行在default队列

HADOOP_HOME=/export/server/hadoop
${HADOOP_HOME}/bin/yarn jar \
${HADOOP_HOME}/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.4.jar \
wordcount \
datas/input.data /datas/output

Hadoop生态圈（三十八）- YARN Fair Scheduler公平调度器深入研究_第12张图片

6. Fair Scheduler整体结构

公平调度器的运行流程就是RM去启动FairScheduler，SchedulerDispatcher两个服务，这两个服务各自负责 update 线程，handle 线程。

update线程有两个任务：
- 更新各个队列的资源（Instantaneous Fair Share）；
- 判断各个 leaf 队列是否需要抢占资源（如果开启抢占功能）；
handle线程主要是处理一些事件响应，比如集群增加节点，队列增加APP，队列删除APP，APP更新container等。

你可能感兴趣的:(Hadoop生态圈,hadoop,yarn)

Vue3音乐播放器组件，可显示歌词张苹果博客 vue 前端 1024程序员节
在线体验地址原文可体验1，安装npminstallapple-music-player或yarnaddapple-music-player2，在main.ts中引入import{createApp}from'vue'importAppfrom'./App.vue'importAppleMusicPlayerfrom'apple-music-player'createApp(App).use(App
MapReduce概述 Tate小白大数据学习 mapreduce
1、MapReduce概述1.1MapReduce定义MapReduce是一个分布式运算程序的编程框架，是用户开发“Hadoop的数据分析应用”的核心框架。MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。Reduc
react gsap动画库使用详解之scroll滑动动画伍哥的传说前端源码分享 react.js 前端前端框架 vue.js vue 动画 javascript
简介gsap高性能的JavaScript动画库，在现代网页设计和开发中运用。安装npminstallgsapReact框架中使用可以考滤使用react-gsap-enhancer库，或者@gasp/react。类组件使用react-gsap-enhancer高阶组件，函数组件使用@gasp/react自定义Hook。npminstallreact-gsap-enhancer#oryarnaddre
中国地图分幅编号计算工具红衣大叔 gis javascript 分幅
fenfu中国地图分幅编号计算工具，符合GB/T13989-2012国家标准。支持单点计算和范围查询，适用于测绘、GIS开发、城市规划等场景。特性✅支持8种比例尺（100万至5000）✅单点坐标转图幅编号✅矩形范围批量图幅查询✅自动处理高纬度特殊分幅规则✅输入验证与错误处理✅TypeScript类型支持安装npminstallfenfu#或yarnaddfenfu使用示例1.单点计算constMa
【笔记-软考】大数据架构-Lambda与Kappa架构对比我叫白小猿软考软考架构大数据 Kappa Lambda
Author：赵志乾Date：2024-07-28Declaration：AllRightReserved！！！1.简介大数据系统架构的设计思想很大程度受技术条件和思维模式的限制；Lambda架构在提出初期面向小范围业务，直接将成熟离线处理技术(Hadoop)和实时处理技术(Storm)相结合，用View模型将二者处理后得到的输出结果结合起来，在服务层进行统一后，再开放给上层服务，是相当可行且高效
Node.js 常用工具沐知全栈开发开发语言
Node.js常用工具引言Node.js是一个基于ChromeV8引擎的JavaScript运行环境，它允许开发者使用JavaScript编写服务器端代码。在Node.js的开发过程中，使用一些常用的工具可以大大提高开发效率和项目质量。本文将详细介绍Node.js开发中常用的工具，包括版本管理、代码编辑、包管理、调试、测试、性能监控等。版本管理工具：npm和Yarnnpmnpm（NodePacka
YARN（Yet Another Resource Negotiator）组件和工作流程 Cachel wood 大数据开发算法 spark linq 大数据 python flink yarn
文章目录一、YARN概述1.定义与定位2.基本概念二、YARN架构与组件1.核心组件2.资源抽象与容器三、YARN工作流程1.应用程序提交流程2.资源调度流程四、YARN调度器与调度策略1.主要调度器类型2.调度器配置与选择**五、YARN高级特性**1.资源类型扩展2.容器预热（ContainerWarmup）3.服务发现与应用生命周期管理4.节点标签与资源分区**六、YARN性能优化**1.关
HDFS（Hadoop分布式文件系统）总结 Cachel wood 大数据开发 hadoop hdfs 大数据散列表算法哈希算法 spark
文章目录一、HDFS概述1.定义与定位2.核心特点二、HDFS架构核心组件1.NameNode（名称节点）2.DataNode（数据节点）3.Client（客户端）4.SecondaryNameNode（辅助名称节点）三、数据存储机制1.数据块（Block）设计2.复制策略（默认复制因子=3）3.数据完整性校验四、文件读写流程1.写入流程2.读取流程五、高可用性（HA）机制1.单点故障解决方案2.
Spark教程1：Spark基础介绍 Cachel wood 大数据开发 spark 大数据分布式计算机网络数据库数据仓库
文章目录一、Spark是什么？二、Spark的核心优势三、Spark的核心概念四、Spark的主要组件五、Spark的部署模式六、Spark与Hadoop的关系七、Spark应用开发流程八、Spark的应用场景九、Spark版本更新与社区一、Spark是什么？ApacheSpark是一个开源的分布式大数据处理引擎，最初由加州大学伯克利分校AMPLab开发，2013年捐赠给Apache软件基金会，如
Hadoop的部分用法覃炳文20230322027 hadoop hive 大数据分布式
前言Hadoop是一个由Apache基金会开发的开源框架，它允许跨多个机器使用分布式处理大数据集。Hadoop的核心是HDFS（HadoopDistributedFileSystem）和MapReduce编程模型。1.Hadoop环境搭建在开始使用Hadoop之前，你需要搭建Hadoop环境。这通常包括安装Java、配置Hadoop环境变量、配置Hadoop的配置文件等步骤。1.1环境准备在开始安
Netty4.1 - TCP粘包拆包解决方案及案例代码 wwyh520 IO编程 netty
Netty是目前业界最流行的NIO框架之一，它的健壮性、高性能、可定制和可扩展性在同类框架中都是首屈一指。它已经得到了成百上千的商业项目的验证，例如Hadoop的RPC框架Avro就使用了Netty作为底层通信框架，其他的业界主流RPC框架，例如：Dubbo、Google开源的gRPC、新浪微博开源的Motan、Twitter开源的finagle也使用Netty来构建高性能的异步通信能力。另外，阿
Storm核心概念与实战详解 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2010年Hadoop项目开源后，Storm项目也随之走向人气爆棚。在如此火热的当下，给我们带来的好处不仅仅是增强对Hadoop平台的掌控能力，更重要的是让我们感受到了快速发展、海量数据处理能力、低延迟的优势。在这一系列文章中，我将深入浅出地介绍Storm项目，并从实际案例出发，带领大家全面理解Storm中的关键概念及其运作方式，让您轻松掌握Storm的高效率、
基于Hadoop大数据分析应用场景与实战跨过山河大海
一、Hadoop的应用业务分析大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具，而是涉及的业务和技术的许多领域。目前主流的三大分布式计算系统分别为:Hadoop、Spark和Strom：Hadoop当前大数据管理标准之一，运用在当前很多商业应用系统。可以轻松地集成结构化、半结构化甚至非结构化数据集。Spark采用了内存计算。从多迭代批处理出发，允许将数据载入内存作反复
Hadoop 发展过程是怎样的？ AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2003年，美国加州大学洛杉矶分校教授李彦宏博士发明了一种分布式文件系统——GFS（GoogleFileSystem）。由于该文件系统设计得足够简单，可以适应大规模数据集存储需求，在此基础上演化出多种应用，包括MapReduce、BigTable、PageRank等，并成为当时互联网公司的标配技术之一。2004年，Google发布了第一版Hadoop项目，定位是
yarn如何用node替换 leo__520 node
Yarn是一个流行的JavaScript包管理工具，它为npm提供了更快、更可靠的体验。尽管Yarn有其优势，但在许多情况下，我们可能想使用Node.js的本地包管理机制来替代Yarn。一、基本概念在开始之前，我们要明确一些基本个念：Node.js：一个高效的JavaScript运行环境，为构建服务器端应用程序提供支持。Yarn：一个Facebook开发的JavaScript包管理工具，用于处理项
通过CDH安装Spark的详细指南暴躁哥大数据技术 spark 大数据分布式
通过CDH安装Spark的详细指南简介ClouderaDistributionofHadoop(CDH)是一个企业级的大数据平台，它集成了多个开源组件，包括Hadoop、Spark、Hive等。本文将详细介绍如何通过CDH安装和配置Spark。前提条件在开始安装之前，请确保满足以下条件：已安装CDH集群具有管理员权限所有节点之间网络互通系统时间同步足够的磁盘空间（建议至少预留20GB）安装步骤1.
Hadoop 版本进化论：从 1.0 到 2.0，架构革命全解析拾光师大数据后端
Hadoop版本hadoop1.x版本由三部分组成Common(辅助工具)HDFS(数据存储)MapReduce(计算和资源调度)存在的问题JobTracker同时具备了资源管理和作业控制两个功能，成为了系统的最大瓶颈采用了master/slave结构，master存在单点问题，一旦master出现故障，会导致整个集群不可用采用了基于槽位的资源分配模型，将槽位分为了Mapslot和Reducesl
Hadoop RPC 分层设计的哲学：高内聚、低耦合的最佳实践拾光师大数据后端
HadoopRPCHadoopRPC主要分为四个部分，分别是序列化层、函数调用层、网络传输层和服务器端处理框架，实现机制为：序列化层：主要作用是将结构化对象转为字节流以便于通过网络进行传输或写入持久存储。函数调用层：主要作用是定位要调用的函数并执行该参数，采用了java反射机制和动态代理实现了函数调用网络传输层：描述了client和server之间消息传输的方式，基于TCP/IP的socket机制
基于pyspark的北京历史天气数据分析及可视化_离线大数据CLUB spark数据分析可视化数据分析数据挖掘 hadoop 大数据 spark
基于pyspark的北京历史天气数据分析及可视化项目概况[]点这里,查看所有项目[]数据类型北京历史天气数据开发环境centos7软件版本python3.8.18、hadoop3.2.0、spark3.1.2、mysql5.7.38、scala2.12.18、jdk8开发语言python开发流程数据上传(hdfs)->数据分析(spark)->数据存储(mysql)->后端(flask)->前端(
vue-monoplasty-slide-verify 滑动验证码插件使用及踩坑我的心巴 vue.js 前端 javascript
一、效果图二、安装依赖npminstall--savevue-monoplasty-slide-verify或yarnaddvue-monoplasty-slide-verify三、引入插件坑一：需要在main.js引入，在使用插件的.vue组件文件中使用按需引入的方式引入，会报错。//main.js引入vue-monoplasty-slide-verify代码importVuefrom'vue'
前端依赖管理实战手册：NPM、Yarn、PNPM 操作全指南小柒笔记前端 npm node.js
使用NPM、Yarn和PNPM进行前端依赖管理的实际操作步骤：使用NPM初始化新项目:npminit-y安装依赖包:npminstallpackage-name安装依赖包并添加到生产依赖:npminstallpackage-name--save安装依赖包并添加到开发依赖:npminstallpackage-name--save-dev更新依赖包:npmupdatepackage-name卸载依赖包
前端依赖升级完全指南：npm、pnpm、yarn 实践总结爱宇阳 NPM Vue 前端 npm node.js
在前端项目开发过程中，定期升级依赖不仅能享受新特性、修复安全问题，还能保证工具链长期稳定运行。本文全面总结npm、pnpm、yarn三大主流包管理器在依赖包升级方面的实践方法，并补充版本符、依赖安装的基础知识，适合新手与有经验开发者查阅。一、为什么要定期升级依赖？✅获取最新功能修复安全漏洞减少技术债提高团队协作时依赖一致性保证工具链与社区生态同步建议定期（如每月/每季度）安排升级任务，并做好构建测
Hadoop RPC 分层设计的哲学：高内聚、低耦合的最佳实践后端
HadoopRPCHadoopRPC主要分为四个部分，分别是序列化层、函数调用层、网络传输层和服务器端处理框架，实现机制为：序列化层：主要作用是将结构化对象转为字节流以便于通过网络进行传输或写入持久存储。函数调用层：主要作用是定位要调用的函数并执行该参数，采用了java反射机制和动态代理实现了函数调用网络传输层：描述了client和server之间消息传输的方式，基于TCP/IP的socket机制
基于pyspark的北京历史天气数据分析及可视化_实时大数据CLUB spark数据分析可视化数据分析数据挖掘 spark hadoop 大数据
基于pyspark的北京历史天气数据分析及可视化项目概况[]点这里,查看所有项目[]数据类型北京历史天气数据开发环境centos7软件版本python3.8.18、hadoop3.2.0、spark3.1.2、mysql5.7.38、scala2.12.18、jdk8、kafka2.8.2开发语言python开发流程数据上传(hdfs)->数据分析(spark)->数据写kafka(python)
互联网大数据求职面试：从Zookeeper到Flink的技术探讨
场景：互联网大数据求职面试在一个阳光明媚的下午，小白来到了知名互联网公司，准备接受他人生中最重要的一次面试。他的面试官是以严肃和专业著称的老黑。第一轮提问：分布式系统与协调老黑：小白，你能解释一下Zookeeper在分布式系统中的作用吗？小白：哦，这个简单，Zookeeper是一个分布式协调服务，主要用来解决分布式系统中数据一致性问题，比如选主、配置管理和命名服务。老黑：不错，那你知道Yarn是如
《从零开始：Hadoop 3.3.0 全分布式环境搭建与运行详解（含自动化配置）》李哈哈敲代码学习经验分布式 hadoop 自动化大数据 linux
Hadoop3.3.0全分布并环境搭建与运行部署详解一、准备工作1.1环境要求三台Linux主机，如node1、node2、node3配置推荐:内存大于4GB，CPU大于2核，磁盘空间大于40GB1.2软件列表JDK1.8（！！需要提前上传到software目录下，解压到server目录下）Hadoop3.3.01.3目录规划（注意在根目录下创建export）/export/server#安装目录
Hadoop等大数据处理框架的Java API 扬子鳄008 Java hadoop java 大数据
Hadoop是一个非常流行的大数据处理框架，主要用于存储和处理大规模数据集。Hadoop主要有两个核心组件：HDFS（HadoopDistributedFileSystem）和MapReduce。此外，还有许多其他组件，如YARN（YetAnotherResourceNegotiator）、HBase、Hive等。下面详细介绍Hadoop及其相关组件的JavaAPI及其使用方法。HadoopHad
AntV F2入门教程德育处主任Pro arcgis
以下教程将系统地介绍AntV F2（移动端可视化引擎）的核心组件API，包含安装与引入、画布与图表、数据映射、几何标记、坐标轴、图例、提示、标注和滚动条等，每个API都附带完整示例代码，帮助你快速掌握F2用法。一、安装与引入#安装F2主包npminstall@antv/f2--save#或者使用yarnyarnadd@antv/f2//在小程序或浏览器中引入import{Canvas,Chart,
python--将mysql建表语句转换成hive建表语句呆呆不呆～ spark python mysql hive spark
1.代码importjsonimportsysimportpymysqldefqueryDataBase(tablename):#连接数据库并查询列信息conn=pymysql.connect(user='root',password='123456',host='hadoop11')cursor=conn.cursor()cursor.execute("SELECTcolumn_name,dat
前端包管理工具终极对决：npm vs Yarn vs pnpm vs Bun vs Deno 吴启维前端 npm node.js yarn
还在为node_modules吞噬磁盘空间而抓狂？还在依赖安装进度条前苦苦等待？本文将揭示五大主流工具的终极差异，帮你找到最适合项目的依赖管理利器！一、痛点驱动：为什么我们需要更好的包管理？#经典噩梦场景$npminstall#等待10分钟后...node_modules占用1.2GB磁盘空间⚠️项目运行时出现幽灵依赖报错传统方案暴露三大痛点：磁盘黑洞：重复依赖填满硬盘龟速安装：串行下载耗时长依赖
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b c: %c d: %d <bf>f: %f', 80,80, 80, 80); echo ' '; printf('%0.2f %+d %0.2f ', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(