ha_lydms

Yarn资源调度器

文章目录

- 一、Yarn资源调度器
- - 1、架构
  - 2、Yarn工作机制
  - 3、HDFS、YARN、MR关系
  - 4、作业提交之HDFS&MapReduce
- 二、Yarn调度器和调度算法
- - 1、先进先出调度器（FIFO）
  - 2、容量调度器（Capacity Scheduler）
  - 3、公平调度器（Fair Scheduler）
  - - 3.1 调度器原理
    - 3.22 资源分配方式
- 三、修改Yarn集群
- - 1、Yarn配置
  - 2、多队列提交
  - 3、向集群中提交任务

一、Yarn资源调度器

Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。

1、架构

YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。

2、Yarn工作机制

MR程序提交到客户端所在的节点。
YarnRunner向ResourceManager申请一个Application。
RM将该应用程序的资源路径返回给YarnRunner。
该程序将运行所需资源提交到HDFS上。
程序资源提交完毕后，申请运行mrAppMaster。
RM将用户的请求初始化成一个Task。
其中一个NodeManager领取到Task任务。
该NodeManager创建容器Container，并产生MRAppmaster。
Container从HDFS上拷贝资源到本地。
MRAppmaster向RM 申请运行MapTask资源。
RM将运行MapTask任务分配给另外两个NodeManager，另两个NodeManager分别领取任务并创建容器。
MR向两个接收到任务的NodeManager发送程序启动脚本，这两个NodeManager分别启动MapTask，MapTask对数据分区排序。
MrAppMaster等待所有MapTask运行完毕后，向RM申请容器，运行ReduceTask。
ReduceTask向MapTask获取相应分区的数据。程序运行完毕后，MR会向RM申请注销自己。

3、HDFS、YARN、MR关系

4、作业提交之HDFS&MapReduce

（1）作业提交
- 第1步：Client调用job.waitForCompletion方法，向整个集群提交MapReduce作业。
- 第2步：Client向RM申请一个作业id。
- 第3步：RM给Client返回该job资源的提交路径和作业id。
- 第4步：Client提交jar包、切片信息和配置文件到指定的资源提交路径。
- 第5步：Client提交完资源后，向RM申请运行MrAppMaster。
（2）作业初始化
- 第6步：当RM收到Client的请求后，将该job添加到容量调度器中。
- 第7步：某一个空闲的NM领取到该Job。
- 第8步：该NM创建Container，并产生MRAppmaster。
- 第9步：下载Client提交的资源到本地。
（3）任务分配
- 第10步：MrAppMaster向RM申请运行多个MapTask任务资源。
- 第11步：RM将运行MapTask任务分配给另外两个NodeManager，另两个NodeManager分别领取任务并创建容器。
（4）任务运行
- 第12步：MR向两个接收到任务的NodeManager发送程序启动脚本，这两个NodeManager分别启动MapTask，MapTask对数据分区排序。
- 第13步：MrAppMaster等待所有MapTask运行完毕后，向RM申请容器，运行ReduceTask。
- 第14步：ReduceTask向MapTask获取相应分区的数据。
- 第15步：程序运行完毕后，MR会向RM申请注销自己。
（5）进度和状态更新
- YARN中的任务将其进度和状态(包括counter)返回给应用管理器, 客户端每秒(通过mapreduce.client.progressmonitor.pollinterval设置)向应用管理器请求进度更新, 展示给用户。
（6）作业完成
- 除了向应用管理器请求作业进度外, 客户端每5秒都会通过调用waitForCompletion()来检查作业是否完成。时间间隔可以通过mapreduce.client.completion.pollinterval来设置。作业完成之后, 应用管理器和Container会清理工作状态。作业的信息会被作业历史服务器存储以备之后用户核查。

二、Yarn调度器和调度算法

目前，Hadoop作业调度器主要有三种：FIFO、容量（Capacity Scheduler）和公平（Fair Scheduler）。

Apache Hadoop3.1.3默认的资源调度器是Capacity Scheduler。
CDH框架默认调度器是Fair Scheduler。

详见yarn-default.xml文件

<property>
    <description>The class to use as the resource scheduler.description>
    <name>yarn.resourcemanager.scheduler.classname>
<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacitySchedulervalue>
property>

1、先进先出调度器（FIFO）

FIFO调度器（First In First Out）：单队列，根据提交作业的先后顺序，先来先服务。

优点：简单易懂。
缺点：不支持多队列，生产环境很少使用。

2、容量调度器（Capacity Scheduler）

Capacity Scheduler是Yahoo开发的多用户调度器。

3、公平调度器（Fair Scheduler）

3.1 调度器原理

Fair Schedulere是Facebook开发的多用户调度器。

公平调度器—缺额

公平调度器设计目标是：在时间尺度上，所有作业获得公平的资源。某一时刻一个作业应获资源和实际获取资源的差距叫“缺额”。
调度器会优先为缺额大的作业分配资源

3.22 资源分配方式

有3种资源分配方式：FIFO策略、 Fair 策略、 DRF策略。

（1）、FIFO策略

公平调度器每个队列资源分配策略如果选择FIFO的话，此时公平调度器相当于上面讲过的容量调度器。

（2）、Fair 策略

Fair 策略（默认）是一种基于最大最小公平算法实现的资源多路复用方式，默认情况下，每个队列内部采用该方式分配资源。这意味着，如果一个队列中有两个应用程序同时运行，则每个应用程序可得到1/2的资源；如果三个应用程序同时运行，则每个应用程序可得到1/3的资源。

（2）作业资源分配

不加权（关注点是Job的个数）：

需求：有一条队列总资源12个, 有4个job，对资源的需求分别是: 
job1->1,  job2->2 , job3->6,  job4->5

第一次算:  12 / 4 = 3 
    job1: 分3 --> 多2个 
    job2: 分3 --> 多1个
    job3: 分3 --> 差3个
    job4: 分3 --> 差2个

第二次算: 3 / 2  = 1.5 
    job1: 分1
    job2: 分2
    job3: 分3 --> 差3个 --> 分1.5 --> 最终: 4.5 
    job4: 分3 --> 差2个 --> 分1.5 --> 最终: 4.5

第n次算: 一直算到没有空闲资源

加权（关注点是Job的权重）：

需求：有一条队列总资源16，有4个job 
对资源的需求分别是: 
job1->4   job2->2  job3->10  job4->4 
每个job的权重为:   
job1->5   job2->8  job3->1   job4->2

第一次算: 16 / (5+8+1+2) =  1
    job1:  分5 --> 多1
    job2:  分8 --> 多6
    job3:  分1 --> 少9
    job4:  分2 --> 少2            

第二次算: 7 / (1+2) = 7/3
    job1: 分4
    job2: 分2
    job3: 分1 --> 分7/3（2.33） -->少6.67
    job4: 分2 --> 分14/3(4.66) -->多2.66

第三次算:2.66/1=2.66 
    job1: 分4
    job2: 分2
    job3: 分3.33 --> 分2.66/1 --> 分6
    job4: 分4
第n次算: 一直算到没有空闲资源

（3）、DRF策略

DRF（Dominant Resource Fairness），我们之前说的资源，都是单一标准，例如只考虑内存（也是Yarn默认的情况）。但是很多时候我们资源有很多种，例如内存，CPU，网络带宽等，这样我们很难衡量两个应用应该分配的资源比例。

那么在YARN中，我们用DRF来决定如何调度：假设集群一共有100 CPU和10T 内存，而应用A需要（2 CPU, 300GB），应用B需要（6 CPU，100GB）。则两个应用分别需要A（2%CPU, 3%内存）和B（6%CPU, 1%内存）的资源，这就意味着A是内存主导的, B是CPU主导的，针对这种情况，我们可以选择DRF策略对不同应用进行不同资源（CPU和内存）的一个不同比例的限制。

三、修改Yarn集群

1、Yarn配置

资源配置：

从1G数据中，统计每个单词出现次数。服务器3台，每台配置4G内存，4核CPU，4线程。
1G / 128m = 8个MapTask；1个ReduceTask；1个mrAppMaster。
平均每个节点运行10个 / 3台 ≈ 3个任务（4 3 3）

修改yarn-site.xml配置参数如下


<property>
	<description>The class to use as the resource scheduler.description>
	<name>yarn.resourcemanager.scheduler.classname>
	<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacitySchedulervalue>
property>


<property>
	<description>Number of threads to handle scheduler interface.description>
	<name>yarn.resourcemanager.scheduler.client.thread-countname>
	<value>8value>
property>



<property>
	<description>Flag to determine if logical processors(such as
	hyperthreads) should be counted as cores. Only applicable on Linux
	when yarn.nodemanager.resource.cpu-vcores is set to -1 and
	yarn.nodemanager.resource.detect-hardware-capabilities is true.
	description>
	<name>yarn.nodemanager.resource.count-logical-processors-as-coresname>
	<value>falsevalue>
property>


<property>
	<description>Enable auto-detection of node capabilities such as
	memory and CPU.
	description>
	<name>yarn.nodemanager.resource.detect-hardware-capabilitiesname>
	<value>falsevalue>
property>



<property>
	<description>Multiplier to determine how to convert phyiscal cores to vcores. This value is used if 
yarn.nodemanager.resource.cpu-vcores is set to -1(which implies auto-calculate vcores) and
yarn.nodemanager.resource.detect-hardware-capabilities is set to true. The	number of vcores will be calculated as	number of CPUs * multiplier.
	description>
	<name>yarn.nodemanager.resource.pcores-vcores-multipliername>
	<value>1.0value>
property>


<property>
	<description>Amount of physical memory, in MB, that can be allocated 
	for containers. If set to -1 and
	yarn.nodemanager.resource.detect-hardware-capabilities is true, it is
	automatically calculated(in case of Windows and Linux).
	In other cases, the default is 8192MB.
	description>
	<name>yarn.nodemanager.resource.memory-mbname>
	<value>4096value>
property>


<property>
	<description>Number of vcores that can be allocated
	for containers. This is used by the RM scheduler when allocating
	resources for containers. This is not used to limit the number of
	CPUs used by YARN containers. If it is set to -1 and
	yarn.nodemanager.resource.detect-hardware-capabilities is true, it is
	automatically determined from the hardware in case of Windows and Linux.
	In other cases, number of vcores is 8 by default.description>
	<name>yarn.nodemanager.resource.cpu-vcoresname>
	<value>4value>
property>


<property>
	<description>The minimum allocation for every container request at the RM	in MBs. Memory requests lower than this will be set to the value of this	property. Additionally, a node manager that is configured to have less memory	than this value will be shut down by the resource manager.
	description>
	<name>yarn.scheduler.minimum-allocation-mbname>
	<value>1024value>
property>


<property>
	<description>The maximum allocation for every container request at the RM	in MBs. Memory requests higher than this will throw an	InvalidResourceRequestException.
	description>
	<name>yarn.scheduler.maximum-allocation-mbname>
	<value>2048value>
property>


<property>
	<description>The minimum allocation for every container request at the RM	in terms of virtual CPU cores. Requests lower than this will be set to the	value of this property. Additionally, a node manager that is configured to	have fewer virtual cores than this value will be shut down by the resource	manager.
	description>
	<name>yarn.scheduler.minimum-allocation-vcoresname>
	<value>1value>
property>


<property>
	<description>The maximum allocation for every container request at the RM	in terms of virtual CPU cores. Requests higher than this will throw an
	InvalidResourceRequestException.description>
	<name>yarn.scheduler.maximum-allocation-vcoresname>
	<value>2value>
property>


<property>
	<description>Whether virtual memory limits will be enforced for
	containers.description>
	<name>yarn.nodemanager.vmem-check-enabledname>
	<value>falsevalue>
property>


<property>
	<description>Ratio between virtual memory to physical memory when	setting memory limits for containers. Container allocations are	expressed in terms of physical memory, and virtual memory usage	is allowed to exceed this allocation by this ratio.
	description>
	<name>yarn.nodemanager.vmem-pmem-rationame>
	<value>2.1value>
property>

重启Yarn集群

./sbin/stop-yarn.sh
./sbin/start-yarn.sh

登录页面查看资源修改：http://hadoop102:8088/cluster

关闭虚拟内存检查

2、多队列提交

配置参数：

default队列：占总内存的40%，最大资源容量占总资源60%。

hive队列：占总内存的60%，最大资源容量占总资源80%。

修改capacity-scheduler.xml配置


<property>
    <name>yarn.scheduler.capacity.root.queuesname>
    <value>default,hivevalue>
    <description>
      The queues at the this level (root is the root queue).
    description>
property>


<property>
    <name>yarn.scheduler.capacity.root.default.capacityname>
    <value>40value>
property>


<property>
    <name>yarn.scheduler.capacity.root.default.maximum-capacityname>
    <value>60value>
property>

添加capacity-scheduler.xml配置


<property>
    <name>yarn.scheduler.capacity.root.hive.capacityname>
    <value>60value>
property>


<property>
    <name>yarn.scheduler.capacity.root.hive.user-limit-factorname>
    <value>1value>
property>


<property>
    <name>yarn.scheduler.capacity.root.hive.maximum-capacityname>
    <value>80value>
property>


<property>
    <name>yarn.scheduler.capacity.root.hive.statename>
    <value>RUNNINGvalue>
property>


<property>
    <name>yarn.scheduler.capacity.root.hive.acl_submit_applicationsname>
    <value>*value>
property>


<property>
    <name>yarn.scheduler.capacity.root.hive.acl_administer_queuename>
    <value>*value>
property>


<property>
    <name>yarn.scheduler.capacity.root.hive.acl_application_max_priorityname>
    <value>*value>
property>




<property>
    <name>yarn.scheduler.capacity.root.hive.maximum-application-lifetimename>
    <value>-1value>
property>


<property>
    <name>yarn.scheduler.capacity.root.hive.default-application-lifetimename>
    <value>-1value>
property>

分发修改后配置文件，或者修改ResourceManger所在节点配置

重启Yarn集群或者刷新配置

yarn rmadmin -refreshQueues

登录页面查看队列更新：http://hadoop102:8088/cluster/scheduler

3、向集群中提交任务

package com.example.demo.wordcount;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WCDriver2 {
    public static void main(String[] args) throws Exception {
        System.out.println(args[0]);
        System.out.println(args[1]);
        //1.创建Job实例
        Configuration conf = new Configuration();//可以设置参数
        conf.set("mapreduce.job.queuename", "hive");
        Job job = Job.getInstance(conf);

        //2.给Job赋值
        //2.1关联本程序的jar---如果是本地运行不用设置。如果是在集群上运行（打jar包放在集群上）一定要设置
        job.setJarByClass(WCDriver2.class);
        //2.2设置Mapper和Reducer类
        job.setMapperClass(WCMapper.class);
        job.setReducerClass(WCReducer.class);
        //2.3设置Mapper输出的Key,value的类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(LongWritable.class);
        //2.4设置最终输出的key,value的类型（在这是Reducer输出的key,value的类型）
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(LongWritable.class);
        //2.5设置输入和输出路径
        FileInputFormat.setInputPaths(job, new Path(args[0]));
        //注意：输出的目录必须不存在
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        //3.提交Job
        boolean b = job.waitForCompletion(true);
        System.out.println("=======" + b);
    }
}

pom文件打包方式


<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 https://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0modelVersion>
    <groupId>com.examplegroupId>
    <artifactId>demoartifactId>
    <version>0.0.1-SNAPSHOTversion>
    <name>demoname>
    <description>demodescription>
    <properties>
        <java.version>1.8java.version>
    properties>

    <dependencies>
        <dependency>
            <groupId>org.apache.hadoopgroupId>
            <artifactId>hadoop-clientartifactId>
            <version>3.1.3version>
        dependency>
        <dependency>
            <groupId>junitgroupId>
            <artifactId>junitartifactId>
            <version>4.12version>
        dependency>
        <dependency>
            <groupId>org.slf4jgroupId>
            <artifactId>slf4j-log4j12artifactId>
            <version>1.7.30version>
        dependency>
    dependencies>

    <build>
        <plugins>
            <plugin>
                <artifactId>maven-compiler-pluginartifactId>
                <version>3.6.1version>
                <configuration>
                    <source>1.8source>
                    <target>1.8target>
                configuration>
            plugin>
            <plugin>
                <artifactId>maven-assembly-pluginartifactId>
                <configuration>
                    <descriptorRefs>
                        <descriptorRef>jar-with-dependenciesdescriptorRef>
                    descriptorRefs>
                configuration>
                <executions>
                    <execution>
                        <id>make-assemblyid>
                        <phase>packagephase>
                        <goals>
                            <goal>singlegoal>
                        goals>
                    execution>
                executions>
            plugin>
        plugins>
    build>
project>

登录服务器执行脚本

demo-0.0.1.jar ：运行的jar包，服务器所在全路径
com.example.demo.wordcount.WCDriver2 ：全类名运行jar包中的哪个类
/input ：数据的输入路径（HDFS）
/output :数据的输出路径（HDFS）

hadoop jar demo-0.0.1.jar com.example.demo.wordcount.WCDriver2 /input /output

分布式存储的技术选型之HDFS、Ceph、MinIO对比 Linux运维老纪勇敢向前迎接运维开发之挑战分布式 hdfs ceph 云原生运维开发大数据云计算
分布式存储的技术选型比：HDFS、Ceph、MinIO对比一文读懂分布式存储在当今数字化时代，数据呈爆炸式增长，分布式存储技术应运而生，成为大数据存储与管理的得力助手。它将数据分散存于多台独立设备，构建起一个庞大而可靠的虚拟存储体系，有效突破了传统集中式存储的性能瓶颈，大幅提升了可靠性、可用性及存取效率，轻松应对海量数据的存储挑战。分布式存储的应用场景极为广泛。在大数据处理领域，如互联网公司应对海
azkaban的概况北京小峻大数据 azkaban mysql 数据库
Azkaban的性质azkaban是一个任务调度,管理系统,可以帮用户管理,调度各种运算任务的一个web服务器可以调度任何任务,只要你的任务能用脚本启动azkaban的类似的产品还有很多,例如hadoop生态中原生的:oozie,areflow局限性目前azkaban只支持mysql作为元数据管理系统,必须安装mysql服务器角色executorserver有好几个是真正执行的程序,调度用户的任务
基于hadoop的协同过滤算法电影推荐系统的设计与实现 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
基于hadoop的协同过滤算法电影推荐系统的设计与实现文章目录基于hadoop的协同过滤算法电影推荐系统的设计与实现1.背景介绍1.1电影推荐系统的重要性1.2传统推荐系统的缺陷1.3Hadoop在大数据处理中的作用2.核心概念与联系2.1协同过滤算法2.2基于用户的协同过滤2.3基于项目的协同过滤2.4Hadoop在协同过滤算法中的应用3.核心算法原理具体操作步骤3.1基于用户的协同过滤算法流程
Java 驱动大数据流处理：Storm 与 Flink 入门（大数据）用心去追梦大数据 java storm
Java是一种广泛使用的编程语言，特别适用于企业级应用开发。随着数据量的不断增长，处理大数据流成为了现代软件开发中的一个重要领域。ApacheStorm和ApacheFlink是两个用于处理大规模数据流的开源框架，它们都支持用Java编写的应用程序。下面将简要介绍这两个框架，并提供一些入门指导。ApacheStormApacheStorm是一个免费、开源的分布式实时计算系统。Storm让用户能够轻
【人工智能 | 大数据】基于人工智能的大数据分析方法用心去追梦人工智能大数据数据分析
基于人工智能（AI）的大数据分析方法是指利用机器学习、深度学习和其他AI技术来分析和处理大规模数据集。这些方法能够自动识别模式、提取有用信息，并做出预测或决策，从而帮助企业和组织更好地理解市场趋势、客户行为以及其他关键因素。以下是几种主要的基于AI的大数据分析方法：机器学习模型：通过训练算法让计算机从历史数据中学习并做出预测或分类。常见的机器学习技术包括监督学习（如回归分析、支持向量机）、非监督学
hive电影数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 毕业设计大数据毕设计算机毕业设计 hive spring boot 爬虫
hive电影数据分析Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示+[手把手视频教程和开发文档]【功能介绍】1.java爬取【豆瓣电影】网站中电影数据,保存为data.csv文件,数据量2万+2.data.csv上传到hadoop集群环境3.MR数据清洗data.csv4.Hive汇总处理,将Hive处理的结果数据保存到本地Mysql数据库中5.Springboot+Vu
hadoop电影数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 计算机毕业设计毕业设计大数据毕设 hadoop spring boot 爬虫
全套视频教程全套开发文档hadoop电影数据分析系统Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示【Hadoop项目】1.java爬取【豆瓣电影】网站中电影数据,保存为data.csv文件,数据量2万+2.data.csv上传到hadoop集群环境3.data.csv数据清洗4.MR数据汇总处理,将Reduce的结果数据保存到本地Mysql数据库中5.Springboot
spark电影数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 毕业设计大数据毕设计算机毕业设计 spark spring boot 爬虫大数据电影推荐电影分析
spark电影数据分析系统Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示+[手把手视频教程和开发文档【功能介绍】1.java爬取【豆瓣电影】网站中电影数据,保存为data.csv文件,数据量2万+2.data.csv上传到hadoop集群环境3.MR数据清洗data.csv4.Spark汇总处理,将Spark处理的结果数据保存到本地Mysql数据库中5.Springboo
hadoop图书数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫1万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 毕业设计大数据毕设图书数据分析 hadoop spring boot 爬虫
hadoop图书数据分析系统Springboot协同过滤-余弦函数推荐系统爬虫1万+数据大屏数据展示+[手把手视频教程和开发文档]【亮点功能】1.Springboot+Vue+Element-UI+Mysql前后端分离2.Echarts图表统计数据,直观展示数据情况3.发表评论后，用户可以回复评论,回复的评论可以被再次回复,一级评论可以添加图片附件4.爬虫图书数据1万+5.推荐图书列表展示,推荐图
大数据组件之Azkaban简介努力的小星星大数据 linux 运维数据结构
一、Azkaban介绍1.1背景一个完整的大数据分析系统，必然由很多任务单元(如数据收集、数据清洗、数据存储、数据分析等)组成，所有的任务单元及其之间的依赖关系组成了复杂的工作流。复杂的工作流管理涉及到很多问题：如何定时调度某个任务？如何在某个任务执行完成后再去执行另一个任务？如何在任务失败时候发出预警？......面对这些问题，工作流调度系统应运而生。Azkaban就是其中之一。1.2功能Azk
分析-MQ消息队列中间件-在IM即时通讯系统的用途酱油瓶啤酒杯中间件分布式队列 kafka
MQ消息队列在IM即时通讯的用途1）用户聊天消息的离线存储环节：因为IM消息的发送属于高吞吐场景，直接操作DB可能会让DB崩溃，所有离线消息在落地入库前，可以先扔到MQ消息队列中，再由单独部署的消费者来有节奏地存储到DB中；２)用户的行为数据收集环节：因为用户的聊天消息和指令等，可以用于大数据分析，而且基于国家监管要求也是必须要存储一段时间的，所以此类数据的收集同样可以用于MQ消息队列，再由单独部
2024年最全（一）大数据---Hadoop整体介绍（架构层）----（组件，并发知识体系大全 2401_84586689 程序员大数据 hadoop 架构
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！Hadoop方案一、大数据介绍============
数据分析基础定义阿金要当大魔王~~ 数据分析数据分析数据挖掘
一、大数据的定义数据分析是基于商业等目的，有目的的进行收集、整理、加工和分析数据，提炼有价值信息的过程。大数据分析即针对海量的、多样化的数据集合的分析大数据分析是一种利用大规模数据集进行分析和挖掘知识的方法。随着互联网、社交媒体、移动设备等产生庞大的数据，大数据分析成为了当今世界各行业的重要技术。这篇文章将从数据收集、存储、处理、分析、可视化、应用等方面进行全面讲解，以帮助读者更好地理解大数据分析
大数据学习(36)- Hive和YARN viperrrrrrr 大数据学习 hive
&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦当客户端提交SQL作业到HiveServer2时，HiveServer2会根据用户提交的SQL作业及数据库中现有的元数据信息生成一份可供计算引擎执行的计划。每个执行计划对应若干MapReduce作业，Hive会将所有的MapReduce作业都提交到YARN中。Y
大数据分析专业毕业设计最新最全选题精华汇总--持续更新中⑤ 源码空间站11 python django 大数据分析数据可视化 hadoop hive 大数据分析毕设
目录前言开题指导建议更多精选选题选题帮助最后前言大家好,这里是源码空间站学长大数据分析专业毕业设计毕设专题!大四是整个大学期间最忙碌的时光，一边要忙着准备考研、考公、考教资或者实习为毕业后面临的升学就业做准备,一边要为毕业设计耗费大量精力。学长给大家整理了大数据分析专业最新精选选题，如遇选题困难或选题有任何疑问，都可以问学长哦(见文末)!以下是学长精心整理的一些选题:21.基于Hadoop和Spa
探秘IO分布式模块设计：让大数据处理更高效清水湾落车分布式
一、引言随着互联网的飞速发展，大数据、云计算、人工智能等技术逐渐成为时代的主流。在这个数据爆炸的时代，如何高效地处理海量数据成为企业面临的重大挑战。IO分布式模块设计作为一种有效的解决方案，越来越受到关注。本文将带您了解IO分布式模块设计的基本概念、原理及其在实际应用中的优势。二、什么是IO分布式模块设计？IO分布式模块设计，是指将数据存储、数据处理、数据传输等IO操作进行分布式处理的一种设计方法
大带宽业务都包含哪些内容？ wanhengidc 服务器运维
大带宽服务器通常是指100Mbps以上的服务器，让企业能够快速稳定的传输数据信息，其中大带宽业务就是指需要高速数据传输和处理能力的业务，一般会包含对大量数据的传输和存储，需要高带宽的网络连接来支持。大带宽业务具体都包含了哪些方面呢？大带宽业务包括大规模数据传输、云计算和远程存储等内容，大规模数据传输是涉及到大文件的传输或者是大数据集的传输。同时在云计算中会涉及到云服务器和虚拟化环境的应用，需要有着
明达云：赋能化工园区，智绘安全高效新蓝图明达技术物联网网络
在日新月异的科技浪潮中，数字化转型已成为各行各业转型升级的关键驱动力。尤其在化工这一关乎国家经济命脉与安全环保的重要领域，如何实现智能化管理、提升运营效率、确保生产安全，成为了摆在众多化工园区面前的重大课题。在此背景下，明达云平台以其卓越的技术实力与深厚的行业经验，正逐步成为化工园区智慧化升级的首选伙伴。智慧监管，安全先行化工生产，安全为先。明达云平台通过集成物联网、大数据、人工智能等先进技术，为
玩转至轻云大数据平台-docker部署篇 fanciNate454 大数据 docker
产品介绍至轻云是一款超轻量级、企业级大数据计算平台，基于Spark生态打造。一键部署，开箱即用。快速实现大数据离线ETL、Spark计算、实时计算、可视化调度、自定义接口、数据大屏以及自定义表单等多种功能，为企业提供高效便捷的大数据解决方案。至轻云有什么特点呢？又能怎么玩呢？产品特点开源轻量化云原生架构:兼容云原生架构，支持Docker、Rancher平台的快速部署。国内镜像下载:可直接从阿里云镜
1、Java 环境搭建与基本概念：开启 Java 编程之旅的第一步翻晒时光从0学Java java 开发语言
大家好，欢迎来到我们的Java学习系列博客，今天是第一课，我们将一起探索Java环境搭建与基本概念。无论你是编程新手，还是想要学习一门新语言的老手，Java都是一个非常值得学习的语言，它在众多领域都有着广泛的应用，从企业级软件开发、安卓应用开发到大数据处理，都能看到Java的身影。让我们开始这充满挑战与乐趣的Java学习之旅吧！一、Java的发展历程与特点Java诞生于SunMicrosystem
大数据：数字时代的变革引擎大数据
在当今这个数字化飞速发展的时代，大数据无疑是最为耀眼的存在，如同变革的引擎，驱动着各个领域的创新与发展。大数据的起源可追溯到信息技术发展的早期阶段。随着计算机的诞生和数据存储技术的逐步发展，人们开始积累越来越多的数据。然而，早期的数据量相对较小，处理和分析技术也较为有限。直到互联网的普及，数据的产生方式发生了根本性的变化。网站、搜索引擎、社交媒体等互联网应用的兴起，使得数据量呈爆炸式增长。每天，全
【Redis】使用redis-cli的“--bigkeys”选项查找大Key 奇墨 ITQM redis 数据库缓存
在Redis的使用过程中，我们经常会遇到BigKey（下文将其称为“大key”）及HotKey（下文将其称为“热key”）。大Key与热Key如果未能及时发现并进行处理，很可能会使服务性能下降、用户体验变差，甚至引发大面积故障。下面将为大家介绍大Key的定义及查找方法：一、什么是大Key？通常我们会将含有较大数据或含有大量成员、列表数的Key称之为大Key，下面我们将用几个实际的例子对大Key的特
飞轮科技荣获中国电信星海大数据最佳合作伙伴奖！
近日，由中国电信集团数据发展中心主办的数据要素合作论坛在广州召开。大会以“数聚共生·智启未来”为主题，旨在展示数据要素应用成果，探索数据要素创新实践。与会期间，为了感谢2024年生态合作伙伴对中国电信数据业务发展工作的支持，会议举行了“星海大数据·最佳合作伙伴奖”颁奖仪式。飞轮科技凭借其在数据分析领域的卓越表现与深厚实力，获得这一殊荣。作为中国电信的长期合作伙伴，飞轮科技持续致力于为中国电信提供先
包文件分析器 Webpack Bundle Analyzer Jayden_念旧开发工具 webpack 前端 node.js
webpack-bundle-analyzer是一个非常有用的工具，用于可视化和分析Webpack打包生成的文件。这使得开发者能够更好地理解应用的依赖关系、包的大小，以及优化打包的机会。以下是关于webpack-bundle-analyzer的详细介绍，包括它的安装、使用以及如何解读生成的报告。文档。安装你可以通过npm或yarn安装webpack-bundle-analyzernpminstal
用大数据“喂养”出来的AI模型ChatGPT 爆火是大数据、大算力、强算法的支撑，中国缺乏的什么？ Ai17316391579 深度学习服务器人工智能
先来了解一下ChatGPT的基本情况ChatGPT本质属于生成式人工智能，属于无监督或半监督的机器学习。与之相关的还有Discriminativemodeling区分式模型，区分式模型大多属于监督式学习。生成性人工智能目前有两种主要的框架：GAN（GenerativeAdversarialNetwork）和GPT（GenerativePre-trainedTransformer）。GAN目前广泛应
大数据学习(37)- Flink运行时架构 viperrrrrrr 学习 flink 大数据
&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦1）作业管理器（JobManager）JobManager是一个Flink集群中任务管理和调度的核心，是控制应用执行的主进程。也就是说，每个应用都应该被唯一的JobManager所控制执行。JobManger又包含3个不同的组件。（1）JobMasterJobM
Hadoop 常用命令 ZenPower hadoop 大数据分布式
查看指定目录下的文件及文件夹hadoopfs-ls/user/hive/warehouse/查看指定目录下的文件及文件夹大小#文件大小（单位Byte）hadoopfs-du/user/hive/warehouse#文件大小（单位人性化）hadoopfs-du-h/user/hive/warehouse#文件大小（只显示汇总）hadoopfs-du-s/user/hive/warehouse删除指定
hadoop常用命令汇总 m0_67402026 java java 后端
1、查看目录下的文件列表：hadoopfs–ls[文件目录]hadoopfs-ls-h/lance2、将本机文件夹存储至hadoop上：hadoopfs–put[本机目录][hadoop目录]hadoopfs-putlance/3、在hadoop指定目录内创建新目录：hadoopfs–mkdir[目录]hadoopfs-mkdir/lance4、在hadoop指定目录下新建一个文件，使用touch
DolphinScheduler × Jiron：打造高效智能的数据调度新生态 jiron开源平台开发 flink 大数据 hadoop hive sqoop spring cloud sentinel
JironGitHub地址https://github.com/642933588/jiron-cloudhttps://gitee.com/642933588/jiron-cloudDolphinScheduler×Jiron：打造高效智能的数据调度新生态DolphinScheduler是一个开源的分布式任务调度平台，专为大数据场景下的工作流调度和数据治理而设计。将DolphinSchedule
hadoop常用命令我要用代码向我喜欢的女孩表白 hadoop npm 大数据
Yarn查看提交到资源调度器的任务（任何用yarn资源的都可以看，比如spark、tez、mapreduce）看正在运行的yarn任务yarnapplication-list杀死对应的yarn任务yarnapplication-kill{application_Id}（id可以通过-list看到）hdfs查看hdfs目录hdfsdfs-ls/（查看本集群的目录）hdfsdfs-lshdfs://i
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring