道教儒佛电磁波

第四课大数据技术之Hadoop3.x的YARN

文章目录

第四课大数据技术之Hadoop3.x的YARN
- 第一节 Yarn资源调度器
- - 1.1 Yarn基础架构
  - 1.2 YARN的工作机制
  - 1.3 作业提交全过程
  - 1.4 Yarn调度器和调度算法
  - 1.5 Yarn常用命令
  - 1.6 Yarn生产环境核心参数
- 第2节 Yarn案例实操
- - 2.1 Yarn生产环境核心参数配置案例
  - 2.2 容量调度器多队列提交案例
  - 2.3 公平调度器案例
  - 2.4 Yarn的Tool接口案例

第一节 Yarn资源调度器

1.1 Yarn基础架构

Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。
YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。

1.2 YARN的工作机制

MR程序提交到客户端所在的节点。
YarnRunner向ResourceManager申请一个Application。
RM将该应用程序的资源路径返回给YarnRunner。
该程序将运行所需资源提交到HDFS上。
程序资源提交完毕后，申请运行mrAppMaster。
RM将用户的请求初始化成一个Task。
其中一个NodeManager领取到Task任务。
该NodeManager创建容器Container，并产生MRAppmaster。
Container从HDFS上拷贝资源到本地。
MRAppmaster向RM 申请运行MapTask资源。
RM将运行MapTask任务分配给另外两个NodeManager，另两个NodeManager分别领取任务并创建容器。
MR向两个接收到任务的NodeManager发送程序启动脚本，这两个NodeManager分别启动MapTask，MapTask对数据分区排序。
MrAppMaster等待所有MapTask运行完毕后，向RM申请容器，运行ReduceTask。
ReduceTask向MapTask获取相应分区的数据。
程序运行完毕后，MR会向RM申请注销自己。

1.3 作业提交全过程

HDFS、YARN、MapReduce三者关系
作业提交之YARN
作业提交过程之HDFS & MapReduce
作业提交全过程详解（1）作业提交
- 第1步：Client调用job.waitForCompletion方法，向整个集群提交MapReduce作业。
- 第2步：Client向RM申请一个作业id。
- 第3步：RM给Client返回该job资源的提交路径和作业id。
- 第4步：Client提交jar包、切片信息和配置文件到指定的资源提交路径。
- 第5步：Client提交完资源后，向RM申请运行MrAppMaster。
作业提交全过程详解（2）作业初始化
- 第6步：当RM收到Client的请求后，将该job添加到容量调度器中。
- 第7步：某一个空闲的NM领取到该Job。
- 第8步：该NM创建Container，并产生MRAppmaster。
- 第9步：下载Client提交的资源到本地。
作业提交全过程详解（3）任务分配
- 第10步：MrAppMaster向RM申请运行多个MapTask任务资源。
- 第11步：RM将运行MapTask任务分配给另外两个NodeManager，另两个NodeManager分别领取任务并创建容器。
作业提交全过程详解（4）任务运行
- 第12步：MR向两个接收到任务的NodeManager发送程序启动脚本，这两个NodeManager分别启动MapTask，MapTask对数据分区排序。
- 第13步：MrAppMaster等待所有MapTask运行完毕后，向RM申请容器，运行ReduceTask。
- 第14步：ReduceTask向MapTask获取相应分区的数据。
- 第15步：程序运行完毕后，MR会向RM申请注销自己。
作业提交全过程详解（5）进度和状态更新
- YARN中的任务将其进度和状态(包括counter)返回给应用管理器, 客户端每秒(通过mapreduce.client.progressmonitor.pollinterval设置)向应用管理器请求进度更新, 展示给用户。
作业提交全过程详解（6）作业完成
- 除了向应用管理器请求作业进度外, 客户端每5秒都会通过调用waitForCompletion()来检查作业是否完成。时间间隔可以通过mapreduce.client.completion.pollinterval来设置。作业完成之后, 应用管理器和Container会清理工作状态。作业的信息会被作业历史服务器存储以备之后用户核查。

1.4 Yarn调度器和调度算法

目前，Hadoop作业调度器主要有三种：FIFO、容量（Capacity Scheduler）和公平（Fair Scheduler）。Apache Hadoop3.1.3默认的资源调度器是Capacity Scheduler。具体设置详见：yarn-default.xml文件

<property>
    <description>The class to use as the resource scheduler.description>
    <name>yarn.resourcemanager.scheduler.classname>
<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacitySchedulervalue>
property>

CDH框架默认调度器是Fair Scheduler。
先进先出调度器（FIFO）。FIFO调度器（First In First Out）：单队列，根据提交作业的先后顺序，先来先服务。
- 优点：简单易懂；
- 缺点：不支持多队列，生产环境很少使用；
容量调度器（Capacity Scheduler）,Capacity Scheduler是Yahoo开发的多用户调度器。
公平调度器（Fair Scheduler）Fair Schedulere是Facebook开发的多用户调度器。
公平调度器缺额
- 公平调度器设计目标是:在时间尺度上，所有作业获得公平的资源。某一时刻一个作业应获资源和实际获取资源的差距叫“缺额”
- 调度器会优先为缺额大的作业分配资源
公平调度器队列资源分配方式
公平调度器资源分配算法
公平调度器作业资源分配
DRF策略：DRF (Dominant Resource Fairness），我们之前说的资源都是单一标准，例如只考虑内存（也是Yarn默认的情况)。但是很多时候我们资源有很多种，例如内存，CPU，网络带宽等，这样我们很难衡量两个应用应该分配的资源比例。
- 那么在YARN中，我们用DRF来决定如何调度:假设集群一共有100 CPU和10T内存，而应用A需要(2CPU,300GB)，应用B需要(6 CPU，100GB)。则两个应用分别需要A(2%CPU,3%内存）和B(6%CPU,1%内存）的资源，这就意味着A是内存主导的, B是CPU主导的，针对这种情况，我们可以选择DRF策略对不同应用进行不同资源（CPU和内存）的一个不同比例的限制。

1.5 Yarn常用命令

Yarn状态的查询，除了可以在hadoop103:8088页面查看外，还可以通过命令操作。常见的命令操作如下所示：

#  执行WordCount案例,hadoop103:8088页面查
myhadoop.sh start
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output

# yarn application查看任务
# 列出所有Application
yarn application -list
# 根据Application状态过滤：yarn application -list -appStates （所有状态：ALL、NEW、NEW_SAVING、SUBMITTED、ACCEPTED、RUNNING、FINISHED、FAILED、KILLED
yarn application -list -appStates FINISHED
# Kill掉Application
yarn application -kill application_1612577921195_0001

# yarn logs查看日志
# 查询Application日志：yarn logs -applicationId 
yarn logs -applicationId application_1612577921195_0001
# 查询Container日志：yarn logs -applicationId  -containerId  
yarn logs -applicationId

# yarn applicationattempt查看尝试运行的任务
# 列出所有Application尝试的列表：yarn applicationattempt -list 
yarn applicationattempt -list application_1612577921195_0001
# 打印ApplicationAttemp状态：yarn applicationattempt -status 
yarn applicationattempt -status appattempt_1612577921195_0001_000001

# yarn container查看容器
# 列出所有Container：yarn container -list 
yarn container -list appattempt_1612577921195_0001_000001
# 打印Container状态：	yarn container -status 
yarn container -status container_1612577921195_0001_01_000001

# yarn node查看节点状态
# 列出所有节点：yarn node -list -all
yarn node -list -all

# yarn rmadmin更新配置
# 载队列配置：yarn rmadmin -refreshQueues
yarn rmadmin -refreshQueues

# yarn queue查看队列
# 打印队列信息：yarn queue -status 
yarn queue -status default

1.6 Yarn生产环境核心参数

第2节 Yarn案例实操

2.1 Yarn生产环境核心参数配置案例

注：调整下列参数之前尽量拍摄Linux快照，否则后续的案例，还需要重写准备集群。
需求：从1G数据中，统计每个单词出现次数。服务器3台，每台配置4G内存，4核CPU，4线程。

# 需求分析：
# 1G / 128m = 8个MapTask；1个ReduceTask；1个mrAppMaster
# 平均每个节点运行10个 / 3台 ≈ 3个任务（4	3	3）

修改yarn-site.xml配置参数如下：


<property>
	<description>The class to use as the resource scheduler.description>
	<name>yarn.resourcemanager.scheduler.classname>
	<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacitySchedulervalue>
property>


<property>
	<description>Number of threads to handle scheduler interface.description>
	<name>yarn.resourcemanager.scheduler.client.thread-countname>
	<value>8value>
property>


<property>
	<description>Enable auto-detection of node capabilities such as
	memory and CPU.
	description>
	<name>yarn.nodemanager.resource.detect-hardware-capabilitiesname>
	<value>falsevalue>
property>


<property>
	<description>Flag to determine if logical processors(such as
	hyperthreads) should be counted as cores. Only applicable on Linux
	when yarn.nodemanager.resource.cpu-vcores is set to -1 and
	yarn.nodemanager.resource.detect-hardware-capabilities is true.
	description>
	<name>yarn.nodemanager.resource.count-logical-processors-as-coresname>
	<value>falsevalue>
property>


<property>
	<description>Multiplier to determine how to convert phyiscal cores to
	vcores. This value is used if yarn.nodemanager.resource.cpu-vcores
	is set to -1(which implies auto-calculate vcores) and
	yarn.nodemanager.resource.detect-hardware-capabilities is set to true. The	number of vcores will be calculated as	number of CPUs * multiplier.
	description>
	<name>yarn.nodemanager.resource.pcores-vcores-multipliername>
	<value>1.0value>
property>


<property>
	<description>Amount of physical memory, in MB, that can be allocated 
	for containers. If set to -1 and
	yarn.nodemanager.resource.detect-hardware-capabilities is true, it is
	automatically calculated(in case of Windows and Linux).
	In other cases, the default is 8192MB.
	description>
	<name>yarn.nodemanager.resource.memory-mbname>
	<value>4096value>
property>


<property>
	<description>Number of vcores that can be allocated
	for containers. This is used by the RM scheduler when allocating
	resources for containers. This is not used to limit the number of
	CPUs used by YARN containers. If it is set to -1 and
	yarn.nodemanager.resource.detect-hardware-capabilities is true, it is
	automatically determined from the hardware in case of Windows and Linux.
	In other cases, number of vcores is 8 by default.description>
	<name>yarn.nodemanager.resource.cpu-vcoresname>
	<value>4value>
property>


	<name>yarn.scheduler.minimum-allocation-mbname>
	<value>1024value>
property>

<property>
	<description>The minimum allocation for every container request at the RM	in MBs. Memory requests lower than this will be set to the value of this	property. Additionally, a node manager that is configured to have less memory	than this value will be shut down by the resource manager.
	description>


<property>
	<description>The maximum allocation for every container request at the RM	in MBs. Memory requests higher than this will throw an	InvalidResourceRequestException.
	description>
	<name>yarn.scheduler.maximum-allocation-mbname>
	<value>2048value>
property>


<property>
	<description>The minimum allocation for every container request at the RM	in terms of virtual CPU cores. Requests lower than this will be set to the	value of this property. Additionally, a node manager that is configured to	have fewer virtual cores than this value will be shut down by the resource	manager.
	description>
	<name>yarn.scheduler.minimum-allocation-vcoresname>
	<value>1value>
property>


<property>
	<description>The maximum allocation for every container request at the RM	in terms of virtual CPU cores. Requests higher than this will throw an
	InvalidResourceRequestException.description>
	<name>yarn.scheduler.maximum-allocation-vcoresname>
	<value>2value>
property>


<property>
	<description>Whether virtual memory limits will be enforced for
	containers.description>
	<name>yarn.nodemanager.vmem-check-enabledname>
	<value>falsevalue>
property>


<property>
	<description>Ratio between virtual memory to physical memory when	setting memory limits for containers. Container allocations are	expressed in terms of physical memory, and virtual memory usage	is allowed to exceed this allocation by this ratio.
	description>
	<name>yarn.nodemanager.vmem-pmem-rationame>
	<value>2.1value>
property>

centos7和jdk8对内存分配不够友好，如果开启虚拟内存检查，默认linux会预留一部分内存给Java使用，但是java根本不认这块内存只会使用4G这块，linux确会把这个5G内存算进去，而我们物理内存肯定比4G要小的。所以用的少，满的快。
分发配置。
- 注意：如果集群的硬件资源不一致，要每个NodeManager单独配置

# 重启集群
sbin/stop-yarn.sh
sbin/start-yarn.sh
# 执行WordCount程序
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output
# 观察Yarn任务执行页面
http://hadoop103:8088/cluster/apps

2.2 容量调度器多队列提交案例

在生产环境怎么创建队列？
- 调度器默认就1个default队列，不能满足生产要求。
- 按照框架：hive /spark/ flink 每个框架的任务放入指定的队列（企业用的不是特别多）
- 按照业务模块：登录注册、购物车、下单、业务部门1、业务部门2
创建多队列的好处？
- 因为担心员工不小心，写递归死循环代码，把所有资源全部耗尽。
- 实现任务的降级使用，特殊时期保证重要的任务队列资源充足。
- 业务部门1（重要）=》业务部门2（比较重要）=》下单（一般）=》购物车（一般）=》登录注册（次要）
需求
- 需求1：default队列占总内存的40%，最大资源容量占总资源60%，hive队列占总内存的60%，最大资源容量占总资源80%。
- 需求2：配置队列优先级



<property>
    <name>yarn.scheduler.capacity.root.queuesname>
    <value>default,hivevalue>
    <description>
      The queues at the this level (root is the root queue).
    description>
property>


<property>
    <name>yarn.scheduler.capacity.root.default.capacityname>
    <value>40value>
property>


<property>
    <name>yarn.scheduler.capacity.root.default.maximum-capacityname>
    <value>60value>
property>


<property>
    <name>yarn.scheduler.capacity.root.hive.capacityname>
    <value>60value>
property>


<property>
    <name>yarn.scheduler.capacity.root.hive.user-limit-factorname>
    <value>1value>
property>


<property>
    <name>yarn.scheduler.capacity.root.hive.maximum-capacityname>
    <value>80value>
property>


<property>
    <name>yarn.scheduler.capacity.root.hive.statename>
    <value>RUNNINGvalue>
property>


<property>
    <name>yarn.scheduler.capacity.root.hive.acl_submit_applicationsname>
    <value>*value>
property>


<property>
    <name>yarn.scheduler.capacity.root.hive.acl_administer_queuename>
    <value>*value>
property>


<property>
    <name>yarn.scheduler.capacity.root.hive.acl_application_max_priorityname>
    <value>*value>
property>




<property>
    <name>yarn.scheduler.capacity.root.hive.maximum-application-lifetimename>
    <value>-1value>
property>


<property>
    <name>yarn.scheduler.capacity.root.hive.default-application-lifetimename>
    <value>-1value>
property>

分发配置文件
重启Yarn或者执行yarn rmadmin -refreshQueues刷新队列，就可以看到两条队列：

yarn rmadmin -refreshQueuesb # 这里只修改了队列参数可以不重启yarn
# 执行队列提交job 注: -D表示运行时改变参数值
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount -D mapreduce.job.queuename=hive /input /output

默认的任务提交都是提交到default队列的。如果希望向其他队列提交任务，需要在Driver中声明：这样，这个任务在集群提交时，就会提交到hive队列。

public class WcDrvier {

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

        Configuration conf = new Configuration();

        conf.set("mapreduce.job.queuename","hive");

        //1. 获取一个Job实例
        Job job = Job.getInstance(conf);

        。。。 。。。

        //6. 提交Job
        boolean b = job.waitForCompletion(true);
        System.exit(b ? 0 : 1);
    }
}

任务优先级，容量调度器，支持任务优先级的配置，在资源紧张时，优先级高的任务将优先获取资源。默认情况，Yarn将所有任务的优先级限制为0，若想使用任务的优先级功能，须开放该限制。修改yarn-site.xml文件，增加以下参数

<property>
    <name>yarn.cluster.max-application-priorityname>
    <value>5value>
property>

分发配置，并重启Yarn

xsync yarn-site.xml
sbin/stop-yarn.sh
sbin/start-yarn.sh

模拟资源紧张环境，可连续提交以下任务，直到新提交的任务申请不到资源为止。

hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar pi 5 2000000

再次重新提交优先级高的任务

hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar pi  -D mapreduce.job.priority=5 5 2000000

也可以通过以下命令修改正在执行的任务的优先级。

// yarn application -appID  -updatePriority 优先级
yarn application -appID application_1611133087930_0009 -updatePriority 5

2.3 公平调度器案例

创建两个队列，分别是test和atguigu（以用户所属组命名）。期望实现以下效果：若用户提交任务时指定队列，则任务提交到指定队列运行；若未指定队列，test用户提交的任务到root.group.test队列运行，atguigu提交的任务到root.group.atguigu队列运行（注：group为用户所属组）。
公平调度器的配置涉及到两个文件，一个是yarn-site.xml，另一个是公平调度器队列分配文件fair-scheduler.xml（文件名可自定义）。
- 配置文件参考资料：https://hadoop.apache.org/docs/r3.1.3/hadoop-yarn/hadoop-yarn-site/FairScheduler.html
- 任务队列放置规则参考资料：https://blog.cloudera.com/untangling-apache-hadoop-yarn-part-4-fair-scheduler-queue-basics/
配置多队列的公平调度器


<property>
    <name>yarn.resourcemanager.scheduler.classname>
    <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairSchedulervalue>
    <description>配置使用公平调度器description>
property>

<property>
    <name>yarn.scheduler.fair.allocation.filename>
    <value>/opt/module/hadoop-3.1.3/etc/hadoop/fair-scheduler.xmlvalue>
    <description>指明公平调度器队列分配配置文件description>
property>

<property>
    <name>yarn.scheduler.fair.preemptionname>
    <value>falsevalue>
    <description>禁止队列间资源抢占description>
property>


<allocations>
  
  <queueMaxAMShareDefault>0.5queueMaxAMShareDefault>
  
  <queueMaxResourcesDefault>4096mb,4vcoresqueueMaxResourcesDefault>

  
  <queue name="test">
    
    <minResources>2048mb,2vcoresminResources>
    
    <maxResources>4096mb,4vcoresmaxResources>
    
    <maxRunningApps>4maxRunningApps>
    
    <maxAMShare>0.5maxAMShare>
    
    <weight>1.0weight>
    
    <schedulingPolicy>fairschedulingPolicy>
  queue>
  
  <queue name="atguigu" type="parent">
    
    <minResources>2048mb,2vcoresminResources>
    
    <maxResources>4096mb,4vcoresmaxResources>
    
    <maxRunningApps>4maxRunningApps>
    
    <maxAMShare>0.5maxAMShare>
    
    <weight>1.0weight>
    
    <schedulingPolicy>fairschedulingPolicy>
  queue>

  
  <queuePlacementPolicy>
    
    <rule name="specified" create="false"/>
    
    <rule name="nestedUserQueue" create="true">
        <rule name="primaryGroup" create="false"/>
    rule>
    
    <rule name="reject" />
  queuePlacementPolicy>
allocations>

分发配置并重启Yarn

xsync yarn-site.xml
xsync fair-scheduler.xml

sbin/stop-yarn.sh
sbin/start-yarn.sh
#  测试提交任务
# 提交任务时指定队列，按照配置规则，任务会到指定的root.test队列 
hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar pi -Dmapreduce.job.queuename=root.test 1 1

# 提交任务时不指定队列，按照配置规则，任务会到root.atguigu.atguigu队列
hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar pi 1 1

2.4 Yarn的Tool接口案例

回顾：

hadoop jar wc.jar com.atguigu.mapreduce.wordcount2.WordCountDriver /input /output1
# 期望可以动态传参，结果报错，误认为是第一个输入参数。
hadoop jar wc.jar com.atguigu.mapreduce.wordcount2.WordCountDriver -Dmapreduce.job.queuename=root.test /input /output1

需求：自己写的程序也可以动态修改参数。编写Yarn的Tool接口。
新建Maven项目YarnDemo，pom如下：

project>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0modelVersion>

    <groupId>com.atguigu.hadoopgroupId>
    <artifactId>yarn_tool_testartifactId>
    <version>1.0-SNAPSHOTversion>

    <dependencies>
        <dependency>
            <groupId>org.apache.hadoopgroupId>
            <artifactId>hadoop-clientartifactId>
            <version>3.1.3version>
        dependency>
    dependencies>

新建com.atguigu.yarn包，创建类WordCount并实现Tool接口：

package com.atguigu.yarn;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;

import java.io.IOException;

public class WordCount implements Tool {

    private Configuration conf;

    @Override
    public int run(String[] args) throws Exception {

        Job job = Job.getInstance(conf);
		// 传入参数处理
        job.setJarByClass(WordCountDriver.class);

        job.setMapperClass(WordCountMapper.class);
        job.setReducerClass(WordCountReducer.class);

        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        FileInputFormat.setInputPaths(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        return job.waitForCompletion(true) ? 0 : 1;
    }

    @Override
    public void setConf(Configuration conf) {
        this.conf = conf;
    }

    @Override
    public Configuration getConf() {
        return conf;
    }

    public static class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {

        private Text outK = new Text();
        private IntWritable outV = new IntWritable(1);

        @Override
        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

            String line = value.toString();
            String[] words = line.split(" ");

            for (String word : words) {
                outK.set(word);

                context.write(outK, outV);
            }
        }
    }

    public static class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
        private IntWritable outV = new IntWritable();

        @Override
        protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {

            int sum = 0;

            for (IntWritable value : values) {
                sum += value.get();
            }
            outV.set(sum);

            context.write(key, outV);
        }
    }
}

新建WordCountDriver, 这里专门处理传入参数的信息

package com.atguigu.yarn;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;
import java.util.Arrays;

public class WordCountDriver {

    private static Tool tool;

    public static void main(String[] args) throws Exception {
        // 1. 创建配置文件
        Configuration conf = new Configuration();

        // 2. 判断是否有tool接口
        switch (args[0]){
            case "wordcount":
                tool = new WordCount();
                break;
            default:
                throw new RuntimeException(" No such tool: "+ args[0] );
        }
        // 3. 用Tool执行程序
        // Arrays.copyOfRange 将老数组的元素放到新数组里面
        int run = ToolRunner.run(conf, tool, Arrays.copyOfRange(args, 1, args.length));

        System.exit(run);
    }
}

在HDFS上准备输入文件，假设为/input目录，向集群提交该Jar包

yarn jar YarnDemo.jar com.atguigu.yarn.WordCountDriver wordcount /input /output
# 注意此时提交的3个参数，第一个用于生成特定的Tool，第二个和第三个为输入输出目录。此时如果我们希望加入设置参数，可以在wordcount后面添加参数，例如：
jar YarnDemo.jar com.atguigu.yarn.WordCountDriver wordcount -Dmapreduce.job.queuename=root.test /input /output1

你可能感兴趣的:(大数据Hadoop3,big,data,hdfs,hadoop)

搭建Hadoop与Hive环境达达玲玲 hadoop hive 大数据
当搭建Hadoop与Hive环境时，以下是每个步骤的详细操作说明：1.安装并配置CentOS7操作系统：-下载CentOS7ISO镜像文件，并通过虚拟机或物理机安装CentOS7操作系统。-在安装过程中，为系统分配必要的网络、用户和权限。2.安装Java开发环境：-下载适合您的系统的JavaJDK版本。-使用命令或GUI工具安装JavaJDK。-配置JAVA_HOME环境变量：-打开终端，输入以下
el-menu无限递归组件完美版本 Mr.Meng_95 项目 vue
el-menu无限递归组件完美版本备注：修复菜单和子菜单高亮问题，及刷新后被点击子菜单依旧打开的bug效果代码index.vue（递归组件）importMenuSunfrom'../components/menutree.vue'exportdefault{components:{MenuSun},data(){return{menuList:[{name:'一组',id:'1',children
TaskManager的JVM OOM退出配置艾丽丝的爱情 jvm 大数据
在大数据领域中，TaskManager是执行并行任务的关键组件之一。它负责管理任务的执行和资源分配。在处理大规模数据时，内存管理是一个重要的考虑因素。当TaskManager的Java虚拟机（JVM）遇到内存不足的情况时，可以通过配置相应的参数来控制其行为。本文将介绍如何配置TaskManager的JVM，以便在OOM（内存溢出）发生时退出。OOM（OutofMemory）是指在程序运行过程中，J
使用 @NoRepositoryBean 简化数据库访问 java后端
在SpringDataJPA应用程序中管理跨多个存储库接口的数据库访问逻辑可能会变得乏味且容易出错。开发人员经常发现自己为常见查询和方法重复代码，从而导致维护挑战和代码冗余。幸运的是，SpringDataJPA为这个问题提供了一个强大的解决方案：@NoRepositoryBean注解。在本文中，我们将探讨@NoRepositoryBean如何允许我们在超级接口中定义通用查询和方法，然后可以由所有基
JVM垃圾回收器的原理和调优详解！喵手零基础学Java jvm
全文目录：开篇语前言摘要概述垃圾回收器分类及原理1.Serial垃圾回收器2.Parallel垃圾回收器3.CMS垃圾回收器4.G1垃圾回收器源码解析示例代码使用案例分享案例1：Web服务的GC调优案例2：大数据任务的GC优化应用场景案例垃圾回收调优策略优缺点分析优点缺点核心类方法介绍测试用例小结总结文末开篇语哈喽，各位小伙伴们，你们好呀，我是喵手。运营社区：C站/掘金/腾讯云/阿里云/华为云/5
在Windows系统中降级Python版本后，pycharm运行时提示No Python at “C:\Users\***\AppData\Local\Programs\Python\Python WUYA_2761 python windows pycharm
在Windows系统中降级Python版本后，pycharm运行时提示NoPythonat‘"C:\Users***\AppData\Local\Programs\Python\Python312\python.exe’当你在Windows系统中降级了Python版本，而PyCharm仍然尝试使用旧的Python解释器时，你可能需要在PyCharm中手动更新Python解释器的路径。以下是解决这个
自定义数据集使用框架的线性回归方法对其进行拟合〖是♂我〗线性回归算法回归
代码：#导入必要的库importtorchimportnumpyasnpimportmatplotlib.pyplotasplt#定义数据集：二维数据，其中第一列是特征x，第二列是目标值ydata=[[-0.5,7.7],[1.8,98.5],[0.9,57.8],[0.4,39.2],[-1.4,-15.7],[-1.4,-37.3],[-1.8,-49.1],[1.5,75.6],[0.4,3
Go语言web快速开发框架Gin如何进行数据的增删查改呢？网友阿贵 Go语言 golang gin 后端 intellij-idea vscode
在Go语言中使用Gin框架进行Web开发时，你可以轻松地结合database/sql接口和具体的数据库驱动（如MySQL的go-sql-driver/mysql）来执行数据的增删查改（CRUD）操作。下面通过几个简单的例子展示如何使用Gin和MySQL进行基本的数据操作。1.安装依赖确保你已经安装了必要的依赖：goget-ugithub.com/gin-gonic/gingoget-ugithub
表格组件二次封装（element+vue） syste_m_ vue.js javascript 前端
后端管理系统中，常用表格展示数据，统一维护，统一表格风格，二次封装一个基于elementUI中的el-table封装一个简单的表格组件。封装组件分为四部分，表单查询条件、头部操作按钮、表格数据展示、数据分页操作。一、表格组件封装1、表单查询条件封装表单项，定义name、label，表单项默认为输入框，scopedSlots为表单项插槽。//表单项queryForms:[{dataKey:'nick
element-plus select 滚动加载更多日积一沙 javascript
思路：监听select下拉面板的滚动事件，滚动到底部时，调用接口加载更多数据一、自定义指令importtype{Directive,DirectiveBinding}from"vue";interfaceElTypeextendsHTMLElement{copyData:string|number;__handleClick__:any;}constloadmore:Directive={moun
vue3自定义表格生成动态列实践是最好的老师 vue.js javascript 前端
{{isEditing?'保存':'编辑'}}import{ref,reactive,h}from'vue';//模拟从后端获取的数据constbackendData={columns:[{label:'姓名',prop:'name',editable:true,type:'input'},{label:'年龄',prop:'age',editable:true,type:'input'},{la
Python 录音转文字 @小张不嚣张 python 开发语言
在Python中,可以使用第三方库来实现录音文件转文字的功能。一个常用的库是speech_recognition。importspeech_recognitionassr#创建语音识别器r=sr.Recognizer()#从录音文件读取音频withsr.AudioFile('audio_file.wav')assource:audio_data=r.record(source)#使用GoogleS
EmEditort v24.5.3世界上最快的文本编辑器 jiamianAA 经验分享电脑
下载：https://pan.quark.cn/s/16d827576a06EmEditor–支持大文件和Unicode的最佳Windows文本编辑器。号称世界上最快的文本编辑器！EmEditor是一款快速，轻巧，可扩展，使用方便的Windows代码编辑器。支持宏，Unicode，代码段插件，还能处理大数据以及CSV文件，无需Excel，堪称最强CSV编辑器。软件自带简体中文，支持32位和64位版
寒假学web--day06 onehang. 网络安全 php
简介今天的主要内容为文件上传，包括一些简单的和一些高级的绕过姿势一些小细节平时我们通过POST方式上传数据时，enctype是application/x-www-form-urlencode，而在文件上传时，是multipart/form-data上传的文件会存在超全局变量$_FILES里面上传的文件会先存放在临时目录里面，如果不进行后续的存储操作就会被清除存放文件的函数为move_upload_
python将txt文件转为字符串_Python文件如何转换为字符串 weixin_39910481
Python文件如何转换为字符串一、最方便的方法是一次性读取文件中的所有内容并放置到一个大字符串中：all_the_text=open('thefile.txt').read()#文本文件中的所有文本all_the_data=open('abinfile','rb').read()#二进制文件中的所有数据为了安全起见，最好还是给打开的文件对象指定一个名字，这样在完成操作之后可以迅速关闭文件，防止一
Crawl4AI：用几行代码打造强大的网页爬虫海豹工匠爬虫
Crawl4AI：用几行代码打造强大的网页爬虫在人工智能和大数据时代，数据的获取和处理变得尤为重要。尤其是在大型语言模型（LLM）的研究和应用中，如何高效地抓取和整理网络数据成为了一个关键的挑战。为了解决这一问题，一个名为Crawl4AI的开源网页爬虫工具应运而生，它专为LLM优化，提供了一种简单易用且功能强大的数据抓取解决方案。什么是Crawl4AI？Crawl4AI是一个基于LLM的开源网页爬
lscpu输出详解 zdd56789 红帽学习记录 linux
1、lscpu输出含义：Architecture:x86_64#cpu架构，例如x86_64CPUop-mode(s):32-bit,64-bit#cpu支持的操作模式，如32-bit、64-bitByteOrder:LittleEndian#字节顺序，一般为小端序（littleendian）或（bigendian）CPU(s):1#cpu的数量On-lineCPU(s)list:0#在线cpu的
大数据技术之MapReduce wespten Hadoop Hive Spark 大数据安全大数据 mapreduce hadoop
一、MapReduce概述1、MapReduce简介MapReduce是一个分布式运算程序的编程框架，是基于Hadoop的数据分析计算的核心框架。MapReduce处理过程分为两个阶段：Map和Reduce。Map负责把一个任务分解成多个任务，Reduce负责把分解后多任务处理的结果汇总。2、MapReduce优缺点MapReduce优点：MapReduce易于编程：它简单的实现一些接口，就可以完
MySQL 基础学习(1)：数据类型与操作数据库和数据表 Purified_Soda MySQL数据库 oracle 数据库 mysql database
MySQL基础学习：数据类型与操作数据库和数据表在这篇博客中，我们将深入学习MySQL的基础操作，重点关注数据库和数据表的操作，以及MySQL中常见的数据类型。希望本文能帮助你更好地理解和掌握MySQL的基本用法。一、操作数据库在MySQL中，数据库是数据存储的逻辑集合，以下是常见的数据库操作：1.创建数据库createdatabase数据库名charsetutf8;通过以上命令，我们可以创建一个
【开发日记】微信小程序getBackgroundAudioManager播放背景音乐提示播放失败二饭微信小程序小程序
【问题】小程序在手机上打开，播放在线音频的时候会提示播放失败，但打印异常提示的是src为null，自己在打印的时候却没问题。并且在微信开发者工具中播放的时候也是正常的，只有手机上打开使用时提示异常。【解决】如果你的链接中包含中文字符，请使用encodeURI(src)进行编码处理。示例代码如下：letsrc=this.data.host+this.data.previewUrl+this.data
HTML `＜head＞` 元素详解浪浪山小白兔 html 前端
在HTML文档中，元素是一个非常重要的部分，它包含了文档的元数据（metadata）和其他与文档相关的信息。虽然中的内容不会直接显示在网页上，但它对网页的行为、样式和搜索引擎优化（SEO）有着至关重要的影响。本文将详细介绍元素及其常见子元素的使用方法，并通过丰富的示例帮助你更好地理解和应用。1.元素概述元素是HTML文档的头部部分，位于标签内，标签之前。它主要用于定义文档的元数据、链接外部资源、设
R语言运行Python包解决Error: Error creating conda environment 问题 wang_jiezeng Numpy conda环境设置 python r语言深度学习
RSTudio成功安装并加载reticulate、Rcpp两个先行包后，运行np<-import("numpy")出现死机，运行repl_python()出现发生错误的提示：Error:Errorcreatingcondaenvironment'C:/Users/Administrator/AppData/Local/r-miniconda/envs/r-reticulate'[exitcode1
keytool 错误: java.io.IOException: parseAlgParameters failed:ObjectIdentifier() -- data isn‘t an objec 是先生了 Java 安卓开发安卓笔记 java 开发语言
今天在做安卓开发时，笔者发现了一个问题，就是我们使用百度地图API的时候要进行获取SHA1，用以下命令keytool-list-v-keystoredebug.keystore于是笔者输入该命令之后，直接输入密码android，然后就报错如下：keytool错误:java.io.IOException:parseAlgParametersfailed:ObjectIdentifier()--dat
非凸科技荣登脉脉2024“年度职得去雇主”榜单招聘
近日，2024脉脉MAX年度职场力量盛典暨年度“职得去”公司颁奖典礼在深圳举行，非凸科技受邀出席盛会并荣登脉脉2024“年度职得去雇主”榜单。本届评选依据脉脉独有的“雇主指数”以及专家评审意见综合评选而出，综合考量了企业在脉脉社区广场、同事圈、行业圈等多个频道口碑，并基于职场大数据训练的专属大模型，客观反映企业在职场人心中的口碑。非凸科技获此殊荣，也意味着在发展前景、工作氛围、薪酬福利等方面极具竞
2024第五届全球数字经济产业大会：前沿技术引领未来 javascript
随着数字化浪潮的不断推进，全球数字经济产业大会已成为展示最新技术成果和探讨未来发展趋势的重要平台。2024年8月，第五届全球数字经济产业大会在深圳会展中心盛大召开，汇聚了全球顶尖的科技企业和行业领袖，共同探讨和展示数字经济领域的最新技术成果与发展趋势。云计算与大数据云计算和大数据技术作为数字经济的基石，一直是大会的焦点。本届大会上，众多企业展示了他们在云计算平台的创新和大数据应用方面的最新进展。通
6.3 利用数据卷容器迁移数据安心Smile docker Docker技术入门与实战备份恢复迁移数据卷
利用数据卷容器来备份、恢复、迁移数据卷可以利用数据卷对其中的数据进行进行备份、恢复和迁移。备份首先使用--volumes-from标记来创建一个加载dbdata容器卷的容器，并从主机挂载当前目录到容器的/backup目录。命令如下：$sudodockerrun--volumes-fromdbdata-v$(pwd):/backupubuntutarcvf/backup/backup.tar/dbd
RTOS weixin_34174422 操作系统嵌入式
这里参考wiki的英文，加上自己的理解翻译下RTOS的定义：Areal-timeoperatingsystem(RTOS)isanoperatingsystem(OS)intendedtoservereal-timeapplicationprocessdataasitcomesin,typicallywithoutbufferingdelays.Processingtimerequirements
anaconda中pyspark_自学大数据——9 Anaconda安装与使用pyspark 步六孤陆
首先从Anaconda官网上下载Anaconda。一、解压安装包sudobashAnaconda3-2020.07-Linux-x86_64.shchown-Rhadoop:hadoop/opt/anaconda/vi/etc/profileexportANACONDA_HOME=/opt/anacondaexportPATH=$PATH:$ANACONDA_HOME/bin:source/etc
PySpark数据处理过程简析 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介PySpark是ApacheSpark的PythonAPI，可以用Python进行分布式数据处理，它在内存中利用了ApacheHadoopYARN资源调度框架对数据进行并行处理。PySpark可以直接使用Hadoop文件系统、HDFS来存储数据，也可以通过S3、GCS、ADLS等云存储平台保存数据。因此，在不同的数据源之间移动数据时，只需要复制一次数据就可以完成
2022-02-09大数据学习日志——PySpark——Spark快速入门&Standalone集群王络不稳定 spark big data 大数据
第一部分Spark快速入门01_Spark快速入门【Anaconda软件安装】[掌握]使用Python编写Spark代码，首先需要安装Python语言包，此时安装Anaconda科学数据分析包。Anaconda指的是一个开源的Python发行版本，其包含了conda、Python等180多个科学包及其依赖项。Anaconda是跨平台的，有Windows、MacOS、Linux版本。#下载地址：ht
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C

第四课 大数据技术之Hadoop3.x的YARN

第四课 大数据技术之Hadoop3.x的YARN

文章目录

第一节 Yarn资源调度器

1.1 Yarn基础架构

1.2 YARN的工作机制

1.3 作业提交全过程

1.4 Yarn调度器和调度算法

1.5 Yarn常用命令

1.6 Yarn生产环境核心参数

第2节 Yarn案例实操

2.1 Yarn生产环境核心参数配置案例

2.2 容量调度器多队列提交案例

2.3 公平调度器案例

2.4 Yarn的Tool接口案例

你可能感兴趣的:(大数据Hadoop3,big,data,hdfs,hadoop)

第四课大数据技术之Hadoop3.x的YARN

第四课大数据技术之Hadoop3.x的YARN