IT行业小趴菜

什么是MapReduce？MapReduce整体架构搭建使用介绍

文章目录

前言
- MapReduce
- - 入门
  - MapReduce的核心思想
  - - MapReduce
    - yarn
- Yarn伪分布式搭建
- MapReduce编码
- - 需求
  - MapReduce2.0工作机制
  - MapReduce数据流转机制
  - - MR编码准备
    - MR编码
  - MapReduce核心api
  - - Mapreduce补充细节
  - 生产中提交MR任务1
  - - maven自动化部署插件wagon
    - ApplicationMaster
    - 配置yarn的日志服务器-Historyserver
- MapReduce详解
- - Hadoop序列化
  - - 案例数据
  - 数据清洗
  - 计数器Counter
  - 排序
  - - 默认排序
    - 自定义排序
    - 二次排序(二排)
- MapReduce优化
- - MapTask并行度
  - - InputFormat(优化1)
  - Combiner合并(优化2)
  - ReduceTask并行度(优化3)
  - 默认分区partition
  - 自定义Partition(优化4)
  - - 自定义分区编码
- MapReduce工作原理(终极版)
- - Spill溢写
  - - MapReduce排序
  - Shuffle(混洗-洗牌)
reduce阶段
- - 源码分析
  - 全工作流程总结
  - 源码分析
- Yarn分布式集群搭建
- 经典案例
- - TOPN
- MapReduce源码笔记总结
- - 提交job
  - FileInputFormat
  - MapTask
  - ReduceTask
  - ReduceTask
总结：仰天大笑出门去，我辈岂是蓬蒿人

前言

本文是MapReduced的详细介绍，MapReduce是hadoop体系下的一种计算模型(计算框架|编程框架),主要是用来对存储在hdfs上的数据进行统计,分析的，分布式计算框架，用来解决分布式大数据平台下数据如何计算，资源调度,任务监控主要用来整合hadoop集群中的资源(CPU 内存),进行统一调度同时监控任务的执行情况，联合多个服务器节点的硬件，共同完成一个计算。突破单机服务器的计算能力，还介绍了Yarn分布式集群搭建使用，MapReduce工作的原理源码分析

MapReduce

入门

MapReduce是hadoop体系下的一种计算模型(计算框架|编程框架),主要是用来对存储在hdfs上的数据进行统计,分析的。

MapReduce的核心思想

分而治之：大任务拆分小任务。

MapReduce

概念：分布式计算框架，用来解决分布式大数据平台下数据如何计算。
简单：分而治之
Job
MapTask * 多个并行
ReduceTask

Job(一个大型任务)[Application]
一组MapReduce又统称为一个Job作业

MapTask(拆分后的小任务)
局部计算并行

Reduce(整合任务)
对局部计算结果进行汇总计算。

yarn

yarn集群核心组成

NodeManager

ResourceManager

作用(包工队)
资源调度,任务监控主要用来整合hadoop集群中的资源(CPU 内存),进行统一调度同时监控任务的执行情况
总结: 联合多个服务器节点的硬件，共同完成一个计算。突破单机服务器的计算能力。

组成部分

ResourceManager(包工头)
集群计算资源的管理器，也是yarn架构中的主节点。
功能：

监控集群资源

为计算分配资源。

NodeManager(干活的)
yarn集群计算资源的提供者，也是yarn架构中的从节点。
功能

真正执行计算任务的节点。

监控本节点的资源情况(CPU 内存网络硬盘)，并通过心跳向RM汇报。

MapReduce特点

易于编程：只需要使用hadoop接口进行编程，即可实现多台计算机分布式计算和分布式存储。

高扩展性：存储空间不足或者计算能力不足，则可以添加计算机完成。

容错性高：如果某个节点宕机，hadoop可以自动切换讲计算任务转移到其他节点上完成，不会影响计算结果。
如果计算任务执行了一半失败，出错，内部自动重试机制。

应用场景：PB级别以上海量数据的离线处理，无法实时处理和流失动态处理。(每日)

Yarn伪分布式搭建

1.准备单机的HDFS架构
要求：安装了并配置了HDFS架构的服务器。
验证：jps

[root@hadoop10 ~]# jps
2224 Jps
2113 SecondaryNameNode
1910 DataNode
1806 NameNode

关闭掉hdfs
	stop-dfs.sh

# 2 初始化配置文件

# 拷贝得到mapred-site.xml
[root@hadoop10 hadoop]# cp mapred-site.xml.template mapred-site.xml
1. mapred-site.xml
	
	<property>
        <name>mapreduce.framework.namename>
        <value>yarnvalue>
    property>
2. yarn-site.xml
	
	<property>
        <name>yarn.nodemanager.aux-servicesname>
        <value>mapreduce_shufflevalue>
    property>
	
    <property>
        <name>yarn.resourcemanager.hostnamename>
        <value>Hadoopvalue>
    property>
3. slaves配置文件
	指定：DataNode和NodeManager节点的ip地址。
	① Datanode节点ip
	② Nodemanager的节点ip

# 3. 启动yarn集群
1. 启动HDFS集群
	start-dfs.sh
2. 启动yarn集群
	start-yarn.sh
	关闭yarn
	stop-yarn.sh

# 验证
1. jps
[root@hadoop11 ~]# jps
    6160 DataNode   --- 数据存储节点
    6513 ResourceManager -- 计算机资源调度节点
    6614 NodeManager -- 局部计算节点
    6056 NameNode  -- 文件元数据存储节点
    6349 SecondaryNameNode -- checkpoint节点。
    6831 Jps
2. 访问yarn的资源调度器web网页。
	http://resourcemanager所在节点ip:8088

MapReduce编码

需求

MapReduce2.0工作机制

数据变化(要干什么)
工作角色(谁来干)

MapReduce数据流转机制

> 1. InputFormat(mr自动处理)

讲block文件转化成split，其中每条数据是key-value组成。
key是数据偏移量
value是每条数据
2. Map(程序员编码)
将split逐条输入给map，由map负责，对每条数据进行处理，转化为keyOut-valueOut
3. Shuffle(MR的默认处理器)
对map输出的每条数据的key-value进行排序，分组。
4. Reduce(程序员编码)
对Shuffle分组后的数据的key-value进行处理，转化为新的key-value。
5. OutputFormat
讲reduce产生的数据，存储HDFS文件系统中

MR编码准备

# 导入pom依赖


<dependency>
    <groupId>org.apache.hadoopgroupId>
    <artifactId>hadoop-commonartifactId>
    <version>2.9.2version>
dependency>


<dependency>
    <groupId>org.apache.hadoopgroupId>
    <artifactId>hadoop-hdfsartifactId>
    <version>2.9.2version>
dependency>


<dependency>
    <groupId>junitgroupId>
    <artifactId>junitartifactId>
    <version>4.12version>
dependency>


<dependency>
    <groupId>org.apache.hadoopgroupId>
    <artifactId>hadoop-mapreduce-client-coreartifactId>
    <version>2.9.2version>
dependency>

<dependency>
    <groupId>org.apache.hadoopgroupId>
    <artifactId>hadoop-mapreduce-client-commonartifactId>
    <version>2.9.2version>
dependency>
<dependency>
    <groupId>org.apache.hadoopgroupId>
    <artifactId>hadoop-mapreduce-client-jobclientartifactId>
    <version>2.9.2version>
dependency>

# 导入log4j配置文件

MR编码

# 编写map程序

/*Mapper:
    * 接受：k(0)-v(yangdd yangdd)
    * 输出：k(name)-v(1)
    *
    * */
/**
     * 继承类上的泛型：
     * Keyin
     * ValueIn
     * KeyOut
     * ValueOut
     *
     */
static class WordCountMapper extends Mapper<LongWritable,Text, Text, IntWritable>{
    /**
         * 执行时机：每读取一行k-v，调用一次map方法
         * @param key 输入k
         * @param value 输入v
         * @param context 输出k-v写出工具。
         * @throws IOException
         * @throws InterruptedException
         */
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        //1. 接受k-v
        //2. 对v进行拆分
        String sv = value.toString();
        String[] names = sv.split(" ");
        //遍历数组，将得到每个name，作为k输出。
        for (String name : names) {
            //3. 将k(name)-v(1)
            context.write(new Text(name),new IntWritable(1));
        }

    }
}

# 编写reduce程序

/*Reducer:
    * 对maptask输出后，mapreduce合并后的k-vs中的value之，累加和。
    * keyint
    * valuein
    * keyout
    * valueout
    * */
static class WordCountReducer extends Reducer<Text,IntWritable,Text,IntWritable>{
    /**
         * 执行时机：每读取Reduce端合并后的一组数据(k-vs),调用一次reduce方法。
         * @param key 输入k
         * @param values 输入value [1,2,3,1]
         * @param context 输出k-v
         * @throws IOException
         * @throws InterruptedException
         */
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        //1: 接受k-vs
        //2. 对vs 遍历累加
        int sum = 0;
        for (IntWritable value : values) {
            sum = sum+value.get();
        }
        //3. 输出
        // k(name)-v(累加和)
        context.write(key,new IntWritable(sum));
    }
}

# 编写job程序

public static void main(String[] args) throws Exception{
    /*组装Job 启动Job*/
    //1. 初始化hdfs的配置文件 入口
    Configuration conf = new Configuration();
    conf.set("fs.defaultFS","hdfs://192.168.199.10:9000");
    //2. 创建job，未来是要运行在yarn集群中。
    Job job = Job.getInstance(conf);
    job.setJarByClass(JobForWordCount.class);
    //3. 配置job(MapTask一端): TextInputFormat keyout valueout Mapper
    TextInputFormat.addInputPath(job,new Path("/baizhi/mapreduce/demo1/namecount.txt"));
    job.setMapOutputKeyClass(Text.class);
    job.setMapOutputValueClass(IntWritable.class);
    job.setMapperClass(WordCountMapper.class);
    //4. 配置job(ReduceTask一端): TextOutputFormat keyout valueout Reducer
    TextOutputFormat.setOutputPath(job,new Path("/baizhi/mapreduce/demo1/namecountout"));//最后一集目录不能存在，执行目录。
    job.setReducerClass(WordCountReducer.class);
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(IntWritable.class);
    //5. 启动job
    boolean b = job.waitForCompletion(true);
    System.out.println(b);
}

# 本地直接运行。
	使用本地的方式提交任务，需要HDFS开启写入文件的权限。
	hdfs dfs -chmod -R 777 /hdfs

MapReduce核心api

InputFormat
MapTask
maper
ReduceTask
reducer
OutputFormat

Mapreduce补充细节

Hadoop的MapReduce适合做大数据的离线处理，不适合做实时处理。

mapreduce的sort排序，无法取消。

生产中提交MR任务1

# 打包
# 1. 设置maven的打包的环境

<properties>
    
    <project.build.sourceEncoding>UTF-8project.build.sourceEncoding>
properties>
<build>
    
    <finalName>mr1finalName>
    
    <plugins>
        <plugin>
            <groupId>org.apache.maven.pluginsgroupId>
            <artifactId>maven-jar-pluginartifactId>
            <version>2.4version>
            <configuration>
                <archive>
                    
                    <manifest>
                        <mainClass>demo1.job.WordCountJobmainClass>
                    manifest>
                archive>
            configuration>
        plugin>
    plugins>
build>

# 2. 执行打包
	在当前项目所在的目录下执行如下命令
	> mvn package
# 3. 上传jar到hadoop的ResourceManager所在的机器
# 4. 执行程序
	> yarn jar mr1.jar

maven自动化部署插件wagon

# 1. 配置maven远程提交插件
1. 添加maven的ssh扩展
2. 添加maven的远程拷贝插件wagon(货车)


<extensions>
    <extension>
        <groupId>org.apache.maven.wagongroupId>
        <artifactId>wagon-sshartifactId>
        <version>2.8version>
    extension>
extensions>


<plugin>
    <groupId>org.codehaus.mojogroupId>
    <artifactId>wagon-maven-pluginartifactId>
    <version>1.0version>
    <configuration>
        
        <fromFile>target/${project.build.finalName}.jarfromFile>
        
        <url>scp://用户名:密码@ip:/opt/appurl>
    configuration>
plugin>

3. 添加远程执行命令，和参数。

# 清空
	mvn clean
# 打包本地jar
	mvn package
# 远程上传jar
	mvn wagon:upload-single

ApplicationMaster

ResourceManager：任务分配，和nodemanager管理；领导、团队管理[工头]

NodeManager: 负责运行执行MapTask和ReduceTask。具体干活的人。[工人]

MRAppMaster：监控、管理 MapReduce任务的执行(开始-过程-结束)。工地监工。

只有在启动mapreduce程序，才会启动MRAppMaster

负责某个任务全部执行过程的监控管理。(监工)

提交job
启动ApplicationMaster|MRAppMaster

管理整个job的运行过程
① 向ResourceManager申请资源。
② 在NodeManager中启动一个运行环境，执行代码。()
③ 跟踪应用job的执行过程和状态
④ Job故障管理;
一旦job任务执行失败(MapTask),AppMaster，自定让NodeManager重启执行任务代码。

配置yarn的日志服务器-Historyserver

Hadoop自带了一个历史服务器，可以通过历史服务器查看已经运行完的Mapreduce作业记录

比如用了多少个Map、用了多少个Reduce、作业提交时间、作业启动时间、作业完成时间等信息。

默认未启动。

# 1. 配置mapred-site.xml，指定历史日志服务器的地址


<property>
    <name>mapreduce.jobhistory.addressname>
    <value>hadoop10:10020value>
property>

<property>
    <name>mapreduce.jobhistory.webapp.addressname>
    <value>hadoop10:19888value>
property>

# 2. 配置yarn-site.xml,指定开启日志聚合和日志保留时间，使得日志文件保存在hdfs上。


    yarn.log-aggregation-enable
    true


 
    yarn.log-aggregation.retain-seconds
    604800

# 3. 启动历史日志服务器
0. 启动hdfs
	
1. 重启yarn
	[root@hadoop10 ~]# stop-yarn.sh
	[root@hadoop10 ~]# start-yarn.sh
2. 启动
	[root@hadoop10 ~]# mr-jobhistory-daemon.sh start historyserver
	如果需要关闭执行如下命令
	[root@hadoop10 ~]# mr-jobhistory-daemon.sh stop historyserver

# 4. 查看日志
	1. 访问http://ip:8088(访问yarn集群，看到执行过的job信息)
	2. 点击"Applications"找到刚才执行的job的"history"
	3. 点击logs

MapReduce详解

Hadoop序列化

案例数据

手机使用的流量数据，每次手机上网记录一条信息。

需求：统计每个手机号的上传总流量下载总流量总流量

分析核心点:

希望那些数据相同的合并在一起，map端就以它为key输出即可。

# 案例数据
id				手机号		 						 ip地址					上传	  下载	状态码
1363157985066	13726230503	00-FD-07-A4-72-B8:CMCC	120.196.100.82	24	27	2481	24681	200
1363157995052	13826544101	5C-0E-8B-C7-F1-E0:CMCC	120.197.40.4	4	0	264	0	200
1363157991076	13926435656	20-10-7A-28-CC-0A:CMCC	120.196.100.99	2	4	132	1512	200
1363154400022	13926251106	5C-0E-8B-8B-B1-50:CMCC	120.197.40.4	4	0	240	0	200
1363157985066	13726230503	00-FD-07-A4-72-B8:CMCC	120.196.100.82	24	27	2481	24681	200
1363157995052	13826544101	5C-0E-8B-C7-F1-E0:CMCC	120.197.40.4	4	0	264	0	200
1363157991076	13926435656	20-10-7A-28-CC-0A:CMCC	120.196.100.99	2	4	132	1512	200
1363154400022	13926251106	5C-0E-8B-8B-B1-50:CMCC	120.197.40.4	4	0	240	0	200
# 期望结果
13726230503	 上传流量:4962  下载流量:49362  总数据流量:  54324
13826544101	 上传流量:528  下载流量:0  总数据流量:  528
13926251106	 上传流量:480  下载流量:0  总数据流量:  480
13926435656	 上传流量:264  下载流量:3024  总数据流量:  3288

# hadoop序列化
	mapreduce执行过程中，被处理的key-value数据，需要在网络中传输，就需要对象转化为字节，字节转化为对象，这就是序列化和反序列化过程；
	key和value都要经过序列化传输。
1. Java序列化(序列化数据+对象描述信息)
	序列化会包含java的继承关系，验证信息，验证信息。(重量级)
	不便于在网络中传输。
2. Hadoop序列化(仅关注数据序列化)
	空间紧凑
	传输快速，网络开销小。
结论：
	mapreduce中所有key-value都要支持序列化。

hadoop内置可序列化类型

Java类型	Hadoop Writable类型
boolean	BooleanWritable
byte	ByteWritable
int	IntWritable
long	LongWritable
float	FloatWritable
double	DoubleWritable
string	`Text`
array	ArrayWritable
map	MapWritable
null	NullWritable

自定义序列化类型
将要封装的数据，放在一个类中。
自定义一个类实现WritableComparable

可以被hadoop序列化传输。

可以支持排序。

注意序列化和反序列化的属性操作顺序要完全一致

//序列化示例代码
public class PhoneLogWritable implements WritableComparable<PhoneLogWritable> {
    private Logger log = Logger.getLogger(PhoneLogWritable.class);
    private int upload;
    private int download;
    private int sum;
    public PhoneLogWritable(int upload, int download, int sum) {
        this.upload = upload;
        this.download = download;
        this.sum = sum;
    }
    public PhoneLogWritable() {
        log.info("----对象创建----");
    }
    public int compareTo(PhoneLogWritable o) {
        log.info("--比较--");
        return this.sum-o.sum;
    }
    public void write(DataOutput dataOutput) throws IOException {
        log.info("------write---");
        dataOutput.writeInt(upload);
        dataOutput.writeInt(download);
        dataOutput.writeInt(sum);
    }
    public void readFields(DataInput dataInput) throws IOException {
        log.info("--read---");
        upload = dataInput.readInt();
        download = dataInput.readInt();
        sum = dataInput.readInt();
    }
    @Override
    public boolean equals(Object o) {
        System.out.println("--equals---");
        if (this == o) return true;
        if (o == null || getClass() != o.getClass()) return false;
        PhoneLogWritable that = (PhoneLogWritable) o;
        return upload == that.upload &&
                download == that.download &&
                sum == that.sum;
    }
    @Override
    public int hashCode() {
        System.out.println("--hashcode---");
        return Objects.hash(upload, download, sum);
    }
    public int getUpload() {
        return upload;
    }
    public void setUpload(int upload) {
        this.upload = upload;
    }
    public int getDownload() {
        return download;
    }
    public void setDownload(int download) {
        this.download = download;
    }
    public int getSum() {
        return sum;
    }
    public void setSum(int sum) {
        this.sum = sum;
    }
    @Override
    public String toString() {
        return "PhoneLogWritable{" +
                "upload=" + upload +
                ", download=" + download +
                ", sum=" + sum +
                '}';
    }
}

数据清洗

业务：将原始数据文件中的脏东西(无效数据，无用数据)洗掉。

1. 将原始的数据文件(日志文件)中，无效的行数据，去除。
2. 将本次功能处理，不需要的业务数据，去除。

# mapreduce中可以没有reduce
效果：之进行map阶段的执行。执行完毕后即输出到文件中。
# 代码实现
1. 取消mapreduce的job有关reduce的所有设置
2. 保留并设置如下
	job.setNumReduceTasks(0);//取消reduce
	FileOutputFormat.setOutputPath(job,new Path("/app/mapreduce/demo3/out"));

# 原数据
id				手机号		 						 ip地址					上传	  下载	状态码
1363157985066	13726230503	00-FD-07-A4-72-B8:CMCC	120.196.100.82	24	27	2481	24681	200
1363157995052	13826544101	5C-0E-8B-C7-F1-E0:CMCC	120.197.40.4	4	0	264	0	200
1363157991076	13926435656	20-10-7A-28-CC-0A:CMCC	120.196.100.99	2	4	132	1512	200
1363154400022	13926251106	5C-0E-8B-8B-B1-50:CMCC	120.197.40.4	4	0	240	0	200
1363157985066	13726230503	00-FD-07-A4-72-B8:CMCC	120.196.100.82	24	27	2481	24681	200
1363157995052	13826544101	5C-0E-8B-C7-F1-E0:CMCC	120.197.40.4	4	0	264	0	200
1363157991076	13926435656	20-10-7A-28-CC-0A:CMCC	120.196.100.99	2	4	132	1512	200
1363154400022	13926251106	5C-0E-8B-8B-B1-50:CMCC	120.197.40.4	4	0	240	0	200
1363157995052	13826544109	5C-0E-8B-C7-F1-E0:CMCC	120.197.40.4	4	0
1363157995052	null	5C-0E-8B-C7-F1-E0:CMCC	120.197.40.4	4	0	240	0	200
1363157991076	13926435659	20-10-7A-28-CC-0A:CMCC	120.196.100.99	2	4	null	null	null

# 测试案例
	删除其中手机号不符合要求，上传流量确实和下载流量确实的数据，并仅保留手机号 上传流量 下载流量。(效果如下)
    13726230503	2481	24681
    13826544101	264	0
    13926435656	132	1512
    13926251106	240	0
    13726230503	2481	24681
    13826544101	264	0
    13926435656	132	1512
    13926251106	240	0

计数器Counter

用来记录hadoop执行过程的工具，可以理解为hadoop的日志。
形式
group1
name1 数量

代码
context.getCounter(“map阶段”,“map输出”).increment(1L);

效果如下

排序

简介
Shuffle期间，MapReduce会对map输出的数据，对key进行排序。

时机:

map输出之后，shuffle过程中。

map输出之后的map端。

规则:

key如果是Text类型按照字典顺序，进行字符串排序。

key如果是IntWritable LongWritable 则按照数字大小进行升序排序。

# 测试数据
用户id	观众人数
团团	300
小黑	200
哦吼	400
卢本伟	100
八戒	250
悟空	100
唐僧	100
# 需求：按照观众人数升序排序？
悟空	100
唐僧	100
卢本伟	100
小黑	200

默认排序

# 默认排序
 	默认按照数据类型内置CompareTo方法规则进行排序
# 案例
用户id	观众人数
团团	300
小黑	200
哦吼	400
卢本伟	100
八戒	250
悟空	100
唐僧	100
# 期望结果
卢本伟	100
悟空	100
唐僧	100
小黑	200
八戒	250
团团	300
哦吼	400

编码:

1：将需要排序的值作为MapTask输出的key

2：默认排序规则，是Hadoop API的内置类型写好的排序规则

自定义排序

# 自定义排序
# 案例
团团	300
小黑	200
哦吼	400
卢本伟	100
八戒	250
悟空	100
唐僧	100
# 期望
哦吼	400
团团	300
八戒	250
小黑	200
卢本伟	100
悟空	100
唐僧	100

二次排序(二排)

本质上在排序时候，调用了排序key的两个属性参数排序

二次排序
核心：排序所依据的字段作为map输出的key。

# 测试数据
用户id	观众人数	直播时长
团团	300	1000
小黑	200	2000
哦吼	400	7000
卢本伟	100	6000
八戒	250	5000
悟空	100	4000
唐僧	100	3000
# 需求：按照观众人数降序排序，如果观众人数相同，按照直播时长降序。

核心思路：

排序所依据的字段，要作为key。

实现hadoop的序列化。
重写WritableComparable的compareTo方法

/**
 * 1 可序列化(write readFiled)
 * 2 可排序(compareTo)
 */
public class LivePlayLog implements WritableComparable<LivePlayLog> {
    private int viewer;//观众人数
    private long length;//直播时长
    public LivePlayLog(){}

    /**
     * 作用：将该对象作为map输出的key
     *   1. mapreduce执行过程中，排序时候会调用该方法
     *   2. 默认在合并操作时候，会将key相同的value合并在一起。
     * 返回值：
     *      1 升序排序(this-o)
     *      -1 降序排序
     *      0 key相同的。
     * @param o
     * @return
     */
    @Override
    public int compareTo(LivePlayLog o) {
        if(this.viewer != o.viewer){
            return -(this.viewer-o.viewer);
        }else if(this.length != o.length){
            return -(int)(this.length-o.length);
        }else{
            return 0;
        }
    }

    @Override
    public void write(DataOutput dataOutput) throws IOException {
            dataOutput.writeInt(viewer);
            dataOutput.writeLong(length);

    }

    @Override
    public void readFields(DataInput dataInput) throws IOException {
            viewer = dataInput.readInt();
            length = dataInput.readLong();
    }
   ......

MapReduce优化

MapTask并行度

MapTask并行度，是不是越大越好?

MapTask的并行度的产生

inputformat根据配置信息，获得hdfs中文件的split大小和位置。

每个split就会启动一个MapTask，进行处理。

总结MapTask并行度决定机制
split的个数。

概念：
block：hdfs文件的最小单元。
split：文件切分信息，虚拟的文件切片。

默认：blocksize的大小就是split的大小128M，也就是一个MapTask执行的任务。
这样能够减少多个节点的MapTask之间的网络IO。

切片操作是针对1个文件，多个文件的切片不会合并。

InputFormat(优化1)

作用

对hdfs中的文件进行split切片，计算。(逻辑切分 start end)

读入的结果交给MapTask进行处理。

# 2. TextInputFormat
	接口：org.apache.hadoop.mapreduce.InputFormat
	实现类: 
		org.apache.hadoop.mapreduce.lib.input.TextInputFormat
		特点：逐行读入，并形成key(偏移量)-value(行数据)，key是偏移量，value是当前行的数据。
	1. 指定一个输入文件
		TextInputFormat.addInputPath(job,new Path("/hdfs文件"));
	2. 指定一个输入目录
		TextInputFormat.addInputPath(job,new Path("/hdfs目录"));
	3. 指定多个输入文件
		job.setInputFormatClass(TextInputFormat.class);
        FileInputFormat.addInputPath(job,new Path("/hdfs/文件1.txt"));
        FileInputFormat.addInputPath(job,new Path("/hdfs/文件2.txt"));
        FileInputFormat.addInputPath(job,new Path("/hdfs/文件3.txt"));

# 3. CombineTextInputFormat
	特点： 将多个小block合并成1个split处理，设置切片大小为10M。
	应用： 海量的小数据文件产生海量小block,合并成大的split，减少split数量，减少MapTask数量，提高MapReduce性能。
    代码：
		job.setInputFormatClass(CombineTextInputFormat.class);
		CombineTextInputFormat.setMaxInputSplitSize(job,10485760);//10M，只要加起来不超过10M的block数据，都会合并成1个split处理。
        FileInputFormat.addInputPath(job,new Path("/hdfs/目录"));

Combiner合并(优化2)

# 案例
# 测试案例(消费记录)
姓名	消费金额
张三	100
王五	200
李四	300
张三	400
王五	500
张三	600
# 期望结果
张三	1100
李四	300
王五	700

# 案例实现思路中存在的效率问题
问题：
   累加的计算任务，几乎全部压在Reduce程序，程序只有1个，压力过大，效率太低。
解决方案：
   核心：将任务尽可能前置
   方案：将累加(Reduce)的操作在Map端提前执行好
   优势：
       ① MapTask本地存放执行结果大大减少。
       ② Reduce下载MapTask执行结果，效率提升。
       ③ ReduceTask归并排序和合并数据操作效率提升了。
       ④ ReduceTask执行数据量大大减少，效率提升。

# Combiner说明
   概念：合并汇总
        MapTask端局部Reduce操作(合并merge、执行Reducer.reduce)
   时机：MapTask输出后，排序之后，执行Combiner操作，之后将结果存放在本地。
   代码：
        job.setCombinerClass(Reducer的类.class);
   应用场景：
        适合：累加、统计总数、排名 (支持可迭代性)
        不适合：平均值。

ReduceTask并行度(优化3)

# 测试案例：商品浏览日志
日期			域名					商品url					  商品名       pid     驻留时间
2020年3月3日	www.baizhiedu.com	/product/detail/10001.html	iphoneSE	10001	30
2020年3月3日	www.baizhiedu.com	/product/detail/10001.html	iphoneSE	10001	60
2020年3月3日	www.baizhiedu.com	/product/detail/10001.html	iphoneSE	10001	100
2020年3月3日	www.baizhiedu.com	/product/detail/10002.html	xps15	10002	10
2020年3月3日	www.baizhiedu.com	/product/detail/10003.html	thinkpadx390	10003	200
2020年3月3日	www.baizhiedu.com	/product/detail/10004.html	iphoneX	10004	100
2020年3月3日	www.baizhiedu.com	/product/detail/10003.html	thinkpadx390	10003	100
2020年3月3日	www.baizhiedu.com	/product/detail/10001.html	iphoneSE	10001	120
2020年3月4日	www.baizhiedu.com	/product/detail/10001.html	iphoneSE	10001	200
2020年3月5日	www.baizhiedu.com	/product/detail/10001.html	iphoneSE	10001	25
2020年3月6日	www.baizhiedu.com	/product/detail/10001.html	iphoneSE	10001	20

# 期望结果
pid    访问次数
10001	7
10002	1
10003	2
10004	1

# 提高ReduceTask的数量，提高Reduce的并行度，提高效率
	1. 增加ReduceTask的并行度(数量) ,可以启动多个ReduceTask程序处理mapTask的汇总结果，可以提高效率。
	2. 每个ReduceTask输出结果，都会单独的输出到1个文件。(注意)
# ReduceTask的数量是可以在程序中手动指定
		默认数量为:  1个 Reduce
		修改代码:    job.setNumReduceTasks(数字);  0 就是没有   数字是几就是几个
		            job.setNumReduceTasks(0)
		            job.setNumReduceTasks(2)

默认分区partition

默认分区规则

分区流程(发生时机)

MapReduce分区的整个流程

当MapTask任务中的mapper.map()输出结果后，会先根据map输出的key判断分区。(默认按照key.hashcode%reduceTasks)
不同的key-value进入不同的分区。(从此分道扬镳)

对分区后数据各自做排序。(免去了分区之间数据的比较交换排序操作)

如果设置Combiner，会自动对各自分区做本地reduce汇总操作。

将结果输出mapTask机器本地。(分区存放：分区0、分区1)

ReduceTask阶段拷贝MapTask输出结果,按照分区拷贝。
a: ReduceTask0 从所有MapTask阶段拷贝所有的分区0的数据。(n多个分区0数据)
b: 合并所有远程拷贝到的分区0的文件数据，排序(归并排序)
c: 合并当前分区0中的key的value。(merge)[k-v1,v2,v3]
d: 启动1个执行ReduceTask，输出到文件中。

ReduceTask阶段拷贝MapTask输出结果,按照分区拷贝。
a: ReduceTask1 从所有MapTask阶段拷贝所有的分区1的数据。(n多个分区1数据)
b: 合并所有远程拷贝到的分区1的文件数据，排序(归并排序)
c: 合并当前分区1中的key的value。(merge)[k-v1,v2,v3]
d: 启动1个执行ReduceTask，输出到文件中。
5和6 reduce阶段各自处理各自分区的数据

自定义Partition(优化4)

# 自定义partition
将下面数据分区处理：
人名  科目 成绩
张三	语文	10
李四	数学	30
王五	语文	20
赵6	英语	40
张三	数据	50
李四	语文	10
张三	英语	70
李四	英语	80
王五	英语	45
王五	数学	10
赵6	数学	10
赵6	语文	100
思路：
	1：分区依据要作为key
	2：排序字段也要作为key。
	3：避免合并，key要唯一，不重复(所有key都不一样)

思路：通过修改Reduce的个数，设置分区的个数。

自定义分区编码

① 定义分区类

执行时机：

Map输出key-value，后，会调用getPartition方法，决定当前key-value进入哪个分区。
注意：
分区号0开始。
当前key属于那个分区，就返回对应分区的编号。

② 使用分区类

job.setPartitionerClass(自定义Partitioner.class);

③ 设定reducer个数(开启分区)

job.setNumReduceTasks(数字);//reduceTask数量要和分区数量一样。

MapReduce工作原理(终极版)

Spill溢写

环形缓冲区：
1. map输出的结果k-v会存入环形缓冲区(从start下标开始写，写到80%，则触发溢写程序的线程。环形缓冲区继续写入)
溢写过程：
2. 当环形缓冲区中的数据，达到80%，则开始溢写。(每次写够80%/MapTask处理完毕，就开始溢写。)
	mapred-site.xml中修改mapreduce.map.sort.spill.percent的值。
3. 从缓冲区中读取key-value,自带分区号。
4. 每次溢写，对本次溢写范围内的数据做排序。
5. 如果设置combiner，则执行map端的reduce合并处理(可选，未必有)
6. 将本次溢写的数据(key有序)写入到本地的磁盘上，产生一个溢写文件。
7. 循环2~6，将产生多个溢写文件在本地磁盘中。
mapper处理完毕后
8. 将各个分区中，多次溢写的文件，再进行一次合并排序，每个分区，多次溢写产生的多个有序文件，合并成1个整体key有序的文件。

MapReduce排序

1：maptask输出环形缓冲区，缓冲区每次溢写，发生一轮排序。--每次溢写
2：Maptask多次溢写产生的多个溢写文件，要做归并排序(整体排序)---map端本地产生多个溢写文件。
3：ReduceTask汇总多个MapTask的结果文件，归并排序(整体排序)--- reduce下载maptask处理结果产生的多个文件，归并排序。

Shuffle(混洗-洗牌)

过程，人为对MapReduce整体中部分过程，做了称呼。

总结：站在数据角度，k-v从Mapper离开，一直到传给Reducer方法，中间过程，叫做shuffle

map阶段

mapper输出结果key-value
① 获得ko-vo获得分区号。(Partitioner.getpartion())
② 将ko-vo写出到环形缓冲区中。

一旦环形缓冲区中数据达到溢写条件(80%，写完了),触发溢写的线程2。
① 读取环形缓冲区中的数据，本次溢写对应的范围内数据80%;
② 根据分区号，分区内排序、(Combiner)
③ 将分区内，排序后的key-value数据，写入本地磁盘的文件中。(一次溢写产生一个文件)
④ 每次达到溢写条件(80%,写完了)，①~③，在mapTask本地磁盘形成溢写文件。(多次溢写，产生多个溢写文件)
⑤ 最后在本地完成一次分区内多个溢写文件归并排序，产生1个文件(maptask处理结果)。

reduce阶段

3. 根据分区号，启动ReduceTask，下载多个MapTask处理结果中的对应分区文件
	MapTaskA(分区0)----ReduceTask0
	MapTaskB(分区0)----ReduceTask0
4. 将当前分区中，来自不同MapTask的分区文件，归并排序。(为了reduce的merge操作效率)
	产生1个大的本分区的文件，且内容key有序。
5. merge操作: 将多个maptsk下载文件合并、排序、分组、合并。
6. 逐步读取k-vs，调用reducer.reduce();

源码分析

启动mapreduce任务 yarn jar xx.jar
1. 对源文件进行逻辑切片，切分多个splits。
2. 代码执行从job.job.waitForCompletion(true)开始;
MapTask阶段
入口：MapTask.run()开始
1. 创建MapTask，创建mapper对象，获得inputformat。
2. 循环读取key-value，交给mapper.map(key,value)
3. mapper.map(){context.write(key,value)},进入到环形缓冲区。
  缓冲区放入(key,value,分区号)
溢写过程：

读key-value
排序
combiner(可选)
写入本地磁盘文件中。
合并分区内的多个溢写文件。(mapper的所有map执行结束后)

reduceTask阶段源码

ReduceTask调用Reducer.reduce方法逻辑

全工作流程总结

mapreduce工作流程(终极版)

提交job的准备
1. 创建InputFormat，读取数据
① 获得文件split

MapTask过程
1. InputFormat—LineRecordReader.
② 读取split范围内的数据，k-v。
2. 调用Mapper.run(),来对split范围内数据进行处理
Mapper.run(){
setup(context);
while(xxx){
// 每读取一条key-value，调用一次map方法。
map(key,value,context);
}
cleanup(context);
}
3. mapper输出结果
① 获得ko-vo获得分区号。(Partitioner.getpartion(key,value,num))
② 将ko-vo,连带分区号，一块写出到环形缓冲区中。
4. 一旦环形缓冲区中数据达到溢写条件(80%，写完了)—溢写过程。
① 读取环形缓冲区中的数据(key-value-分区号)
② 根据分区号，分区排序、(Combiner)
③ 将处理结果溢写到磁盘中文件中。
④ 每次达到溢写条件(80%,写完了)，①~③，在mapTask本地磁盘形成各分区内的一个溢写文件。(多个溢写文件。)
⑤ 最后mapper处理完毕后边，触发一次溢写，产生一个溢写文件。
⑥ 最后，对MapTask本地，分区内，的多个溢写文件，合并成一个大文件。(发生一次归并排序)

ReduceTask过程：
1. 根据分区号，启动ReduceTask，下载多个MapTask处理结果中的对应分区文件
MapTaskA(分区0)----ReduceTask0
MapTaskB(分区0)----ReduceTask0
2. 将当前分区中，来自不同MapTask的分区文件，归并排序。
产生1个大的本分区的文件，且内容key有序。
3. merge操作，将有序的结果，合并key的value。
4. 循环调用reducer的reduce方法，处理汇总的数据
Reducer.run(){
setup(context);
while(xxx){
reduce.reduce(key,values);
context.write(k,v)
}
cleanup(context);
}
5. ReduceTask调用OutputFormat将结果写入到hdfs文件中。

Shuffle:
# map阶段
3. mapper输出结果
① 获得ko-vo获得分区号。(Partitioner.getpartion(key,value,num))
② 将ko-vo,连带分区号，一块写出到环形缓冲区中。
4. 一旦环形缓冲区中数据达到溢写条件(80%，写完了)—溢写过程。
① 读取环形缓冲区中的数据(key-value-分区号)
② 根据分区号，分区排序、(Combiner)
③ 将处理结果溢写到磁盘中文件中。
④ 每次达到溢写条件(80%,写完了)，①~③，在mapTask本地磁盘形成各分区内的一个溢写文件。(多个溢写文件。)
⑤ 最后mapper处理完毕后边，触发一次溢写，产生一个溢写文件。
⑥ 最后，对MapTask本地，分区内，的多个溢写文件，合并成一个大文件。(发生一次归并排序)
# reduce阶段
1. 根据分区号，启动ReduceTask，下载多个MapTask处理结果中的对应分区文件
MapTaskA(分区0)----ReduceTask0
MapTaskB(分区0)----ReduceTask0
2. 将当前分区中，来自不同MapTask的分区文件，归并排序。
产生1个大的本分区的文件，且内容key有序。
3. merge操作，将有序的结果，合并key的value。

源码分析

MapTask

public class MapTask{
    // 1. 启动一个新的Mapper程序。
	private <INKEY,INVALUE,OUTKEY,OUTVALUE> void runNewMapper(){
        创建inputFormat
        创建split
        创建mapper
        执行mapper处理数据。mapper.run(mapperContext);
            context.write(key,value)---分区--放入环形缓冲区内。
        关闭输出（NewOutputCollector），准备溢写。output.close(mapperContext);
            1. 排序
            2. combiner
            3. 到文件
    }
    //2. 收集key-value进入环形缓冲区
    public void collect(K key, V value)
        先分区再进入缓冲区
    //3. sortAndSpill() 溢写过程
    
}

# mapper对象的代码机制
	1. 每启动MapTask，执行一次runNewMapper方法，创建一个mapper类。
	2. 每读取key-value，调用mapper.map();

# 2. InputFormat

public abstract class InputFormat<K, V>
    //切片方法
	public abstract List<InputSplit> getSplits()...
    //根据split信息返回一个RecordReader(用来读取数据)
	public abstract RecordReader<K,V> createRecordReader(InputSplit split...
public abstract class FileInputFormat<K, V> extends InputFormat<K, V>{
    public List<InputSplit> getSplits(JobContext job){
		long minSize = Math.max(getFormatMinSplitSize(), getMinSplitSize(job));//获得最小值 1
    	long maxSize = getMaxSplitSize(job);//获得最大值 LongMax
        ...
        long splitSize = computeSplitSize(blockSize, minSize, maxSize);//获取split的切片大小。对应配置文件(split.minsize)
        ...
        //当文件剩余大小大于split大小的1.1倍时，进行分片
        while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {
            //获取block块的索引位置
          int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining);
          //分片
          splits.add(makeSplit(path, length-bytesRemaining, splitSize,
                      blkLocations[blkIndex].getHosts(),
                      blkLocations[blkIndex].getCachedHosts()));
          //源文件减去已经分片大小
          bytesRemaining -= splitSize;
}

# 3. ReduceTask

private <INKEY,INVALUE,OUTKEY,OUTVALUE> void runNewReducer(JobConf job...{
    创建reducer
        调用reducer的run
        调用setup 循环调用reduce方法，cleanup
}

# 4. OutputFormat

public class TextOutputFormat{
    // 将key-value写出到文件中。
    public synchronized void write(K key, V value)
}

# 作业
1. 完成分区代码任务：
1363157985066	13726230503	00-FD-07-A4-72-B8:CMCC	120.196.100.82	24	27	2481	24681	200
1363157995052	13826544101	5C-0E-8B-C7-F1-E0:CMCC	120.197.40.4	4	0	264	0	200
1363157991076	13926435656	20-10-7A-28-CC-0A:CMCC	120.196.100.99	2	4	132	1512	200
1363154400022	13926251106	5C-0E-8B-8B-B1-50:CMCC	120.197.40.4	4	0	240	0	200
1363157985066	13726230503	00-FD-07-A4-72-B8:CMCC	120.196.100.82	24	27	2481	24681	200
1363157995052	13826544101	5C-0E-8B-C7-F1-E0:CMCC	120.197.40.4	4	0	264	0	200
1363157991076	13926435656	20-10-7A-28-CC-0A:CMCC	120.196.100.99	2	4	132	1512	200
1363154400022	13926251106	5C-0E-8B-8B-B1-50:CMCC	120.197.40.4	4	0	240	0	200
	要求：统计每个手机号的总上传流量，总下载流量 总流量。，按照手机区放在不同的文件内。
	（只考虑手机号开头  137 138 139 其他）
2. 整理MapTask ReduceTask Shuffle执行流程===(MapReduce完整流程)
	文字
	图
3. 思考题(非必做)
	张三	10
	李四	20
	王五	30
	悟空	15
	八戒	90
	沙僧	100
	李旭	150
	统计，其中的最大值?
	结果：
	李旭	150

Yarn分布式集群搭建

# 0-1保证HDFS分布式集群搭建环境确保正确。
1. jps看到如下结果
	NameNode
	DataNode
	SecondaryNameNode
2. 查看hadoop11:50070.
	在datanode标签页看到3个正常的datanode节点信息。

# 0-2关闭所有NameNode节点和DataNode节点
	stop-dfs.sh

# 1：初始化yarn相关配置
1. mapred-site.xml
	
        mapreduce.framework.name
        yarn
    
2. yarn-site.xml
	
        yarn.nodemanager.aux-services
        mapreduce_shuffle
    
	
    
        yarn.resourcemanager.hostname
        Hadoop
    
3. slaves
	配置nodemanager(从机)所在的ip。
	配置datanode(从机)所在的ip
# 2：同步该配置到其他节点服务器上。
[root@hadoop11 etc]# scp -r hadoop/ root@hadoop12:/opt/installs/hadoop2.9.2/etc/
[root@hadoop11 etc]# scp -r hadoop/ root@hadoop13:/opt/installs/hadoop2.9.2/etc/
[root@hadoop11 etc]# scp -r hadoop/ root@hadoop14:/opt/installs/hadoop2.9.2/etc/

# 3：启动yarn集群
# 在namenode所在主机上
1. 启动HDFS集群
	start-dfs.sh
# 在Resourcemanager所在主机上
2. 启动yarn集群
	start-yarn.sh

# 4：验证
1. jps

[root@hadoop11 ~]# jps
    6160 DataNode
    6513 ResourceManager
    6614 NodeManager
    6056 NameNode
    6349 SecondaryNameNode
    6831 Jps

2. 访问yarn的资源调度器web网页。
	http://主节点ResourceManager节点的ip:8088

# 关闭集群
	1. 先关闭yarn
		stop-yarn.sh
	2. 在关闭hdfs
		stop-hdfs.sh

经典案例

TOPN

典型：最火主播、最畅销书、最热门的商品----TopN

需求：获得主播观众人数前3名的信息。
# 原始数据
主播id 观众人数  时长
团团	2345	1000
小黑	67123	2000
哦吼	3456	7000
卢本伟	912345	6000



八戒	1234	5000
悟空	456	4000
唐僧	123345	3000
# 期望结果
卢本伟  912345
唐僧    123345
小黑    67123

# 方案1 傻×方案
1. 按照观众人数，降序排序。
2. reduce端输出前3个。

# 方案2 牛×方案
1. 在每个MapTask端先各自计算Top3，并只输出top3.
2. Reduce端只需要统计多个MapTask的Top3结果，只输出前3个。

MapReduce源码笔记总结

验证MapReduce执行流程

提交job

//4. 启动job
boolean b = job.waitForCompletion(true);
|-
    // 提交job
    submit();
	// 如果参数为true，在监控job的执行，并打印日志。
	monitorAndPrintJob();
|-
    // 提交job
    return submitter.submitJobInternal(Job.this, cluster);
	|- 
        // 为Job 创建Split：对本次job操作的HDFS文件，进行split切片。
     	int maps = writeSplits(job, submitJobDir);
			|- 
                // 使用新API，创建split
      			maps = writeNewSplits(job, jobSubmitDir);
				|-
                    // 反射获得当前job绑定的InputFormat对象：TextInputFormat
    				InputFormat<?, ?> input = ReflectionUtils.newInstance(job.getInputFormatClass(), conf);
    				// 根据inputformat，获得split切片。(这里进入FileInputFormat类):
    				// InputSplit：offset length  host
    				List<InputSplit> splits = input.getSplits(job);
 					|- 自此，进入split具体切片操作---->FileInputFormat
		// 真正的提交job。
      	status = submitClient.submitJob(jobId, submitJobDir.toString(), job.getCredentials());
	// 修改job的状态为RUNING
    state = JobState.RUNNING;

FileInputFormat

 /** 
   * 对文件生成逻辑上的切片Split，对应InputSplit，多个split对应List集合。
   * @param job the job context
   * @throws IOException
   */
  public List<InputSplit> getSplits(JobContext job) throws IOException{
	// 最小值  1，本质上就是【mapreduce.input.fileinputformat.split.minsize】
	long minSize = Math.max(getFormatMinSplitSize(), getMinSplitSize(job));
    // 最大值 LongMax， 本质上对应：【mapreduce.input.fileinputformat.split.maxsize】
    long maxSize = getMaxSplitSize(job);
      ...
    // 创建空的InputSplit的List，一会切一个，放里面放一个Split信息。
    List<InputSplit> splits = new ArrayList<InputSplit>();
     ...
    // 获得blockSize=128MB
    long blockSize = file.getBlockSize();//128MB
    // 获得splitSize=128MB【计算方式：minSize blockSize maxSize 在三者取其中，可以通过调节参数，修改split的大小】
    long splitSize = computeSplitSize(blockSize, minSize, maxSize);
    
    // 循环条件：如果剩余的字节大小 > splitSize的1.1倍。
      while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {
          // block的序号
          int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining);
          // 构造一个split(文件路径 start length host 内存host)
          splits.add(makeSplit(path, length-bytesRemaining, splitSize,
                               blkLocations[blkIndex].getHosts(),
                               blkLocations[blkIndex].getCachedHosts()));
          // 切一刀，减去当前split的字节数。
          bytesRemaining -= splitSize;
      }
  }

# 计算splitSize

# split逻辑切片的源码

MapTask

Map任务的启动
MapTask类

// map程序入口
public void run(final JobConf job, final TaskUmbilicalProtocol umbilical){
    // 使用newMapper的API运行MapTask
    runNewMapper(job, splitMetaInfo, umbilical, reporter);
}
private <INKEY,INVALUE,OUTKEY,OUTVALUE> void runNewMapper(final JobConf job,
                    final TaskSplitIndex splitIndex,
                    final TaskUmbilicalProtocol umbilical,
                    TaskReporter reporter
                    ){
    // 创建1一个Mapper对象
    org.apache.hadoop.mapreduce.Mapper<INKEY,INVALUE,OUTKEY,OUTVALUE> mapper =
      (org.apache.hadoop.mapreduce.Mapper<INKEY,INVALUE,OUTKEY,OUTVALUE>)
        ReflectionUtils.newInstance(taskContext.getMapperClass(), job);
    // 创建一个输入工具，InputFormat
    org.apache.hadoop.mapreduce.InputFormat<INKEY,INVALUE> inputFormat =
      (org.apache.hadoop.mapreduce.InputFormat<INKEY,INVALUE>)
        ReflectionUtils.newInstance(taskContext.getInputFormatClass(), job);
    // 获得split信息。
    split = getSplitDetails(new Path(splitIndex.getSplitLocation()),
        splitIndex.getStartOffset());
     // 创建一个RecordReader，inputformat中负责读取数据的。//LineRecordReader
    org.apache.hadoop.mapreduce.RecordReader<INKEY,INVALUE> input =
      new NewTrackingRecordReader<INKEY,INVALUE>
        (split, inputFormat, reporter, taskContext);
    
    // 初始化当前split范围的数据读取：开启输入流。
      input.initialize(split, mapperContext);
    
    //启动Mapper的run方法的执行。-------------------------【数据处理核心位置】
    mapper.run(mapperContext);
    // job 状态更新()
    mapPhase.complete();
    
    // 进入 NewOutputCollector?????
    output.close(mapperContext);// 将清空环形缓冲区中的数据，最后溢写一次。
    |-
        // 进入--->MapOutputBuffer：环形缓冲区对象
        collector.flush();
    	|-
            // spill finished
          	resetSpill();
    		// 排序并溢写。下面继续
          	sortAndSpill();
    		// 合并溢写文件。到此MapTask阶段基本结束。
      		mergeParts();
    	// 关闭缓冲区的流
    	collector.close();
}

Mapper输出结果的环形缓冲区

// 一个split切片处理，创建一个Mapper对象
class 自定义Mapper extends Mapper{
	public void run(Context context) throws IOException, InterruptedException{
		//1: 调用setup 一次。：一般用来覆盖后，天加初始化资源操作。---调用1次。
    	setup(context);
    	 // 循环读取 行数据 k(偏移量)-v(行)
          while (context.nextKeyValue()) {
            //2: 每读1行，调用1次map方法。
            map(context.getCurrentKey(), context.getCurrentValue(), context);
          }
          //3: 调用cleanup一次：一般覆盖，重写一些释放资源的代码----调用1次。
     	 cleanup(context);
	}
	
	// 数据处理map方法:被子类覆盖。
	protected void map(KEYIN key, VALUEIN value, 
                     Context context) throws IOException, InterruptedException {
                     }
}

// 自定义Mapper的子类。
static class NameCountMap extends Mapper<LongWritable, Text,Text, IntWritable> {
        /**
         * @param key      输入map数据的key
         * @param value   输入map数据的value
         * @param context map处理完毕后输出的每条数据 包含key-value
         * @throws IOException
         * @throws InterruptedException
         * @do 接收输入的keyvalue转化为输出的keyvalue，交给shuffle分组排序
         */
        @Override
        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException, IOException {
            //局部计算
            String[] names = value.toString().split(" ");
            for (String name : names) {
                context.write(new Text(name),new IntWritable(1));
                // context写出key-value，写入到了环形缓冲区中：NewOutputCollector
            }
        }
    }
//MapTask内部类：环形缓冲区操作类类(从context.write方法进入这里)
private class NewOutputCollector<K,V>
    extends org.apache.hadoop.mapreduce.RecordWriter<K,V> {
    // map写出key-value，调用该方法。
    @Override
    public void write(K key, V value){
       // 从Maper写出去：这里用的partition类，默认是HashPartition
      // ----> MapOutputBuffer:缓冲区，暂时存放map的输出key-value
      collector.collect(key, value,
                        partitioner.getPartition(key, value, partitions));
    }
}
//环形缓冲区类
public static class MapOutputBuffer<K extends Object, V extends Object>{
    // 将key value partition 存入环形缓冲区中。
    public synchronized void collect(key,value){
        // bufferRemaining参考：上面 spillper 和 softLimit
        bufferRemaining -= METASIZE;// 环形缓冲区80%容量内，剩余多少。
        // 如果缓冲区80% 用完了，多线程环形溢写线程，启动spill操作。
        if (bufferRemaining <= 0) {
            // spill finished, reclaim space
                resetSpill();
            // 开始溢写。
                startSpill();
            spillLock.unlock();// 唤醒SpillThread.run()，进入SpillTread类的run方法。
        }
        ...
        // 序列化key到缓冲区中。
        int keystart = bufindex;
        keySerializer.serialize(key);
        
        ...
            
        // 序列化value到缓冲区中。
        final int valstart = bufindex;
        valSerializer.serialize(value);
    }
}

溢写过程

// 溢写操作的线程类:MapTask内部类
protected class SpillThread extends Thread{
    public void run() {
        // 进入一次溢写。
        sortAndSpill();// 一旦唤醒，就开始执行溢写操作。(溢写过程中，进行排序。)
        |--- 进入环形缓冲区操作类的sortAndSpill方法内部
            // 新建一个溢写文件，参数接受了一个分区数。
        	final SpillRecord spillRec = new SpillRecord(partitions);
        	// 快速排序，对环形缓冲区中的元素进行排序
        	sorter.sort(MapOutputBuffer.this, mstart, mend, reporter);
        	// 判断是否需要combine
            if (combinerRunner == null) {
                // 直接写入文件
            }else{
                // 先做combine再溢写。
            }
    }
}

ReduceTask

public class ReduceTask extends Task{
	public void run(JobConf job, final TaskUmbilicalProtocol umbilical){
        runNewReducer(job, umbilical, reporter, rIter, comparator, 
                    keyClass, valueClass);
    }
    private <INKEY,INVALUE,OUTKEY,OUTVALUE> void runNewReducer(JobConf job,
                     final TaskUmbilicalProtocol umbilical,
                     final TaskReporter reporter,
                     RawKeyValueIterator rIter,
                     RawComparator<INKEY> comparator,
                     Class<INKEY> keyClass,
                     Class<INVALUE> valueClass
                     ) {
        // 根据job绑定的Reducer的类，反射创建出Reducer对象。
    org.apache.hadoop.mapreduce.Reducer<INKEY,INVALUE,OUTKEY,OUTVALUE> reducer =
      (org.apache.hadoop.mapreduce.Reducer<INKEY,INVALUE,OUTKEY,OUTVALUE>)
        ReflectionUtils.newInstance(taskContext.getReducerClass(), job);
        // 进入Reducer的run方法
        reducer.run(reducerContext);
    }
}

Reducer的方法和子类覆盖的方法
每个reduce任务，创建1个Reducer对象。

/**
   * Advanced application writers can use the 
   * {@link #run(org.apache.hadoop.mapreduce.Reducer.Context)} method to
   * control how the reduce task works.
   * ReduceTask处理一个合并结果，调用run
   */
  public void run(Context context) throws IOException, InterruptedException {
    //1. 调用setup方法。 1次。
    setup(context);
    try {
      while (context.nextKey()) {
        // 2：循环读取一组k-vs，调用reduce方法处理：循环调用。
        reduce(context.getCurrentKey(), context.getValues(), context);
        // If a back up store is used, reset it
        Iterator<VALUEIN> iter = context.getValues().iterator();
        if(iter instanceof ReduceContext.ValueIterator) {
          ((ReduceContext.ValueIterator<VALUEIN>)iter).resetBackupStore();        
        }
      }
    } finally {
      // 3：调用cleanup方法。 reduce方法之后调用一次。
      cleanup(context);
    }
  }

ReduceTask

public class ReduceTask extends Task{
	public void run(JobConf job, final TaskUmbilicalProtocol umbilical){
        runNewReducer(job, umbilical, reporter, rIter, comparator, 
                    keyClass, valueClass);
    }
    private <INKEY,INVALUE,OUTKEY,OUTVALUE> void runNewReducer(JobConf job,
                     final TaskUmbilicalProtocol umbilical,
                     final TaskReporter reporter,
                     RawKeyValueIterator rIter,
                     RawComparator<INKEY> comparator,
                     Class<INKEY> keyClass,
                     Class<INVALUE> valueClass
                     ) {
        // 根据job绑定的Reducer的类，反射创建出Reducer对象。
    org.apache.hadoop.mapreduce.Reducer<INKEY,INVALUE,OUTKEY,OUTVALUE> reducer =
      (org.apache.hadoop.mapreduce.Reducer<INKEY,INVALUE,OUTKEY,OUTVALUE>)
        ReflectionUtils.newInstance(taskContext.getReducerClass(), job);
        // 进入Reducer的run方法
        reducer.run(reducerContext);
    }
}

Reducer的方法和子类覆盖的方法
每个reduce任务，创建1个Reducer对象。

/**
   * Advanced application writers can use the 
   * {@link #run(org.apache.hadoop.mapreduce.Reducer.Context)} method to
   * control how the reduce task works.
   * ReduceTask处理一个合并结果，调用run
   */
  public void run(Context context) throws IOException, InterruptedException {
    //1. 调用setup方法。 1次。
    setup(context);
    try {
      while (context.nextKey()) {
        // 2：循环读取一组k-vs，调用reduce方法处理：循环调用。
        reduce(context.getCurrentKey(), context.getValues(), context);
        // If a back up store is used, reset it
        Iterator<VALUEIN> iter = context.getValues().iterator();
        if(iter instanceof ReduceContext.ValueIterator) {
          ((ReduceContext.ValueIterator<VALUEIN>)iter).resetBackupStore();        
        }
      }
    } finally {
      // 3：调用cleanup方法。 reduce方法之后调用一次。
      cleanup(context);
    }
  }

总结：仰天大笑出门去，我辈岂是蓬蒿人

你可能感兴趣的:(#,MapReduce,mapreduce,大数据,big,data,hdfs)

Android ViewBinding 使用与封装教程积跬步DEV Android 开发实战大全 android
AndroidViewBinding使用与封装教程：一、ViewBinding是什么？核心功能：为每个XML布局文件自动生成一个绑定类（如ActivityMainBinding），直接暴露所有带ID的视图引用。优点：避免繁琐的findViewById()，类型安全且编译时检查。对比DataBinding：ViewBinding仅处理视图引用，无数据绑定功能。DataBinding支持双向数据绑定，
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
CentOS7环境卸载MySQL5.7 Hadoop_Liang mysql 数据库 mysql
备份重要数据切记，卸载之前先备份mysql重要的数据。备份一个数据库例如：备份名为mydatabase的数据库到backup.sql的文件中mysqldump-uroot-ppassword123mydatabase>backup.sql备份所有数据库mysqldump-uroot-ppassword123--all-databases>all_databases_backup.sql注意：-p后
“Datawhale AI夏令营”基于带货视频评论的用户洞察挑战赛 fzyz123 Datawhale AI夏令营人工智能 Datawhale 大模型技术 NLP 深度学习 AI夏令营
前言：本次是DatawhaleAI夏令营2025年第一期的内容，赛事是：基于带货视频评论的用户洞察挑战赛（科大讯飞AI大赛）一、赛事背景在直播电商爆发式增长浪潮中，短视频平台积累的海量带货视频及用户评论数据蕴含巨大商业价值。这些数据不仅是消费者体验的直接反馈，更是驱动品牌决策的关键资产。用户洞察的核心在于视频内容与评论数据的联合挖掘：通过智能识别推广商品分析评论中的情感表达与观点聚合精准捕捉消费者
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
AI Agent开发学习系列 - langchain之Chains的使用(7)：用四种处理文档的预制链轻松实现文档对话 alex100 AI Agent 学习人工智能 langchain prompt 语言模型 python
在LangChain中，四种文档处理预制链（stuff、refine、mapreduce、mapre-rank）是实现文档问答、摘要等任务的常用高阶工具。它们的核心作用是：将长文档切分为块，分步处理，再整合结果，极大提升大模型处理长文档的能力。stuff直接拼接所有文档内容到prompt，一次性交给大模型处理。适合文档较短、token不超限的场景。refine递进式摘要。先对第一块文档生成初步答案
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
老系统改造增加初始化，自动化数据源配置（tomcat+jsp+springmvc）
老系统改造增加初始化，自动化数据源配置一、前言二、改造描述1、环境说明2、实现步骤简要思考三、开始改造1、准备sql初始化文件2、启动时自动读取jdbc文件，创建数据源，如未配置，需要一个默认的临时数据源2.1去掉spingmvc原本配置的固定dataSource，改为动态dataSource2.2代码类，这里是示例，我就不管规范了，放到一起2.2.1DynamicDataSourceConfig
redis中什么是bigkey？会有什么影响？ Vic2334 redis
什么是bigkey？会有什么影响？bigkey是指key对应的value所占的内存空间比较大，例如一个字符串类型的value可以最大存到512MB，一个列表类型的value最多可以存储23-1个元素。如果按照数据结构来细分的话，一般分为字符串类型bigkey和非字符串类型bigkey。字符串类型：体现在单个value值很大，一般认为超过10KB就是bigkey，但这个值和具体的OPS相关。非字符串
如何发现 Redis 中的 BigKey？ sevevty-seven redis bootstrap 数据库
如何发现Redis中的BigKey？Redis因其出色的性能，常被用作缓存、消息队列和会话存储。然而，在Redis的使用过程中，BigKey是一个不容忽视的问题。BigKey指的是存储了大量数据或包含大量成员的键。它们不仅会占用大量内存，还可能导致网络延迟、主从同步延迟，甚至在极端情况下引发Redis服务崩溃。因此，有效地发现和处理BigKey对于维护Redis服务的稳定性和性能至关重要。本文将深
ETL可视化工具 DataX -- 简介( 一) dazhong2012 软件工具数据仓库 datax ETL
引言DataX系列文章：ETL可视化工具DataX–安装部署(二)ETL可视化工具DataX–DataX-Web安装(三)1.1DataX1.1.1DataX概览DataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、
TCP和UDP协议区别+应用场景+优缺点+常用协议马拉萨的春天一天一读基础知识点 tcp/ip udp 网络
文章目录1.TCP协议特点应用场景优点缺点运行于TCP协议之上的协议2.UDP协议特点应用场景优点缺点运行于UDP协议之上的协议TCP（TransmissionControlProtocol）和UDP（UserDatagramProtocol）是两种常用的传输层协议，它们在网络通信中扮演不同的角色，各有优缺点。1.TCP协议特点提供面向连接的、可靠的数据传输服务。使用三次握手建立连接，四次挥手断开
将多个小型YOLO数据集合并为一个大型数据集梦实学习室 YOLO python YOLO python 机器学习
一、将多个小型YOLO数据集合并为一个大型数据集importosimportshutilimportargparsedefmerge_data(source_dir,target_dir,images_dir,labels_dir):images_target=os.path.join(target_dir,images_dir)labels_target=os.path.join(target_
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
MySQL数据库访问（C/C++）敲上瘾 MySQL数据库 mysql 数据库 c++c语言数据库开发数据库架构
访问数据库的方式：命令行：使用命令行输入SQL指令直接访问。需记忆命令和SQL语法，对新手不友好。正因如此推荐新手使用该方式访问，能倒逼学习者对SQL语法的记忆，并对MySQL更深入理解。图形化界面访问：使用图形化界面工具，如：DBeaver、DataGrip、Navicat、HeidiSQL（MySQL）、MySQLWorkbench。特点：有语法提示，可以直接对数据手动增删改。编程接口：在编写
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink 2.0 DataStream算子全景 Edingbrugh.南空大数据 flink flink 人工智能
在实时流处理中，ApacheFlink的DataStreamAPI算子是构建流处理pipeline的基础单元。本文基于Flink2.0，聚焦算子的核心概念、分类及高级特性。一、算子核心概念：流处理的"原子操作1.数据流拓扑（StreamTopology）每个Flink应用可抽象为有向无环图（DAG），由源节点（Source）、算子节点（Operator）和汇节点（Sink）构成，算子通过数据流（S
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
Flink DataStream API详解（一） bxlj_jcj Flink flink 大数据
一、引言Flink的DataStreamAPI，在流处理领域大显身手的核心武器。在很多实时数据处理场景中，如电商平台实时分析用户购物行为以实现精准推荐，金融领域实时监控交易数据以防范风险，DataStreamAPI都发挥着关键作用，能够对源源不断的数据流进行高效处理和分析。接下来，就让我们一起深入探索FlinkDataStreamAPI。二、DataStream编程基础搭建在开始使用FlinkDa
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
Flink DataStream API详解（二）
一、引言咱两书接上回，上一篇文章主要介绍了DataStreamAPI一些基本的使用，主要是针对单数据流的场景下，但是在实际的流处理场景中，常常需要对多个数据流进行合并、拆分等操作，以满足复杂的业务需求。Flink的DataStreamAPI提供了一系列强大的多流转换算子，如union、connect和split等，下面我们来详细了解一下它们的功能和用法。二、多流转换2.1union算子union算
docker常见问题解决方法小王聊技术 docker
目录迁移至其他服务器清理Docker占用的磁盘空间常见问题：迁移至其他服务器1.将docker容器导出dockerexport-o保存路径/xxx.tar容器id2.将容器tar远程拷贝到新的服务器(从新的服务器上向老服务器上请求复制)scproot@服务器地址:/data/xxx.tar/root3.将导入的tar包转为镜像dockerimport-cxxx.tarimage_name:tag
vue如何实现Cascader 级联选择器(二级全部选中只展示一级，三级全部选中只展示二级) 小周同学: vue vue.js
select提交重置级联exportdefault{data(){return{ruleForm:{selectLabel:[],idList:[],},citiesList:[],rules:{selectLabel:[{type:'array',required:true,message:'多选不能为空',trigger:'change'}],},props:{multiple:true,va
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
Redis第五讲：详解 Redis 中 BigKey、HotKey 的发现与处理程序员 jet_qi 深入理解数据库 redis 数据库缓存大key 热点key
简介：在Redis的使用过程中，我们经常会遇到BigKey（下文将其称为“大key”）及HotKey（下文将其称为“热key”）。大Key与热Key如果未能及时发现并进行处理，很可能会使服务性能下降、用户体验变差，甚至引发大面积故障。本文详解Redis中BigKey、HotKey的发现与处理。文章目录1、大Key与热Key的定义1.1、什么是大Key1.2、什么是热Key2、大Key与热Key带来
如何发现Redis中的bigkey？代码中の快捷键 redis 数据库缓存
如何发现Redis中的bigkey？我主要用这几个方法：redis-cli--bigkeys(最常用，最省事)：直接在命令行敲这个命令：redis-cli-h你的redis地址-p端口--bigkeys作用：它会自动扫描整个数据库。结果：告诉你每种数据类型（String,Hash,List,Set,ZSet）里最大的那个key是什么，有多大（比如String多大，List有多少元素）。优点：简单、
pandas销售数据分析
pandas销售数据分析数据保存在data目录消费者数据：customers.csv商品数据：products.csv交易数据：transactions.csvcustomers.csv数据结构：字段描述customer_id客户IDgender性别age年龄region地区membership_date会员日期products.csv数据结构：字段描述product_id产品IDcategory
MyBatis-Plus 使用wrapper自定义SQL
MyBatis-Plus使用wrapper自定义SQL，以下是单表查询。官方文档官方的例子：//mapper接口@Select("select*frommysql_data${ew.customSqlSegment}")ListgetAll(@Param(Constants.WRAPPER)Wrapperwrapper);//xmlListgetAll(Wrapperew);SELECT*FROM
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s

什么是MapReduce？MapReduce整体架构搭建使用介绍

文章目录

前言

MapReduce

入门

MapReduce的核心思想

MapReduce

yarn

Yarn伪分布式搭建

MapReduce编码

需求

MapReduce2.0工作机制

MapReduce数据流转机制

MR编码准备

MR编码

MapReduce核心api

Mapreduce补充细节

生产中提交MR任务1

maven自动化部署插件wagon

ApplicationMaster

配置yarn的日志服务器-Historyserver

MapReduce详解

Hadoop序列化

案例数据

数据清洗

计数器Counter

排序

默认排序

自定义排序

二次排序(二排)

MapReduce优化

MapTask并行度

InputFormat(优化1)

Combiner合并(优化2)

ReduceTask并行度(优化3)

默认分区partition

自定义Partition(优化4)

自定义分区编码

MapReduce工作原理(终极版)

Spill溢写

MapReduce排序

Shuffle(混洗-洗牌)

reduce阶段

源码分析

全工作流程总结

源码分析

Yarn分布式集群搭建

经典案例

TOPN

MapReduce源码 笔记总结

提交job

FileInputFormat

MapTask

ReduceTask

ReduceTask

总结：仰天大笑出门去，我辈岂是蓬蒿人

你可能感兴趣的:(#,MapReduce,mapreduce,大数据,big,data,hdfs)

MapReduce源码笔记总结