旁观者最嗨

Hadoop 核心原理（贼全面）

一、Hadoop

1.1 Hadoop 的发展历史

1.1.1 概念

Hadoop是一个由Apache基金会开发的分布式系统基础架构，主要解决海量数据的存储和计算问题，广义上Hadoop指的是Hadoop生态圈

1.1.2 谷歌的三驾马车

谷歌的三篇论文	对应的技术
GFS	HDFS
MapReduce	MapReduce
BigTable	Hbase

1.1.3 Hadoop 三大发行版本

免费开源版本 apache
软件收费版本 cloudera
免费开源版本 hortonworks

1.1.4 Hadoop的优点

扩容能力强：集群拓展方便
成本低：Hadoop可以运行在廉价的pc机上
效率高：动态并行移动数据，速度快
可靠性：自动维护数据的多份复制，独特的副本机制
- 数据自动保存多个副本
- 某个副本丢失可以自动恢复

1.1.5 Hadoop的组成

HDFS：高可靠，高吞吐的分布式文件系统
MapReduce：分布式离线并行计算框架
YARN：作业调度与集群资源管理框架
Common：支持其他模块的工具模块

1.2 Hadoop 生态系统

Components	Explanation
Sqoop	Hadoop（Hive）与传统数据库（Mysql）之间进行数据的传递
Flume	高可用、高可靠分布式的海量日志采集、聚合和传输系统
Kafka	高吞吐量的分布式发布订阅消息系统
Storm	分布式实时流式计算（过时）
Spark	最流行的开源大数据内存计算框架
Oozie	管理Hadoop作业（job）的工作流程调度管理系统
Hbase	分布式、面向列的开源数据库（NoSQL）
Hive	基于Hadoop的数据仓库工具，提供简单地类SQL查询功能

二、HDFS

2.1 HDFS 概述

2.1.1 HDFS 起源

HDFS全称Hadoop Distribute File System，Hadoop的分布式文件系统；解决了海量数据的存储问题

2.1.2 HDFS的设计理念

故障检测和自动快速恢复是HDFS的核心架构目标
流式读取数据，批量处理数据，不适合用户交互式，注重数据访问的高吞吐
支持大文件，不支持小文件
对文件的要求是一次写入多次读出
移动计算代价比移动数据代价低
可移植性高

2.1.3 HDFS优缺点

优点
- 高容错性
  - 数据自动保存多个副本
  - 某个副本丢失后，可自动回复
- 适合大数据处理
  - 数据规模大
  - 文件规模大
- 可以运行在廉价的pc机上
缺点
- 不适合低延时数据访问
- 无法高效存储小文件
  - 一个block块在NameNode中占150byte（固定），过多小文件会占用NameNode内存
  - 小文件的寻址时间大于读取时间，不符合HDFS设计目标
- 不支持并发写和随机写
  - 一个文件只能有一个写，不允许多线程同时写
  - 不支持随机写，但支持追加写

2.1.4 HDFS架构

Master/Slave 架构
- HDFS采用Master/Slave架构，一般一个集群有一个NameNode和一定数目DataNode组成，Namenode 是 HDFS 集群主节点，Datanode 是 HDFS 集群从节点，两种角色各司其职，共同协调完成分布式的文件存储服务
分块存储
- HDFS中文件在物理上是分块存储，通过dfs.blocksize配置，2.x之后的版本默认128M
- HDFS中文件在逻辑上是连续的，提供一个文件目录树
- block块大小计算
  - 理想寻址时间为10ms
  - 理想读取文件时间为寻址时间的10%
  - 市面上磁盘的存储速率为100M/s
  - 因此block块大小：10ms/10% *100M/s = 100M -> 128M
命名空间（NameSpace）
- NameNode负责维护文件系统的命名空间
- NameNode会给客户端提供一个统一的抽象目录树
NameNode 元数据
- 包括文件名，副本数，分块数，每个块的节点位置，权限等
DataNode 数据存储
- 文件的各个block的存储管理由DataNode维护，集群启动时DataNode会汇报自己每个块的元数据，之后也会进行通信汇报block块信息
NameNode 概述
- NameNode是HDFS的核心
- NameNode也称为Master
- NameNode存储HDFS的元数据：文件系统中所有的目录树，并跟踪整个集群的文件
- NameNode不存储实际数据
- NameNode知道HDFS中任何给定文件的块列表及其位置，使用此信息NameNode知道如何从块中构建文件
- NameNode不持久化存储每个文件中各个块所在的节点信息，这些信息会会在系统启动时从块中数据节点重建
- NameNode关闭，集群将无法访问
- NameNode所在的机器通常配置大量内存
DataNode
- DataNode负责将实际数据存储在HDFS中
- DataNode也称为Slave
- NameNode和DataNode会保持不断通信
- DataNode启动时，会将自己发布到NameNode并汇报自己负责的块列表
- 某个DataNode关闭不会影响集群的正常使用
- DataNode每个3秒向NameNode发送心跳，若NameNode长时间（10分钟）没有接受到DataNode发送的心跳则认为该节点不可用，会将该节点的数据复制到其他节点，并且永远不再使用该节点（退出集群后再次上线可以恢复）
- DataNode所在的机器通常配置大量磁盘空间

2.1.5 安全模式

安全模式是HDFS所处的一种特殊状态，在这种状态下，文件系统只接受读数据请求，而不接受创建、删除、修改等变更请求。同时会对数据块进行大量校验，导致资源的分配和申请耗时远超预期。

在NameNode主节点启动时，HDFS首先进入安全模式，DataNode在启动的时候会向namenode汇报可用的block等状态，当整个系统达到安全标准时，HDFS自动离开安全模式。如果HDFS处于安全模式下，则文件block不能进行任何的副本复制操作，hdfs集群刚启动的时候，默认30S钟的时间是出于安全期的，只有过了30S之后，集群脱离了安全期，然后才可以对集群进行操作

safemode阈值由dfs.namenode.safemode.threshold-pct参数控制（缺省0.999），每个块的满足需求最小副本数由dfs.namenode.replication.min参数控制。因此在业务紧急要求恢复的时候，可以尝试将以下两个参数调低，使安全模式尽快结束：

dfs.namenode.replication.min——满足需要的最小副本数

dfs.namenode.safemode.threshold-pct——集群中满足正常配置的数据块比例

如果是为了防止某些异常数据导致始终校验不过的情况，可以尝试将上面的dfs.namenode.safemode.threshold-pct参数调为0或比0小的值后重启NameNode，这样永远不会进入安全模式；或者使用以下命令手动退出安全模式

hdfs  dfsadmin  -safemode
查看
hdfs  dfsadmin  -safemode get
离开
hdfs  dfsadmin  -safemode leave

2.2 HDFS 读写流程

2.2.1 HDFS 写流程

客户端向NameNode发送写数据请求（包含待上传文件名和将要上传的路径）
NameNode检查路径是否存在，文件是否重名等（假设满足上传条件）
NameNode向客户端响应数据，可以上传文件
客户端根据文件大小进行切分成一个个block块，并向NameNode发送提交即将上传block1的请求
NameNode查询DataNode信息，规划block1的存储位置
NameNode向客户端返回block1可以存储的数据节点ip列表
客户端直接请求数据节点1上传block1，数据节点1存储block1完毕并根据ip列表将block1发送给数据节点2，数据节点2存储完毕block1并根据ip列表将block1发送给数据节点3，数据节点3存储完成响应数据给数据节点2，数据节点2将响应数据给数据节点1，数据节点1将存储结果返回给NameNode和客户端
重复第四步上传下一个block

2.2.2 HDFS 读流程

客户端向NameNode请求下载文件
NameNode返回目标文件的元数据
客户端根据元数据请求DataNode读取数据block
DataNode向客户端传输数据
重复第三步，直到所有的块传输完成
客户端根据元数据组装block块完成读取数据#

2.2.3 网络拓扑与机架感知

1.引入

客户端上传数据到HDFS时，会上传到离当前客户端最近的数据节点，因此通过网络拓扑获取网络中的距离

2.网络拓扑

同一节点上的进程距离为0
同一机架上的不同节点距离为2
同一数据中心不同机架的节点距离为4
不同数据中心的节点距离为6

3.机架感知

以三个副本为例，第一个副本根据放在距离客户端最近的一个节点，第二个副本放在该节点同一机架的不同节点，第三个副本放在不同机架的随机节点

2.3 NameNode 工作机制

2.3.1 NameNode 元数据的存储位置

首先，为了提高HDFS的读写速率，必定将NameNode的元数据存储在内存中，但是内存一旦断电元数据将丢失，因此必须将内存中的元数据存储在磁盘中用于备份

2.3.2 Fsimage

Fsimage为内存元数据的备份。若内存的元数据发生改变，如果同时更新Fsimage会降低效率，如果不更新会发生数据不一致问题

2.3.3 edits

针对上述问题，最终逻辑是不更新Fsimage文件，为解决数据不一致问题，引入edits文件，该文件只记录操作并且采用追加写的形式，即每当内存的元数据发生改变的同时记录本次操作记录追加到磁盘中的edits，这样内存元数据等于磁盘的Fsimage + edits

2.3.4 NameNode 工作机制

当NameNode启动时先滚动edits并生成一个空的edits.inprogress会将Fsimage和edits文件加载到内存中进行合并，之后的操作（增删）将追加到edits.inprogress中

2.4 Secondary NameNode 工作机制

2.4.1 2NN 工作机制

根据NameNode的工作机制，当edits的操作记录记录过多时不仅会降低追加效率，同时断电恢复时会花费大量时间，因此2NN将针对此问题进行解决，将触发检查条件时，2NN首先通知NameNode滚动edits生成新的eidts.inprogress（之后的操作记录将写在此文件）并通过http get的形式将磁盘的Fsimage和edits复制过来并加载到内存中进行合并，生成Fsimage.chkpoint文件，并通过http post形式拷贝给NameNode重命名为Fsimage后替换原来的Fsimage。

2.4.2 check point

每个一个小时执行一次

<property>
  <name>dfs.namenode.checkpoint.periodname>
  <value>3600value>
property>

100万次操作执行一次（一分钟检查一次操作数）

<property>
  <name>dfs.namenode.checkpoint.txnsname>
  <value>1000000value>
<description>操作动作次数description>
property>

<property>
  <name>dfs.namenode.checkpoint.check.periodname>
  <value>60value>
<description> 1分钟检查一次操作次数description>
property>

2.5 HDFS Shell 操作

shell
hadoop fs -ls path	-h 转换显示的字节数单位	-R 递归显示	显示文件、目录信息
hadoop fs -mkdir path	-p 创建多级文件		在hdfs上创建目录
hadoop fs -put src dst	-f 覆盖原文件上传	-p 保留文件的信息	上传本地文件到hdfs
hadoop fs -get src dst	-crc 为下载的文件写CRC校验和	-f 覆盖原文件下载	下载hdfs文件到本地
hadoop fs -appendToFile src dst			将一个文件追加到另一个文件之后
hadoop fs -cat path			显示hdfs文件内容到控制台
hadoop fs -tail path	-f 监测文件追加的数据		显示最后一千字节内容
hadoop fs -chgrp path	-R 递归修改		修改文件组
hadoop fs -chmod path	-R 递归修改		修改文件权限
hadoop fs -chown path			修改文件所有者
hadoop fs -copyFromLocal src dst			从本地文件系统拷贝文件到hdfs（类似-put）
hadoop fs -copyToLocal src dst			从hdfs文件拷贝到本地文件系统（类似-get）
hadoop fs -cp path1 path2			从hdfs一个路径复制到另一个路径
hadoop fs -mv path1 path2			在hdfs目录中移动文件（剪切）
hadoop fs -rm path	-r 递归删除		删除hdfs文件（夹）
hadoop fs -df path	-h 换单位		统计文件系统可用空间信息
hadoop fs -du path	-h 换单位		显示文件大小
hadoop fs -setrep	-R 递归改变		设置文件的副本数（优先级最高）
hadoop fs -help			帮助文档
hadoop fs -count path			统计当前路径文件夹个数，算上自身
hadoop fs -touchz file			创建空白文件

三、MapReduce

3.1 MapReduce 入门

3.1.1 定义

MapReduce是一个分布式运算程序的编程框架，是开发“基于Hadoop的数据分析应用”的核心框架

3.1.2 核心功能

将用户编写的业务逻辑代码和自带默认组件整合一个完整的分布式运算程序，并发布到Hadoop集群上运行

3.1.3 优缺点

1.优点

易于编程
- 简单地实现一些接口，就可以完成一个分布式程序
良好的拓展性
- 当计算资源不足时，可以通过简单地增加机器来拓展计算能力
高容错性
- 一台机器宕机，上面的计算任务会转移到另一个节点上运行，任务不会失败
可以做PB级的海量数据的离线处理

2.缺点

不擅长实时计算
不擅长流式计算
不擅长DAG计算

3.1.4 MapReduce 核心思想

MapReduce实现分布式计算分成2个阶段

第一个阶段MapTask并发实例，完全并行运行，互不干扰
第二个阶段ReduceTask并发实例，完全并行运行，数据依赖上一个阶段所有MapTask并发实例输出
MapReduce编程模型只能包含一个Map阶段一个Reduce阶段，但可以实现多个MapReduce串行运行

3.1.5 MapReduce 进程

MrAppMaster：负责整个程序的过程调度及状态协调
MapTask：负责Map阶段整个数据处理流程
ReduceTask：负责Reduce阶段整个数据处理流程

3.1.6 常用数据序列化类型

Java类型	Hadoop Writable类型
boolean	BooleanWritable
byte	ByteWritable
int	IntWritable
float	FloatWritable
long	LongWritable
double	DoubleWritable
String	Text
map	MapWritable
array	ArrayWritable

3.1.7 MapReduce 编程规范

1. Mapper 阶段

自定义Mapper继承hadoop的Mapper
Mapper的输入数据以K-V的形式（K-V类型可自定义）
Mapper中业务逻辑写在map()方法中
Mapper的输出数据以K-V的形式（K-V类型可自定义）
map()方法（MapTask进程）对每个调用一次

2.Reducer 阶段

自定义Reducer继承hadoop的Reducer
Reducer的输入数据类型对应Mapper的输出数据类型
Reducer中业务逻辑写在reduce()方法中
reduce()方法（ReduceTask进程）对每一组相同K的组调用一次

3.Driver 阶段

提交封装了MapReduce程序相关运行参数的job对象

3.2 Hadoop 序列化

3.2.1 为什么不使用java的序列化

java的序列化是一个重量级序列化框架(Serializable)，会携带很多额外信息，不利于Hadoop节点之间的告诉传输，因此Hadoop自己开发一套序列化机制(Writable)

3.2.2 Hadoop序列化特点

紧凑：高效使用存储空间
快速：读写数据额外开销小
可拓展：随着通信协议的升级而可升级
互操作：支持多语言的交互

3.2.3 自定义bean对象实现序列化

实现bean对象序列化步骤：

实现Writable接口
必须提供无参构造器（反射调用）
重写序列化方法[ write() ]
重写反序列化方法[ readFields() ]
序列化和反序列化顺序必须一致
建议重写toString()方法，用于显示结果到文件中
自定义bean实现Complarable接口可以放在key中传输，之后的归并排序则以此为基础

3.3 MapReduce 框架原理

3.3.1 InputFormat 数据输入

1.切片与MapTask并行度决定机制

切片：数据切片只是在逻辑上对输入进行分片，不会再磁盘上将次分片存储

block块：是HDFS物理上把数据分成一块一块

MapTask并行度 = 数据的切片数（默认为block数）

根据block对于一个个小文件也会占一个块，因此对于一个小文件也需要起一个MapTask导致效率过低，即MapTask的并行度并不是越多越好

一个Job的Map阶段并行度由客户端提交Job时的切片数决定
每一个split切片分配一个MapTask并行实例处理
默认情况，切片大小=BlockSize
切片时不考虑数据集整体，而是针对每个文件单独切片
- 读取多个文件时，切片以文件为单位
- 如：一个129M文件和一个100M文件，最终的切片时129M切两个切片，100M的文件单独算，单独切
- 这里的文件是逻辑上的文件，即上传到hdfs一个300M文件，不是针对物理存储的block文件

1）切片图解

2）解释

上述图片为一个300M文件和一个100M文件，若切片大小设置为100M，则300M切分为三个切片，100M为一个切片，但此种方法有缺陷，因为一个MapTask对应一个切片，但300M文件在hdfs分三个block块存储，因此MapTask读取数据涉及到了节点的网络IO影响效率，这也是为什么切片默认大小为block大小，可以有效降低网络IO

3.3.2 FileInputFormat 切片机制

1.类继承关系

Object
	|--InputFormat
		|--FileInputFormat
			|--TextInputFormat
			|--NLineInputFormat
			|--KeyValueTextInputFormat
			|--CombineFileFormat

2.源码解析

A base class for file-based {@link InputFormat}s.

InputFormat实现切片的源码

public abstract 
    List<InputSplit> getSplits(JobContext context
                               ) throws IOException, InterruptedException;

public abstract 
    RecordReader<K,V> createRecordReader(InputSplit split,
                                         TaskAttemptContext context
                                        ) throws IOException, 
                                                 InterruptedException;

getSplits()实现了数据切片的逻辑，createRecordReader()将数据封装成k-v对形式传输给map，FileInputFormat作为其实现类实现了getSplits()方法（FileInputFormat没有去实现createRecordReader()），核心逻辑是

Math.max(minSize, Math.min(maxSize, blockSize))

minSize default - 1

maxSize default - Long.MAX_VALUE

默认为blockSize大小，对于自定义切片大小：若定义大于blockSize则设置大于blockSize的minSize，若定义小于blockSize则设置小于blockSize的maxSize

3.切片详解

默认数据读入是通过FileInputFormat来实现，其切片流程如下：

数据存储目录寻址
遍历处理（规划切片）目录下每一个文件
遍历第一个文件ss.txt
1. 获取文件大小
2. 计算切片大小
3. 开始进行切片划分
4. 将切片信息写到一个切片规划文件中（起始位置，长度，所在节点列表）
提交切片规划（Yarn或Local），并根据切片规划计算开启的MapTask数

3.3.3 FileInputFormat 实现类

1.TextInputFormat

FileInputFormat的默认实现类，沿用父类的getSplits()方法，并实现createRecordReader()方法

public RecordReader<LongWritable, Text> 
    createRecordReader(InputSplit split,
                       TaskAttemptContext context) {
    String delimiter = context.getConfiguration().get(
        "textinputformat.record.delimiter");
    byte[] recordDelimiterBytes = null;
    if (null != delimiter)
      recordDelimiterBytes = delimiter.getBytes(Charsets.UTF_8);
    return new LineRecordReader(recordDelimiterBytes);
}

public boolean nextKeyValue() throws IOException {
    if (key == null) {
      key = new LongWritable();
    }
    key.set(pos);
    if (value == null) {
      value = new Text();
    }
    int newSize = 0;
    // We always read one extra line, which lies outside the upper
    // split limit i.e. (end - 1)
    while (getFilePosition() <= end || in.needAdditionalRecordAfterSplit()) {
      if (pos == 0) {
        newSize = skipUtfByteOrderMark();
      } else {
        newSize = in.readLine(value, maxLineLength, maxBytesToConsume(pos));
        pos += newSize;
      }

      if ((newSize == 0) || (newSize < maxLineLength)) {
        break;
      }

      // line too long. try again
      LOG.info("Skipped line of size " + newSize + " at pos " + 
               (pos - newSize));
    }
    if (newSize == 0) {
      key = null;
      value = null;
      return false;
    } else {
      return true;
    }
  }

根据LineRecordReader逻辑TextInputFormat是对每个切片数据一行封装成一个RecordReader，其中key是当前行第一个数据在文件中的偏移量类型为LongWritable，value是当前行数据（不包含任何终止符）类型为Text，并将其传给map()

2.KeyValueTextInputFormat

沿用父类的getSplits()方法，并实现createRecordReader()方法

public RecordReader<Text, Text> createRecordReader(InputSplit genericSplit,
      TaskAttemptContext context) throws IOException {
    
    context.setStatus(genericSplit.toString());
    return new KeyValueLineRecordReader(context.getConfiguration());
}

public KeyValueLineRecordReader(Configuration conf)
    throws IOException {
    
    lineRecordReader = new LineRecordReader();
    String sepStr = conf.get(KEY_VALUE_SEPARATOR, "\t");
    this.separator = (byte) sepStr.charAt(0);
}

/** Read key/value pair in a line. */
public synchronized boolean nextKeyValue()
    throws IOException {
    byte[] line = null;
    int lineLen = -1;
    if (lineRecordReader.nextKeyValue()) {
        innerValue = lineRecordReader.getCurrentValue();
        line = innerValue.getBytes();
        lineLen = innerValue.getLength();
    } else {
        return false;
    }
    if (line == null)
        return false;
    if (key == null) {
        key = new Text();
    }
    if (value == null) {
        value = new Text();
    }
    int pos = findSeparator(line, 0, lineLen, this.separator);
    setKeyValue(key, value, line, lineLen, pos);
    return true;
}

其逻辑是沿用lineRecordReader.nextKeyValue()只不过将读取的一行数据按照KEY_VALUE_SEPARATOR字符进行分割为两部分（即使匹配到多个分隔符也只分割一次），将第一部分封装成key类型为Text，将第二部分封装成value类型为Text，默认分隔符为\t

设置分割符并启用KeyValueInputFormat方式

// 设置分隔符
conf.set(KeyValueLineRecordReader.KEY_VALUE_SEPERATOR, " ");

// 设置输入格式
job.setInputFormatClass(KeyValueTextInputFormat.class);

3.NLineInputFormat

NLineInputFormat作为FileInputFormat实现类重写了父类的getSplits()方法

/** 
   * Logically splits the set of input files for the job, splits N lines
   * of the input as one split.
   * 
   * @see FileInputFormat#getSplits(JobContext)
   */
public List<InputSplit> getSplits(JobContext job)
    throws IOException {
    List<InputSplit> splits = new ArrayList<InputSplit>();
    int numLinesPerSplit = getNumLinesPerSplit(job);
    for (FileStatus status : listStatus(job)) {
        splits.addAll(getSplitsForFile(status,
                                       job.getConfiguration(), numLinesPerSplit));
    }
    return splits;
}

其逻辑是给定一个N，每N行为一个切片，由于没有实现createRecordReader()方法，因此NLineInputFormat封装k-v的逻辑沿用TextInputFormat方式

设置行数N并启用NLineInputFormat方式

// 设置每个切片InputSplit中划分三条记录
NLineInputFormat.setNumLinesPerSplit(job, 3);

// 设置输入格式 
job.setInputFormatClass(NLineInputFormat.class);

4.CombineTextInputFormat

上述实现类均无法解决小文件问题，不论按照上述哪种方法切片都解决不了小文件带来的问题，因为切片针对的是单独的文件而不是数据集，因此CombineTextInputFormat重写了getSplits()方法

@Override
public List<InputSplit> getSplits(JobContext job) 
    throws IOException {
    long minSizeNode = 0;
    long minSizeRack = 0;
    long maxSize = 0;
    Configuration conf = job.getConfiguration();

    // the values specified by setxxxSplitSize() takes precedence over the
    // values that might have been specified in the config
    if (minSplitSizeNode != 0) {
        minSizeNode = minSplitSizeNode;
    } else {
        minSizeNode = conf.getLong(SPLIT_MINSIZE_PERNODE, 0);
    }
    if (minSplitSizeRack != 0) {
        minSizeRack = minSplitSizeRack;
    } else {
        minSizeRack = conf.getLong(SPLIT_MINSIZE_PERRACK, 0);
    }
    if (maxSplitSize != 0) {
        maxSize = maxSplitSize;
    } else {
        maxSize = conf.getLong("mapreduce.input.fileinputformat.split.maxsize", 0);
        // If maxSize is not configured, a single split will be generated per
        // node.
    }
    if (minSizeNode != 0 && maxSize != 0 && minSizeNode > maxSize) {
        throw new IOException("Minimum split size pernode " + minSizeNode +
                              " cannot be larger than maximum split size " +
                              maxSize);
    }
    if (minSizeRack != 0 && maxSize != 0 && minSizeRack > maxSize) {
        throw new IOException("Minimum split size per rack " + minSizeRack +
                              " cannot be larger than maximum split size " +
                              maxSize);
    }
    if (minSizeRack != 0 && minSizeNode > minSizeRack) {
        throw new IOException("Minimum split size per node " + minSizeNode +
                              " cannot be larger than minimum split " +
                              "size per rack " + minSizeRack);
    }

    // all the files in input set
    List<FileStatus> stats = listStatus(job);
    List<InputSplit> splits = new ArrayList<InputSplit>();
    if (stats.size() == 0) {
        return splits;    
    }

    // In one single iteration, process all the paths in a single pool.
    // Processing one pool at a time ensures that a split contains paths
    // from a single pool only.
    for (MultiPathFilter onepool : pools) {
        ArrayList<FileStatus> myPaths = new ArrayList<FileStatus>();

        // pick one input path. If it matches all the filters in a pool,
        // add it to the output set
        for (Iterator<FileStatus> iter = stats.iterator(); iter.hasNext();) {
            FileStatus p = iter.next();
            if (onepool.accept(p.getPath())) {
                myPaths.add(p); // add it to my output set
                iter.remove();
            }
        }
        // create splits for all files in this pool.
        getMoreSplits(job, myPaths, maxSize, minSizeNode, minSizeRack, splits);
    }

    // create splits for all files that are not in any pool.
    getMoreSplits(job, stats, maxSize, minSizeNode, minSizeRack, splits);

    // free up rackToNodes map
    rackToNodes.clear();
    return splits;    
}

从逻辑上将很多小文件规划到一个切片中，这样多个小文件就可以交给一MapTask处理,其切片机制如下

设置MaxInputSplitSize
将输入目录下所有文件大小，一次和设置的最大值比较，规则如下
- 若小于最大值，逻辑上划分一块
- 若大于最大值小于最大值的两倍，逻辑上将文件均分为两份
- 若大于最大值的两倍，先以最大值切一块，剩下部分再次按照上述逻辑继续
判断逻辑划分后的切片大小并进行合并，合并规则如下
- 若大于等于最大值，则单独形成一个切片
- 若小于最大值，则跟下一个文件进行合并共同形成一个切片

设置虚拟存储切片大小并启用CombineTextInputFormat方法

// 虚拟存储切片最大值设置4M
CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);

// 设置输入格式
job.setInputFormatClass(CombineTextInputFormat.class);

3.4 MapReduce 工作流程

3.4.1 MapTask 工作流程

1.规划阶段

客户端submit()前，根据配置信息形成一个任务分配规划，即切片规划；submit()提交首先验证输入输出路径，提交切片信息、jar包(集群模式会提交，本地模式不会提交)、配置文件等；根据切片数计算需要起MapTask的个数

2.Read 阶段

MapTask通过RecordReader逻辑从输入的InputSplit中解析出一个个key-value，自定义InputFormat将在这里调用

3.Map 阶段

将解析出的key-value交给自定义的map()函数，并产生一系列新的key-value

4.Collect 阶段

context.write()后内部会调用OutPutCollectior.collect()输出，并调用分区函数（默认HashPartitioner）对key进行分区后写入一个环形内存缓冲区中

@Override
public void write(K key, V value) throws IOException, InterruptedException {
    collector.collect(key, value,
                      partitioner.getPartition(key, value, partitions));
}

collect()方法中是一个同步方法在这里实现了写入环形缓冲区的逻辑

try {
    // serialize key bytes into buffer
    int keystart = bufindex;
    keySerializer.serialize(key);
    if (bufindex < keystart) {
        // wrapped the key; must make contiguous
        bb.shiftBufferedKey();
        keystart = 0;
    }
    // serialize value bytes into buffer
    final int valstart = bufindex;
    valSerializer.serialize(value);

    bb.write(b0, 0, 0);

同时向缓冲区的另一部分写入kv的元数据(分区信息，key的开始位置，value的开始位置，vlaue的长度)

// write accounting info
kvmeta.put(kvindex + PARTITION, partition);
kvmeta.put(kvindex + KEYSTART, keystart);
kvmeta.put(kvindex + VALSTART, valstart);
kvmeta.put(kvindex + VALLEN, distanceTo(valstart, valend));

5.Spill 阶段

当写入环形缓冲区的数据达到最大值的80%（默认环形缓冲区大小100M）会触发溢写操作spill，会将缓冲区的数据先按照partition进行排序再按照key进行排序，并将数据写入到磁盘中，此过程同步。

spillLock.lock();
try{
	...
}finally{
	spillLock.unlock();
}

溢写线程启动会锁定这80%的内存区域执行操作，MapTask的输出结果还可以往剩下的20%内存区域写互不影响，溢写线程启动后如果job设置了Combiner便在排序后落盘前执行，对相同的key的value进行累加（只能做累加，算平均值不能用Combiner）减少溢写到磁盘的数据量

6.Combine 阶段

合并溢写文件，可能map的输出数据量很大触发多次溢写操作则会生成很多临时文件，当整个map()数据处理结束会对磁盘中的溢写临时文件进行merge合并，最终的输出文件只有一个并为这个文件提供一个索引文件记录每个key对应数据的偏移量；在合并文件的时候以分区为单位进行合并，对于每个分区采用多轮递归合并方式（默认每轮10个文件io.sort.factor）并进行归并排序

3.4.2 ReduceTask 工作流程

1.Copy 阶段

简单地拉取数据ReduceTask根据自己的编号去对应的分区拉取数据到内存，如果数据过大超过内存数也会触发溢写操作，将数据写到磁盘中

2.Merge 阶段

和Copy阶段同时进行，ReduceTask会启动连个线程对内存和磁盘数据进行合并，方式内存使用过多和磁盘磁盘文件太多

3.Sort 阶段

把分散的数据文件再次合并成一个大文件，再进行一次归并排序

4.Reduce 阶段

reduce()将计算结果写到HDFS上

3.4.3 Shuffle 机制

1.概念

map()之后reduce()之前的所有MapTask和ReduceTask工作流程称为shuffle

2.shuffle 总结

map()的context.write()提交数据到collector（收集器），collector通过调用collect()对数据进行操作包括调用Partitioner的分区方法（默认HashPartitioner可自定义）根据k对kv进行分区后写入环形缓冲区（抽象概念本质是一个字节数据）当写入的数据达到环形缓冲区大小的80%触发溢写线程，线程启动后先对这80%的内存先按照分区数排序每个分区内单独按照key进行排序（快速排序），若检测到有Combiner则调用最终一次溢写生成一个临时文件，当map()方法结束MapTask对所有的溢写临时文件再次进行归并排序，若检测到Combiner则调用最终一个MapTask输出一个文件等待ReduceTask拉取。

当所有的MapTask结束后启动ReduceTask，ReduceTask根据自己的编号去对应的分区拉取数据到内存，若数据过多也会触发溢写操作，将数据写到磁盘，在拉取数据的过程中ReduceTask同时启动两个后台线程对内存数据和磁盘文件进行合并，最终对所有文件进行归并排序，若监测到Combiner则调用，最终根据key的不同将数据发送给reduce()

3.Partition 分区

public class HashPartitioner<K, V> extends Partitioner<K, V> {

  /** Use {@link Object#hashCode()} to partition. */
  public int getPartition(K key, V value,
                          int numReduceTasks) {
    return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
  }
}

在collectior中的collect中被调用，默认传入的numReduceTasks=1

@Override
public void write(K key, V value) throws IOException, InterruptedException {
    collector.collect(key, value,
                      partitioner.getPartition(key, value, partitions));
}

因此默认分区为1，根据业务逻辑也可以自定义分区数，源码中的partitions是通过

partitions = jobContext.getNumReduceTasks();

实现自定义分区逻辑步骤如下：

自义定分区类继承Partition实现getPartition()方法

public class WorldCountPartition extends Partitioner<Text, IntWritable> {
    @Override
    public int getPartition(Text text, IntWritable intWritable, int numPartitions) {
        int len = text.toString().length();
        if (len > 4) {
            return 0;
        } else if (len == 4) {
            return 1;
        } else {
            return 2;
        }
    }
}

配置分区类设置ReduceTask数

job.setPartitionerClass(WorldCountPartition.class);
job.setNumReduceTasks(3);

总结
1. 使用默认分区机制不需要设置ReduceTask数（默认为1）
2. 使用自定义分区必须设置ReduceTask数
3. ReduceTask数 < 分区数，报java.io.IOException: Illegal partition for mr (2)
4. ReduceTask数 > 分区数，最后一个part-r-xxxxx没有数据
5. 保险起见自定义分区return几个分区值就设置几个ReduceTask，即使有的分区返回不了也只是多几个空白文件不会报错

4.排序机制

排序是MapReduce框架中最重要的操作之一，MapTask和ReduceTask均会对数据按照key进行排序，该操作是Hadoop默认操作，任何应用程序中的数据均会被排序不管逻辑上是否需要

w1：整个MR都有哪几次排序？

q1：对于MapTask，它会将处理的数据结果暂时放在环形缓冲区，当缓冲区达到阈值，对缓冲区的数据进行一次快速排序后将其写到磁盘，多次溢写生成很多文件，当map()结束时会对所有溢写文件进行归并排序；对于ReduceTask在读取完数据后对内存和磁盘的所有数据进行归并排序，因此总体上有三次排序

5.自定义排序案例

15688888888 333 444
15688888888 333 555
15688888888 333 666
15666666666 111 222
15666666666 111 222
15666666666 111 222
15666666666 111 222

上述数据分别是手机号、上行流量、下行流量，要求是按照总流量排序

step1：首先通过MR计算出所有手机号的总流量（此步骤省略）

15649868893	7702	15305	23007
15666666666	444	888	1332
15688888888	1665	2553	4218

step2：对第一次MR计算的结果在进行一次MR计算修改map()的输入k为flow对象，value为手机号码，对于k在shuffle过程中会进行排序，因此hadoop对序列化可排序封装了一个新的接口WritableComparable,因此flow实体类如下：

package mr.flow;

import org.apache.hadoop.io.WritableComparable;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

public class Flow implements WritableComparable<Flow> {
    private int upFlow;
    private int downFlow;
    private int sumFlow;

    public Flow() {
    }

    public Flow(int upFlow, int downFlow) {
        this.upFlow = upFlow;
        this.downFlow = downFlow;
        this.sumFlow = upFlow + downFlow;
    }

    public int getUpFlow() {
        return upFlow;
    }

    public void setUpFlow(int upFlow) {
        this.upFlow = upFlow;
    }

    public int getDownFlow() {
        return downFlow;
    }

    public void setDownFlow(int downFlow) {
        this.downFlow = downFlow;
    }

    public int getSumFlow() {
        return sumFlow;
    }

    public void setSumFlow(int sumFlow) {
        this.sumFlow = sumFlow;
    }

    @Override
    public String toString() {
        return upFlow + "\t" + downFlow + "\t" + sumFlow;
    }

    @Override
    public void write(DataOutput out) throws IOException {
        out.writeInt(upFlow);
        out.writeInt(downFlow);
        out.writeInt(sumFlow);
    }

    @Override
    public void readFields(DataInput in) throws IOException {
        upFlow = in.readInt();
        downFlow = in.readInt();
        sumFlow = in.readInt();
    }

    @Override
    public int compareTo(Flow o) {
        return -Integer.compare(sumFlow, o.sumFlow);
    }
}

Mapper阶段：

package mr.flow;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class FlowSortMapper extends Mapper<LongWritable, Text, Flow, Text> {
    Flow k = new Flow();
    Text v = new Text();

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String[] lines = value.toString().split("\t");
        k.setUpFlow(Integer.parseInt(lines[1]));
        k.setDownFlow(Integer.parseInt(lines[2]));
        k.setSumFlow(Integer.parseInt(lines[3]));
        v.set(lines[0]);
        context.write(k, v);
    }
}

Reducer阶段：

package mr.flow;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class FlowSortReducer extends Reducer<Flow, Text, Text, Flow> {
    @Override
    protected void reduce(Flow key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
        for (Text value : values) {
            context.write(value, key);
        }
    }
}

Driver阶段：

package mr.flow;

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class FlowSortDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Job job = Job.getInstance();

        job.setJarByClass(FlowSortDriver.class);
        job.setMapperClass(FlowSortMapper.class);
        job.setReducerClass(FlowSortReducer.class);

        job.setMapOutputKeyClass(Flow.class);
        job.setMapOutputValueClass(Text.class);

        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Flow.class);

        FileInputFormat.setInputPaths(job, new Path("output/part-r-00000"));
        FileOutputFormat.setOutputPath(job, new Path("sortOutput"));

        job.waitForCompletion(true);
    }
}

3.5 MapReduce 应用

现在对于MapReduce的应用更加偏向于对数据的处理、清洗数据等，很少作为主力计算框架

3.5.1 Join

1.概念

即多表关联查询

2.Reduce Join

效率低，不使用此方法，大致流程是在join放在reduce阶段，但是reduce的输入value会有如下大坑：

Iterable values只能遍历一次
遍历values时候key也会跟着变
对于自定义的类型Iterable values，MR为减少对象的创建，当遍历values时只会创建一次Bean对象，随后通过get/set方法对其复制遍历，因此当我们手动set某个属性时，MR只会为其保存最后一次set的值，为此MR提供了BeanUtils.copyProperties()方法用于对象的快速拷贝来解决此问题

上述的大坑的原因都是需要追源码

protected class ValueIterable implements Iterable<VALUEIN> {
    private ValueIterator iterator = new ValueIterator();
    @Override
    public Iterator<VALUEIN> iterator() {
        return iterator;
    } 
}

这就是为什么values只会遍历一次，因此遍历时底层调用的是iterator()返回的是同一个迭代器，剩下的原因可以再ReduceContextImpl类找到

3.Map Join

1）使用场景

一张表数据特别大，关联的表非常小

2）解决方案

在Map端缓存关联小表，在map()内部进行关联后直接数据，不使用Reduce阶段避免shuffle

3）核心方法

setup()每个MapTask在执行map()之前都会先执行一次该方法，因此将缓存小表的逻辑写在这

/**
   * Called once at the beginning of the task.
   */
protected void setup(Context context
                    ) throws IOException, InterruptedException {
    // NOTHING
}

在Driver类中添加缓存文件

job.addCacheFile(new URI("xxx"));

在setup()中获取缓存文件

URI[] files = context.getCacheFiles()

4）源码

假设有很多很多的数据（大表）

用户id::电影id::用户评分

1::1::5
1::2::5
1::3::5
1::4::5
2::1::5
2::2::5
2::3::5
2::4::5
3::1::5
3::2::5
3::3::5
3::4::5

需要关联的小表

用户id::用户名::性别::年龄

1::小明::M::56
2::小红::N::20
3::小芳::M::18

电影id::电影名::上映时间

1::复仇者联盟1::2010
2::复仇者联盟2::2015
3::复仇者联盟3::2018
4::复仇者联盟4::2019

最终的输出结果

小明::复仇者联盟1::5
小明::复仇者联盟2::5
小明::复仇者联盟3::5
小明::复仇者联盟4::5
小红::复仇者联盟1::5
小红::复仇者联盟2::5
小红::复仇者联盟3::5
小红::复仇者联盟4::5
小芳::复仇者联盟1::5
小芳::复仇者联盟2::5
小芳::复仇者联盟3::5
小芳::复仇者联盟4::5

Mapper代码

package mr.mapjointhree;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.BufferedReader;
import java.io.FileReader;
import java.io.IOException;
import java.net.URI;
import java.util.HashMap;
import java.util.Map;

public class MapJoinThreeTableMapper extends Mapper<LongWritable, Text, Text, NullWritable> {
    Map<String, String> user = new HashMap<>();
    Map<String, String> movies = new HashMap<>();
    Text k = new Text();

    @Override
    protected void setup(Context context) throws IOException {
        URI[] cacheFiles = context.getCacheFiles();
        BufferedReader brUser = new BufferedReader(new FileReader(cacheFiles[0].getPath()));
        BufferedReader brMovies = new BufferedReader(new FileReader(cacheFiles[1].getPath()));
        String line;
        while ((line = brUser.readLine()) != null) {
            String[] split = line.split("::");
            user.put(split[0], split[1]);
        }
        while ((line = brMovies.readLine()) != null) {
            String[] split = line.split("::");
            movies.put(split[0], split[1]);
        }
    }

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String[] split = value.toString().split("::");
        k.set(user.get(split[0]) + "::" + movies.get(split[1]) + "::" + split[2]);
        context.write(k, NullWritable.get());
    }
}

Driver代码

package mr.mapjointhree;

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;

public class MapJoinThreeTableDriver {
    public static void main(String[] args) throws IOException, URISyntaxException, ClassNotFoundException, InterruptedException {
        Job job = Job.getInstance();
        // 缓存小表文件
        job.addCacheFile(new URI("input/user.txt"));
        job.addCacheFile(new URI("input/movies.txt"));

        job.setJarByClass(MapJoinThreeTableDriver.class);
        job.setMapperClass(MapJoinThreeTableMapper.class);

        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(NullWritable.class);
	    // 不需要ReduceTask，设置为0
        job.setNumReduceTasks(0);

        FileInputFormat.setInputPaths(job, new Path("input/ratings.txt"));
        FileOutputFormat.setOutputPath(job, new Path("output"));

        job.waitForCompletion(true);
    }
}

3.5.2 计数器

1.概念

Hadoop为每个作业维护若干内置计数器，以描述多项指标，使用户可以监测以处理的数据量等，并在控制台输出

2.使用

/**
   * Get the {@link Counter} for the given groupName and 
   * counterName.
   * @param counterName counter name
   * @return the Counter for the given groupName and 
   *         counterName
   */
public Counter getCounter(String groupName, String counterName);

3.5.3 数据清洗（ETL）

类似Map Join，在Map阶段对数据进行清洗后直接数据避开Reduce即可，可以再使用上计数器。

3.5.4 Top N问题

数据如下，链接在文章底部

需求：统计搜索词top10

分析：

统计每个搜索词的词频
分析词频top10

统计词频Mapper

package mr.top10;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class WordFrequencyMapper extends Mapper<LongWritable, Text, Text, LongWritable> {
    Text k = new Text();
    LongWritable v = new LongWritable();

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String[] words = value.toString().split("\t");
        k.set(words[3]);
        v.set(Long.parseLong(words[4]) + Long.parseLong(words[4]));
        context.write(k, v);
    }
}

统计词频Reducer

package mr.top10;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class WordFrequencyReducer extends Reducer<Text, LongWritable, Text, LongWritable> {
    LongWritable v = new LongWritable();

    @Override
    protected void reduce(Text key, Iterable<LongWritable> values, Context context) throws IOException, InterruptedException {
        long count = 0;
        for (LongWritable value : values) {
            count += value.get();
        }
        v.set(count);
        context.write(key, v);
    }
}

自定义分区

package mr.top10;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;

import java.util.regex.Pattern;

public class WordFrequencyPartitioner extends Partitioner<Text, LongWritable> {
    @Override
    public int getPartition(Text text, LongWritable longWritable, int numPartitions) {
        if (Pattern.compile("[a-zA-Z]+").matcher(text.toString()).find())
            return 0;
        else if (Pattern.compile("[0-9]+").matcher(text.toString()).find())
            return 1;
        else
            return 2;

    }
}

Top N Bean

package mr.top10;

import org.apache.hadoop.io.WritableComparable;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

public class Top10Bean implements WritableComparable<Top10Bean> {
    private String searchName;
    private Long searchNum;

    public Top10Bean() {
    }

    public Top10Bean(String searchName, Long searchNum) {
        this.searchName = searchName;
        this.searchNum = searchNum;
    }

    public String getSearchName() {
        return searchName;
    }

    public void setSearchName(String searchName) {
        this.searchName = searchName;
    }

    public Long getSearchNum() {
        return searchNum;
    }

    public void setSearchNum(Long searchNum) {
        this.searchNum = searchNum;
    }

    @Override
    public int compareTo(Top10Bean o) {
        /*
         * 在这里处理当搜索量相同时按照所有词字典序
         * 若仅比较搜索量会造成数据的覆盖在TreeSet里
         * 同时也可以解决Bean在MR在reduce不合逻辑情况
         * */
        int compare = Long.compare(o.searchNum, searchNum);
        if (compare == 0) {
            return searchName.compareTo(o.searchName);
        }
        return compare;
    }

    @Override
    public void write(DataOutput out) throws IOException {
        out.writeUTF(searchName);
        out.writeLong(searchNum);
    }

    @Override
    public void readFields(DataInput in) throws IOException {
        searchName = in.readUTF();
        searchNum = in.readLong();
    }

    @Override
    public String toString() {
        return searchName + "\t" + searchNum;
    }
}

Top N Mapper

package mr.top10;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;
import java.util.TreeSet;

public class TopNMapper extends Mapper<LongWritable, Text, Text, Top10Bean> {
    TreeSet<Top10Bean> cacheTop10 = new TreeSet<>();

    @Override
    protected void map(LongWritable key, Text value, Context context) {
        String[] split = value.toString().split("\t");
        cacheTop10.add(new Top10Bean(split[0], Long.parseLong(split[1])));
        // TreeSet 默认有序，根据bean逻辑，最后一个最小
        if (cacheTop10.size() > 10) {
            cacheTop10.remove(cacheTop10.last());
        }
    }

    @Override
    protected void cleanup(Context context) throws IOException, InterruptedException {
        Text top10 = new Text("top10");
        for (Top10Bean bean : cacheTop10) {
            //写死key为了让这些数据进入同一个reduce task
            context.write(top10, bean);
        }
    }
}

Top N Reduce

package mr.top10;

import org.apache.commons.beanutils.BeanUtils;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;
import java.lang.reflect.InvocationTargetException;
import java.util.TreeSet;

public class TopNReducer extends Reducer<Text, Top10Bean, Top10Bean, NullWritable> {
    TreeSet<Top10Bean> cacheTop10 = new TreeSet<>();

    @Override
    protected void reduce(Text key, Iterable<Top10Bean> values, Context context) throws IOException, InterruptedException {
        for (Top10Bean value : values) {
            //reduce遍历迭代器时只有一个对象，即value始终是一个
            //需要将value拷贝一份放入cacheTop10
            Top10Bean bean = new Top10Bean();
            try {
                BeanUtils.copyProperties(bean, value);
            } catch (IllegalAccessException | InvocationTargetException e) {
                e.printStackTrace();
            }
            cacheTop10.add(bean);

            if (cacheTop10.size() > 10) {
                cacheTop10.remove(cacheTop10.last());
            }
        }
    }

    @Override
    protected void cleanup(Context context) throws IOException, InterruptedException {
        for (Top10Bean bean : cacheTop10) {
            context.write(bean, NullWritable.get());
        }
    }
}

Driver 启动类

package mr.top10;

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class Driver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Job job1 = Job.getInstance();

        job1.setJarByClass(Driver.class);
        job1.setMapperClass(WordFrequencyMapper.class);
        job1.setReducerClass(WordFrequencyReducer.class);
        // 配置Combiner 提前合并
        job1.setCombinerClass(WordFrequencyReducer.class);
        // 配置分区
        job1.setPartitionerClass(WordFrequencyPartitioner.class);
        // 设置ReduceTask
        job1.setNumReduceTasks(3);

        job1.setMapOutputKeyClass(Text.class);
        job1.setMapOutputValueClass(LongWritable.class);

        job1.setOutputKeyClass(Text.class);
        job1.setOutputValueClass(LongWritable.class);

        //提高MapTask并行度
        FileInputFormat.setMaxInputSplitSize(job1, 26214400);
        FileInputFormat.setInputPaths(job1, new Path("input/bigtable"));
        FileOutputFormat.setOutputPath(job1, new Path("output"));

        boolean b = job1.waitForCompletion(true);


        Job job2 = Job.getInstance();
        job2.setJarByClass(Driver.class);
        job2.setMapperClass(TopNMapper.class);
        job2.setReducerClass(TopNReducer.class);

        job2.setMapOutputKeyClass(Text.class);
        job2.setMapOutputValueClass(Top10Bean.class);
        job2.setOutputKeyClass(Top10Bean.class);
        job2.setOutputValueClass(NullWritable.class);

        FileInputFormat.setInputPaths(job2, new Path("output/part-r-00002"));
        FileOutputFormat.setOutputPath(job2, new Path("top10"));
        if (b)
            job2.waitForCompletion(true);

    }
}

最终结果

人体艺术	22796
百度	17172
新亮剑	11292
馆陶县县长闫宁的父亲	8574
儿子与母亲不正当关系	7520
优酷	5738
黑狐	5600
武动乾坤	4996
龙门飞甲	4836
新亮剑全集	4602

3.6 MapReduce 开发总结

在编写MapReduce时需要考虑以下几个方面：

输入数据接口：InputFormat
- 默认实现类：TextInputFormat，一次读一行，k为该行起始偏移量；v该行内容
- KeyValueTextInputFormat，一次读一行，被分隔符分割为kv，默认分隔符为\t
- NLineInoutFormat，按照指定行N来划分切片
- CombineTextInputFormat，合并小文件提高效率
- 自定义InputFormat
逻辑处理接口：Mapper
- setup()
- map()
- cleanup()
Partitioner分区
- 默认实现类HashPartitioner，默认逻辑key.hashCode()&Integer.MAXVALUE % numReduces
- 自定义分区，继承Partitioner重写getPartition()
Comparable排序
- 实现Comparable接口重写compareTo()
- 若自定义Bean需要作为Key传输可以实现WritableComparable
Combiner合并
- 在不改变业务逻辑的情况下推荐使用，提交合并减少IO传输，提高效率

四、Yarn

yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作平台，MR等运算程序则相当于运行于操作系统上的应用程序

4.1 JobTracker 框架

4.1.1 执行流程

客户端提交job到JobTracker，JobTracekr是MapReduce核心，与集群中的所有节点（Task Tracker）定时通信（heartbeat），管理哪些程序应该跑在哪些节点上，同时管理所有job失败、重启等操作
TaskTracker每个节点都有一个，主要监测自己所在节点的资源使用情况
TaskTracker同时监视当前节点task运行情况，TaskTracker需要把这些信息通过heartbeat发送给JobTracker

4.1.2 缺点

JobTracker存在单点故障
普遍认为老版本的hadoop只能支持4000节点
资源计算过于简单，仅使用map/reduce task个数来衡量资源占用不考虑cpu、内存等
把资源强制划分为map task slot和reduce task slot，当job只有map或者reduce会造成资源浪费
源码复杂，增加维护成本
只能运行MapReduce

4.2 Yarn 框架

hadoop 2.x 将MapReduce的资源调度框架（JobTracker）分离出来并加以优化即为yarn，相对于hadoop 1.x来说hadoop 2.x的MapReduce只作为计算框架提高了效率，解耦合。

4.2.1 yarn 成员

ResourceManager：简称RM，负责集群资源的同一管理和调度、处理客户端请求、监控集群中的NM

NodeManager：简称NM，负责自己所在节点的应用资源使用情况，并向RM汇报，接受并处理来自RM，AM的各种指令

ApplicationMaster：简称AM，每个应用程序都对应一个AM，主要负责应用程序的管理、向RM申请资源并分配给task，AM与NM通信来启动或停止task，运行在Container中

Container：封装了CPU，内存等资源的一个容器，相当于一个运行环境的抽象

4.2.2 执行流程

第一步：client向RM申请一个taskId

第二步：RM返回一个taskId和该job资源的提交路径

第三步：client将jar包、切片规划、配置文件到指定的资源提交路径

第四步：client提交资源完成后，向RM申请一个AM

第五步：RM收到申请后将job添加进资源调度器（默认容量调度器）

第六步：某个空闲的NM领取到该job

第七步：该NM创建Container并在里面启动运行AM

第八步：下载资源到本地

第九步：AM向RM申请运行MapTask的资源并领取

第十步：RM将任务分配给对应的NM，NM领取任务后创建Container

第11步：AM将向接受任务的NM发送启动脚本

第12步

a：NM启动MapTask
b：各个MapTask向AM汇报任务状态和进度

第13步

a：AM等待所有MapTask完成后向RM申请运行ReduceTask资源（Container），并运行ReduceTask（和九十一样）
b：ReduceTask向AM汇报任务状态和进度

第14步：等待所有的ReduceTask结束，AM向RM申请注销自己

4.2.3 三种资源调度器

1.FIFO Scheduler

将job放置在一个队列中，按顺序运行job；会造成大任务阻塞小任务，不适合共享集群

2.Capacity Scheduler

一个独立的专门队列保证小任务已提交就就可以启动；但会造成资源的浪费（没有小任务提交，这片资源不会被使用）

3.Fair Scheduler

不需要预留资源，调度器会在所有运行的作业之间动态平衡资源

五、补充

5.1 MapReduce 企业优化

5.1.1 MapReduce 为什么跑得慢？

计算机性能

CPU、磁盘、内存、网络等
IO操作
1. 数据倾斜：某个Reduce处理数据量特别大，其他Reduce数据量小，导致资源分配不均
2. map和reduce设置不合理
3. map运行时间长，导致reduce等待过久
4. 小文件过多
5. spill次数过多
6. 合并次数过多

5.1.2 MapReduce 优化方法

1.数据输入

在执行MapReduce任务前将小文件进行合并，减少map个数
采用CombinerTextInputFormat来作为输入，解决小文件问题

2.Map 阶段

减少spill次数通过io.sort.mb及sort.spill.percent分别配置环形缓冲区内存上限和最大值阈值，从而减少soill次数，减少IO次数
在不影响业务逻辑情况下，先进性Combine处理，减少数据量

3.Reducer 阶段

合理配置map和renduce个数
减少reduce的使用，reduce在连接数据集时将产生大量网络消耗

4.IO 传输

采用压缩数据的方式减少IO传输消耗

5.数据倾斜问题

使用Combine，减少传输的数据量，若导致数据倾斜的key大量分布在不同的MapTask时不适用
导致数据倾斜的key大量分布在不同的mapper
1. 局部聚合加全局聚合
  - 第一次在 map 阶段对那些导致了数据倾斜的 key 加上 1 到 n 的随机前缀，这样本来相
  同的 key 也会被分到多个 Reducer 中进行局部聚合，数量就会大大降低。
  - 第二次 mapreduce，去掉 key 的随机前缀，进行全局聚合。
  - 思想：二次 mr，第一次将 key 随机散列到不同 reducer 进行处理达到负载均衡目的。第
  二次再根据去掉 key 的随机前缀，按原 key 进行 reduce 处理。
2. 增加Reduce个数，增加并行度
3. 自定义分区

你可能感兴趣的:(笔记)

10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
509. 斐波那契数(每日一题) lzyprime
lzyprime博客(github)创建时间：2021.01.04qq及邮箱：2383518170leetcode笔记题目描述斐波那契数，通常用F(n)表示，形成的序列称为斐波那契数列。该数列由0和1开始，后面的每一项数字都是前面两项数字的和。也就是：F(0)=0，F(1)=1F(n)=F(n-1)+F(n-2)，其中n>1给你n，请计算F(n)。示例1：输入：2输出：1解释：F(2)=F(1)+
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
Day17笔记-高阶函数 ~在杰难逃~ Python 笔记 python 开发语言 pycharm 数据分析
高阶函数【重点掌握】函数的本质：函数是一个变量，函数名是一个变量名，一个函数可以作为另一个函数的参数或返回值使用如果A函数作为B函数的参数，B函数调用完成之后，会得到一个结果，则B函数被称为高阶函数常用的高阶函数：map(),reduce(),filter(),sorted()1.map()map(func,iterable)，返回值是一个iterator【容器，迭代器】func:函数iterab
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
【Git】常见命令(仅笔记) 好想有猫猫 Git Linux学习笔记 git 笔记 elasticsearch linux c++
文章目录创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用`.gitigore`文件让git不追踪一些文件标签创建/初始化本地仓库gitinit添加本地仓库配置项gitconfig-l#以列表形式显示配置项gitconfiguser.name"ljh"#配置user.namegitconfiguser.email"[email protected]
为什么你总是对下属不满意? ZhaoWu1050
【ZhaoWu的听课笔记】大多数公司，都存在两种问题。我创业四年，更是体会深切。这两种问题就是：老板经常不满意下属的表现；下属总是不知道老板想要什么；虽然这两种问题普遍存在，其实解决方法并不复杂。这节课，我们再聊聊第一个问题：为什么老板经常不满意下属表现?其实，这背后也是一条管理常识。管理学家德鲁克先生早就说过：管理者的任务，不是去改变人。*来自《卓有成效的管理者》只是大多数老板和我一样，都是一边
母亲节如何做小红书营销美橙传媒
小红书的一举一动引起了外界的高度关注。通过爆款笔记和流行话题，我们可以看到“干货”类型的内容在小红书中偏向实用的生活经验共享和生活指南非常受欢迎。根据运营社的分析，这种现象是由小红书用户心智和内容社区背后机制共同决定的。首先，小红书将使用“强搜索”逻辑为用户提供特定的“搜索场景”。在“我必须这样生活”中，大量使用了满足小红书站用户喜好和需求的内容。内容社区自制的高质量内容也吸引了寻找营销新途径的品
读书笔记|《遇见孩子，遇见更好的自己》5 抹茶社长
为人父母意味着放弃自己的过去，不要对以往没有实现的心愿耿耿于怀，只有这样，孩子们才能做回自己。985909803.jpg孩子在与父母保持亲密的同时更需要独立，唯有这样，孩子才会成为孩子，父母才会成其为父母。有耐心的人生往往更幸福，给孩子留点余地。认识到养儿育女是对耐心的考验。为失败做好心理准备，教会孩子控制情绪。了解自己的底线，说到底线，有一点很重要，父母之所以发脾气，真正的原因往往在于他们自己，
基于Python给出的PDF文档转Markdown文档的方法程序媛了了 python pdf 开发语言
注：网上有很多将Markdown文档转为PDF文档的方法，但是却很少有将PDF文档转为Markdown文档的方法。就算有，比如某些网站声称可以将PDF文档转为Markdown文档，尝试过，不太符合自己的要求，而且无法保证文档没有泄露风险。于是本人为了解决这个问题，借助GPT（能使用GPT镜像或者有条件直接使用GPT的，反正能调用GPT接口就行）生成Python代码来完成这个功能。笔记、代码难免存在
语文主题教学学习笔记之87 东哥杂谈
“语文主题教学”学习笔记之八十七（0125）今天继续学习小学语文主题教学的实践样态。板块三：教学中体现“书艺”味道。作为四大名著之一的《水浒传》，堪称我国文学宝库之经典。对从《水浒传》中摘选的单元，教师就要了解其原生态，即评书体特点。这也要求教师要了解一些常用的评书行话术语，然后在教学时适时地加入一些，让学生体味其文本中原有的特色。学生也要尽可能地通过朗读的方式，而不单是分析讲解的方式进行学习。细
Armv8.3 体系结构扩展--原文版代码改变世界ctw ARM-TEE-Android armv8 嵌入式 arm架构安全架构芯片 Trustzone Secureboot
快速链接:.ARMv8/ARMv9架构入门到精通-[目录]付费专栏-付费课程【购买须知】:个人博客笔记导读目录(全部)TheArmv8.3architectureextensionTheArmv8.3architectureextensionisanextensiontoArmv8.2.Itaddsmandatoryandoptionalarchitecturalfeatures.Somefeat
springboot+vue项目实战一-创建SpringBoot简单项目苹果酱0567 面试题汇总与解析 spring boot 后端 java 中间件开发语言
这段时间抽空给女朋友搭建一个个人博客，想着记录一下建站的过程，就当做笔记吧。虽然复制zjblog只要一个小时就可以搞定一个网站，或者用cms系统，三四个小时就可以做出一个前后台都有的网站，而且想做成啥样也都行。但是就是要从新做，自己做的意义不一样，更何况，俺就是专门干这个的，嘿嘿嘿要做一个网站，而且从零开始，首先呢就是技术选型了，经过一番思量决定选择-SpringBoot做后端，前端使用Vue做一
阅读《认知觉醒》读书笔记就看看书
本周阅读了周岭的《认知觉醒开启自我改变的原动力》，启发较多，故做读书笔记一则，留待学习。全书共八章，讲述了大脑、潜意识、元认知、专注力、学习力、行动力、情绪力及成本最低的成长之道。具体描述了大脑、焦虑、耐心、模糊、感性、元认知、自控力、专注力、情绪专注、学习专注、匹配、深度、关联、体系、打卡、反馈、休息、清晰、傻瓜、行动、心智宽带、单一视角、游戏心态、早起、冥想、阅读、写作、运动等相关知识点。大脑
阅读笔记：阅读方法中的逻辑和转念施吉涛
聊聊一些阅读的方法论吧，别人家的读书方法刚开始想写，然后就不知道写什么了，因为作者写的非常的“精致”我有一种乡巴佬进城的感觉，看到精美的摆盘，精致的食材不知道该如何下口也就是《阅读的方法》，我们姑且来试一下强劲的大脑篇，第一节：逻辑通俗的来讲，也就是表达的排列和顺序，再进一步就是因果关系和关联实际上书已经看了大概一遍，但直到打算写一下笔记的时候，才发现作者讲的推理更多的是阅读的对象中呈现出的逻辑也
《转介绍方法论》学习笔记小可乐的妈妈
一、高效转介绍的流程：价值观---执行----方案一）转介绍发生的背景：1、对象：谁向谁转介绍？全员营销，人人参与。①员工的激励政策、客户的转介绍诱因制作客户画像：a信任；支付能力；意愿度；便利度（根据家长具备四个特征的个数分为四类）B性格分类C职业分类D年龄性别②执行：套路，策略，方法，流程2、诱因：为什么要转介绍？认同信任；多方共赢；传递美好；零风险承诺打动人心，超越期待。选择做教育，就是选择
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
解决Obsidian写笔记中的＜img＞标签无法显示图片的问题全能全知者笔记
Obsidian中写md笔记如果使用标签会显示不出图案，后来才知道因为Obsidian的问题导致只能用绝对路径定位。所以我本人写了一个py插件，将md笔记里的img标签批量替换成Obsidian能够读取的形式。安装FixObsImgDpy:pipinstallFixObsImgDpy安装完成后在需要修复的md文件的父目录下运行命令:FixObsImgDpy就会自动修复父目录以下的全部md文件仓库
2021年周总结 03 Ruby之家
这周的生活过得也是比较快，因为暂时住的离公司有点距离，所以通勤时间相对较长一点，而在地铁上的一个半小时如何充分利用起来，则是我最近一直在思考的问题，2021年想让自己的生活都运行在计划中。(有时候自己想干一件事情就总是给自己找很多借口，想着以后怎么怎么样？然而哪有那么多的以后，能够方便当下的工作生活就立马执行就OK，这仅仅只是我此时想到背的很重的老人机笔记本电脑，也算是陪伴我快8年的—当时买的时候
2021-12-11 人生导演
今天读到佛学书籍的一段话：初学者很难直接体验到无我，但可以经常提醒自己：一切事物都是无我的。不断强化这个观念，也会相当有帮助。比如生病了我们一般会说：“我不舒服！我很痛！我很惨！”这时候如果我们提醒自己：没有我，只是这个肉体的某些部分、某些功能出了问题，不舒服、疼痛也只是一时的感受，而感受随时在变化。仅仅是知道没有一个实存的我在生病、在受苦。然后把“一切事物都是无我的”这句话，记到笔记上，并且朗读
新能源汽车 BMS 学习笔记篇—BMS 基本定义及分类 WPG大大通其他笔记汽车 BMS 经验分享新能源电池
一、BMS定义1、概念：BMS（BatteryManagementSystem）即电池管理系统，其管理对象是二次电池（充电电池或蓄电池），其主要目的是电池的利用率，防止电池出现过度充电和过度放电，可应用于电动汽车、电瓶车、机器人、无人机等图片来源：腾讯网https://new.qq.com《标准普尔警告，电动汽车电池生产面临供应链和地缘政治风险》2、四大功能①感知和测量：检测电池的电压、电流、温度
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
LeetCode github集合，附CMU大神整理笔记 Wesley@ LeetCode github
GithubLeetCode集合本人所有做过的题目都写在一个java项目中，同步到github中了，算是见证自己的进步。github目前同步的题目是2020-09-17日之后写的题。之前写过的题会陆续跟新到github中。目前大概400个题目Github项目链接：https://github.com/sunliancheng/leetcode_github附上一份优秀的教材整合：这是卡内基梅隆(C
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1