程序员胖五

【大数据之路4】分布式计算模型 MapReduce

4. 分布式计算模型 MapReduce

- 1. MapReduce 概述
- - 1. 概念
  - 2. 程序演示
  - - 1. 计算 WordCount
    - 2. 计算圆周率 π
  - 3. 核心架构组件
  - 4. 编程流程与规范
  - - 1. 编程流程
    - 2. 编程规范
    - 3. 程序主要配置参数
    - 4. 相关问题
    - - 1. 为什么不能在 Mapper 中进行 “聚合”（加法）？为什么需要 “减速器”
      - 2. RecordReader 的作用
  - 5. 单词统计案例
  - - 1. 过程分析
    - 2. 案例编写
    - - 1. 相关说明
      - 2. JDK（Java）数据类型与 Hadoop 数据类型的对照关系
      - 3. Mapper 类
      - 4. Reducer 类
      - 5. 主调度程序
      - 6. 程序打成 jar 包在 HDFS 执行
    - 3. Web 页面查看
    - 4. 案例总结
    - 5. 集群运行模式
- 2. MapReduce 组件
- - 1. 分区组件 Partitioner
  - - 1. Partition 组件作用
    - 2. 需求与思路
    - 3. 示例代码
    - 4. 相关问题与知识点
    - 5. 编写自定义分区器
  - 2. 排序组件与序列化
  - - 1. 排序组件 WritableComparable
    - 2. 序列化与反序列化
    - 3. 排序组件结合序列化的案例
  - 3. 局部合并组件/合路器 Combiner
  - - 1. Combiner 概述
    - 2. 案例：局部合并 Map 阶段的结果
  - 4. 分组组件 Group
  - - 1. 概述
    - 2. 案例：求每一个订单中成交额最大的一笔交易
- 3. 知识点与组件调优
- - 1. 知识点
  - - 1. MapReduce 框架中的分布式缓存
    - 2. Reducers 之间如何通信
    - 3. SequenceFileInputFormat
  - 2. 组件的默认内存与调节建议
- 3. MapReduce 项目实战
- - 需求一：统计每个手机号的数据包和流量总和
  - 需求二：将需求一中结果按照 upFlow 流量倒排
  - 需求三：手机号码分区
- 4. MapReduce 的 Shuffle 和 YARN
- - 1. Shuffle 原理详解
  - - 1. Shuffle 概述
    - 2. Shuffle 机制
    - 3. Shuffle 图解优化版
    - 4. Shuffle 核心执行流程图
    - 5. Shuffle 详细图解
    - 6. 环形缓冲区内部图解
    - 7. Shuffle 优化
  - 2. 资源调度框架 YARN
  - - 1. YARN概述
    - 2. Hadoop 版本间对比
    - 3. YARN 的重要概念
    - - 1. 主节点 ResourceManager
      - 2. 从节点 NodeManager
      - 3. 容器 Container
    - 4. YARN 架构图
    - 5. 作业提交流程
    - 5. hadoop 宕机

1. MapReduce 概述

1. 概念

map 并发 reduce 汇总

MapReduce 是一个分布式的计算编程框架（或编程模型），属于一个半成品，并行计算框架。

在一个完整的分布式计算任务代码编写过程中，对程序员来说，除了业务之外的所有代码都不写最好。封装通用代码，对业务代码提供编写规范。

【MapReduce 核心功能】：将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个 Hadoop 集群上。

普通程序升级为分布式程序难度分析：

2. 程序演示

1. 计算 WordCount

（1）HDFS 上创建一个 wc 的文件夹

[root@hadoop0 ~]# hdfs dfs -mkdir -p /0320/mr/wc

（2）本地准备一个 txt 文件并上传到 HDFS wc 目录下

[root@hadoop0 ~]# cat /home/data/mr/wc.txt 
hello hadoop
hello mapreduce
[root@hadoop0 ~]# hadoop fs -put /home/data/mr/wc.txt /0320/mr/wc

（3）执行官方 WordCount 案例（该条语句会对 /0320/mr/wc/ 文件夹下的文件进行单词的个数处理，将结果存储在 /0320/mr/wcout 文件夹下，该文件夹自动创建）：

hadoop jar /software/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.4.jar wordcount /0320/mr/wc/wc.txt /0320/mr/wcout

（4）查看 HDFS /0320/mr/ 下会多出 wcout 文件夹，查看其内容（单词个数统计的结果在 part-r-00000 文件内）

[root@hadoop0 ~]# hdfs dfs -ls /0320/mr/wcout/
Found 2 items
-rw-r--r--   1 root supergroup          0 2023-03-20 18:14 /0320/mr/wcout/_SUCCESS
-rw-r--r--   1 root supergroup         29 2023-03-20 18:14 /0320/mr/wcout/part-r-00000
[root@hadoop0 ~]# hdfs dfs -cat /0320/mr/wcout/p*
hadoop	1
hello	2
mapreduce	1

2. 计算圆周率 π

运行官方案例，给定 map 数量和 reduce 数量：5、5，这两个数给的越大，计算结果越准确，但计算时间会更长

[root@hadoop0 ~]# cd /software/hadoop/share/hadoop/mapreduce/
[root@hadoop0 mapreduce]# hadoop jar hadoop-mapreduce-examples-2.7.4.jar pi 5 5
Number of Maps  = 5
Samples per Map = 5
Wrote input for Map #0
...
Wrote input for Map #4
Starting Job
...
Job Finished in 4.468 seconds
Estimated value of Pi is 3.68000000000000000000

[root@hadoop0 mapreduce]# hadoop jar hadoop-mapreduce-examples-2.7.4.jar pi 50 50
Number of Maps = 50
Samples per Map = 50
Wrote input for Map #0
Wrote input for Map #1
... Wrote input for Map #49
Starting Job
...
Job Finished in 9.635 seconds
Estimated value of Pi is 3.14080000000000000000

3. 核心架构组件

组件说明：

inputPath：输入文件，可以是一个目录，也可以是个文件
TextInputFormat/LineRecordReader：数据读取组件
Mapper：执行业务逻辑计算，主要通过 map() 方法处理，输出 key 和 value 的值，context 是写入上下文的组件
Shuffle：分区 Partitioner、排序 Sorter、局部合并 Combiner、分组 Group
Reducer：reduce() 方法接收到一组 (key, value) 的数据
TextOutputFormat/LineRecordWriter：数据输出组件
outputPath：结果文件的位置

开发说明：

写业务逻辑代码的组件：map()、reduce()
最外层写组件调度程序，将各个组件串行起来
对于业务需求不是很特别，则无需修改其他组件的内容

4. 编程流程与规范

1. 编程流程

2. 编程规范

1. MapReduce 程序的业务编码分为两大部分

配置程序的运行信息
编写该 MapReduce 程序的业务逻辑，并且业务逻辑的 map 阶段和 reduce 阶段分别继承 Mapper 类和 Reducer 类

2. MapReduce 程序具体编写规范

用户编写的程序分为三个部分：Mapper、Reducer、Driver（提交运行 MapReduce 程序的客户端）
Mapper 的输入和输出数据都是 KV 对的形式（KV 的类型可自定义）
Mapper 中的业务逻辑写在 map() 方法中，map() 方法（maptask 进程）对每一个组调用一次
Reducer 的输入数据类型对应Mapper的输出数据类型，也是 KV 对的形式
Reducer 的业务逻辑写在 reduce() 方法中，ReduceTask 进程对每一组相同K的组调用一次 reduce() 方法
用户自定义的 Mapper 和 Reducer 都要继承各自的父类
整个程序需要一个 Driver 来进行提交，提交的是一个描述了各种必要信息的 job 对象

3. 程序主要配置参数

MapReduce 框架中用户需要指定的主要配置参数有：

分布式文件系统中作业的输入位置
作业在分布式文件系统中的输出位置
数据输入格式
数据输出格式
包含 Map 功能的类
包含 Reduce 函数的类
包含映射器、减速器和驱动程序类的 jar 文件

4. 相关问题

1. 为什么不能在 Mapper 中进行 “聚合”（加法）？为什么需要 “减速器”

不能在 Mapper 中执行 “聚合”（加法），是因为在 Mapper 函数中不会发生排序。排序只发生在 Reducer 端，没有排序聚合是无法完成的
在 “聚合” 期间，我们需要所有映射器函数的输出，这些输出在映射阶段可能无法收集，因为映射器可能运行在存储数据块的不同机器上
最后，如果我们尝试在 Mapper 上聚合，它需要在可能运行在不同机器上的所有 Mapper 函数之间进行通信。因此它会消耗高网络带宽并可能导致网络瓶颈

2. RecordReader 的作用

InputSplit 定义了一个工作片段，但没有描述如何访问它。RecordReader 类从其源加载数据并将其转换为适合 Mapper 任务读取的（键、值）对。RecordReader 实例由 “输入格式” 定义

5. 单词统计案例

1. 过程分析

Map 并行 阶段：TextInputFormat 组件对每个节点上的文件内容进行遍历读取，以 行 为单位获取到对应数据，使用 split() 方法将单词分隔开，每个单词组织成 (word, 1) 的形式
Shuffle 阶段：经过分区、排序、局部合并、分组阶段，将每个节点上组织好的单词进行 Hash 分析，选出相同的单词放到单独的节点上
Reduce 汇总 阶段：将相同单词个数进行统计，得出 (word, count) 的形式，TextOutputFormat 组件将得到的数据存到 part-r-0000 这样格式的文件内（part 表示部分，r 表示 reduce 的结果，map 的结果是 m）
主要是 Map 和 Reduce 两阶段

说明：

如果 Shuffle 到 Reduce 阶段，该节点挂了，主节点会找一台可用节点把这些数据放上去重新执行
Hadoop 平台查看某一个时间段执行的任务信息：jobhistory

2. 案例编写

1. 相关说明

Map 和 Reduce 为程序员提供了一个清晰的操作接口抽象描述。MapReduce 中定义了如下的 Map 和 Reduce 两个抽象的编程接口，由用户去编程实现 Map 和 Reduce。MapReduce 处理的数据类型是键值对

Map:			(k1, v1) → [(k2, v2)]
Recude:		(k2, [v2]) → [(k3, v3)]

程序划分为：Mapper 类、Reducer 类、整个的主调度程序

依赖文件：pom.xml

<dependencies>
  <dependency>
    <groupId>org.apache.hadoopgroupId>
    <artifactId>hadoop-commonartifactId>
    <version>2.7.4version>
  dependency>
  <dependency>
    <groupId>org.apache.hadoopgroupId>
    <artifactId>hadoop-clientartifactId>
    <version>2.7.4version>
  dependency>
  <dependency>
    <groupId>org.apache.hadoopgroupId>
    <artifactId>hadoop-hdfsartifactId>
    <version>2.7.4version>
  dependency>
  <dependency>
    <groupId>org.apache.hadoopgroupId>
    <artifactId>hadoop-mapreduce-client-coreartifactId>
    <version>2.7.4version>
  dependency>
dependencies>
<build>
  <plugins>
    <plugin>
      <groupId>org.apache.maven.pluginsgroupId>
      <artifactId>maven-compiler-pluginartifactId>
      <version>3.1version>
      <configuration>
        <source>1.8source>
        <target>1.8target>
        <encoding>UTF-8encoding>
        
      configuration>
    plugin>
    <plugin>
      <groupId>org.apache.maven.pluginsgroupId>
      <artifactId>maven-shade-pluginartifactId>
      <version>2.4.3version>
      <executions>
        <execution>
          <phase>packagephase>
          <goals>
            <goal>shadegoal>
          goals>
          <configuration>
            <minimizeJar>trueminimizeJar>
          configuration>
        execution>
      executions>
    plugin>
  plugins>
build>

2. JDK（Java）数据类型与 Hadoop 数据类型的对照关系

String、Long 等是 JDK 里的数据类型，在序列化时效率低。Hadoop 为了提高效率，自定义了一套序列化的类型。在 Hadoop 的程序中，如果要进行序列化（写磁盘、网络传输等），一定要使用 Hadoop 实现的序列化的数据类型：

Java 类型	Hadoop 类型
Long	LongWritable
String	Text
Integer	IntWritable
Null	NullWritable

3. Mapper 类

Mapper 类

KEYIN：指框架读取到的数据集的 key 的类型，默认情况下读取到的 key 是一行数据相对整个文本开头的偏移量。当 key 类型是 JDK 的 Long 类型时，对应 Hadoop 的 LongWritable
VALUEIN：指框架读取到的数据集的 value 的类型，默认情况下读取到的 value 是一行文本。value 的类型是 String，对应 Hadoop 的 Text
KEYOUT：指用户自定义的业务逻辑方法中返回数据的 key 的类型，由用户根据业务逻辑自己决定。在 WordCount 程序中，该 key 是单词，key 的类型是 JDK 的 String 类型，对应 Hadoop 的 Text
VALUEOUT：指用户自定义的业务逻辑方法中返回数据的 value 的类型，由用户根据业务逻辑自己决定。在 WordCount 程序中，该 value 是次数（个数），value 类型是 Long 类型，对应 Hadoop 的 LongWritable

实现 map(KEYIN key, VALUEIN value, Context context) 方法

key：偏移量
value：一行的文本数据
context：上下文对象

代码：WordMapper.java

package WordCount;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.IOException;

// key：偏移量、value：一行的文本数据、context：上下文对象
public class WordMapper extends Mapper<LongWritable, Text, Text, LongWritable> {
  @Override
  protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
    // 1. 切分单词
    String[] words = value.toString().split(" ");
    // 2. 计数一次，将单词转换成类似于  这样的key-value键值对
    for (String word : words) {
      // 3. 写入上下文
      context.write(new Text(word), new LongWritable(1));
}}}

4. Reducer 类

Reducer 类

KEYIN：Map 阶段输出过来的 key（单词）的类型（Text）
VALUEIN：Map 阶段输出过来的 value（次数）的类型（LongWritable）
KEYOUT：最终要输出的 key 的类型，即单词的类型
VALUEOUT：最终输出的 value 的类型，即次数的类型

实现 reduce(KEYIN key, Iterable values, Context context) 方法

key：单词
values：相同单词的次数
context：上下文对象

代码：WordReducer.java

package WordCount;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;
// key: 偏移量、value: 一行的文本数据、context: 上下文对象
public class WordReducer extends Reducer<Text, LongWritable, Text, LongWritable> {
  @Override
  protected void reduce(Text key, Iterable<LongWritable> values, Context context) throws IOException, InterruptedException {
    // 1. 定义一个统计的变量
    long count = 0;
    // 2. 迭代
    for (LongWritable value : values) {
      count += value.get();
    }
    // 3. 写入到上下文中
    context.write(key, new LongWritable(count));
}}

5. 主调度程序

6. 程序打成 jar 包在 HDFS 执行

需求：将 MapReduce 模块打包成 jar 格式运行在 HDFS 上

（1）将 JobMain.java 文件中的输入输出都替换成 HDFS 上的路径

注意：HDFS 上相应路径下要上传 wc.txt

TextInputFormat.addInputPath(job, new Path("hdfs://hadoop0:8020/0320/mr/wc/wc.txt"));
TextOutputFormat.setOutputPath(job, new Path("hdfs://hadoop0:8020/0320/mr/wc/wcout"));

（2）idea 在 Maven 中找到 MapReduce 模块中的 lifecycle 的 package 双击，等待返回 BUILD SUCCESS

（3）在本地 MapReduce 模块的 target 里找到 MapReduce-1.0-SNAPSHOT.jar，用 xshell 或 filezilla 等传输软件传入 CentOS 机器，cd 到该文件目录下

（4）复制 JobMain 时鼠标右击选择 copy reference 即可

（5）执行 jar：

[root@hadoop0 mr]# hadoop jar MapReduce-1.0-SNAPSHOT.jar WordCount.JobMain
...
# 最后返回 true

（6）最后做下验证，查看下的文件及其内容

[root@hadoop0 mr]# hdfs dfs -ls /0320/mr/wc/wcout
Found 2 items
-rw-r--r--   1 root supergroup          0 2023-03-21 08:44 /0320/mr/wc/wcout/_SUCCESS
-rw-r--r--   1 root supergroup         29 2023-03-21 08:44 /0320/mr/wc/wcout/part-r-00000
[root@hadoop0 mr]# hadoop fs -cat /0320/mr/wc/wcout/p*
hadoop	1
hello	2
mapreduce	1

3. Web 页面查看

MapReduce 执行 Job 后，若 DataNode 由 Yarn 托管，可以在 Yarn 的页面查看 JobHistory

（1）需要配置相关文件如下：

yarn-site.xml

<property> 
    <name>yarn.log-aggregation-enablename>  
    <value>truevalue>
property>
<property>
    <name>yarn.log.server.urlname>
    <value>http://hadoop0:19888/jobhistory/logs/value>
property>
<property>
    <name>yarn.nodemanager.aux-servicesname>
    <value>mapreduce_shufflevalue>
property>
<property>
    <name>yarn.nodemanager.hostnamename>
    <value>hadoop1value>
property>
<property>
    <name>yarn.resourcemanager.hostnamename>
    <value>hadoop0value>
property>

mapred-site.xml

<property>
    <name>mapreduce.framework.namename>
    <value>yarnvalue>
property>
<property> 
    <name>mapreduce.jobhistory.addressname>  
    <value>hadoop0:10020value>
property>
<property> 
    <name>mapreduce.jobhistory.webapp.addressname>  
    <value>hadoop0:19888value>
property>

（2）启动 zk、Hadoop 之后，再在每个节点启动 JobHistory 服务：

/software/hadoop/sbin/mr-jobhistory-daemon.sh start historyserver

[root@hadoop0 spark]# jps
10359 JobHistoryServer

（3）执行一个 MapReduce 任务：

[root@hadoop0 hadoop]# hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.4.jar pi 10 10

最后等待完成：

（4）Web 页面查看 http://hadoop0:8088/

http://hadoop0:19888/ 也可以

4. 案例总结

执行流程图：

Map 和 Reduce 有先后顺序：Map 阶段在前，Reduce 阶段在后。Map 内部有多个线程并发执行每个块上的任务，Reducer 后汇总
JobMain 中输入输出的路径配置以及其他地址的相关配置应该写入一个配置文件，在此处做引用，不要写死，可通过 main 的 args 参数输入

5. 集群运行模式

将 MapReduce 程序提交给 YARN 集群，分发到很多节点上并发执行
处理的数据和输出的结果应该位于 HDFS 文件系统
提交集群的实现步骤：将程序打成 jar 包，然后在集群的任一节点上用 hadoop 命令启动：

hadoop jar jar包名 class类名

2. MapReduce 组件

1. 分区组件 Partitioner

1. Partition 组件作用

确保单个键的所有值都进入同一个 Reducer，从而允许在 Reducer 上均匀分布 Map 输出。它通过确定哪个 Reducer 负责特定键，将 Mapper 输出重定向到 Reducer

2. 需求与思路

需求：根据单词的长度进行判断，单词长度 >= 6 的在一个结果文件中，单词长度 < 6 的在另一个文件中，以便于再快速查询

思路：

定义 Mapper 逻辑
定义 Reducer 逻辑
自定义分区 Partitioner（这个案例主要的逻辑在这里面）
主调度入口 JobMain

3. 示例代码

说明：Mapper 和 Reducer 跟上边 WordCount 一样，只是多了 Partitioner

继承 Partitioner 类

KEY：单词的类型
VALUE：单词的次数的类型

实现 getPartition(KEY key, VALUE value, int numPartitions) 方法

key：Reduce 输出的 key 的类型
value：Reduce 输出的 value 的类型
numPartitions：指定分区数

MyPartitioner.java

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;

public class MyPartitioner extends Partitioner<Text, LongWritable> {
  // return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
  @Override
  public int getPartition(Text text, LongWritable longWritable, int numPartitions) {
    // return 的 0 和 1 是分区编号
    if (text.toString().length() >= 6) {
      return 0;
    } else {  // 小于5的
      return 1;
}}}

JobMain.java 相关说明：

需求：根据单词的长度给单词出现次数的结果存储到不同文件中
代码与上边的 WordCount 的 JobMain 一样，只是增加了分区设置和指定了 Reduce 的任务数

// 3,4,5,6 Shuffle，3.设置分区
job.setPartitionerClass(MyPartitioner.class);
job.setNumReduceTasks(2);

➜  ~ ls -lrt /Users/jason93/Desktop/BigData/file/mr/partwcout     
total 16
-rw-r--r--  1 jason93  staff  21  3 21 09:28 part-r-00000
-rw-r--r--  1 jason93  staff   8  3 21 09:28 part-r-00001
-rw-r--r--  1 jason93  staff   0  3 21 09:28 _SUCCESS
➜  ~ cat /Users/jason93/Desktop/BigData/file/mr/partwcout/part-r-00000
hadoop	1
mapreduce	1
➜  ~ cat /Users/jason93/Desktop/BigData/file/mr/partwcout/part-r-00001
hello	2

4. 相关问题与知识点

Mapper、Reducer 的上下文是怎么传递交互的？
- context 封装一个对象，相当于一个消息载体，在上下文之间进行传递
执行程序没报错，但最后返回 false，如何排查原因？
- 去输入输出的地方找，很有可能是切分单词 split 设置错误；或查看 import 引入的包是否正确
分区是 2，设置的 setNumReduceTasks 的个数是 3，那最终的结果文件是几个？
- 结果是 3 个。编号后缀 0 和 1 的有内容，2 的为空
NumReduceTasks 设置多少，并发就是多少

5. 编写自定义分区器

可按照以下步骤轻松编写 Hadoop 作业的自定义分区器：

创建一个扩展 Partitioner 类的新类
覆盖方法 getPartition，在 MapReduce 中运行的包装器中
使用 set Partitioner 方法将自定义分区程序添加到作业，或将自定义分区程序作为配置文件添加到作业

2. 排序组件与序列化

1. 排序组件 WritableComparable

Writable 有一个子接口 WritableComparable，它既可以实现序列化，又可以 对 key 进行比较。可通过自定义 key 实现 WritableComparable 来实现排序功能。

说明：Writable 只实现序列化和反序列化，没有比较的方法

2. 序列化与反序列化

概念：

序列化：（Serialization）：结构化对象转换为字节流
反序列化（Deserialization）：把字节流转换为结构化对象

使用场景：在进程间传递对象或持久化对象时，需要序列化对象成字节流；反之当接收到从磁盘读取的字节流转换为对象，要进行反序列化。

Java 与 Hadoop 的序列化框架概述：

Java 的序列化是一个重量级序列化框架（Serializable），一个对象被序列化后，会附带很多额外的信息（各种校验信息、Header、继承体系等），不便于在网络中高效传输。所以 Hadoop 自己开发了一套序列化机制（Writable），更加精简高效
Hadoop 中的序列化框架已经对基本类型和 null 提供了序列化的实现了，分别是：

Java	Hadoop
byte	ByteWritable
short	ShortWritable
int	IntWritable
long	LongWritable
float	FloatWritable
double	DoubleWritable
String	Text
null	NullWritable

3. 排序组件结合序列化的案例

**需求：**数据格式如下，要求第一列按照字典顺序进行排序，第一列相同时，第二列按照升序进行排序

原始数据      期望数据
a 1          a 1
a 3          a 2
b 1          a 3
a 2          b 1
c 2          c 1
c 1          c 2

思路：

将 Mapper 端输出的中的 key 和 value 组合成一个新的 key，value 值不变，也就是新的 key 和 value 为：<(key,value), value>
在针对新的 key【(key, value)】排序时，如果 key 相同，就再对 value 排序

思路转换：

定义一个实体对象 MySortBean，把 key 和 value 都放到该对象中
- 该实体对象继承 WritableComparable： implements WritableComparable<实体对象名>
定义 SortMapper 类
定义 SortReducer 类
主调度入口 JobMain

知识点：Job 调用 MySortBean 的排序实现的目的：快速排序、规避排序

代码：

（1）MySortBean.java 定义实体对象，把 key 和 value 放到该对象中

import org.apache.hadoop.io.WritableComparable;
import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

public class MySortBean implements WritableComparable<MySortBean> {
  // 1. 定义key的key、value
  private String word;
  private int num;

  // 2. 定义 get、set、toString 的方法（Mac用Ctrl+Enter快捷键调出）
  public String getWord() {return word;}
  public void setWord(String word) {this.word = word;}
  public int getNum() {return num;}
  public void setNum(int num) {this.num = num;}
  @Override
  public String toString() {
    return "MySortBean{" + "word='" + word + '\'' + ", num=" + num + '}';
  }

  /**
   * 比较器：按定义规则进行排序
   * 排序规则：要求第一列按照字典顺序进行排序，第一列相同时，第二列按照升序进行排序
   * @param o：MySortBean的对象
   * @return result：第一列和第二列的差值
   */
  @Override
  public int compareTo(MySortBean o) {
    // 1. 比较第一列，比较结果有3种： >0、==0、<0
    int result = this.word.compareTo(o.word);
    // 2. 第一列相同时比较第二列
    if (result == 0) {
      return this.num - o.num;
    }
    return result;
  }

  /**
   * 实现序列化
   * @param dataOutput：输出数据
   * @throws IOException：异常捕获
   */
  @Override
  public void write(DataOutput dataOutput) throws IOException {
    dataOutput.writeUTF(word);
    dataOutput.writeInt(num);
  }

  /**
   * 实现反序列化
   * @param dataInput：输入数据
   * @throws IOException：异常捕获
   */
  @Override
  public void readFields(DataInput dataInput) throws IOException {
    this.word = dataInput.readUTF();
    this.num = dataInput.readInt();
}}

（2）SortMapper.java

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.IOException;

public class SortMapper extends Mapper<LongWritable, Text, MySortBean, NullWritable> {
  // LongWritable：一行文本的偏移量的类型；Text：一行的文本的类型
  @Override
  protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
    // 1. 拆分数据，一行文本作为一个拆分
    String[] fields = value.toString().split(" ");
    // 2. 将对应的值传到MySortBean的实例对象中
    MySortBean mySortBean = new MySortBean();
    mySortBean.setWord(fields[0]);
    mySortBean.setNum(Integer.parseInt(fields[1]));
    // 3. 写入到上下文
    context.write(mySortBean, NullWritable.get());
}}

（3）SortReducer.java

import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;

public class SortReducer extends Reducer<MySortBean, NullWritable, MySortBean, NullWritable> {
  /**
   * Reducer
   * KEYIN：MySortBean
   * VALUEIN：NullWritable
   * KEYOUT：MySortBean
   * VALUEOUT：NullWritable
   */
  @Override
  protected void reduce(MySortBean key, Iterable<NullWritable> values, Context context) throws IOException, InterruptedException {
    // 将Map阶段拿过来的结果进行汇总
    context.write(key, NullWritable.get());
}}

（4）JobMain.java

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import java.io.IOException;

public class JobMain {
  public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
    // 一、初始化一个Job对象
    Job job = Job.getInstance(new Configuration(), "sort");
    // 二、Job的相关设置
    // 1. 设置输入路径
    TextInputFormat.addInputPath(job, new Path("/Users/jason93/Desktop/BigData/file/mr/sort.txt"));
    // 2. 设置Mapper的类型，并设置 k2、v2
    job.setMapperClass(SortMapper.class);
    job.setMapOutputKeyClass(MySortBean.class);
    job.setMapOutputValueClass(NullWritable.class);
    // 3,4,5,6 shuffle 使用默认
    // 7. 设置Reducer的类型，并设置k3、v3
    job.setReducerClass(SortReducer.class);
    job.setOutputKeyClass(MySortBean.class);
    job.setOutputValueClass(NullWritable.class);
    // 8. 设置输出路径
    TextOutputFormat.setOutputPath(job, new Path("/Users/jason93/Desktop/BigData/file/mr/sortwcout"));
    // 三、等待完成，退出
    boolean b = job.waitForCompletion(true);
    System.out.println(b);
    System.exit(b ? 0 : 1);
}}

执行程序返回true，在本地查看结果：（说明：toString()方法可自行修改输出的格式）

➜  ~ ls -lrt /Users/jason93/Desktop/BigData/file/mr/sortwcout
total 8
-rw-r--r--  1 jason93  staff  156  3 21 10:32 part-r-00000
-rw-r--r--  1 jason93  staff    0  3 21 10:32 _SUCCESS
➜  ~ cat /Users/jason93/Desktop/BigData/file/mr/sortwcout/part-r-00000
SortWord{word='a', num=1}
SortWord{word='a', num=2}
SortWord{word='a', num=3}
SortWord{word='b', num=1}
SortWord{word='c', num=1}
SortWord{word='c', num=2}

3. 局部合并组件/合路器 Combiner

1. Combiner 概述

Combiner 是一个执行本地 Reduce 任务的迷你 Reducer，它从特定节点上的 映射器 接收输入，并将输出发送到 减速器。组合器通过减少需要发送到减速器的数据量来提高 MapReduce 的效率。Combiner 是 MapReduce 程序中 Mapper 和 Reducer 之外的一种组件，作用是在 MapTask 之后给 MapTask 的结果进行局部合并，以减轻 ReduceTask 的计算负载，减少网络传输。

使用 Combiner： Combiner 和 Reducer 一样，编写一个类，继承 Reducer，reduce() 方法中写具体的 Combiner 逻辑，然后在 Job 中设置 Combiner 组件：

job.setCombinerClass(MyCombiner.class)

知识点： 是不是可以不定义 Combiner 类，直接在 Job 里设置 Combiner 类为 Reducer 类？

不可以。JobMain 无法识别是 Combiner 还是 Reducer，如果在 JobMain 中设置 Reducer，只能是 Reduce 阶段做合并

2. 案例：局部合并 Map 阶段的结果

说明：通过 WordCount 案例进行继续的演示

代码： WordMapper.java 和 WordReducer.java 一样，JobMain.java 中只加入 Combiner 的类即可

JobMain.java

// 5. 设置Combiner
job.setCombinerClass(MyCombiner.class)
  
// 设置输入输出路径
TextInputFormat.addInputPath(job, new Path("/Users/jason93/Desktop/BigData/file/mr/data.txt"));
TextOutputFormat.setOutputPath(job, new Path("/Users/jason93/Desktop/BigData/file/mr/comwcout"));

MyCombiner.java（其实跟 Reducer 一样，只是在 Mapper 和 Reducer 之间多加了一层合并）

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;
/**
 * Reducer
 *     KEYIN：map阶段传递过来的key的类型
 *     VALUEIN：map阶段传递过来的value的类型
 *     KEYOUT：局部合并的key的类型
 *     VALUEOUT：局部合并的value的类型
 */
public class MyCombiner extends Reducer<Text, LongWritable, Text, LongWritable> {
  @Override
  protected void reduce(Text key, Iterable<LongWritable> values, Context context) throws IOException, InterruptedException {
    // 1. 定义一个变量
    int count = 0;
    // 2. 进行累加
    for (LongWritable value : values) {
      count += value.get();
    }
    // 3. 写入到上下文中
    context.write(key, new LongWritable(count));
}}

执行结果：

➜  mr ll comwcout 
total 8
-rw-r--r--  1 jason93  staff     0B  3 21 10:44 _SUCCESS
-rw-r--r--  1 jason93  staff    29B  3 21 10:44 part-r-00000
➜  mr cat comwcout/part-r-00000 
hadoop	1
hello	2
mapreduce	1

程序运行结果说明：代码基本上复用了 WordCount 的，执行结果一样，因为测试文件内容少，若批量的话，Combiner 为了解决 Reduce 迭代时的 Reduce 的 value 就不一定是 1 了。

4. 分组组件 Group

1. 概述

Group 分组是 MapReduce Shuffle 组件中 Reduce 端的一个功能组件，主要作用是 决定哪些数据作为一组。可根据需求自定义分组实现不同的 key 作为同一个组

实现分组有固定的步骤：

继承 WritableComparator 类
调用父类的构造器
指定分组的规则，重写一个方法

2. 案例：求每一个订单中成交额最大的一笔交易

示例数据文件：orders.txt

订单编号    商品编号        金额
order_001   goods_001   100
order_001   goods_002   200
order_002   goods_003   300
order_002   goods_004   400
order_002   goods_005   500
order_003   goods_001   100

思路步骤：

定义一个订单实体类 OrderBean
定义 Mapper
定义分区（可选）OrderPartitioner
定义分组 OrderGroup
定义 Reducer
定义主程序入口 JobMain

代码：

（1）OrderBean.java

import org.apache.hadoop.io.WritableComparable;
import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

public class OrderBean implements WritableComparable<OrderBean> {
  private String orderId;  // 订单编号
  private Double price;    // 订单中某个商品的价格

  // getter/setter/toString 方法
  public String getOrderId() {return orderId;}
  public void setOrderId(String orderId) {this.orderId = orderId;}
  public Double getPrice() {return price;}
  public void setPrice(Double price) {this.price = price;}
  @Override
  public String toString() {return orderId + '\t' + price;}

  /**
   * 比较器
   * @param o：实体参数
   * @return：指定排序的规则
   */
  @Override
  public int compareTo(OrderBean o) {
    // 1. 先比较订单id，如果订单id一样，则将订单的商品按金额排序（降序）
    int i = this.orderId.compareTo(o.orderId);  // compareTo() 相同返回 0
    if (i == 0) {
      // 因为是降序，所以用 -1
      i = this.price.compareTo(o.price) * -1;
      // i = this.price.compareTo(this.price);  // 升序
    }
    return i;
  }

  @Override  // 序列化
  public void write(DataOutput dataOutput) throws IOException {
    dataOutput.writeUTF(orderId);
    dataOutput.writeDouble(price);
  }

  @Override  // 反序列化
  public void readFields(DataInput dataInput) throws IOException {
    this.orderId = dataInput.readUTF();
    this.price = dataInput.readDouble();
}}

（2）OrderMapper.java

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.IOException;
/**
 * Mapper
 *     KEYIN：偏移量的类型
 *     VALUEIN：一行文本的类型
 *     KEYOUT：k2 OrderBean
 *     VALUEOUT：v2文本的类型
 */
public class OrderMapper extends Mapper<LongWritable, Text, OrderBean, Text> {
  @Override
  protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
    // 1. 拆分数据，得到订单id和订单金额
    // 数据：order_001    goods_001    100
    String[] split = value.toString().split("\t");
    // 2. 封装OrderBean实体类
    OrderBean orderBean = new OrderBean();
    orderBean.setOrderId(split[0]);
    orderBean.setPrice(Double.parseDouble(split[2]));
    // 3. 写入上下文
    context.write(orderBean, new Text(value));
}}

（3）OrderPartitioner.java

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;

/**
 * Partitioner
 *     KEY：k2 的类型
 *     VALUE：v2 的类型
 */
public class OrderPartitioner extends Partitioner<OrderBean, Text> {
  /**
     * @return：返回分区的编号
     *  比如说：  ReduceTask的个数是3个，返回的编号是 0 1 2
     *           ReduceTask的个数是2个，返回的编号是 0 1
     *           ReduceTask的个数是1个，返回的编号是 0
     */
  @Override
  public int getPartition(OrderBean orderBean, Text text, int numPartitions) {
    // 参考源码 return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks
    // 按照key的hash值进行分区
    return (orderBean.getOrderId().hashCode() & Integer.MAX_VALUE) % numPartitions;
}}

（4）OrderGroup.java

import org.apache.hadoop.io.WritableComparable;
import org.apache.hadoop.io.WritableComparator;

public class OrderGroup extends WritableComparator {
  // 1. 继承WritableComparator类
  // 2. 调用父类的构造器
  public OrderGroup() {
    // 第一个参数是分组使用的JavaBean
    // 第二个参数是布尔类型，表示是否可以创建这个类的实例
    super(OrderBean.class, true);
  }
  // 3. 指定分组的规则，需要重写一个方法
  // WritableComparable是接口，OrderBean实现了这个接口
  @Override
  public int compare(WritableComparable a, WritableComparable b) {
    // 1. 对形参 a b 做强制类型转换
    OrderBean first = (OrderBean) a;
    OrderBean second = (OrderBean) b;
    // 2. 指定分组的规则
    return first.getOrderId().compareTo(second.getOrderId());
}}

（5）OrderReducer.java

import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;
/**
 * Reducer
 *     KEYIN：k2 的类型  OrderReducer
 *     VALUEIN：v2 的类型  Text
 *     KEYOUT：k3 一行文本的类型  Text
 *     VALUEOUT：v3 NullWritable
 */
public class OrderReducer extends Reducer<OrderBean, Text, Text, NullWritable> {
  @Override
  protected void reduce(OrderBean key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
    int i = 0;
    // 获取 topN，下面代码就是取出类 top1
    for (Text value : values) {
      context.write(value, NullWritable.get());
      i++;
      if (i >= 1) {
        break;
}}}}

（6）JobMain.java（求订单最大值的主类）

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import java.io.IOException;

public class JobMain {
  public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
    // 一、初始化一个Job对象
    Job job = Job.getInstance(new Configuration(), "OrderGroup");
    // 设置输入路径
    job.setInputFormatClass(TextInputFormat.class);
    TextInputFormat.addInputPath(job, new Path("/Users/jason93/Desktop/BigData/file/mr/orders.txt"));
    // 2. 设置Mapper，并设置k2 v2的类型
    job.setMapperClass(OrderMapper.class);
    job.setMapOutputKeyClass(OrderBean.class);
    job.setMapOutputValueClass(Text.class);
    // 3,4,5,6 shuffle
    // 3. 设置分区和任务数
    job.setPartitionerClass(OrderPartitioner.class);
    // 设置numReduceTask的个数，默认是1
    job.setNumReduceTasks(3);
    // 6. 设置分组
    job.setGroupingComparatorClass(OrderGroup.class);
    // 7. 设置Reducer，并设置k3 v3的类型
    job.setReducerClass(OrderReducer.class);
    job.setOutputKeyClass(OrderBean.class);
    job.setOutputValueClass(NullWritable.class);
    // 8. 设置输出
    TextOutputFormat.setOutputPath(job, new Path("/Users/jason93/Desktop/BigData/file/mr/ordergroup"));
    // 三、等待完成，实际上就是提交任务
    boolean b = job.waitForCompletion(true);
    System.out.println(b);
    System.exit(b ? 0 : 1);
}}

执行结果：

未设置分区的

➜  ordergroup ll
total 8
-rw-r--r--  1 jason93  staff     0B  3 21 11:10 _SUCCESS
-rw-r--r--  1 jason93  staff    72B  3 21 11:10 part-r-00000
➜  ordergroup cat part-r-00000 
order_001	goods_002	200
order_002	goods_005	500
order_003	goods_001	100

设置分区的（输出文件夹名字改成 ordergroup2）

➜  ordergroup2 ll
total 24
-rw-r--r--  1 jason93  staff     0B  3 21 11:12 _SUCCESS
-rw-r--r--  1 jason93  staff    24B  3 21 11:12 part-r-00000
-rw-r--r--  1 jason93  staff    24B  3 21 11:12 part-r-00001
-rw-r--r--  1 jason93  staff    24B  3 21 11:12 part-r-00002
➜  ordergroup2 cat part-r-00000
order_002	goods_005	500
➜  ordergroup2 cat part-r-00001
order_003	goods_001	100
➜  ordergroup2 cat part-r-00002
order_001	goods_002	200

3. 知识点与组件调优

1. 知识点

1. MapReduce 框架中的分布式缓存

分布式缓存可以解释为 MapReduce 框架提供的一种工具，用于缓存应用程序所需的文件。一旦你为你的工作缓存了一个文件，Hadoop 框架就会让它在你运行的 Map/Reduce 任务的每个数据节点上可用。然后，你可以在 Mapper 或 Reducer 作业中将缓存文件作为本地文件访问

2. Reducers 之间如何通信

MapReduce 编程模型不允许 Reducer 相互通信，减速器是孤立运行的

3. SequenceFileInputFormat

SequenceFileInputFormat 是用于在序列文件中读取的输入格式。它是一种特定的压缩二进制文件格式，经过优化，可将一个 MapReduce 作业的输出之间的数据传递到其他 MapReduce 作业的输入。

序列文件可以作为其他 MapReduce 任务的输出生成，并且是从一个 MapReduce 作业传递到另一个 MapReduce 作业的数据的有效中间表示。

2. 组件的默认内存与调节建议

NodeManager 内存：默认 8G → 100G（128G）

单任务内存：默认 8G → 128MB数据对应1G内存，8G内存对应1G数据。按数据量调

MapTask/ReduceTask 内存：默认 1G → 若数据量比较大，且不支持切片，则增大 MapTask/ReduceTask 内存（4~6G）

调优参数：

Map：（Reduce 端也一样，只是map改为reduce）下边两个参数一起调

mapreduce.map.memory.mb：控制分配给 MapTask 内存上限，如果超过会 kill 掉进程。默认内存大小为 1G，如果数据量是 128M，正常不需要调整；如果数据量大于 128M可增大，最大可以增加到 4~5G
mapreduce.map.java.opts：控制 MapTask 堆内存大小，默认 1G（如果内存不够包：java.lang.OutOfMemoryError）

CPU 核数：增加 MapTask 和增加 ReduceTask 的 CPU 核数

NameNode 有一个工作线程池，用来处理不同 DataNode 的并发心跳以及客户端并发的元数据操作：dfs.namenode.handler.count=20 * log2(Cluster Size)，比如集群规模为 10 台时，此参数设置为 60

3. MapReduce 项目实战

经典案例场景：流量统计

需求一：统计每个手机号的数据包和流量总和

1. 相关数据

原始数据：

所需数据：

| 上行数据包   | upFlow        | int |
| 下行数据包   | downFlow      | int |
| 上行流量    | upCountFlow    | int |
| 下行流量    | downCountFlow  | int |

2. 解题思路

定义实体类 BlowBean（字段太多了，定义一个实体类存字段，方便管理）
定义 FlowCountMapper
定义 FlowCountReducer
主程序调度入口 JobMain

3. 代码实现

（1）FlowBean.java（流量Flow的实体类）

import org.apache.hadoop.io.Writable;
import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

public class FlowBean implements Writable {
  // 定义四个字段
  private int upFlow;         // 上行数据包数
  private int downFlow;       // 下行数据包数
  private int upCountFlow;    // 上行流量总和
  private int downCountFlow;  // 下行流量总和

  // 4个字段的getter、setter、toString()
  public int getUpFlow() {return upFlow;}
  public void setUpFlow(int upFlow) {this.upFlow = upFlow;}
  public int getDownFlow() {return downFlow;}
  public void setDownFlow(int downFlow) {this.downFlow = downFlow;}
  public int getUpCountFlow() {return upCountFlow;}
  public void setUpCountFlow(int upCountFlow) {this.upCountFlow = upCountFlow;}
  public int getDownCountFlow() {return downCountFlow;}
  public void setDownCountFlow(int downCountFlow) {this.downCountFlow = downCountFlow;}
  @Override  // 修改toString()的输出格式
  public String toString() {
    return upFlow + "\t" + downFlow + "\t" + upCountFlow + "\t" + downCountFlow;
  }

  // 实现对象的序列化（写进去）
  @Override
  public void write(DataOutput dataOutput) throws IOException {
    dataOutput.writeInt(upFlow);
    dataOutput.writeInt(downFlow);
    dataOutput.writeInt(upCountFlow);
    dataOutput.writeInt(downCountFlow);
  }
  // 实现对象的反序列化（读出来）
  @Override
  public void readFields(DataInput dataInput) throws IOException {
    this.upFlow = dataInput.readInt();
    this.downFlow = dataInput.readInt();
    this.upCountFlow = dataInput.readInt();
    this.downCountFlow = dataInput.readInt();
}}

（2）FlowCountMapper.java

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.IOException;
/**
 * Mapper
 * 		KEYIN：偏移量的类型
 * 		VALUEIN：一行文本的类型
 * 		KEYOUT：手机号的类型
 * 		VALUEOUT：FlowBean
 */
public class FlowCountMapper extends Mapper<LongWritable, Text, Text, FlowBean> {
  @Override
  protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
    // 1. 拆分文本数据量，得到手机号和想要的数据
    String[] split = value.toString().split("\t");
    String phoneNum = split[1];  // 手机号
    // 2. 创建一个FlowBean对象，把想要使用的数据封装进去
    FlowBean flowBean = new FlowBean();
    flowBean.setUpFlow(Integer.parseInt(split[6]));
    flowBean.setDownFlow(Integer.parseInt(split[7]));
    flowBean.setUpCountFlow(Integer.parseInt(split[8]));
    flowBean.setDownCountFlow(Integer.parseInt(split[9]));
    // 3. 写入上下文
    context.write(new Text(phoneNum), flowBean);
}}

（3）FlowCountReducer.java

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;

/**Reducer
 * 		KEYIN：phoneNum的类型
 * 		VALUEIN：实体类对象FlowBean
 * 		KEYOUT：手机号类型Text
 * 		VALUEOUT: FlowBean
 */
public class FlowCountReducer extends Reducer<Text, FlowBean, Text, FlowBean> {
  @Override
  protected void reduce(Text key, Iterable<FlowBean> values, Context context) throws IOException, InterruptedException {
    // 1. 遍历values，将4个变量进行累加
    int upFlow = 0;
    int downFlow = 0;
    int upCountFlow = 0;
    int downCountFlow = 0;

    for (FlowBean value : values) {
      upFlow += value.getUpFlow();
      downFlow += value.getDownFlow();
      upCountFlow += value.getUpCountFlow();
      downCountFlow += value.getDownCountFlow();
    }
    // 2. 创建一个FlowBean对象，存放累加后的结果
    FlowBean flowBean = new FlowBean();
    flowBean.setUpFlow(upFlow);
    flowBean.setDownFlow(downFlow);
    flowBean.setUpCountFlow(upCountFlow);
    flowBean.setDownCountFlow(downCountFlow);
    // 3. 写入上下文
    context.write(key, flowBean);
}}

（4）JobMain.java（需求一：统计每个手机号的数据包总和）

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import java.io.IOException;

public class JobMain {
  public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
    // 一、初始化一个Job对象
    Job job = Job.getInstance(new Configuration(), "FlowCount");
    // 二、 设置Job对象的相关信息，里面包含8个小步骤
    // 1. 设置输入路径
    TextInputFormat.addInputPath(job, new Path("/Users/jason93/Desktop/BigData/file/mr/flow.log"));
    // 设置Mapper的类型，并设置 k2 v2
    job.setMapperClass(FlowCountMapper.class);
    job.setMapOutputKeyClass(Text.class);
    job.setMapOutputValueClass(FlowBean.class);
    // 3,4,5,6 四个步骤，都是Shuffle阶段，暂不修改
    // 设置Reducer的类型，并设置 k3 v3
    job.setReducerClass(FlowCountReducer.class);
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(LongWritable.class);
    // 设置输出路径，让程序把结果放到一个地方去
    TextOutputFormat.setOutputPath(job, new Path("/Users/jason93/Desktop/BigData/file/mr/flowcount"));
    // 等待程序完成，退出
    boolean b = job.waitForCompletion(true);
    System.out.println(b);
    System.exit(b ? 0 : 1);
}}

pom.xml 文件同上即可，执行结果：

➜  flowcount ll
total 8
-rw-r--r--  1 jason93  staff     0B  3 21 11:53 _SUCCESS
-rw-r--r--  1 jason93  staff   873B  3 21 11:53 part-r-00000
➜  flowcount vi part-r-00000 
13480253104	41580	41580	2494800	2494800
13502468823	790020	1413720	101663100	1529437140
13560436666	249480	207900	15467760	13222440
13560439658	457380	332640	28191240	81663120
...

需求二：将需求一中结果按照 upFlow 流量倒排

注意： 输入文件是需求一的输出的结果

方法： 将需求一输出的结果的 key-value 互换身份，排序 value，最后再转换回来

代码：

（1）FlowBean.java（排序的实例化的对象。代码相比需求一的，继承的接口不同，该需求继承的接口中有比较器的方法，其他都一样）

import org.apache.hadoop.io.WritableComparable;

public class FlowBean implements WritableComparable<FlowBean> {
  ...
  // 实现结果的排序，指定排序的规则：倒序排列
  @Override
  public int compareTo(FlowBean o) {
  // 从大到小
  return o.upFlow - this.upFlow;
  // 从小到大
  // return this.upFlow - o.upFlow;
}}

（2）FlowSortMapper.java

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.IOException;
/**
 * Mapper
 * KEYIN: 偏移量
 * VALUEIN: 文本 13480253104  41580  41580  2494800    2494800
 * KEYOUT: FlowBean
 * VALUEOUT: 手机号
 */
public class FlowSortMapper extends Mapper<LongWritable, Text, FlowBean, Text> {
  @Override
  protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
    // 1. 拆分一行文本 13480253104  41580  41580  2494800    2494800
    String[] split = value.toString().split("\t");
    // 2. 创建实例类对象，将数据写入到实体类
    FlowBean flowBean = new FlowBean();
    flowBean.setUpFlow(Integer.parseInt(split[1]));
    flowBean.setDownFlow(Integer.parseInt(split[2]));
    flowBean.setUpCountFlow(Integer.parseInt(split[3]));
    flowBean.setDownCountFlow(Integer.parseInt(split[4]));
    String phoneNum = split[0];
    // 3. 写入上下文
    context.write(flowBean, new Text(phoneNum));
}}

（3）FlowSortReducer.java

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;
/**
 * Reducer
 *     KEYIN: FlowBean
 *     VALUEIN: Text
 *     KEYOUT: Text
 *     VALUEOUT: FlowBean
 */
public class FlowSortReducer extends Reducer<FlowBean, Text, Text, FlowBean> {
  @Override
  protected void reduce(FlowBean key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
    // 遍历集合，将 k3 v3 写入到上下文
    for (Text value : values) {
      context.write(value, key);
}}}

（4）JobMain.java（需求二：将需求一种结果按照upFlow流量倒排）

注意：输入文件是需求一的输出的结果

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import java.io.IOException;

public class JobMain {
  public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
    // 一、初始化一个Job对象
    Job job = Job.getInstance(new Configuration(), "FlowSort");
    // 二、设置Job对象的相关的信息 ，里面包含了8个小步骤
    // 1、设置输入的路径，让程序能找到输入文件的位置
    TextInputFormat.addInputPath(job, new Path("/Users/jason93/Desktop/BigData/file/mr/flowcount"));
    // 2. 设置Mapper类型，并设置 k2 v2
    job.setMapperClass(FlowSortMapper.class);
    job.setMapOutputKeyClass(FlowBean.class);
    job.setMapOutputValueClass(Text.class);
    // 3 4 5 6 四个步骤都是Shuffle阶段，暂时不做处理
    // 7. 设置Reducer的类型，并设置 k3 v3
    job.setReducerClass(FlowSortReducer.class);
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(FlowBean.class);
    // 8. 设置输出的路径，让程序给结果放到一个地方去
    TextOutputFormat.setOutputPath(job, new Path("/Users/jason93/Desktop/BigData/file/mr/flowreverse"));
    // 三、等待程序完成
    boolean b = job.waitForCompletion(true);
    System.out.println(b);
    System.exit(b ? 0 : 1);
}}

执行结果：

➜  FlowSort ll
total 8
-rw-r--r--  1 jason93  staff     0B 12  7 14:09 _SUCCESS
-rw-r--r--  1 jason93  staff   873B 12  7 14:09 part-r-00000
➜  FlowSort cat part-r-00000 
13925057413	956340	873180	153263880	668647980
13502468823	790020	1413720	101663100	1529437140
13560439658	457380	332640	28191240	81663120
15013685858	388080	374220	50713740	49036680
...

需求三：手机号码分区

要求：

135 开头的放一个文件
136 开头的放一个文件
137 开头的放一个文件
其他开头的放一个文件

代码：

（1）PhoneBean.java

import org.apache.hadoop.io.Writable;
// 实体类
public class PhoneBean implements Writable {
  // 定义4个流量变量，实现 get、set、toString方法和序列化与反序列化

（2）PhoneMapper.java 和 PhoneReducer.java 代码同需求一

（3）PhonePart.java

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;

public class PhonePart extends Partitioner<Text, PhoneBean> {
  @Override
  public int getPartition(Text text, PhoneBean phoneBean, int numPartitions) {
    String s = text.toString();
        if (s.startsWith("135"))
            return 0;
        else if (s.startsWith("136"))
            return 1;
        else if (s.startsWith("137"))
            return 2;
        else return 3;

（4）JobMain.java

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import java.io.IOException;

public class JobMain {
  public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
    Job job = Job.getInstance(new Configuration(), "PhonePart");
    TextInputFormat.addInputPath(job, new Path("/Users/jason93/Desktop/BigData/file/mr/flow.log"));

    job.setMapperClass(PhoneMapper.class);
    job.setMapOutputKeyClass(Text.class);
    job.setMapOutputValueClass(PhoneBean.class);

    // 3. 分区设置
    job.setPartitionerClass(PhonePart.class);
    // 设置最终的ReduceTasks个数
    job.setNumReduceTasks(4);

    job.setReducerClass(PhoneReducer.class);
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(LongWritable.class);

    TextOutputFormat.setOutputPath(job, new Path("/Users/jason93/Desktop/BigData/file/mr/phonepart"));

    boolean b = job.waitForCompletion(true);
    System.out.println(b);
    System.exit(b ? 0 : 1);
}}

注意：分区和 ReduceTask 要同时设置，否则无效果

job.setPartitionerClass(FlowPartitioner.class); // 分区设置
job.setNumReduceTasks(4); // 设置最终的ReduceTask个数

执行结果：

➜  phonepart ll
total 32
-rw-r--r--  1 jason93  staff     0B  3 21 14:00 _SUCCESS
-rw-r--r--  1 jason93  staff   136B  3 21 14:00 part-r-00000
-rw-r--r--  1 jason93  staff    87B  3 21 14:00 part-r-00001
-rw-r--r--  1 jason93  staff   160B  3 21 14:00 part-r-00002
-rw-r--r--  1 jason93  staff   490B  3 21 14:00 part-r-00003
➜  phonepart cat part-r-00000
13502468823	790020	1413720	101663100	1529437140
13560436666	249480	207900	15467760	13222440
13560439658	457380	332640	28191240	81663120
➜  phonepart cat part-r-00001 
13602846565	207900	166320	26860680	40332600
13660577991	332640	124740	96465600	9563400
➜  phonepart cat part-r-00002
13719199419	55440	0	3326400	0
13726230503	332640	374220	34386660	342078660
13726238888	332640	374220	34386660	342078660
13760778710	27720	27720	1663200	1663200
➜  phonepart cat part-r-00003
13480253104	41580	41580	2494800	2494800
13826544101	55440	0	3659040	0
13922314466	166320	166320	41690880	51559200
13925057413	956340	873180	153263880	668647980
13926251106	55440	0	3326400	0
13926435656	27720	55440	1829520	20956320
15013685858	388080	374220	50713740	49036680
15920133257	277200	277200	43742160	40692960
15989002119	41580	41580	26860680	2494800
18211575961	207900	166320	21164220	29189160
18320173382	291060	249480	132099660	33430320
84138413	277200	221760	57047760	19847520

4. MapReduce 的 Shuffle 和 YARN

1. Shuffle 原理详解

1. Shuffle 概述

Shuffle（数据汇洗）：Mapper 阶段输出数据到 Reducer 阶段接收到数据的中间的数据分发的过程【MapReduce 框架中最关键的一个流程】

Shuffle：将 MapTask 输出的处理结果数据，分发给 ReduceTask

Shuffle 分两个阶段：Mapper Shuffle 和 Reducer Shuffle

2. Shuffle 机制

3. Shuffle 图解优化版

4. Shuffle 核心执行流程图

Shuffle 是 MapReduce 处理流程中的一个过程，它的每一个处理步骤都分散在各个 MapTask 和 ReduceTask 节点上完成的。整体来看，分为四个步骤：

Partition 分区
Sort 根据 key 排序（MapReduce 编程中的 Sort 是一定会做的，一定仅按照 key 排序）
Combiner 进行局部 value 的合并（Combiner 是可选的组件）
Group 分组

5. Shuffle 详细图解

环形缓冲区（kv buffer）：内存中一种首尾相连的数据结构（就是一块内存区域，大小为 100MB）。一个 MapTask 任务初始化一个环形缓冲区。

当环形缓冲区（100MB）装不下时，可对内存中的数据溢写，即内存中的数据持久化到磁盘中：

溢出前就已经给所有的数据进行了分区操作
每个分区的数据进行排序，使用排序算法 QuickSort
如果设置 Combiner，就会调用 Combiner 进行局部合并

说明：

溢出之前分区起作用
溢出之后排序起作用
Combiner 在此过程中起作用

流程概述： 数据经 Map 方法多次写入到环形缓冲区后，当达到 0.8 的阈值后就会溢出，溢出的数据都传输到磁盘中进行排序，再经过 Combiner 阶段到某个文件，此时再归并合并成文件，再经过压缩使文件变小，之后写入磁盘，最后由 Reduce 方法拉取磁盘中的文件用于后续操作。

压缩说明：

压缩使文件体积变小，可节省存储空间，便于传输，但下游用户需要对压缩后的数据进行解码，这样计算就会有资源消耗的压力
不压缩的话下游用户直接获取到原始的数据而无需解压缩，提高效率

案例：在溢出时，Mapper 线程需不需要继续往环形缓冲区里写入数据？

方案：

如果每次都给环形缓冲区装满的话，先溢出，此时 Map 写数据的线程堵塞，等到数据溢出完毕后再往里写
如果每次不装满环形缓冲区就开始溢出数据，那部分空白的内存区域就可以接收新数据的写入

分析：

第二种合理一点，并且是默认的实现方式：100MB，装满 80MB 的数据时就溢写，即装满 80MB 时就不再装了，剩余 20MB 的内存空间让 Mapper 进行数据写入
第二种的极端情况：80MB 的数据还未溢写完，20MB 的写数据就已经写满了，就跟第一种情况一样了。此时 Map 写入数据的线程就会堵塞，只能等 80MB 刷满。但这种情况很少

说明：

现阶段使用 MapReduce 不多，因为它运行的慢。原因在于环形缓冲区溢出后多次与磁盘进行数据传输，针对磁盘的数据会进行多次合并操作，从而有多次落盘操作，导致耗时较严重
数据写到磁盘上要进行一些合并操作，由于有顺序速度快，所以使用归并排序
设置环形缓冲区的原因是想充分利用内存，因为内存运行快

6. 环形缓冲区内部图解

最开始执行 Mapper 阶段的逻辑时，就会初始化一个环形缓冲区
context.write() 写入 80% 的数据（即 80MB），但这 80MB中包含数据和数据对应的编号（索引），所以当数据存到 76MB 时就不再写入而是溢出了
不管环形缓冲区有没有装满，最后都一定会把环形缓冲区的所有数据刷写到磁盘
归并排序的算法算合并。不管有多少磁盘文件，最终都会利用归并排序合并成一个文件

7. Shuffle 优化

getpartition() 中：自定义分区（把一些 Key 加随机数后打散）
环形缓冲区：100MB → 200MB，80% → 90% / 95%
- 原因：减少了溢写文件的数量
在不影响最终业务逻辑（比如求和不影响，但求平均值不行）前提下，对大量溢写文件提前进行 Combiner（提前合并）。默认一次归并 10 个，若服务器性能好，可设置归并多个，比如 20 个
为了减少磁盘 IO，可采用压缩（压缩快）：Snappy、LZO
- 压缩需要考虑的点：
  1. Map 输入端：先看文件大小
    - 文件比较小：考虑速度（Snappy）
    - 文件比较大：考虑切片（bzip2、LZO）
      - bzip2：压缩方式简单，但压缩速度不如 LZO 快
      - LZO：压缩需要创建索引，压缩速度比 bzip2 快
  2. Map 输出端：
    - 考虑速度快，用 Snappy、LZO
  3. Reduce 输出端：（看需求）
    - 永久保存：压缩比越大越好，压缩文件越小越好
    - 作为下一个MapReduce的输入：考虑数据量大小和切片
      - 数据量大考虑切片
      - 数据量小考虑速度
Reduce 拉取文件默认一次拉取 5 个 Map 端的文件
- 服务器性能好可以适量增多拉取的数量
- 增大内存提高效率

2. 资源调度框架 YARN

1. YARN概述

YARN（Yet Another Resource Negotiator）：是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而 MapReduce 等运算程序则相当于运行在操作系统之上的应用程序。

每次运行 MapReduce 程序时都会启动 主控程序：MRAppMaster： MapReduce Application Master

主控程序用来掌握任务的运行，分为 任务划分、监控、任务容错 这三个方面

资源：CPU（核、线程）、内存、带宽、磁盘 等等

MRAppMaster：向资源调度器申请执行任务的资源容器：JVM 重用

Docker 虚拟化：把一个大的集群看做一个整体，然后按需虚拟出来很多的服务器

注意点：

Yarn 并不清楚用户提交的程序的运行机制
Yarn 只提供运行资源的调度（用户程序向 Yarn 申请资源，Yarn 就负责分配资源）
Yarn 中的主管角色叫 ResourceManager
Yarn 中提供运算资源的角色叫 NodeManager
Yarn 与运行的用户程序解耦
Spark、Storm 等运算框架都可以整合在Yarn上运行
Yarn 就成为一个通用的资源调度平台

2. Hadoop 版本间对比

1. Hadoop1.x 和 Hadoop2.x 的版本对比

Hadoop2.x 以后，把原来的 MapReduce 集群分裂成了 MapReduce 编程 API 和 Yarn 集群
Hadoop1.x：主从架构，主节点 JobTractor，从节点 TaskTractor。所有分布式计算的主控程序 MRAppMaster 都运行在 JobTractor，如果主节点宕机或任务过多导致主节点负载过大从而宕机，则所有任务都无法执行
Hadoop2.x：Yarn 集群，主从架构，主节点 ResourceManager，从节点 NodeManager。Yarn 把 MRAppMaster 分散的启动在各个 NodeManager 上，分散了主节点的负载压力，避免宕机
把原来的 MapReduce 集群中关于资源调度的代码抽象出来，形成独立的组件
- 形成独立组件的原因：
  - 各个组件（Yarn、Mesos）可以各司其职
  - 让 Yarn 集群也能运行除了 MapReduce 之外的其他分布式计算程序
在Hadoop2.x 之后 HDFS 和 Yarn 都有高可用的机制

2. Hadoop2.x 和 Hadoop3.x 的版本对比

Hadoop2.x 系统中存在的问题：
- Common 组件：暂无问题
- HDFS 存储文件
  - 多个副本，保证数据安全，消耗大量磁盘
  - Hadoop3.x 中提供了新特性：纠删码（Erasure Coding），使用矩阵的逆运算解决 HDFS 冗余存储问题
    - 纠删码：消耗磁盘少，但消耗计算资源
    - 冗余备份：消耗磁盘多，但节省计算资源
- MapReduce
  - 计算慢
  - Hadoop3.x 中的 MapReduce 计算速度大幅度提升
- Yarn：暂无问题

3. YARN 的重要概念

1. 主节点 ResourceManager

ResourceManager 是基于应用程序对集群资源的需求进行调度的 Yarn 集群主控节点，负责协调和管理整个集群的资源，响应用户提交的不同类型应用程序的解析、调度、监控等工作
ResourceManager 会为每一个 Application 启动一个 MRAppMaster，并且 MRAppMaster 分散在各个 NodeManager 节点
ResourceManager 由两个组件构成：调度器（Scheduler）和 应用程序管理器（ApplicationsManager, ASM）
- 调度器：调度每个节点中的 Container（容器），调度容器和资源
- 应用程序管理器：管理应用服务，每个应用程序提交上来时都会向应用程序管理器注册信息
ResourceManager 最重要的作用是提供 Container，Container 是抽象出来的容器单位
调度器的调度算法：
- FIFO（First in, First out）：先进先出，排队处理任务。不管先进还是后进的任务所需资源多少，都按顺序执行（并发低，企业中不用）
  - 好处：只需要配置，不用时刻关注
  - 弊处：不合理
- Fair Scheduler（公平调度器，CDH默认）：每个任务所占用资源相同。比如第一个任务上送上来会占用所有的运算资源；则第二个任务来了会分一半资源；第三个任务来了会占用三分之一的资源，以此类推
  - 好处：只需要配置，不用时刻关注
  - 弊处：小任务占用资源过多，大任务所分配资源紧张，导致耗时验证，最终的结果是运算时间过长
- Capacity Scheduler（容器调度器，Apache默认）：按需分配资源，根据任务大小程序分配不同的资源
  - 好处：资源分配合理
  - 弊处：需手动配置资源分配。配置文件位置：
```
${HADOOP_HOME}/etc/hadoop/capacity-scheduler.xml
```
- 企业如何选择：
  - 若服务器性能比较好，对并发度要求比较高，则选择公平调度器（大厂、上市公司）
  - 若服务器性能比较差，对并发度要求不是特别高，则选择容量调度器（中小型公司）
开发时如何创建队列？
- 容量调度器默认就一个 default 队列
- 按照执行任务的框架创建：Hive、Spark、Flink
- 按照业务模块创建（用的比较多）：登录注册模块、订单、物流
  - 618/双十一等场景：降级使用，舍弃一些任务，比如把物流队列关掉，优先保证登录注册和订单队列的计算

2. 从节点 NodeManager

NodeManager 是 Yarn 集群中真正资源的提供者，是真正执行应用程序的容器的提供者，监控应用程序的资源使用情况，并通过心跳向集群资源调度器 ResourceManager 进行汇报

3. 容器 Container

Container 是一个抽象出来的逻辑资源单位。它封装了一个节点上的 CPU、内存、磁盘、网络等信息，MapReduce 程序的所有 Task 都是在一个容器里执行完成的，容器大小可以动态调整
Hadoop2.x 中叫 Container；Hadoop1.x 中不叫 Container，叫 Slot 槽，分为 MapTaskSlot 和 ReduceTaskSlot

4. YARN 架构图

说明：

NodeManager 管理了很多的资源，资源层被抽象成了一个个的 Container
MRAppMaster 向 ResourceManager 申请资源，返回资源在哪些 NodeManager 中，以及这些资源到底是哪些 Container
每个 Container 都有一个全局独一无二的编号
ResourceManager 返回的是 (host, containerID)
MRAppMaster 发送请求给对应的 NodeManager，请求 NodeManager 在 ResourceManager 分配给你的 Container 中启动 task
一主三从，Client 将 Job 任务提交给 ResourceManager，ResourceManager 接收请求，由调度器申请资源运行 AppMaster，AppMaster 调度内部程序运行

5. 作业提交流程

用户向 Yarn 提交应用程序，其中包括 ApplicationMaster 程序、启动 ApplicationMaster 的命令、用户程序等
ResourceManager 为该程序分配第一个 Container，并与对应的 NodeManager 通讯，要求它在这个 Container 中启动应用程序 ApplicationMaster，主控程序 AppMaster 解析 MapReduce 任务需要多少个 MapTask 和多少个 ReduceTask，以便后续注册后向 ResourceManager 申请资源
ApplicationMaster 首先向 ResourceManager 注册，这样用户可以直接通过 ResourceManager 查看应用程序的运行状态，然后为各个任务申请资源，并监控它的运行状态，直到运行结束，重复 4~7 的步骤
ApplicationMaster 采用轮询的方式通过 RPC 协议向 ResourceManager 申请和领取资源
一旦 ApplicationMaster 申请到资源后，便与对应的 NodeManager 通讯，要求它启动任务
NodeManager 为任务设置好运行环境后，将任务启动命令写到一个脚本中，并通过运行该脚本启动任务
各个任务通过 RPC 协议向 ApplicationMaster 汇报自己的状态和进度，以让 ApplicationMaster 随时掌握各个任务的运行状态
应用程序运行完成后，AM 向 RM 注销并关闭自己

说明：Hadoop 的 NodeManager 进行启动最好放到 DataNode 节点上，因为移动计算优于移动数据。把当前的 NodeManager 和 NodeManager 放在一起，直接从本地获取数据，速度更快。如果计算和数据不在同一节点，就无法从当前节点获取数据，跨节点去存储和获取数据会有网络传输，造成一定延迟。

5. hadoop 宕机

情况一：如果 MR 造成系统宕机，此时要控制 Yarn 同时运行的任务数和每个任务申请的最大内存

调整参数：yarn.scheduler.maximum-allocation-mb（单个任务可申请的最多物理内存量，默认是 8192MB）

情况二：如果写入文件过快造成 NameNode 宕机，则调高 Kafka 的存储大小，控制从 Kafka 到 HDFS 的写入速度

例如：可以调整 Flume 每批次拉取数据量的大小参数 batchsize

你可能感兴趣的:(大数据,大数据,mapreduce,yarn,环形缓冲区,Shuffle)

2024年第五届MathorCup数学应用挑战赛--大数据竞赛思路、代码更新中..... 宇哥预测优化代码学习 1024程序员节
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️研赛及概况一、竞赛背景与目的二、组织机构与参赛对象三、竞赛时间与流程四、竞赛要求与规则五、奖项设置与奖励六、研究文档撰写建议七、参考资料与资源1找程序网站推荐2公式编辑器、流程图、论文排版324年研赛资源下载4思路、Python、Matlab代码分享......⛳
包管理工具她的双马尾 JS javascript 包管理工具 npm yarn pnpm
JavaScript包管理工具对比：npm、yarn和pnpm1.npm1.1历史与背景npm（NodePackageManager）是Node.js的默认包管理工具，首次发布于2010年。它是JavaScript生态系统中最早的包管理工具，主要用于管理和共享JavaScript模块。目前，npm拥有全球最大的JavaScript包注册中心（npmregistry），包含数百万个开源包。1.2核心
AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
Angular中`trackBy`函数的独特性与性能优化 t0_54program 编程问题解决手册 angular.js 前端 javascript 个人开发
在Angular项目中，优化性能是每一个开发者都需要考虑的问题。特别是在处理大数据量或动态变化的列表时，Angular的trackBy函数成为了我们手中的利器。然而，当我们面对多个列表使用相同trackBy函数时，可能会产生一些疑问：如果这些列表中的项有相同的ID，是否会影响Angular的变更检测？本文将详细探讨trackBy函数在这种情境下的表现及其带来的性能优化。trackBy函数简介tra
石油储运生产 2D 可视化，组态应用赋能工业智慧发展智慧园区智慧城市 big data 人工智能大数据物联网网络
当前，国际油价低位徘徊导致各国石油化工行业投资大幅缩减，石油化工建设行业竞争环境日趋严峻，施工企业的利润空间也被不断压缩。内外交困的环境下，促使企业采取更有效的管理手段来提高效率和降低成本。石油工业大数据具有无限潜力与价值，将大数据与数据挖掘技术应用其中，不仅可以提升石油行业工业化水平，而且对其智慧化发展起到强有力的推动作用。图扑软件-构建先进2D和3D可视化所需要的一切图扑软件采用自主研发的HT
人民日报报道，华为云赋能智能制造助力图扑软件构造数字孪生场景智慧园区华为人工智能物联网
2021年12月22日，《人民日报》头版头条刊登了《华为云赋能智能制造，助力图扑软件构造数字孪生场景》一文，聚焦数据可视化建设发展。报道指出，数字经济发展的背后，是大数据时趋势下各地区积极贯彻国家数字经济发展战略的时代精神;高效便捷管控的背后，是云端平台各大企业的互助共赢;高质精准2D、3D数据可视图的背后，是专注于数据可视化Web组态开发的厦门图扑软件科技有限公司。并对厦门图扑软件科技有限公司进
华为云赋能智能制造，助力图扑软件构造数字孪生场景 36Kr网科技华为云制造 big data
出行手机查看交通方案、物业管理的智能可视勘察管控、疫情地图提前预知危害……这些曾经存在于科幻片中的高科技场景一一在现代生活得到了应用与普及，其背后的数据可视化应用，正贯穿于当今大数据时代的各行各业，成为人们洞察数据内涵的有力工具，推动数字经济发展驶入“快车道”。数字经济发展的背后，是大数据时趋势下各地区积极贯彻国家数字经济发展战略的时代精神；高效便捷管控的背后，是云端平台各大企业的互助共赢；高质精
【Spark】查询优化中分区（Partitioning）和分桶（Bucketing）是什么关系？什么时候应当分区，什么时候应当分桶？ petrel2015 spark 大数据分布式数据库
在学习Spark的过程中，分区和分桶乍一看很像，都能为了计算加速，但是仔细一想，一查还是有些差异的，甚至说差异很大。那么具体有什么差异点，有什么相同点。我做出了如下的整理，供大家参考，欢迎指正。相同点分区（Partitioning）和分桶（Bucketing）在很多方面具有相似性，它们都是用于优化大数据查询性能的技术数据划分的目的：优化查询性能分区和分桶的核心目标是通过将数据分割成更小的逻辑单元来
vant官网-vant ui 首页-移动端Vue组件库 embelfe_segge 面试学习路线阿里巴巴 android 前端后端
Vant是有赞前端团队开源的移动端vue组件库，适用于手机端h5页面。鉴于百度搜索不到vant官方网址，分享一下vant组件库官网地址，方便新手使用vant官网地址https://vant-contrib.gitee.io/vant/#/zh-CN/通过npm安装在现有项目中使用Vant时，可以通过npm或yarn进行安装：#Vue2项目，安装Vant2：npmivant-S#Vue3项目，安装V
大数据技术实战---项目中遇到的问题及项目经验一个“不专业”的阿凡大数据
问题导读：1、项目中遇到过哪些问题？2、Kafka消息数据积压，Kafka消费能力不足怎么处理？3、Sqoop数据导出一致性问题？4、整体项目框架如何设计？项目中遇到过哪些问题7.1Hadoop宕机（1）如果MR造成系统宕机。此时要控制Yarn同时运行的任务数，和每个任务申请的最大内存。调整参数：yarn.scheduler.maximum-allocation-mb（单个任务可申请的最多物理内存
Apache大数据旭哥优选大数据选题 Apache大数据旭大数据定制选题 java hadoop spark 开发语言 idea hive 数据库架构
定制旭哥服务，一对一，无中介包安装+答疑+售后态度和技术都很重要定制按需求做要求不高就实惠一点定制需提前沟通好怎么做，这样才能避免不必要的麻烦python、flask、Django、mapreduce、mysqljava、springboot、vue、echarts、hadoop、spark、hive、hbase、flink、SparkStreaming、kafka、flume、sqoop分析+推
Java后端开发技术详解小二爱编程· java 开发语言
Java作为一门成熟的编程语言，已广泛应用于后端开发领域。其强大的生态系统和广泛的支持库使得Java成为许多企业和开发者的首选后端开发语言。随着云计算、微服务架构和大数据技术的兴起，Java后端开发的技术栈也不断演进。本文将详细介绍Java后端开发的核心技术，包括Java基础、常见框架、数据库操作、缓存技术、异步编程等。1.Java基础：理解面向对象的编程Java是一种面向对象的编程语言，面向对象
IDC权威认证！永洪科技入选 IDC「GBI图谱」，点亮生成式 BI 价值灯塔永洪科技科技人工智能 BI 大数据数据分析
大数据市场正在稳步前进，生成式AI已成为厂商服务的重点方向，其发展离不开数据底座建设和数据工程管理，反过来AI也会帮助开发运维人员、业务人员和管理层更好地使用、查询数据。IDC调研数据显示，在生成式AI的驱动下，未来5年企业在数据管理和数据分析基础设施建设的投资增长率将分别达到8.7%和9.2%。近日，国际咨询机构IDC发布了《中国数据智能市场生态图谱V5.0》，在这一领域，永洪科技以其创新前沿的
打造金融数据新引擎，看永洪科技助力头部农信社搭建一站式分析平台永洪科技金融数据可视化 BI 数据分析大数据
在数字化转型的浪潮中，金融行业作为经济发展的核心引擎，正加速探索数字化、智能化的新路径。永洪科技，近日成功助力某省农村信用社联合社（简称：Z企业）完成了其数字化转型的重要一步，通过部署先进的商业智能解决方案，为Z企业的业务升级与效能提升注入了强劲动力。随着智能金融时代的来临，以大数据、人工智能、移动互联等新兴技术为核心的金融科技持续赋能银行金融业务数字化、智能化、开放化的发展，为金融机构营销体系的
读书笔记五 ---大数据之路--数仓分层 qq_38215991 big data 大数据
数据分层在流式数据模型中,数据模型整体上分为五层。ODS层跟离线系统的定义一样,ODS层属于操作数据层,是直接从业务系统采集过来的最原始数据（进行了数据清洗）,包含了所有业务的变更过程,数据粒度也是最细的。在这一层,实时和离线在源头上是统一的,这样的好处是用同一份数据加工出来的指标,口径基本是统一的,可以更方便进行实时和离线问数据比对。例如:原始的订单变更记录数据、服务器引擎的访同日志。（原始数据
使用LangGraph迁移MapReduceDocumentsChain进行长文档的摘要 dgay_hua python
在大数据处理和文本分析领域，MapReduce是一种非常重要的策略，用于处理和分析大型数据集。具体到文本处理方面，MapReduceDocumentsChain구현了一种map-reduce策略，可以有效地处理长文本。本文将介绍如何从MapReduceDocumentsChain迁移到LangGraph，并探讨LangGraph在流处理、检查点恢复等方面的优势。技术背景介绍MapReduceDoc
Python用Bokeh处理大规模数据可视化的最佳实践一键难忘 Bokeh python 开发语言
用Bokeh处理大规模数据可视化的最佳实践在大规模数据处理和分析中，数据可视化是一个至关重要的环节。Bokeh是一个在Python生态中广泛使用的交互式数据可视化库，它具有强大的可扩展性和灵活性。本文将介绍如何使用Bokeh处理大规模数据可视化，并提供一些最佳实践和代码实例，帮助你高效地展示大数据集中的重要信息。1.为什么选择Bokeh？Bokeh是一个专为浏览器呈现而设计的可视化库，它支持高效渲
分页优化之——游标分页 PhilipJ0303 Java面试 java 数据库优化游标分页分页查询
游标分页（Cursor-basedPagination）是一种高效的分页方式，特别适用于大数据集和无限滚动的场景。与传统的基于页码的分页（如page=1&size=10）不同，游标分页通过一个唯一的游标（通常是时间戳或唯一ID）来标记分页的位置，避免了传统分页在数据变动时的重复或遗漏问题。以下是游标分页在前后端的实现方式：1.游标分页的核心概念游标（Cursor）：游标是一个唯一标识符，通常是数据
flink作业访问zk出现acl报错问题分析 spring208208 大数据组件线上问题分析 flink zookeeper 大数据
#问题现象向yarn集群提交flink作业的时候会出现zkacl的异常经确认：1.zk相关acl密码没有更改过2.重新部署客户端配置后提交任务同样报错3.修改flink的zk目录，重启后可以正常运行任务(在zk重新生了新的znode节点)#问题分析1.首先确认是否是权限的问题，即程序中zk用户没有权限操作zk上的flink节点目录确认集群上zookeeper的flink的acl权限，确认为flin
轻松入门Apache SeaTunnel：数据集成利器窝窝和牛牛 SeaTunnel ETL 数据集成
文章目录轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnel基本原理运行流程SeaTunnelvsDataX：两大数据集成工具对比实战场景：MySQL数据同步至ElasticsearchSeaTunnel实现方案DataX实现方案实现原理对比底层依赖环境方案优缺点分析快速上手环境准备简单示例总结轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnelAp
HBase的架构介绍，安装及简单操作 pk_xz123456 大数据 hbase 架构数据库
一、HBase安装1.环境准备Java环境：确保系统中已经安装了Java8或更高版本。可以通过在命令行中输入java-version来检查Java版本。Hadoop环境：HBase依赖于Hadoop，需要先安装并配置好Hadoop集群。确保Hadoop的相关服务（如HDFS、YARN等）已经正常启动。2.下载HBase从HBase官方网站（https://hbase.apache.org/）下载适
探索数据安全新境界：Apache Spark SQL Ranger Security插件深度揭秘乌昱有Melanie
探索数据安全新境界：ApacheSparkSQLRangerSecurity插件深度揭秘项目地址:https://gitcode.com/gh_mirrors/sp/spark-ranger随着大数据的爆炸性增长，数据安全性成为了企业不可忽视的核心议题。在这一背景下，【ApacheSparkSQLRangerSecurityPlugin】以其强大的数据访问控制能力脱颖而出，成为数据处理领域的明星级
Java 大视界 -- Java 大数据在智能医疗远程会诊与专家协作中的技术支持（146）青云交大数据新视界 Java 大视界 java 大数据智能医疗远程会诊专家协作数据安全病例诊断
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
HDFS相关的面试题努力的搬砖人. java 面试 hdfs
以下是150道HDFS相关的面试题，涵盖了HDFS的基本概念、架构、操作、数据存储、高可用性、权限管理、性能优化、容错机制、与MapReduce的结合、安全性、数据压缩、监控与管理、与YARN的关系、数据一致性、数据备份与恢复等方面，希望对你有所帮助。HDFS基本概念1.HDFS是什么？它的设计目标是什么？•HDFS是Hadoop分布式文件系统，设计目标是实现对大规模数据的高吞吐量访问，适用于一次
Flink相关面试题努力的搬砖人. 面试 java 后端 flink
以下是150道ApacheFlink面试题及其详细回答，涵盖了Flink的基础知识、核心架构、API使用、性能调优等多个方面，每道题目都尽量详细且简单易懂：Flink基础概念类1.什么是ApacheFlink？ApacheFlink是一个开源的流处理和批处理框架，能够实现快速、可靠、可扩展的大数据处理。它既可以处理无界的数据流，也可以处理有界的数据批，提供了低延迟和高吞吐量的实时数据处理能力。Fl
2017安全之势：云、大数据、IoT、人工智能 weixin_34392906 人工智能大数据嵌入式
“新技术让信息系统变成了孙悟空，开始无所不能，但安全仍是它的‘紧箍咒’！怎样解开这个‘紧箍咒’？各路安全厂商各显其能，但似乎路漫漫兮离目标还很遥远。”三未信安董事长张岳公在ZD至顶网《百位意见领袖寄语2017》中说出了这样一句话，我觉着很有道理。安全是一个永恒的话题，如果说它与新的信息技术相生相克也不过分。即便如此，我们更要尽可能的减少安全带来的束缚。2017已经到来，不妨来看看至顶网与业界大咖总
RTOS之环形缓冲区和队列三五度 RTOS 单片机 stm32 嵌入式硬件 c语言
一、环形缓冲区（CircularBuffer）类似一个环形跑道，运动员（数据）在跑道上循环奔跑。跑道首尾相连，运动员跑到终点后又会回到起点继续跑。实际上环形缓冲区是一个固定大小的连续内存空间，用两个指针管理数据：写指针：指向下一个可以写入数据的位置。读指针：指向下一个可以读取的数据位置。当数据写到缓冲区末尾时，会自动回到开头继续写（类似“循环”），覆盖旧数据或阻止写入（取决于设计）。运行机制关键设
hadoop3.x--搭建hadoop高可用集群（HA模式）运维小菜 hadoop hadoop hdfs
hadoop高可用集群（HA模式）一、安装前1.集群规划2.安装前配置3.安装jdk与hadoop4.克隆虚拟机与互信配置5.搭建zookeeper集群二、HDFS1.配置hdfs2.初始化启动hdfs集群三、MapReduce与Yarn1.配置MapReduce2.配置yarn3.启动yarn四、验证1.查看java进程2.hdfs与yarn前台页面一、安装前1.集群规划hostnameipNN
直方图梯度提升：大数据时代的极速决策引擎万事可爱^ 大数据机器学习深度学习直方图梯度提升 GBDT 算法
一、为什么需要直方图梯度提升？在Kaggle竞赛的冠军解决方案中，超过70%的获奖方案都使用了梯度提升算法。但当数据量突破百万级时，传统梯度提升树（GBDT）面临三大致命瓶颈：训练耗时剧增：每个特征的分割点计算都需要全量数据排序内存消耗爆炸：存储排序后的特征值需要额外空间处理效率低下：无法有效利用现代CPU的多核特性而梯度提升决策树（GBDT）作为集成学习的代表算法，通过迭代构建决策树实现预测能力
从原理到实践：Go 语言内存优化策略深度解析叶间清风1998 服务器 linux 网络
目录一、引言二、Go语言内存管理基础原理2.1栈与堆内存分配2.2垃圾回收机制剖析三、内存优化策略与实践3.1合理使用指针传递3.2避免不必要的内存分配3.3优化切片与映射的使用3.4控制变量作用域3.5减少闭包导致的变量逃逸四、内存优化工具与性能分析4.1pprof工具的使用4.2其他性能分析辅助手段五、不同场景下的内存优化案例分析5.1高并发Web服务场景5.2大数据处理与分析场景六、总结与展
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p