贫僧洗头爱飘柔

MapReduce详解(上)

首先从左到右，数据从HDFS中流入，其中inputsplit为大数据源，到了map有一个map的接口，把大数据源进行切割成一个一个的map，这一步需要我们来进行开发的，到后面的reduce也是，其他的为框架帮我们完成，会把数据填充到内存，即buffer in memory，默认为100M，阈值为80M，当数据溢出时，进行封闭，将数据从内存写入到磁盘中，而且中是按照key进行排序，

概要

MapReduce快速入门	如何理解map、reduce计算模型
	Mapreudce程序运行演示
	Mapreduce编程规范及示例编写
	Mapreduce程序运行模式及debug方法
MapReduce高级特性	Mapreduce程序的核心机制
	MapReduce的序列化框架
	MapReduce的排序实现
	MapReduce的分区机制及自定义
	Mapreduce的数据压缩
	Mapreduce与yarn的结合
	Mapreduce编程案例
	Mapreduce 参数优化

MAPREDUCE原理篇（1）

Mapreduce 是一个分布式运算程序的编程框架，是用户开发“基于 hadoop 的数据分析应用”的核心框架；

Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop集群上；

为什么要MAPREDUCE

（ 1 ）海量数据在单机上处理因为硬件资源限制，无法胜任
（ 2 ）而一旦将单机版程序扩展到集群来分布式运行，将极大增加程序的复杂度和开发难度

（3）引入mapreduce框架后，开发人员可以将绝大部分工作集中在业务逻辑的开发上，而将分布式计算中的复杂性交由框架来处理

设想一个海量数据场景下的wordcount需求：

单机版：内存受限，磁盘受限，运算能力受限

分布式：

1、文件分布式存储（HDFS）

2、运算逻辑需要至少分成2个阶段（一个阶段独立并发，一个阶段汇聚）

3、运算程序如何分发

4、程序如何分配运算任务（切片）

5、两阶段的程序如何启动？如何协调？

6、整个程序运行过程中的监控？容错？重试？

可见在程序由单机版扩成分布式时，会引入大量的复杂工作。为了提高开发效率，可以将分布式程序中的公共功能封装成框架，让开发人员可以将精力集中于业务逻辑。

而mapreduce就是这样一个分布式程序的通用框架，其应对以上问题的整体结构如下：

1、MRAppMaster(mapreduce application master)

2、MapTask

3、ReduceTask

MAPREDUCE框架结构及核心运行机制

结构

一个完整的 mapreduce 程序在分布式运行时有三类实例进程：
1 、 MRAppMaster ：负责整个程序的过程调度及状态协调
2 、 mapTask ：负责 map 阶段的整个数据处理流程

3、ReduceTask：负责reduce阶段的整个数据处理流程

程序运行流程

流程示意图

流程解析

1、一个mr程序启动的时候，最先启动的是MRAppMaster，MRAppMaster启动后根据本次job的描述信息，计算出需要的maptask实例数量，然后向集群申请机器启动相应数量的maptask进程

2、 maptask 进程启动之后，根据给定的数据切片范围进行数据处理，主体流程为：
a) 利用客户指定的 inputformat 来获取 RecordReader 读取数据，形成输入 KV 对
b) 将输入 KV 对传递给客户定义的 map() 方法，做逻辑运算，并将 map() 方法输出的 KV 对收集到缓存

c) 将缓存中的KV对按照K分区排序后不断溢写到磁盘文件

3、 MRAppMaster监控到所有maptask进程任务完成之后，会根据客户指定的参数启动相应数量的reducetask进程，并告知reducetask进程要处理的数据范围（数据分区）

4、 Reducetask进程启动之后，根据MRAppMaster告知的待处理数据所在位置，从若干台maptask运行所在机器上获取到若干个maptask输出结果文件，并在本地进行重新归并排序，然后按照相同key的KV为一个组，调用客户定义的reduce()方法进行逻辑运算，并收集运算输出的结果KV，然后调用客户指定的outputformat将结果数据输出到外部存储

1.3 MapTask并行度决定机制

maptask的并行度决定map阶段的任务处理并发度，进而影响到整个job的处理速度

那么，mapTask并行实例是否越多越好呢？其并行度又是如何决定呢？

1.3.1 mapTask并行度的决定机制

一个job的map阶段并行度由客户端在提交job时决定
而客户端对map阶段并行度的规划的基本逻辑为：
将待处理数据执行逻辑切片（即按照一个特定切片大小，将待处理数据划分成逻辑上的多个split），然后每一个split分配一个mapTask并行实例处理

这段逻辑及形成的切片规划描述文件，由FileInputFormat实现类的getSplits()方法完成，其过程如下图：

1.3.2 FileInputFormat切片机制

1、切片定义在InputFormat类中的getSplit()方法

2、FileInputFormat中默认的切片机制：

a)         简单地按照文件的内容长度进行切片
b)        切片大小，默认等于 block 大小
c)         切片时不考虑数据集整体，而是逐个针对每一个文件单独切片

比如待处理数据有两个文件：

file1.txt 320M

file2.txt 10M

3、FileInputFormat中切片的大小的参数配置

通过分析源码，在 FileInputFormat 中，计算切片大小的逻辑： Math.max(minSize,Math.min(maxSize, blockSize)); 切片主要由这几个值来运算决定

minsize：默认值：1

配置参数： mapreduce.input.fileinputformat.split.minsize

maxsize：默认值：Long.MAXValue

配置参数：mapreduce.input.fileinputformat.split.maxsize

blocksize

因此，默认情况下，切片大小 =blocksize
maxsize （切片最大值）：
参数如果调得比 blocksize 小，则会让切片变小，而且就等于配置的这个参数的值
minsize （切片最小值）：

参数调的比blockSize大，则可以让切片变得比blocksize还大

选择并发数的影响因素：
1、运算节点的硬件配置
2、运算任务的类型：CPU密集型还是IO密集型

3、运算任务的数据量

1.4 map并行度的经验之谈

如果硬件配置为2*12core + 64G，恰当的map并行度是大约每个节点20-100个map， 最好每个map的执行时间至少一分钟。
l 如果job的每个map或者 reducetask的运行时间都只有30-40秒钟，那么就减少该job的map或者reduce数，每一个task(map|reduce)的setup和加入到调度器中进行调度，这个中间的过程可能都要花费几秒钟，所以如果每个task都非常快就跑完了，就会在task的开始和结束的时候浪费太多的时间。
配置task的 JVM 重用 [dht1] 可以改善该问题：
（mapred.job.reuse.jvm.num.tasks，默认是1，表示一个JVM上最多可以顺序执行的task数目（属于同一个Job）是1。也就是说一个task启一个JVM）

l 如果input的文件非常的大，比如1TB，可以考虑将hdfs上的每个blocksize设大，比如设成256MB或者512MB

JVM重用技术不是指同一Job的两个或两个以上的task可以同时运行于同一JVM上，而是排队按顺序执行。

经过FileInputFormat的切片机制运算后，形成的切片信息如下：

file1.txt.split1-- 0~128

file1.txt.split2-- 128~256

file1.txt.split3-- 256~320

file2.txt.split1-- 0~10M

1.5 ReduceTask并行度的决定

reducetask 的并行度同样影响整个 job 的执行并发度和执行效率，但与 maptask 的并发数由切片数决定不同， Reducetask 数量的决定是可以直接手动设置：
// 默认值是 1 ，手动设置为 4
job.setNumReduceTasks(4);
如果数据分布不均匀，就有可能在 reduce 阶段产生数据倾斜
注意： reducetask 数量并不是任意设置，还要考虑业务逻辑需求，有些情况下，需要计算全局汇总结果，就只能有 1 个 reducetask

尽量不要运行太多的reducetask。对大多数job来说，最好rduce的个数最多和集群中的reduce持平，或者比集群的 reduce slots小。这个对于小集群而言，尤其重要。

1.6 MAPREDUCE程序运行演示

Hadoop 的发布包中内置了一个 hadoop-mapreduce-example-2.4.1.jar ，这个 jar 包中有各种 MR 示例程序，可以通过以下步骤运行：
启动 hdfs ， yarn
然后在集群中的任意一台服务器上启动执行程序（比如运行 wordcount ）：

hadoopjar hadoop-mapreduce-example-2.4.1.jar wordcount /wordcount/data /wordcount/out、

2 MAPREDUCE实践篇（1）

2.1 MAPREDUCE 示例编写及编程规范

2.1.1 编程规范

（1） 用户编写的程序分成三个部分 ： Mapper ， Reducer ， Driver( 提交运行 mr 程序的客户端 )
（2） Mapper 的输入数据是 KV 对的形式（ KV 的类型可自定义）
（3） Mapper 的输出数据是 KV 对的形式（ KV 的类型可自定义）
（4） Mapper 中的业务逻辑写在 map() 方法中
（5） map() 方法（ maptask 进程）对每一个调用一次
（6） Reducer 的输入数据类型对应 Mapper 的输出数据类型，也是 KV
（7） Reducer 的业务逻辑写在 reduce() 方法中
（8） Reducetask 进程对每一组相同 k 的组调用一次 reduce() 方法
（9）用户自定义的 Mapper 和 Reducer 都要继承各自的父类

（10）整个程序需要一个Drvier来进行提交，提交的是一个描述了各种必要信息的job对象

//首先要定义四个泛型的类型
//keyin:  LongWritable    valuein: Text
//keyout: Text            valueout:IntWritable
 
public class WordCountMapper extends Mapper{
         //map方法的生命周期：  框架每传一行数据就被调用一次
         //key :  这一行的起始点在文件中的偏移量
         //value: 这一行的内容
         @Override
         protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
                   //拿到一行数据转换为string
                   String line = value.toString();
                   //将这一行切分出各个单词
                   String[] words = line.split(" ");
                   //遍历数组，输出<单词，1>
                   for(String word:words){
                            context.write(new Text(word), new IntWritable(1));
                   }
         }
}

(2)定义一个reducer类

         //生命周期：框架每传递进来一个kv 组，reduce方法被调用一次
         @Override
         protected void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException {
                   //定义一个计数器
                   int count = 0;
                   //遍历这一组kv的所有v，累加到count中
                   for(IntWritable value:values){
                            count += value.get();
                   }
                   context.write(key, new IntWritable(count));
         }
}

(3)定义一个主类，用来描述job并提交job

public class WordCountRunner {
         //把业务逻辑相关的信息（哪个是mapper，哪个是reducer，要处理的数据在哪里，输出的结果放哪里……）描述成一个job对象
         //把这个描述好的job提交给集群去运行
         public static void main(String[] args) throws Exception {
                   Configuration conf = new Configuration();
                   Job wcjob = Job.getInstance(conf);
                   //指定我这个job所在的jar包
//               wcjob.setJar("/home/hadoop/wordcount.jar");
                   wcjob.setJarByClass(WordCountRunner.class);
                  
                   wcjob.setMapperClass(WordCountMapper.class);
                   wcjob.setReducerClass(WordCountReducer.class);
                   //设置我们的业务逻辑Mapper类的输出key和value的数据类型
                   wcjob.setMapOutputKeyClass(Text.class);
                   wcjob.setMapOutputValueClass(IntWritable.class);
                   //设置我们的业务逻辑Reducer类的输出key和value的数据类型
                   wcjob.setOutputKeyClass(Text.class);
                   wcjob.setOutputValueClass(IntWritable.class);
                  
                   //指定要处理的数据所在的位置
                   FileInputFormat.setInputPaths(wcjob, "hdfs://hdp-server01:9000/wordcount/data/big.txt");
                   //指定处理完成之后的结果所保存的位置
                   FileOutputFormat.setOutputPath(wcjob, new Path("hdfs://hdp-server01:9000/wordcount/output/"));
                  
                   //向yarn集群提交这个job
                   boolean res = wcjob.waitForCompletion(true);
                   System.exit(res?0:1);
         }

2.2 MAPREDUCE程序运行模式

2.2.1 本地运行模式

（1）mapreduce程序是被提交给LocalJobRunner在本地以单进程的形式运行
（2）而处理的数据及输出结果可以在本地文件系统，也可以在 hdfs 上
（3）怎样实现本地运行？写一个程序，不要带集群的配置文件（本质是你的 mr 程序的 conf 中是否有 mapreduce.framework.name=local 以及 yarn.resourcemanager.hostname 参数）

（4）本地模式非常便于进行业务逻辑的debug，只要在eclipse中打断点即可

如果在 windows 下想运行本地模式来测试程序逻辑，需要在 windows 中配置环境变量：
％ HADOOP_HOME ％ = d:/hadoop-2.6.1
%PATH% = ％ HADOOP_HOME ％ \bin

并且要将d:/hadoop-2.6.1的lib和bin目录替换成windows平台编译的版本

2.2.2 集群运行模式

（1）将 mapreduce 程序提交给 yarn 集群 resourcemanager ，分发到很多的节点上并发执行
（2）处理的数据和输出结果应该位于 hdfs 文件系统
（3）提交集群的实现步骤：
A 、将程序打成 JAR 包，然后在集群的任意一个节点上用 hadoop 命令启动
$ hadoop jar wordcount.jar cn.itcast.bigdata.mrsimple.WordCountDriverinputpath outputpath
B 、直接在 linux 的 eclipse 中运行 main 方法
（项目中要带参数： mapreduce.framework.name=yarn 以及 yarn 的两个基本配置）

C、如果要在windows的eclipse中提交job给集群，则要修改YarnRunner类mapreduce程序在集群中运行时的大体流程：

附：在windows平台上访问hadoop时改变自身身份标识的方法之二：

2.3 MAPREDUCE中的Combiner

（1） combiner 是 MR 程序中 Mapper 和 Reducer 之外的一种组件
（2） combiner 组件的父类就是 Reducer
（3） combiner 和 reducer 的区别在于运行的位置：
Combiner 是在每一个 maptask 所在的节点运行
Reducer 是接收全局所有 Mapper 的输出结果；
(4) combiner 的意义就是对每一个 maptask 的输出进行局部汇总，以减小网络传输量
具体实现步骤：
1、自定义一个 combiner 继承 Reducer ，重写 reduce 方法
2、在 job 中设置： job.setCombinerClass(CustomCombiner.class)
(5) combiner 能够应用的前提是不能影响最终的业务逻辑
而且， combiner 的输出 kv 应该跟 reducer 的输入 kv 类型要对应起来
Combiner的使用要非常谨慎
因为combiner在mapreduce过程中可能调用也肯能不调用，可能调一次也可能调多次

所以：combiner使用的原则是：有或没有都不能影响业务逻辑

3. MAPREDUCE原理篇（2）

3.1mapreduce的shuffle机制

3.1.1 概述：

v mapreduce中，map阶段处理的数据如何传递给reduce阶段，是mapreduce框架中最关键的一个流程，这个流程就叫shuffle；
v shuffle: 洗牌、发牌——（核心机制：数据分区，排序，缓存）；

v 具体来说：就是将maptask输出的处理结果数据，分发给reducetask，并在分发的过程中，对数据按key进行了分区和排序；

3.1.2 主要流程：

Shuffle缓存流程：

shuffle 是 MR 处理流程中的一个过程，它的每一个处理步骤是分散在各个 map task 和 reduce task 节点上完成的，整体来看，分为 3 个操作：
1、分区 partition
2、 Sort 根据 key 排序

3、Combiner进行局部value的合并

3.1.3 详细流程

1、 maptask 收集我们的 map() 方法输出的 kv 对，放到内存缓冲区中
2、从内存缓冲区不断溢出本地磁盘文件，可能会溢出多个文件
3、多个溢出文件会被合并成大的溢出文件
4、在溢出过程中，及合并的过程中，都要调用 partitoner 进行分组和针对 key 进行排序
5、 reducetask 根据自己的分区号，去各个 maptask 机器上取相应的结果分区数据
6、 reducetask 会取到同一个分区的来自不同 maptask 的结果文件， reducetask 会将这些文件再进行合并（归并排序）

7、合并成大文件后，shuffle的过程也就结束了，后面进入reducetask的逻辑运算过程（从文件中取出一个一个的键值对group，调用用户自定义的reduce()方法）

Shuffle 中的缓冲区大小会影响到 mapreduce 程序的执行效率，原则上说，缓冲区越大，磁盘 io 的次数越少，执行速度就越快

缓冲区的大小可以通过参数调整, 参数：io.sort.mb 默认100M

3.1.4详细流程示意图

3.2 MAPREDUCE中的序列化

3.2.1 概述

Java 的序列化是一个重量级序列化框架（ Serializable ），一个对象被序列化后，会附带很多额外的信息（各种校验信息， header ，继承体系。。。。），不便于在网络中高效传输；

所以，hadoop自己开发了一套序列化机制（Writable），精简，高效

3.2.2 Jdk序列化和MR序列化之间的比较

简单代码验证两种序列化机制的差别：

public class TestSeri {
         public static void main(String[] args) throws Exception {
                   //定义两个ByteArrayOutputStream，用来接收不同序列化机制的序列化结果
                   ByteArrayOutputStream ba = new ByteArrayOutputStream();
                   ByteArrayOutputStream ba2 = new ByteArrayOutputStream();
 
                   //定义两个DataOutputStream，用于将普通对象进行jdk标准序列化
                   DataOutputStream dout = new DataOutputStream(ba);
                   DataOutputStream dout2 = new DataOutputStream(ba2);
                   ObjectOutputStream obout = new ObjectOutputStream(dout2);
                   //定义两个bean，作为序列化的源对象
                   ItemBeanSer itemBeanSer = new ItemBeanSer(1000L, 89.9f);
                   ItemBean itemBean = new ItemBean(1000L, 89.9f);
 
                   //用于比较String类型和Text类型的序列化差别
                   Text atext = new Text("a");
                   // atext.write(dout);
                   itemBean.write(dout);
 
                   byte[] byteArray = ba.toByteArray();
 
                   //比较序列化结果
                   System.out.println(byteArray.length);
                   for (byte b : byteArray) {
 
                            System.out.print(b);
                            System.out.print(":");
                   }
 
                   System.out.println("-----------------------");
 
                   String astr = "a";
                   // dout2.writeUTF(astr);
                   obout.writeObject(itemBeanSer);
 
                   byte[] byteArray2 = ba2.toByteArray();
                   System.out.println(byteArray2.length);
                   for (byte b : byteArray2) {
                            System.out.print(b);
                            System.out.print(":");
                   }
         }
}

3.2.3 自定义对象实现MR中的序列化接口

如果需要将自定义的 bean 放在 key 中传输，则还需要实现 comparable 接口，因为 mapreduce 框中的 shuffle 过程一定会对 key 进行排序 , 此时，自定义的 bean 实现的接口应该是：
public class FlowBean implements WritableComparable

需要自己实现的方法是：

     /**
          * 反序列化的方法，反序列化时，从流中读取到的各个字段的顺序应该与序列化时写出去的顺序保持一致
          */
         @Override
         public void readFields(DataInput in) throws IOException {
                  
                   upflow = in.readLong();
                   dflow = in.readLong();
                   sumflow = in.readLong();
         }
 
         /**
          * 序列化的方法
          */
         @Override
         public void write(DataOutput out) throws IOException {
 
                   out.writeLong(upflow);
                   out.writeLong(dflow);
                   //可以考虑不序列化总流量，因为总流量是可以通过上行流量和下行流量计算出来的
                   out.writeLong(sumflow);
 
         }
        
         @Override
         public int compareTo(FlowBean o) {
                  
                   //实现按照sumflow的大小倒序排序
                   return sumflow>o.getSumflow()?-1:1;
         }

3.3 MapReduce与YARN

3.3.1 YARN概述

Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而mapreduce等运算程序则相当于运行于操作系统之上的应用程序

3.2.2 YARN的重要概念

1、 yarn 并不清楚用户提交的程序的运行机制
2、 yarn 只提供运算资源的调度（用户程序向 yarn 申请资源， yarn 就负责分配资源）
3、 yarn 中的主管角色叫 ResourceManager
4、 yarn 中具体提供运算资源的角色叫 NodeManager
5、这样一来， yarn 其实就与运行的用户程序完全解耦，就意味着 yarn 上可以运行各种类型的分布式运算程序（ mapreduce 只是其中的一种），比如 mapreduce 、 storm 程序， spark 程序， tez ……
6、所以， spark 、 storm 等运算框架都可以整合在 yarn 上运行，只要他们各自的框架中有符合 yarn 规范的资源请求机制即可

7、 Yarn就成为一个通用的资源调度平台，从此，企业中以前存在的各种运算集群都可以整合在一个物理集群上，提高资源利用率，方便数据共享

3.3.3 Yarn中运行运算程序的示例

mapreduce程序的调度过程，如下图

4. MAPREDUCE实践篇（2）

4.1. Mapreduce中的排序初步

4.1.1 需求

对日志数据中的上下行流量信息汇总，并输出按照总流量倒序排序的结果

数据如下：

1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 24 27 2481 24681 200

1363157995052 13826544101 5C-0E-8B-C7-F1-E0:CMCC 120.197.40.4 4 0 264 0 200

1363157991076 13926435656 20-10-7A-28-CC-0A:CMCC 120.196.100.99 2 4 132 1512 200

1363154400022 13926251106 5C-0E-8B-8B-B1-50:CMCC 120.197.40.4 4 0 240 0 200

4.1.2 分析

基本思路：实现自定义的 bean 来封装流量信息，并将 bean 作为 map 输出的 key 来传输
MR程序在处理数据的过程中会对数据排序(map输出的kv对传输到reduce之前，会排序)，排序的依据是map输出的key
所以，我们如果要实现自己需要的排序规则，则可以考虑将排序因素放到key中，让key实现接口：WritableComparable

然后重写key的compareTo方法

4.1.3 实现

1、自定义的bean

public class FlowBean implements WritableComparable{
        
         long upflow;
         long downflow;
         long sumflow;
        
         //如果空参构造函数被覆盖，一定要显示定义一下，否则在反序列时会抛异常
         public FlowBean(){}
        
         public FlowBean(long upflow, long downflow) {
                   super();
                   this.upflow = upflow;
                   this.downflow = downflow;
                   this.sumflow = upflow + downflow;
         }
        
         public long getSumflow() {
                   return sumflow;
         }
 
         public void setSumflow(long sumflow) {
                   this.sumflow = sumflow;
         }
 
         public long getUpflow() {
                   return upflow;
         }
         public void setUpflow(long upflow) {
                   this.upflow = upflow;
         }
         public long getDownflow() {
                   return downflow;
         }
         public void setDownflow(long downflow) {
                   this.downflow = downflow;
         }
 
         //序列化，将对象的字段信息写入输出流
         @Override
         public void write(DataOutput out) throws IOException {
                  
                   out.writeLong(upflow);
                   out.writeLong(downflow);
                   out.writeLong(sumflow);
                  
         }
 
         //反序列化，从输入流中读取各个字段信息
         @Override
         public void readFields(DataInput in) throws IOException {
                   upflow = in.readLong();
                   downflow = in.readLong();
                   sumflow = in.readLong();
                  
         }
        
        
         @Override
         public String toString() {
                   return upflow + "\t" + downflow + "\t" + sumflow;
         }
         @Override
         public int compareTo(FlowBean o) {
                   //自定义倒序比较规则
                   return sumflow > o.getSumflow() ? -1:1;
         }
}

2、 mapper 和 reducer

public class FlowCount {
 
         static class FlowCountMapper extends Mapper {
 
                   @Override
                   protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
 
                            String line = value.toString();
                            String[] fields = line.split("\t");
                            try {
                                     String phonenbr = fields[0];
 
                                     long upflow = Long.parseLong(fields[1]);
                                     long dflow = Long.parseLong(fields[2]);
 
                                     FlowBean flowBean = new FlowBean(upflow, dflow);
 
                                     context.write(flowBean,new Text(phonenbr));
                            } catch (Exception e) {
 
                                     e.printStackTrace();
                            }
 
                   }
 
         }
 
         static class FlowCountReducer extends Reducer {
 
                   @Override
                   protected void reduce(FlowBean bean, Iterable phonenbr, Context context) throws IOException, InterruptedException {
 
                            Text phoneNbr = phonenbr.iterator().next();
 
                            context.write(phoneNbr, bean);
 
                   }
 
         }
 
         public static void main(String[] args) throws Exception {
 
                   Configuration conf = new Configuration();
 
                   Job job = Job.getInstance(conf);
 
                   job.setJarByClass(FlowCount.class);
 
                   job.setMapperClass(FlowCountMapper.class);
                   job.setReducerClass(FlowCountReducer.class);
 
                    job.setMapOutputKeyClass(FlowBean.class);
                    job.setMapOutputValueClass(Text.class);
 
                   job.setOutputKeyClass(Text.class);
                   job.setOutputValueClass(FlowBean.class);
 
                   // job.setInputFormatClass(TextInputFormat.class);
 
                   FileInputFormat.setInputPaths(job, new Path(args[0]));
                   FileOutputFormat.setOutputPath(job, new Path(args[1]));
 
                   job.waitForCompletion(true);
 
         }
 
}

4.2 Mapreduce中的分区Partitioner

4.2.1 需求

根据归属地输出流量统计数据结果到不同文件，以便于在查询统计结果时可以定位到省级范围进行

4.2.2 分析

Mapreduce 中会将 map 输出的 kv 对，按照相同 key 分组，然后分发给不同的 reducetask
默认的分发规则为：根据 key 的 hashcode%reducetask 数来分发
所以：如果要按照我们自己的需求进行分组，则需要改写数据分发（分组）组件 Partitioner
自定义一个 CustomPartitioner 继承抽象类： Partitioner

然后在job对象中，设置自定义partitioner：job.setPartitionerClass(CustomPartitioner.class)

4.3.3 实现

/**
 * 定义自己的从map到reduce之间的数据（分组）分发规则按照手机号所属的省份来分发（分组）ProvincePartitioner
 * 默认的分组组件是HashPartitioner
 *
 * @author
 *
 */
public class ProvincePartitioner extends Partitioner {
 
         static HashMap provinceMap = new HashMap();
 
         static {
 
                   provinceMap.put("135", 0);
                   provinceMap.put("136", 1);
                   provinceMap.put("137", 2);
                   provinceMap.put("138", 3);
                   provinceMap.put("139", 4);
 
         }
 
         @Override
         public int getPartition(Text key, FlowBean value, int numPartitions) {
 
                   Integer code = provinceMap.get(key.toString().substring(0, 3));
 
                   return code == null ? 5 : code;
         }
 
}

4.3 mapreduce数据压缩

4.3.1 概述

这是 mapreduce的一种优化策略：通过压缩编码对mapper或者reducer的输出进行压缩，以减少磁盘IO， 提高 MR 程序运行速度（但相应增加了 cpu 运算负担）
1、 Mapreduce 支持将 map 输出的结果或者 reduce 输出的结果进行压缩，以减少网络 IO 或最终输出数据的体积
2、压缩特性运用得当能提高性能，但运用不当也可能降低性能
3、基本原则：
运算密集型的 job ，少用压缩

IO密集型的job，多用压缩

4.3.2 MR支持的压缩编码

4.3.3 Reducer输出压缩

在配置参数或在代码中都可以设置reduce的输出压缩

1、在配置参数中设置

mapreduce.output.fileoutputformat.compress=false
mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.DefaultCodec
mapreduce.output.fileoutputformat.compress.type=RECORD

2、在代码中设置

  Job job = Job.getInstance(conf);
  FileOutputFormat.setCompressOutput(job, true);
  FileOutputFormat.setOutputCompressorClass(job, (Class) Class.forName(""));

4.3.4 Mapper输出压缩

在配置参数或在代码中都可以设置reduce的输出压缩

1、在配置参数中设置

mapreduce.map.output.compress=false
mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.DefaultCodec

2、在代码中设置：

conf.setBoolean(Job.MAP_OUTPUT_COMPRESS, true);
conf.setClass(Job.MAP_OUTPUT_COMPRESS_CODEC, GzipCodec.class, CompressionCodec.class);

4.3.5 压缩文件的读取

Hadoop自带的InputFormat类内置支持压缩文件的读取，比如TextInputformat类，在其initialize方法中：

public void initialize(InputSplit genericSplit,
                         TaskAttemptContext context) throws IOException {
    FileSplit split = (FileSplit) genericSplit;
    Configuration job = context.getConfiguration();
    this.maxLineLength = job.getInt(MAX_LINE_LENGTH, Integer.MAX_VALUE);
    start = split.getStart();
    end = start + split.getLength();
    final Path file = split.getPath();
 
    // open the file and seek to the start of the split
    final FileSystem fs = file.getFileSystem(job);
    fileIn = fs.open(file);
    //根据文件后缀名创建相应压缩编码的codec
    CompressionCodec codec = new CompressionCodecFactory(job).getCodec(file);
    if (null!=codec) {
      isCompressedInput = true;
      decompressor = CodecPool.getDecompressor(codec);
           //判断是否属于可切片压缩编码类型
      if (codec instanceof SplittableCompressionCodec) {
        final SplitCompressionInputStream cIn =
          ((SplittableCompressionCodec)codec).createInputStream(
            fileIn, decompressor, start, end,
            SplittableCompressionCodec.READ_MODE.BYBLOCK);
                   //如果是可切片压缩编码，则创建一个CompressedSplitLineReader读取压缩数据
        in = new CompressedSplitLineReader(cIn, job,
            this.recordDelimiterBytes);
        start = cIn.getAdjustedStart();
        end = cIn.getAdjustedEnd();
        filePosition = cIn;
      } else {
                  //如果是不可切片压缩编码，则创建一个SplitLineReader读取压缩数据，并将文件输入流转换成解压数据流传递给普通SplitLineReader读取
        in = new SplitLineReader(codec.createInputStream(fileIn,
            decompressor), job, this.recordDelimiterBytes);
        filePosition = fileIn;
      }
    } else {
      fileIn.seek(start);
            //如果不是压缩文件，则创建普通SplitLineReader读取数据
      in = new SplitLineReader(fileIn, job, this.recordDelimiterBytes);
      filePosition = fileIn;
    }

4.4 更多MapReduce编程案例

4.4.1 reduce端join算法实现

1 、需求：

订单数据表t_order：

id	date	pid	amount
1001	20150710	P0001	2
1002	20150710	P0001	3
1002	20150710	P0002	3

商品信息表t_product

id	pname	category_id	price
P0001	小米5	1000	2
P0002	锤子T1	1000	3

假如数据量巨大，两表的数据是以文件的形式存储在HDFS中，需要用mapreduce程序来实现一下SQL查询运算：

select a.id,a.date,b.name,b.category_id,b.price from t_order a join t_product b on a.pid = b.id

2、实现机制：

通过将关联的条件作为map输出的key，将两表满足join条件的数据并携带数据所来源的文件信息，发往同一个reducetask，在reduce中进行数据的串联

public class OrderJoin {
 
         static class OrderJoinMapper extends Mapper {
 
                   @Override
                   protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
 
                            // 拿到一行数据，并且要分辨出这行数据所属的文件
                            String line = value.toString();
 
                            String[] fields = line.split("\t");
 
                            // 拿到itemid
                            String itemid = fields[0];
 
                            // 获取到这一行所在的文件名（通过inpusplit）
                            String name = "你拿到的文件名";
 
                            // 根据文件名，切分出各字段（如果是a，切分出两个字段，如果是b，切分出3个字段）
 
                            OrderJoinBean bean = new OrderJoinBean();
                            bean.set(null, null, null, null, null);
                            context.write(new Text(itemid), bean);
 
                   }
 
         }
 
         static class OrderJoinReducer extends Reducer {
 
                   @Override
                   protected void reduce(Text key, Iterable beans, Context context) throws IOException, InterruptedException {
                           
                             //拿到的key是某一个itemid,比如1000
                            //拿到的beans是来自于两类文件的bean
                            //  {1000,amount} {1000,amount} {1000,amount}   ---   {1000,price,name}
                           
                            //将来自于b文件的bean里面的字段，跟来自于a的所有bean进行字段拼接并输出
                   }
         }
}

缺点：这种方式中，join的操作是在reduce阶段完成，reduce端的处理压力太大，map节点的运算负载则很低，资源利用率不高，且在reduce阶段极易产生数据倾斜

解决方案：map端join实现方式

4.2.2 map端join算法实现--解决数据倾斜

1、原理阐述

适用于关联表中有小表的情形；

可以将小表分发到所有的map节点，这样，map节点就可以在本地对自己所读到的大表数据进行join并输出最终结果，可以大大提高join操作的并发度，加快处理速度

2、实现示例

--先在mapper类中预先定义好小表，进行join

--引入实际场景中的解决方案：一次加载数据库或者用distributedcache

public class TestDistributedCache {
         static class TestDistributedCacheMapper extends Mapper{
                   FileReader in = null;
                   BufferedReader reader = null;
                   HashMap b_tab = new HashMap();
                   String localpath =null;
                   String uirpath = null;
                  
                   //是在map任务初始化的时候调用一次
                   @Override
                   protected void setup(Context context) throws IOException, InterruptedException {
                            //通过这几句代码可以获取到cache file的本地绝对路径，测试验证用
                            Path[] files = context.getLocalCacheFiles();
                            localpath = files[0].toString();
                            URI[] cacheFiles = context.getCacheFiles();
                           
                           
                            //缓存文件的用法——直接用本地IO来读取
                            //这里读的数据是map task所在机器本地工作目录中的一个小文件
                            in = new FileReader("b.txt");
                            reader =new BufferedReader(in);
                            String line =null;
                            while(null!=(line=reader.readLine())){
                                    
                                     String[] fields = line.split(",");
                                     b_tab.put(fields[0],fields[1]);
                                    
                            }
                            IOUtils.closeStream(reader);
                            IOUtils.closeStream(in);
                           
                   }
                  
                   @Override
                   protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
 
                            //这里读的是这个map task所负责的那一个切片数据（在hdfs上）
                             String[] fields = value.toString().split("\t");
                             
                             String a_itemid = fields[0];
                             String a_amount = fields[1];
                             
                             String b_name = b_tab.get(a_itemid);
                             
                             // 输出结果  1001      98.9 banan
                             context.write(new Text(a_itemid), new Text(a_amount + "\t" + ":" + localpath + "\t" +b_name ));
                             
                   }
                  
                  
         }
        
        
         public static void main(String[] args) throws Exception {
                  
                   Configuration conf = new Configuration();
                   Job job = Job.getInstance(conf);
                  
                   job.setJarByClass(TestDistributedCache.class);
                  
                   job.setMapperClass(TestDistributedCacheMapper.class);
                  
                   job.setOutputKeyClass(Text.class);
                   job.setOutputValueClass(LongWritable.class);
                  
                   //这里是我们正常的需要处理的数据所在路径
                   FileInputFormat.setInputPaths(job, new Path(args[0]));
                   FileOutputFormat.setOutputPath(job, new Path(args[1]));
                  
                   //不需要reducer
                   job.setNumReduceTasks(0);
                   //分发一个文件到task进程的工作目录
                   job.addCacheFile(new URI("hdfs://hadoop-server01:9000/cachefile/b.txt"));
                  
                   //分发一个归档文件到task进程的工作目录
//               job.addArchiveToClassPath(archive);
 
                   //分发jar包到task节点的classpath下
//               job.addFileToClassPath(jarfile);
                  
                   job.waitForCompletion(true);
         }
}

4.4.3 web日志预处理

原始数据

194.237.142.21 - - [18/Sep/2013:06:49:18 +0000] "GET /wp-content/uploads/2013/07/rstudio-git3.png HTTP/1.1" 304 0 "-" "Mozilla/4.0 (compatible;)"
183.49.46.228 - - [18/Sep/2013:06:49:23 +0000] "-" 400 0 "-" "-"
163.177.71.12 - - [18/Sep/2013:06:49:33 +0000] "HEAD / HTTP/1.1" 200 20 "-" "DNSPod-Monitor/1.0"
163.177.71.12 - - [18/Sep/2013:06:49:36 +0000] "HEAD / HTTP/1.1" 200 20 "-" "DNSPod-Monitor/1.0"
101.226.68.137 - - [18/Sep/2013:06:49:42 +0000] "HEAD / HTTP/1.1" 200 20 "-" "DNSPod-Monitor/1.0"
101.226.68.137 - - [18/Sep/2013:06:49:45 +0000] "HEAD / HTTP/1.1" 200 20 "-" "DNSPod-Monitor/1.0"
60.208.6.156 - - [18/Sep/2013:06:49:48 +0000] "GET /wp-content/uploads/2013/07/rcassandra.png HTTP/1.0" 200 185524 "http://cos.name/category/software/packages/" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.66 Safari/537.36"
222.68.172.190 - - [18/Sep/2013:06:49:57 +0000] "GET /images/my.jpg HTTP/1.1" 200 19939 "http://www.angularjs.cn/A00n" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.66 Safari/537.36"
222.68.172.190 - - [18/Sep/2013:06:50:08 +0000] "-" 400 0 "-" "-"
183.195.232.138 - - [18/Sep/2013:06:50:16 +0000] "HEAD / HTTP/1.1" 200 20 "-" "DNSPod-Monitor/1.0"
183.195.232.138 - - [18/Sep/2013:06:50:16 +0000] "HEAD / HTTP/1.1" 200 20 "-" "DNSPod-Monitor/1.0"
66.249.66.84 - - [18/Sep/2013:06:50:28 +0000] "GET /page/6/ HTTP/1.1" 200 27777 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
221.130.41.168 - - [18/Sep/2013:06:50:37 +0000] "GET /feed/ HTTP/1.1" 304 0 "-" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.66 Safari/537.36"
157.55.35.40 - - [18/Sep/2013:06:51:13 +0000] "GET /robots.txt HTTP/1.1" 200 150 "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"
50.116.27.194 - - [18/Sep/2013:06:51:35 +0000] "POST /wp-cron.php?doing_wp_cron=1379487095.2510800361633300781250 HTTP/1.0" 200 0 "-" "WordPress/3.6; http://blog.fens.me"
58.215.204.118 - - [18/Sep/2013:06:51:35 +0000] "GET /nodejs-socketio-chat/ HTTP/1.1" 200 10818 "http://www.google.com/url?sa=t&rct=j&q=nodejs%20%E5%BC%82%E6%AD%A5%E5%B9%BF%E6%92%AD&source=web&cd=1&cad=rja&ved=0CCgQFjAA&url=%68%74%74%70%3a%2f%2f%62%6c%6f%67%2e%66%65%6e%73%2e%6d%65%2f%6e%6f%64%65%6a%73%2d%73%6f%63%6b%65%74%69%6f%2d%63%68%61%74%2f&ei=rko5UrylAefOiAe7_IGQBw&usg=AFQjCNG6YWoZsJ_bSj8kTnMHcH51hYQkAA&bvm=bv.52288139,d.aGc" "Mozilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101 Firefox/23.0"
58.215.204.118 - - [18/Sep/2013:06:51:36 +0000] "GET /wp-includes/js/jquery/jquery-migrate.min.js?ver=1.2.1 HTTP/1.1" 304 0 "http://blog.fens.me/nodejs-socketio-chat/" "Mozilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101 Firefox/23.0"
58.215.204.118 - - [18/Sep/2013:06:51:35 +0000] "GET /wp-includes/js/jquery/jquery.js?ver=1.10.2 HTTP/1.1" 304 0 "http://blog.fens.me/nodejs-socketio-chat/" "Mozilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101 Firefox/23.0"
58.215.204.118 - - [18/Sep/2013:06:51:36 +0000] "GET /wp-includes/js/comment-reply.min.js?ver=3.6 HTTP/1.1" 304 0 "http://blog.fens.me/nodejs-socketio-chat/" "Mozilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101 Firefox/23.0"
58.215.204.118 - - [18/Sep/2013:06:51:36 +0000] "GET /wp-content/uploads/2013/08/chat.png HTTP/1.1" 200 48968 "http://blog.fens.me/nodejs-socketio-chat/" "Mozilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101 Firefox/23.0"
58.215.204.118 - - [18/Sep/2013:06:51:36 +0000] "GET /wp-content/uploads/2013/08/chat2.png HTTP/1.1" 200 59852 "http://blog.fens.me/nodejs-socketio-chat/" "Mozilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101 Firefox/23.0"
58.215.204.118 - - [18/Sep/2013:06:51:37 +0000] "GET /wp-content/uploads/2013/08/socketio.png HTTP/1.1" 200 80493 "http://blog.fens.me/nodejs-socketio-chat/" "Mozilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101 Firefox/23.0"
58.248.178.212 - - [18/Sep/2013:06:51:37 +0000] "GET /nodejs-grunt-intro/ HTTP/1.1" 200 51770 "http://blog.fens.me/series-nodejs/" "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET CLR 3.0.04506.30; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729; MDDR; InfoPath.2; .NET4.0C)"
58.248.178.212 - - [18/Sep/2013:06:51:40 +0000] "GET /wp-includes/js/jquery/jquery-migrate.min.js?ver=1.2.1 HTTP/1.1" 200 7200 "http://blog.fens.me/nodejs-grunt-intro/" "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET CLR 3.0.04506.30; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729; MDDR; InfoPath.2; .NET4.0C)"
58.248.178.212 - - [18/Sep/2013:06:51:40 +0000] "GET /wp-includes/js/comment-reply.min.js?ver=3.6 HTTP/1.1" 200 786 "http://blog.fens.me/nodejs-grunt-intro/" "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET CLR 3.0.04506.30; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729; MDDR; InfoPath.2; .NET4.0C)"
58.248.178.212 - - [18/Sep/2013:06:51:40 +0000] "GET /wp-includes/js/jquery/jquery.js?ver=1.10.2 HTTP/1.1" 200 45307 "http://blog.fens.me/nodejs-grunt-intro/" "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET CLR 3.0.04506.30; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729; MDDR; InfoPath.2; .NET4.0C)"
58.248.178.212 - - [18/Sep/2013:06:51:40 +0000] "GET /wp-includes/js/jquery/jquery.js?ver=1.10.2 HTTP/1.1" 200 93128 "http://blog.fens.me/nodejs-grunt-intro/" "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET CLR 3.0.04506.30; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729; MDDR; InfoPath.2; .NET4.0C)"
58.248.178.212 - - [18/Sep/2013:06:51:40 +0000] "GET /wp-includes/js/comment-reply.min.js?ver=3.6 HTTP/1.1" 200 786 "http://blog.fens.me/nodejs-grunt-intro/" "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET CLR 3.0.04506.30; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729; MDDR; InfoPath.2; .NET4.0C)"
58.215.204.118 - - [18/Sep/2013:06:51:41 +0000] "-" 400 0 "-" "-"
58.215.204.118 - - [18/Sep/2013:06:51:41 +0000] "-" 400 0 "-" "-"
58.215.204.118 - - [18/Sep/2013:06:51:41 +0000] "-" 400 0 "-" "-"

1、需求：

对 web 访问日志中的各字段识别切分
去除日志中不合法的记录

根据KPI统计需求，生成各类访问请求过滤数据

2、实现代码：

a)定义一个bean，用来记录日志数据中的各数据字段

public class WebLogBean {
        
    private String remote_addr;// 记录客户端的ip地址
    private String remote_user;// 记录客户端用户名称,忽略属性"-"
    private String time_local;// 记录访问时间与时区
    private String request;// 记录请求的url与http协议
    private String status;// 记录请求状态；成功是200
    private String body_bytes_sent;// 记录发送给客户端文件主体内容大小
    private String http_referer;// 用来记录从那个页面链接访问过来的
    private String http_user_agent;// 记录客户浏览器的相关信息
 
    private boolean valid = true;// 判断数据是否合法
   
         public String getRemote_addr() {
                   return remote_addr;
         }
 
         public void setRemote_addr(String remote_addr) {
                   this.remote_addr = remote_addr;
         }
 
         public String getRemote_user() {
                   return remote_user;
         }
 
         public void setRemote_user(String remote_user) {
                   this.remote_user = remote_user;
         }
 
         public String getTime_local() {
                   return time_local;
         }
 
         public void setTime_local(String time_local) {
                   this.time_local = time_local;
         }
 
         public String getRequest() {
                   return request;
         }
 
         public void setRequest(String request) {
                   this.request = request;
         }
 
         public String getStatus() {
                   return status;
         }
 
         public void setStatus(String status) {
                   this.status = status;
         }
 
         public String getBody_bytes_sent() {
                   return body_bytes_sent;
         }
 
         public void setBody_bytes_sent(String body_bytes_sent) {
                   this.body_bytes_sent = body_bytes_sent;
         }
 
         public String getHttp_referer() {
                   return http_referer;
         }
 
         public void setHttp_referer(String http_referer) {
                   this.http_referer = http_referer;
         }
 
         public String getHttp_user_agent() {
                   return http_user_agent;
         }
 
         public void setHttp_user_agent(String http_user_agent) {
                   this.http_user_agent = http_user_agent;
         }
 
         public boolean isValid() {
                   return valid;
         }
 
         public void setValid(boolean valid) {
                   this.valid = valid;
         }
   
   
         @Override
         public String toString() {
        StringBuilder sb = new StringBuilder();
        sb.append(this.valid);
        sb.append("\001").append(this.remote_addr);
        sb.append("\001").append(this.remote_user);
        sb.append("\001").append(this.time_local);
        sb.append("\001").append(this.request);
        sb.append("\001").append(this.status);
        sb.append("\001").append(this.body_bytes_sent);
        sb.append("\001").append(this.http_referer);
        sb.append("\001").append(this.http_user_agent);
        return sb.toString();
}
}

b)定义一个parser用来解析过滤web访问日志原始记录

public class WebLogParser {
    public static WebLogBean parser(String line) {
        WebLogBean webLogBean = new WebLogBean();
        String[] arr = line.split(" ");
        if (arr.length > 11) {
           webLogBean.setRemote_addr(arr[0]);
           webLogBean.setRemote_user(arr[1]);
           webLogBean.setTime_local(arr[3].substring(1));
           webLogBean.setRequest(arr[6]);
           webLogBean.setStatus(arr[8]);
           webLogBean.setBody_bytes_sent(arr[9]);
           webLogBean.setHttp_referer(arr[10]);
           
            if (arr.length > 12) {
                webLogBean.setHttp_user_agent(arr[11] + " " + arr[12]);
            } else {
                webLogBean.setHttp_user_agent(arr[11]);
            }
            if (Integer.parseInt(webLogBean.getStatus()) >= 400) {// 大于400，HTTP错误
                webLogBean.setValid(false);
            }
        } else {
           webLogBean.setValid(false);
        }
        return webLogBean;
    }
  
    public static String parserTime(String time) {
   
    time.replace("/", "-");
    return time;
   
    }
}

c)mapreduce程序

public class WeblogPreProcess {
 
         static class WeblogPreProcessMapper extends Mapper {
                   Text k = new Text();
                   NullWritable v = NullWritable.get();
 
                   @Override
                   protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
 
                            String line = value.toString();
                            WebLogBean webLogBean = WebLogParser.parser(line);
                            if (!webLogBean.isValid())
                                     return;
                            k.set(webLogBean.toString());
                            context.write(k, v);
 
                   }
 
         }
 
         public static void main(String[] args) throws Exception {
                  
                   Configuration conf = new Configuration();
                   Job job = Job.getInstance(conf);
                  
                   job.setJarByClass(WeblogPreProcess.class);
                  
                   job.setMapperClass(WeblogPreProcessMapper.class);
                  
                   job.setOutputKeyClass(Text.class);
                   job.setOutputValueClass(NullWritable.class);
                  
                   FileInputFormat.setInputPaths(job, new Path(args[0]));
                   FileOutputFormat.setOutputPath(job, new Path(args[1]));
                  
                   job.waitForCompletion(true);
                  
         }
}

你可能感兴趣的:(Hadoop,Mapreduce原理,Mapreduce详解,Mapreduce基础,Mapreduce实践)

C/C++ R-Tree原理及源代码猿来如此yyy C/C++算法详解及源码 r-tree c语言 c++开发语言算法数据结构
R树是一种用于高维空间数据的索引结构，它是由AntoninGuttman于1984年提出的。R树旨在提高对多维数据进行范围查询的性能。它被广泛应用于空间数据库中。R树的核心思想是将数据划分为不相交的矩形区域，并逐层构建一个树结构。每个非叶子节点都是一个矩形，它覆盖了它的所有子节点。每个叶子节点都是一个数据对象与其坐标范围的组合。通过这种方式，R树能够将相邻的数据对象聚集在一起，从而减少对数据的搜索
超详细的Numpy基础教程！！！不会爬虫的闲鱼 numpy 数据分析 python
Numpy是一个开源的Python库，用于支持大型多维数组和矩阵运算，同时提供了大量的数学函数库。它是科学计算中非常重要的工具。Numpy在数据科学中非常重要，因为它提供了高效的数组处理能力和广泛的数学函数库，这对于处理大规模数据集、进行科学计算和机器学习等任务至关重要。一、安装与设置如何安装Numpypipinstallnumpy验证安装的方法importnumpyprint(numpy.__v
【容器镜像】：获取原始 rootfs 及各系统大小对比 Talbot3的笔记容器 docker linux
之前一秒构建了alpine的容器镜像，甚至使用静态编译的应用不需要rootfs就可以运行，这也是golang在容器时代大流行的主要原因。如果不用科学上网，就可以从零构建基础IT设施，速度又很快，这大大增强了研发进度。下面介绍各rootfs的来源linuxcontainers，并根据images.linuxcontainers.org的镜像结构和搜索结果中提供的索引解析方法，我们可以通过以下步骤获取
系统架构设计师【第5章】: 软件工程基础知识 (核心总结) 数据知道系统架构软件工程软考高级系统架构设计师软件工程基础
文章目录5.1软件工程5.1.1软件工程定义5.1.2软件过程模型5.1.3敏捷模型5.1.4统一过程模型（RUP）5.1.5软件能力成熟度模型5.2需求工程5.2.1需求获取5.2.2需求变更5.2.3需求追踪5.3系统分析与设计5.3.1结构化方法5.3.2面向对象方法5.4软件测试5.4.1测试方法5.4.2测试阶段5.5净室软件工程5.5.1理论基础5.5.2技术手段5.5.3应用与缺点5
flask--基础知识点--6--flask高并发处理 Raging__Fire #flask python flask
Flask是一个轻量级的PythonWeb框架，适合构建中小型应用。但是，对于高并发场景，Flask本身可能需要一些辅助工具和配置来提升性能。以下是一些优化Flask应用以处理高并发的方法：1.使用WSGI服务器Flask自带的开发服务器性能和稳定性不足以应对生产环境中的高并发请求，可以考虑使用更强大的WSGI服务器，如：Gunicorn:一个基于Python的WSGIHTTP服务器。uWSGI:
uni-app打包h5并部署到nginx，路由模式history 星月昭铭前端杂项 Vue uni-app nginx
uni-app打包有些坑，当时运行的基础路径填写了./，导致在二级页面刷新之后，页面直接空白。就只能换一个路径了，nginx也要跟着改，下面是具体步骤。manifest.json配置web运行路径写/h5/，或者写你们网站的目录，比如我这里写了h5，到时候访问的地址就是127.0.0.1/h5，对，带了一个h5nginx配置需要在nginx里面配置一个/h5配置，然后我这里还配置了一个locati
SQLite学习（十一）使用JDBC读写SQLite数据，基于Java实现 Designer 小郑 SQLite从入门到实战 sqlite 数据库 sql java jdbc
1.前言2.基础工作2.1创建Java项目2.2依赖Jar包3.连接SQLite4.查询SQLite数据5.新增SQLite数据6.总结1.前言在上一篇《SQLite学习（十）SQLite的注入问题的防范、数据库文件导入和导出》中，讲解了SQLite的SQL注入问题和应对措施，在本篇博客中，将继续讲解如何使用JDBC读写SQLite数据。同学们将学习到：JDBC是什么使用JDBC读写SQLite请
springboot新手入门搭建项目 stayhungerstayflush spring boot 后端 java
SpringBoot新手入门指南：从原理到实践一、SpringBoot简介SpringBoot是基于Spring框架的快速开发脚手架，通过约定优于配置的设计理念，简化了Spring应用的初始化搭建和开发过程。主要优势包括：内嵌Web服务器（Tomcat/Jetty）自动配置Spring和第三方库提供生产级监控端点无需XML配置二、核心概念解析1.自动配置（Auto-Configuration）@S
Redis内部数据结构quicklist详解码农单克 redis redis
在本文中，我们介绍一个Redis内部数据结构——quicklist。Redis对外暴露的list数据类型，它底层实现所依赖的内部数据结构就是quicklist。我们在讨论中还会涉及到两个Redis配置（在redis.conf中的ADVANCEDCONFIG部分）：list-max-ziplist-size-2list-compress-depth0我们在讨论中会详细解释这两个配置的含义。注：本文讨
垃圾回收机制是什么？JVM 核心结构? 胡图蛋. jvm
垃圾回收机制是什么jvm的垃圾回收机制是GC（GarbageCollection），也叫垃圾收集器。GC基本原理：将内存中不再被使用的对象进行回收；GC中用于回收的方法称为收集器，由于GC需要消耗一些资源和时间，Java在对对象的生命周期特征进行分析后，按照新生代、老年代的方式来对对象进行收集，以尽可能的缩短GC对应用造成的暂停。不同的对象引用类型，GC会采用不同的方法进行回收，JVM对象的引用分
69.Harmonyos NEXT图片预览组件应用实践（二）：电商、内容与办公场景 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyosNEXT图片预览组件应用实践（二）：电商、内容与办公场景效果预览一、电商应用最佳实践1.功能需求电商应用中的商品图片预览需求包括：支持商品多角度图片查看高清缩放查看商品细节商品参数标注和热点标记与商品信息面板的联动支持视频和图片混合展示2.实现
非对称加密：SSL/TLS握手的数学基石安全
1.密钥交换的密码学困局在未加密的HTTP通信中，攻击者可通过中间人攻击（MITM）窃听或篡改数据。SSL/TLS协议的核心挑战在于：如何在不安全的信道上建立安全通信？这本质上是一个“密钥分发问题”——若使用对称加密（如AES），双方需要共享同一密钥，但密钥本身如何安全传递？非对称加密的突破性在于公钥与私钥的分离。以RSA算法为例，其数学基础是大质数分解难题：选择两个大质数p和q（通常≥2048位
短视频时代，普通人如何保护个人隐私？——从SSL证书看数据安全安全
在短视频时代，每天数以亿计的用户上传内容、互动评论、甚至进行直播购物。然而，这些行为背后潜藏着隐私泄露的风险：账号密码被盗、支付信息被窃取、个人数据遭篡改……如何在这些场景中保护隐私？SSL证书作为互联网安全的基石，正扮演着关键角色。本文将从技术原理到实践建议，为你揭开SSL证书如何成为隐私保护的“隐形盾牌”。一、SSL证书：隐私保护的第一道防线SSL（SecureSocketsLayer）证书是
JVM性能监控与调优小码快撩 jvm
导语JVM性能监控与调优是一个涵盖多个层面的复杂任务，涉及对JVM内部工作原理的理解、性能指标的监控、问题定位与优化策略的实施。以下是学习JVM性能监控与调优时应关注的主要技术点1.JVM基础知识JVM性能监控与调优之JVM基础知识在进行JVM性能监控与调优之前，深入理解JVM的基本知识是至关重要的。以下概述了JVM性能监控与调优所需掌握的核心基础知识：1.JVM内存区域划分堆内存（Heap）：存
数据标注质量对AI模型质量的影响分析自由鬼行业发展 IT应用探讨人工智能机器学习深度学习 AI
上、数据标注质量与AI模型的质量关系数据标注是AI最基础的工作，数据标注的质量决定了AI质量，影响数据标注质量的是数据标注的规则。1、数据标注是AI最基础的工作：数据标注是构建高质量AI模型的基石：数据标注尤其是在监督学习范式下，是AI领域最基础、最关键的工作之一。没有高质量的标注数据，就如同建造高楼大厦没有坚实的地基，AI模型就无法有效地学习和训练，最终的AI质量也就无从谈起。训练数据是AI模型
HarmonyNext实战：基于ArkTS的高性能区块链应用开发 harmonyos-next
HarmonyNext实战：基于ArkTS的高性能区块链应用开发引言区块链技术作为一种去中心化、安全可信的分布式账本技术，正在各个领域得到广泛应用。本文将深入探讨如何利用ArkTS语言在HarmonyNext平台上开发一个高性能的区块链应用，涵盖从区块链基础概念到智能合约开发的完整流程。我们将通过一个实际的案例——去中心化投票系统，来展示如何在HarmonyNext上实现区块链技术的落地应用。1.
HarmonyNext实战：基于ArkTS的高性能音视频处理应用开发 harmonyos-next
HarmonyNext实战：基于ArkTS的高性能音视频处理应用开发引言在音视频处理领域，实时性和性能是关键。随着HarmonyNext生态系统的不断发展，开发者可以利用ArkTS语言构建高性能的音视频处理应用。本文将深入探讨如何利用ArkTS开发一个音视频处理应用，重点介绍音频处理、视频编解码以及实时流媒体传输的实现。我们将从理论基础出发，逐步构建一个完整的应用，并通过优化技巧提升性能。1.音视
Qt+ffmpeg环境搭建技术不支持 qt ffmpeg 开发语言
Qt+ffmpeg环境搭建各平台常见视频开发库举例:iOS：AVFoundationAudioUnitAndroid：MediaPlayer，MediaCodecWindows：DirectShowLinux：GStreamerFFmpeg库是一个跨平台的视频开发库,还有libVLC也是一个跨平台的视频开发库掌握了其中一个库,也能很快上手其它库,因为音视频解码的原理类似引入FFmpeg库有两种方式
HarmonyNext实战：基于ArkTS的高性能图像处理应用开发 harmonyos-next
HarmonyNext实战：基于ArkTS的高性能图像处理应用开发引言在HarmonyNext生态系统中，图像处理是一个重要且具有挑战性的领域。本文将深入探讨如何利用ArkTS语言开发一个高性能的图像处理应用，重点介绍图像卷积、边缘检测等核心算法的实现。我们将从理论基础出发，逐步构建一个完整的图像处理应用，并通过优化技巧提升性能。1.图像处理基础1.1图像表示在数字图像处理中，图像通常被表示为一个
Django 分页操作详解 jay丿 django sqlite 数据库
Django分页操作详解在Django项目中，当处理大量数据时，分页是一项非常关键的功能。它不仅可以提高用户体验，还能减少服务器的负担。Django提供了一个强大的分页工具——django.core.paginator.Paginator，可以很方便地实现数据的分页显示。本文将详细介绍如何使用Django的分页插件来实现分页功能。一、引入分页器首先，需要在你的视图文件中引入Django的分页器模块
C语言编译与链接详解夜晟洛 c语言开发语言
C语言是一种强大且广泛使用的编程语言。理解其编译和链接过程对于编写高效和可靠的代码至关重要。本文将详细探讨C语言的编译和链接过程，帮助你更好地理解代码从源文件到可执行文件的转变过程。目录一、编译过程概述1.预处理2.编译3.汇编4.链接二、编译与链接示例三、常见问题与最佳实践1.头文件保护2.模块化编程3.静态库和动态库静态库动态库四、总结一、编译过程概述编译过程将C语言源代码转换为机器码，可以分
python手写kmeans算法菜鸟懿机器学习聚类算法 python
kmean聚类是最基础和常见的算法，工程上使用比较常见，spark,sklearn都有实现，本文手写实现kmeans#!/usr/bin/pythonimportsysimportrandomimportmathdefcreate_rand_points(max_x,max_y,count):"""Createcountpoints(0-x),(0-y)."""points=[]foriinran
Python 科学计算与机器学习入门：NumPy + Scikit-Learn 实战指南吴师兄大模型 python numpy scikit-learn 人工智能开发语言机器学习编程
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
哨兵2号遥感影像解析全流程：步骤、算法与AI应用详解 zhz5214 AI GIS 人工智能遥感 ai sentinel 智能体
遥感影像解析是农业监测、环境评估等领域的重要技术手段。哨兵2号（Sentinel-2）凭借其高分辨率多光谱数据，成为遥感分析的热门数据源。本文将系统梳理哨兵2号影像解析的核心步骤、适用算法与软件工具，并探讨AI技术在该领域的创新应用。一、哨兵2号影像解析核心步骤1.数据获取与预处理数据下载哨兵2号数据可通过官方平台[CopernicusOpenAccessHub](https://scihub.c
大数据学习（67）- Flume、Sqoop、Kafka、DataX对比 viperrrrrrr 大数据学习 flume kafka sqoop datax
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦工具主要作用数据流向实时性数据源/目标应用场景Flume实时日志采集与传输从数据源到存储系统实时日志文件、网络流量等→HDFS、HBase、Kafka等日志收集、实时监控、实时分析Sqoop关系型数据库与Hadoop间数据同步关系型数据库→Hadoop生态系统（HDFS、Hive、
基于纯视觉的 GUI 代理的屏幕解析工具（OmniParser） deepdata_cn 应用软件 GUI
OmniParser是一款开源工具，可通过解析用户界面截图生成结构化数据，助力打造视觉驱动的GUI自动化代理，赋能跨平台交互。一、技术原理1.数据集构建：从流行网页和应用中提取数据，构建可交互图标检测数据集和图标描述数据集，为模型训练提供基础。2.检测模型：使用YOLOv8模型在可交互图标检测数据集上进行微调，能够识别和定位用户界面中的可交互区域，如按钮、图标等。3.描述模型：利用BLIP-v2模
大数据技术【7】星绘搜题 big data 数据挖掘大数据
1.目前所获取的总数据量的80%以上都是（）数据。。A.结构化B.非结构化C.文本D.半结构化2.Kmeans算法包括如下步骤：①在第j次迭代中，对于每个样本点，选取最近的中心点，归为该类；②更新中心点为每类的均值；③随机选取k个中心点；④j选择一项：a.③①②④b.①②③④c.①④③②d.④③②①A.③①②④B.①②③④C.①④③②D.④③②①3.利用先验原理可以帮助减少频繁项集产生时需要探查的
cv君独家视角 | AI内幕系列七：EfficientViT模型：基于多尺度线性注意力模块，实现高效的高分辨率密集预测 cv君 cv君独家视角 AI内幕系列原创项目级实战项目深度学习与计算机视觉精品 1024程序员节 EfficientViT 高分辨率密集预测任务高分辨率视觉模型 Transformer 人工智能计算机视觉
专题概况cv君独家视角|AI内幕系列是一个专注于人工智能领域的深度专题，旨在为读者揭开AI所有领域技术的神秘面纱，展示其背后的科学原理和实际应用。通过一系列精心策划的文章，我们将带您深入了解AI的各个领域，从计算机视觉到文本语音等多模态领域，从基础理论到前沿技术，从行业应用到未来趋势。无论您是AI领域的工程师或者专家，还是对这一领域充满好奇的读者，这个系列都将为您提供高价值的见解和启发，为您带来横
鸿蒙与持续集成荔枝寄 harmonyos ci/cd 华为
鸿蒙操作系统（HarmonyOS）是华为公司开发的一款面向未来的分布式操作系统，它能够为各种设备提供统一的操作平台。为了确保鸿蒙应用的高质量和高效开发，持续集成（ContinuousIntegration,CI）实践显得尤为重要。持续集成是一种软件开发实践，即团队成员频繁地将代码集成到共享仓库中，每次集成都通过自动化的构建（包括编译、发布、自动化测试）来验证，从而尽早发现集成错误。鸿蒙与持续集成的
前端请求全面解析：AJAX、Axios 与 Fetch 的使用详解与代码示例软件工匠师前端 ajax javascript
前端请求全面解析：AJAX、Axios与Fetch的使用详解与代码示例前端请求全面解析：AJAX、Axios与Fetch的使用详解与代码示例1.AJAX——传统的异步请求1.1基本用法示例1.2AJAX特点2.FetchAPI——现代化请求方案2.1基本用法示例2.2Fetch特点3.Axios——第三方HTTP请求库3.1安装Axios3.2基本用法示例3.3Axios特点4.总结前端请求全面解
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理