Hadoop日记Day18---MapReduce排序分组

本节所用到的数据下载地址为：http://pan.baidu.com/s/1bnfELmZ

MapReduce的排序分组任务与要求

　　我们知道排序分组是MapReduce中Mapper端的第四步，其中分组排序都是基于Key的，我们可以通过下面这几个例子来体现出来。其中的数据和任务如下图1.1，1.2所示。

#首先按照第一列升序排列，当第一列相同时，第二列升序排列

3    3

3    2

3    1

2    2

2    1

1    1

-------------------

#结果

1    1

2    1

2    2

3    1

3    2

3    3

图 1.1 排序

#当第一列相同时，求出第二列的最小值

3    3

3    2

3    1

2    2

2    1

1    1

-------------------

#结果

3    1

2    1

1    1

图 1.2 分组

一、排序算法

1.1 MapReduce默认排序算法

　　使用MapReduce默认排序算法代码如下1.1所示，在代码中我将第一列作为键，第二列作为值。

 1 package sort;

 2 

 3 import java.io.IOException;

 4 import java.net.URI;

 5 

 6 import org.apache.hadoop.conf.Configuration;

 7 import org.apache.hadoop.fs.FileStatus;

 8 import org.apache.hadoop.fs.FileSystem;

 9 import org.apache.hadoop.fs.Path;

10 import org.apache.hadoop.io.LongWritable;

11 import org.apache.hadoop.io.Text;

12 import org.apache.hadoop.mapreduce.Job;

13 import org.apache.hadoop.mapreduce.Mapper;

14 import org.apache.hadoop.mapreduce.Reducer;

15 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

16 import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

17 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

18 import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

19 import org.apache.hadoop.mapreduce.lib.partition.HashPartitioner;

20 

21 public class SortApp {

22     private static final String INPUT_PATH = "hdfs://hadoop:9000/newinput";

23     private static final String OUT_PATH = "hdfs://hadoop:9000/newoutput";

24     public static void main(String[] args) throws Exception {

25         Configuration conf=new Configuration();

26         final FileSystem fileSystem = FileSystem.get(new URI(INPUT_PATH), conf);

27         final Path outpath = new Path(OUT_PATH);

28         if(fileSystem.exists(outpath)){

29             fileSystem.delete(outpath,true);

30         }

31         

32         final Job job = new Job(conf,SortApp.class.getSimpleName());

33         

34         //1.1 指定输入文件路径

35         FileInputFormat.setInputPaths(job, INPUT_PATH);        

36         job.setInputFormatClass(TextInputFormat.class);//指定哪个类用来格式化输入文件

37                 

38         //1.2指定自定义的Mapper类

39         job.setMapperClass(MyMapper.class);        

40         job.setMapOutputKeyClass(LongWritable.class);//指定输出<k2,v2>的类型

41         job.setMapOutputValueClass(LongWritable.class);

42                 

43         //1.3 指定分区类

44         job.setPartitionerClass(HashPartitioner.class);

45         job.setNumReduceTasks(1);

46                 

47         //1.4 TODO 排序、分区

48                 

49         //1.5  TODO （可选）合并

50                 

51         //2.2 指定自定义的reduce类

52         job.setReducerClass(MyReducer.class);        

53         job.setOutputKeyClass(LongWritable.class);//指定输出<k3,v3>的类型

54         job.setOutputValueClass(LongWritable.class);

55                 

56         //2.3 指定输出到哪里

57         FileOutputFormat.setOutputPath(job, outpath);        

58         job.setOutputFormatClass(TextOutputFormat.class);//设定输出文件的格式化类                        

59         job.waitForCompletion(true);//把代码提交给JobTracker执行        

60     }

61     static class MyMapper extends Mapper<LongWritable, Text,LongWritable,LongWritable>{

62 

63         @Override

64         protected void map(

65                 LongWritable key,

66                 Text value,

67                 Mapper<LongWritable, Text, LongWritable, LongWritable>.Context context)

68                 throws IOException, InterruptedException {

69             final String[] splited = value.toString().split("\t");

70             final long k2 = Long.parseLong(splited[0]);

71             final long v2 = Long.parseLong(splited[1]);

72             context.write(new LongWritable(k2),new LongWritable(v2));

73         }    

74     }

75     static class MyReducer extends Reducer<LongWritable,LongWritable,LongWritable,LongWritable>{

76 

77         @Override

78         protected void reduce(

79                 LongWritable k2,

80                 Iterable<LongWritable> v2s,

81                 Reducer<LongWritable, LongWritable, LongWritable, LongWritable>.Context context)

82                 throws IOException, InterruptedException {

83             for(LongWritable v2:v2s){

84                 context.write(k2, v2);

85             }            

86         }    

87     }

88 }

View Code

代码 1.1

　　运行结果如下图1.3所示

图 1.3

　　从上面图中运行结果可以看出，MapReduce默认排序算法只对Key进行了排序，并没有对value进行排序，没有达到我们的要求，所以要实现我们的要求，还要我们自定义一个排序算法

1.2 自定义排序算法

　　从上面图中运行结果可以知道，MapReduce默认排序算法只对Key进行了排序，并没有对value进行排序，没有达到我们的要求，所以要实现我们的要求，还要我们自定义一个排序算法。在map和reduce阶段进行排序时，比较的是k2。v2是不参与排序比较的。如果要想让v2也进行排序，需要把k2和v2组装成新的类作为k 2 ，才能参与比较。所以在这里我们新建一个新的类型NewK2类型来封装原来的k2和v2。代码如1.2所示。

  1 package sort;

  2 

  3 import java.io.DataInput;

  4 import java.io.DataOutput;

  5 import java.io.IOException;

  6 import java.net.URI;

  7 

  8 import org.apache.hadoop.conf.Configuration;

  9 import org.apache.hadoop.fs.FileSystem;

 10 import org.apache.hadoop.fs.Path;

 11 import org.apache.hadoop.io.LongWritable;

 12 import org.apache.hadoop.io.Text;

 13 import org.apache.hadoop.io.WritableComparable;

 14 import org.apache.hadoop.mapreduce.Job;

 15 import org.apache.hadoop.mapreduce.Mapper;

 16 import org.apache.hadoop.mapreduce.Reducer;

 17 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 18 import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

 19 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 20 import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

 21 import org.apache.hadoop.mapreduce.lib.partition.HashPartitioner;

 22 

 23 public class SortApp {

 24     static final String INPUT_PATH = "hdfs://hadoop:9000/newinput";

 25     static final String OUT_PATH = "hdfs://hadoop:9000/newoutput";

 26     public static void main(String[] args) throws Exception{

 27         final Configuration configuration = new Configuration();

 28         final FileSystem fileSystem = FileSystem.get(new URI(INPUT_PATH), configuration);

 29         if(fileSystem.exists(new Path(OUT_PATH))){

 30             fileSystem.delete(new Path(OUT_PATH), true);

 31         }

 32         final Job job = new Job(configuration, SortApp.class.getSimpleName());

 33         //1.1 指定输入文件路径

 34         FileInputFormat.setInputPaths(job, INPUT_PATH);        

 35         job.setInputFormatClass(TextInputFormat.class);//指定哪个类用来格式化输入文件

 36         

 37         //1.2指定自定义的Mapper类

 38         job.setMapperClass(MyMapper.class);        

 39         job.setMapOutputKeyClass(NewK2.class);//指定输出<k2,v2>的类型

 40         job.setMapOutputValueClass(LongWritable.class);

 41         

 42         //1.3 指定分区类

 43         job.setPartitionerClass(HashPartitioner.class);

 44         job.setNumReduceTasks(1);

 45         

 46         //2.2 指定自定义的reduce类

 47         job.setReducerClass(MyReducer.class);        

 48         job.setOutputKeyClass(LongWritable.class);//指定输出<k3,v3>的类型

 49         job.setOutputValueClass(LongWritable.class);

 50         

 51         //2.3 指定输出到哪里

 52         FileOutputFormat.setOutputPath(job, new Path(OUT_PATH));        

 53         job.setOutputFormatClass(TextOutputFormat.class);//设定输出文件的格式化类

 54         job.waitForCompletion(true);//把代码提交给JobTracker执行

 55     }

 56 

 57     

 58     static class MyMapper extends Mapper<LongWritable, Text, NewK2, LongWritable>{

 59         protected void map(LongWritable key, Text value, org.apache.hadoop.mapreduce.Mapper<LongWritable,Text,NewK2,LongWritable>.Context context) throws java.io.IOException ,InterruptedException {

 60             final String[] splited = value.toString().split("\t");

 61             final NewK2 k2 = new NewK2(Long.parseLong(splited[0]), Long.parseLong(splited[1]));

 62             final LongWritable v2 = new LongWritable(Long.parseLong(splited[1]));

 63             context.write(k2, v2);

 64         };

 65     }

 66     

 67     static class MyReducer extends Reducer<NewK2, LongWritable, LongWritable, LongWritable>{

 68         protected void reduce(NewK2 k2, java.lang.Iterable<LongWritable> v2s, org.apache.hadoop.mapreduce.Reducer<NewK2,LongWritable,LongWritable,LongWritable>.Context context) throws java.io.IOException ,InterruptedException {

 69             context.write(new LongWritable(k2.first), new LongWritable(k2.second));

 70         };

 71     }

 72     

 73     /**

 74      * 问：为什么实现该类？

 75      * 答：因为原来的v2不能参与排序，把原来的k2和v2封装到一个类中，作为新的k2

 76      *

 77      */

 78     static class  NewK2 implements WritableComparable<NewK2>{

 79         Long first;

 80         Long second;

 81         

 82         public NewK2(){}

 83         

 84         public NewK2(long first, long second){

 85             this.first = first;

 86             this.second = second;

 87         }

 88         

 89         

 90         @Override

 91         public void readFields(DataInput in) throws IOException {

 92             this.first = in.readLong();

 93             this.second = in.readLong();

 94         }

 95 

 96         @Override

 97         public void write(DataOutput out) throws IOException {

 98             out.writeLong(first);

 99             out.writeLong(second);

100         }

101 

102         /**

103          * 当k2进行排序时，会调用该方法.

104          * 当第一列不同时，升序；当第一列相同时，第二列升序

105          */

106         @Override

107         public int compareTo(NewK2 o) {

108             final long minus = this.first - o.first;

109             if(minus !=0){

110                 return (int)minus;

111             }

112             return (int)(this.second - o.second);

113         }

114         

115         @Override

116         public int hashCode() {

117             return this.first.hashCode()+this.second.hashCode();

118         }

119         

120         @Override

121         public boolean equals(Object obj) {

122             if(!(obj instanceof NewK2)){

123                 return false;

124             }

125             NewK2 oK2 = (NewK2)obj;

126             return (this.first==oK2.first)&&(this.second==oK2.second);

127         }

128     }

129     

130 }

View Code

代码 1.2

　　从上面的代码中我们可以发现，我们的新类型NewK2实现了WritableComparable接口，其中该接口中有一个compareTo()方法，当对关键字进行比较会调用该方法，而我们就在该方法中实现了我们想要做的事。

　　运行结果如下图1.4所示。

图 1.4

二、分组算法

2.1 MapReduce默认分组

　　分组是在MapReduce中Mapper端的第四步，分组也是基于Key进行的，将相同key的value放到一个集合中去。还以上面排序代码为例，业务逻辑如下图2.1所示。在代码中以NewK2为关键字，每个键都不相同，所以会将数据分为六组，这样就不能实现我们的业务要求，但利用自定义类型NewK2，可以自定义排序算法的同时我们也可以自定义分组算法。

#当第一列相同时，求出第二列的最小值

3    3

3    2

3    1

2    2

2    1

1    1

------------------- #结果 3 1 2 1 1 1

图 2.1

2.2 自定义分组比较器

　　由于业务要求分组是按照第一列分组，但是NewK2的比较规则决定了不能按照第一列分，只能自定义分组比较器，代码如下2.1所示。

  1 package group;

  2 

  3 import java.io.DataInput;

  4 import java.io.DataOutput;

  5 import java.io.IOException;

  6 import java.net.URI;

  7 

  8 import org.apache.hadoop.conf.Configuration;

  9 import org.apache.hadoop.fs.FileSystem;

 10 import org.apache.hadoop.fs.Path;

 11 import org.apache.hadoop.io.LongWritable;

 12 import org.apache.hadoop.io.RawComparator;

 13 import org.apache.hadoop.io.Text;

 14 import org.apache.hadoop.io.WritableComparable;

 15 import org.apache.hadoop.io.WritableComparator;

 16 import org.apache.hadoop.mapreduce.Job;

 17 import org.apache.hadoop.mapreduce.Mapper;

 18 import org.apache.hadoop.mapreduce.Reducer;

 19 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 20 import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

 21 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 22 import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

 23 import org.apache.hadoop.mapreduce.lib.partition.HashPartitioner;

 24 

 25 public class GroupApp {

 26     static final String INPUT_PATH = "hdfs://hadoop:9000/newinput";

 27     static final String OUT_PATH = "hdfs://hadoop:9000/newoutput";

 28     public static void main(String[] args) throws Exception{

 29         final Configuration configuration = new Configuration();

 30         

 31         final FileSystem fileSystem = FileSystem.get(new URI(INPUT_PATH), configuration);

 32         if(fileSystem.exists(new Path(OUT_PATH))){

 33             fileSystem.delete(new Path(OUT_PATH), true);

 34         }        

 35         final Job job = new Job(configuration, GroupApp.class.getSimpleName());

 36         

 37         //1.1 指定输入文件路径

 38         FileInputFormat.setInputPaths(job, INPUT_PATH);        

 39         job.setInputFormatClass(TextInputFormat.class);//指定哪个类用来格式化输入文件

 40         

 41         //1.2指定自定义的Mapper类

 42         job.setMapperClass(MyMapper.class);        

 43         job.setMapOutputKeyClass(NewK2.class);//指定输出<k2,v2>的类型

 44         job.setMapOutputValueClass(LongWritable.class);

 45         

 46         //1.3 指定分区类

 47         job.setPartitionerClass(HashPartitioner.class);

 48         job.setNumReduceTasks(1);

 49         

 50         //1.4 TODO 排序、分区

 51         job.setGroupingComparatorClass(MyGroupingComparator.class);

 52         //1.5  TODO （可选）合并

 53         

 54         //2.2 指定自定义的reduce类

 55         job.setReducerClass(MyReducer.class);        

 56         job.setOutputKeyClass(LongWritable.class);//指定输出<k3,v3>的类型

 57         job.setOutputValueClass(LongWritable.class);

 58         

 59         //2.3 指定输出到哪里

 60         FileOutputFormat.setOutputPath(job, new Path(OUT_PATH));        

 61         job.setOutputFormatClass(TextOutputFormat.class);//设定输出文件的格式化类        

 62         job.waitForCompletion(true);//把代码提交给JobTracker执行

 63     }

 64 

 65     

 66     static class MyMapper extends Mapper<LongWritable, Text, NewK2, LongWritable>{

 67         protected void map(LongWritable key, Text value, org.apache.hadoop.mapreduce.Mapper<LongWritable,Text,NewK2,LongWritable>.Context context) throws java.io.IOException ,InterruptedException {

 68             final String[] splited = value.toString().split("\t");

 69             final NewK2 k2 = new NewK2(Long.parseLong(splited[0]), Long.parseLong(splited[1]));

 70             final LongWritable v2 = new LongWritable(Long.parseLong(splited[1]));

 71             context.write(k2, v2);

 72         };

 73     }

 74     

 75     static class MyReducer extends Reducer<NewK2, LongWritable, LongWritable, LongWritable>{

 76         protected void reduce(NewK2 k2, java.lang.Iterable<LongWritable> v2s, org.apache.hadoop.mapreduce.Reducer<NewK2,LongWritable,LongWritable,LongWritable>.Context context) throws java.io.IOException ,InterruptedException {

 77             long min = Long.MAX_VALUE;

 78             for (LongWritable v2 : v2s) {

 79                 if(v2.get()<min){

 80                     min = v2.get();

 81                 }

 82             }

 83             

 84             context.write(new LongWritable(k2.first), new LongWritable(min));

 85         };

 86     }

 87     

 88     /**

 89      * 问：为什么实现该类？

 90      * 答：因为原来的v2不能参与排序，把原来的k2和v2封装到一个类中，作为新的k2

 91      *

 92      */

 93     static class  NewK2 implements WritableComparable<NewK2>{

 94         Long first;

 95         Long second;

 96         

 97         public NewK2(){}

 98         

 99         public NewK2(long first, long second){

100             this.first = first;

101             this.second = second;

102         }

103         

104         

105         @Override

106         public void readFields(DataInput in) throws IOException {

107             this.first = in.readLong();

108             this.second = in.readLong();

109         }

110 

111         @Override

112         public void write(DataOutput out) throws IOException {

113             out.writeLong(first);

114             out.writeLong(second);

115         }

116 

117         /**

118          * 当k2进行排序时，会调用该方法.

119          * 当第一列不同时，升序；当第一列相同时，第二列升序

120          */

121         @Override

122         public int compareTo(NewK2 o) {

123             final long minus = this.first - o.first;

124             if(minus !=0){

125                 return (int)minus;

126             }

127             return (int)(this.second - o.second);

128         }

129         

130         @Override

131         public int hashCode() {

132             return this.first.hashCode()+this.second.hashCode();

133         }

134         

135         @Override

136         public boolean equals(Object obj) {

137             if(!(obj instanceof NewK2)){

138                 return false;

139             }

140             NewK2 oK2 = (NewK2)obj;

141             return (this.first==oK2.first)&&(this.second==oK2.second);

142         }

143     }

144     

145     static class MyGroupingComparator implements RawComparator<NewK2>{

146 

147         @Override

148         public int compare(NewK2 o1, NewK2 o2) {

149             return (int)(o1.first - o2.first);

150         }

151     

152         @Override

153         public int compare(byte[] arg0, int arg1, int arg2, byte[] arg3,

154                 int arg4, int arg5) {

155             return WritableComparator.compareBytes(arg0, arg1, 8, arg3, arg4, 8);

156         }

157         

158     }

159 }

View Code

代码2.1

　　从上面的代码中我们可以知道，我们自定义了一个分组比较器MyGroupingComparator，该类实现了RawComparator接口，RawComparator又继承了Comparator接口，这两个接口的代码如下：

public interface RawComparator<T> extends Comparator<T> {

  public int compare(byte[] b1, int s1, int l1, byte[] b2, int s2, int l2);



}

public interface Comparator<T> {

    int compare(T o1, T o2);

    boolean equals(Object obj);

}

　　在类MyGroupingComparator中分别对着两个接口中的方法进行了实现，RawComparator中的compare()方法是基于字节的比较，Comparator中的compare()方法是基于对象的比较。在该方法一共有六个参数，如下：
       * @param arg0 表示第一个参与比较的字节数组
       * @param arg1 表示第一个参与比较的字节数组的起始位置
       * @param arg2 表示第一个参与比较的字节数组的偏移量
       *
       * @param arg3 表示第二个参与比较的字节数组
       * @param arg4 表示第二个参与比较的字节数组的起始位置
       * @param arg5 表示第二个参与比较的字节数组的偏移量

　　在于NewK2中存储着两个long类型，每个long类型为8字节，.compareBytes()方法的参数如下：.compareBytes(arg0, arg1, 8, arg3, arg4, 8);因为比较的是第一列，所以读取的偏移量为8字节。由于我们要求出每一分组的最小值，所以还重写Reduce方法，求出每一分租的最小值。最后的运行结果如下图2.1所示

图 2.1

三、MapReduce的一些算法

3.1 MapReduce中Shuffle过程

　　Shuffle是MapReduce过程的核心，了解Shuffle非常有助于理解MapReduce的工作原理。huffle的正常意思是洗牌或弄乱，可能大家更熟悉的是Java API里的Collections.shuffle(List)方法，它会随机地打乱参数list里的元素顺序。如果你不知道MapReduce里Shuffle是什么，那么请看这张图：

　　在该图中分为Map任务和Reduce任务两个部分，从map端到reduce端的红色和绿色的线表示数据流的一个过程，也就是从<K1,V1>到<K2,V2>到<K3,V3>的一个过程。

Map端

　　<1>在map端首先接触的是InputSplit,在InputSplit中含有DataNode中的数据,每一个InputSplit都会分配一个Mapper任务,Mapper任务结束后产生<K2,V 2>的输出，这些输出显存放在缓存中，每个map有一个环形内存缓冲区，用于存储任务的输出。默认大小100MB（io.sort.mb属性），一旦达到阀值0.8(io.sort.spil l.percent),一个后台线程就把内容写到(spill)Linux本地磁盘中的指定目录（mapred.local.dir）下的新建的一个溢出写文件。

　　<2>写磁盘前，要partition,sort。通过分区，将不同类型的数据分开处理，之后对不同分区的数据进行排序，如果有Combiner，还要对排序后的数据进行co mbine。等最后记录写完，将全部溢出文件合并为一个分区且排序的文件。

　　<3>最后将磁盘中的数据送到Reduce中，从图中可以看出Map输出有三个分区，有一个分区数据被送到图示的Reduce任务中，剩下的两个分区被送到其他Reducer任务中。而图示的Reducer任务的其他的三个输入来自其他的Map输出。

Reduce端

　　<1>Reducer通过Http方式得到输出文件的分区。
　　<2>TaskTracker为分区文件运行Reduce任务。复制阶段把Map输出复制到Reducer的内存或磁盘。一个Map任务完成，Reduce就开始复制输出。
　　<3>排序阶段合并map输出。然后走Reduce阶段。

3.2 Hadoop压缩算法

3.2.1 算法介绍

　　Hadoop的压缩过程并不是一个必须的过程，但为什么还要使用呢？在哪些阶段可以使用，有什么好处呢？
<1>在Map输出到Reduce时可以使用，因为map端输出的数据要通过网络输出到Reduce端，为了减少传输的数据量我们可以采用压缩的方式来减少延迟。
<2>在整个作业的输出也可以使用
　　Codec为是压缩，解压缩的算法的实现，在Hadoop中，codec由CompressionCode的实现来表示。下面是一些实现，如下图3.1所示。

图 3.1

3.2.2 MapReduce的输出进行压缩

　　输出的压缩属性，和使用方式：如下图3.2,3.3所示。

图 3.2

图3.3

3.3 常见算法

3.3.1 MapReduce常见算介绍

<1>单词计数(已介绍)
<2>数据去重(去掉重复数据不难理解吧)
<3>排序(在上节已介绍)
<4>Top K(是求最值问题，下面会介绍)

下面算法，跟我们数据库中的方法比较类似，
<5>选择---行

　　　　数据库中：该操作的结果应该是一行一行的显示，相当于where。

　　　　MapReduce的实现：以求最值为例，从100万数据中选出一行最小值。
<6>投影---列

　　　　数据库中：该操作的结果应该是一列一列的显示，相当于select。　　　　

　　　　MapReduce的实现：以求处理手机上网日志为例，从其11个字段选出了五个字段来显示我们的手机上网流量。
<7>分组

　　　　数据库中：相当于group by。　　　　　　　　

　　　　MapReduce的实现：相当于分区，以求处理手机上网日志为例，喊手机号和非手机号分为两组。
<9>多表连接

　　　　MapReduce中：在MapReduce中可以同时进入多个文件进行操作，其中两个文件有关系就相当于表连接。那么如何知道文件之间的关系呢？我可以通过map函数的context参数来获得文件路径代码如下

　　final FileSplit inputSplit = (FileSplit) context.getInputSplit();

　　final String path = inputSplit.getPath().toString();

<10>单表关联　　

　　通过上面的分析我们可以知道，sql中的方法也可以在MapReduce中实现，也就是说当把关系型数据库中的算法全部在MapReduce中实现时，也就意味着sql的使用范围扩展到了Hadoop，也就是大数据领域，这样意义是非常大的。

3.3.2 Top K 最值案例

　　求最值的方法，在我们的生活中应用非常的广，比如找出高考中的最高分，也就是状元，就非常类似分布式计算，要选出全国的最高分就首先选出各省份的，要选出各省份就得选出各市级的等等，而这些数据量非常大，无法直接全部加载到内存中，面对如此大的数据量我就可以考虑使用分布式计算的方式。我们以从100万的数据中求出其中的最大值为例，介绍该方法。

　　求最值最简单的办法就是对该文件进行一次遍历得出最值，但是现实中数据比量比较大，这种方法不能实现。在传统的MapReduce思想中，将文件的数据经过map迭代出来送到reduce中，在Reduce中求出最大值。但这个方法显然不够优化，我们可采用“分而治之”的思想，不需要map的所有数据全部送到reduce中，我们可以在map中先求出最大值，将该map任务的最大值送reduce中，这样就减少了数据的传输量。那么什么时候该把这个数据写出去呢？我们知道，每一个键值对都会调用一次map()，由于数据量大调用map()的次数也就多了，显然在map()函数中将该数据写出去是不明智的，所以最好的办法该Mapper任务结束后将该数据写出去。我们又知道，当Mapper/Reducer任务结束后会调用cleanup函数，所以我们可以在该函数中将该数据写出去。了解了这些我们可以看一下程序的代码如3.1所示。

 1 package suanfa;

 2 

 3 import java.net.URI;

 4 

 5 import mapreduce.WordCountApp;

 6 

 7 import org.apache.hadoop.conf.Configuration;

 8 import org.apache.hadoop.fs.FileSystem;

 9 import org.apache.hadoop.fs.Path;

10 import org.apache.hadoop.io.LongWritable;

11 import org.apache.hadoop.io.NullWritable;

12 import org.apache.hadoop.io.Text;

13 import org.apache.hadoop.mapreduce.Job;

14 import org.apache.hadoop.mapreduce.Mapper;

15 import org.apache.hadoop.mapreduce.Reducer;

16 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

17 import org.apache.hadoop.mapreduce.lib.input.FileSplit;

18 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

19 

20 public class TopKApp {

21     static final String INPUT_PATH = "hdfs://hadoop:9000/input2";

22     static final String OUT_PATH = "hdfs://hadoop:9000/out2";

23     

24     public static void main(String[] args) throws Exception {

25         Configuration conf = new Configuration();

26         final FileSystem fileSystem = FileSystem.get(new URI(INPUT_PATH), conf);

27         final Path outPath = new Path(OUT_PATH);

28         if(fileSystem.exists(outPath)){

29             fileSystem.delete(outPath, true);

30         }

31         

32         final Job job = new Job(conf , WordCountApp.class.getSimpleName());

33         FileInputFormat.setInputPaths(job, INPUT_PATH);

34         job.setMapperClass(MyMapper.class);

35         job.setReducerClass(MyReducer.class);

36         job.setOutputKeyClass(LongWritable.class);

37         job.setOutputValueClass(NullWritable.class);

38         FileOutputFormat.setOutputPath(job, outPath);

39         job.waitForCompletion(true);

40     }

41     static class MyMapper extends Mapper<LongWritable, Text, LongWritable, NullWritable>{

42         long max = Long.MIN_VALUE;

43         protected void map(LongWritable k1, Text v1, Context context) throws java.io.IOException ,InterruptedException {

44             final long temp = Long.parseLong(v1.toString());

45             if(temp>max){

46                 max = temp;

47             }

48         };

49         

50         protected void cleanup(org.apache.hadoop.mapreduce.Mapper<LongWritable,Text,LongWritable, NullWritable>.Context context) throws java.io.IOException ,InterruptedException {

51             context.write(new LongWritable(max), NullWritable.get());

52         };

53     }

54 

55     static class MyReducer extends Reducer<LongWritable, NullWritable, LongWritable, NullWritable>{

56         long max = Long.MIN_VALUE;

57         protected void reduce(LongWritable k2, java.lang.Iterable<NullWritable> arg1, org.apache.hadoop.mapreduce.Reducer<LongWritable,NullWritable,LongWritable,NullWritable>.Context arg2) throws java.io.IOException ,InterruptedException {

58             final long temp = k2.get();

59             if(temp>max){

60                 max = temp;

61             }

62         };

63         

64         protected void cleanup(org.apache.hadoop.mapreduce.Reducer<LongWritable,NullWritable,LongWritable,NullWritable>.Context context) throws java.io.IOException ,InterruptedException {

65             context.write(new LongWritable(max), NullWritable.get());

66         };

67     }        

68 }

View Code

代码3.1

运行结果为：32767，也就是我们数据中的最大值

你可能感兴趣的:(mapreduce)

浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
Hadoop windows intelij 跑 MR WordCount piziyang12138
一、软件环境我使用的软件版本如下:IntellijIdea2017.1Maven3.3.9Hadoop分布式环境二、创建maven工程打开Idea,file->new->Project,左侧面板选择maven工程。(如果只跑MapReduce创建java工程即可，不用勾选Creatfromarchetype，如果想创建web工程或者使用骨架可以勾选)image.png设置GroupId和Artif
ArcGIS地图切片原理与算法数智侠 GIS
ArcGIS地图切图系列之（一）切片原理解析点击打开链接ArcGIS地图切图系列之（二）JAVA实现点击打开链接ArcGIS地图切图系列之（三）MapReduce实现点击打开链接
数据中台建设方案-基于大数据平台(下) FRDATA1550333 大数据数据库架构数据库开发数据库
数据中台建设方案-基于大数据平台(下)1数据中台建设方案1.1总体建设方案1.2大数据集成平台1.3大数据计算平台1.3.1数据计算层建设计算层技术含量最高，最为活跃，发展也最为迅速。计算层主要实现各类数据的加工、处理和计算，为上层应用提供良好和充分的数据支持。大数据基础平台技术能力的高低，主要依赖于该层组件的发展。本建设方案满足甲方对于数据计算层建设的基本要求：利用了MapReduce、Spar
MIT6.824 课程-MapReduce 余为民同志 6.824 mapreduce 分布式 6.824
MapReduce：在大型集群上简化数据处理概要MapReduce是一种编程模型，它是一种用于处理和生成大型数据集的实现。用户通过指定一个用来处理键值对(Key/Value)的map函数来生成一个中间键值对集合。然后，再指定一个reduce函数，它用来合并所有的具有相同中间key的中间value。现实生活中有许多任务可以通过该模型进行表达，具体案例会在论文中展现出来。以这种函数式风格编写的程序能够
Hadoop之mapreduce -- WrodCount案例以及各种概念 lzhlizihang hadoop mapreduce 大数据
文章目录一、MapReduce的优缺点二、MapReduce案例--WordCount1、导包2、Mapper方法3、Partitioner方法（自定义分区器）4、reducer方法5、driver（main方法）6、Writable（手机流量统计案例的实体类）三、关于片和块1、什么是片，什么是块？2、mapreduce启动多少个MapTask任务？四、MapReduce的原理五、Shuffle过
Yarn介绍 - 大数据框架 why do not 大数据 hadoop
YARN的概述YARN是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序YARN是Hadoop2.x版本中的一个新特性。它的出现其实是为了解决第一代MapReduce编程框架的不足，提高集群环境下的资源利用率，这些资源包括内存，磁盘，网络，IO等。Hadoop2.X版本中重新设计的这个YARN集群
浅析大数据Hadoop之YARN架构 haotian1685 python 数据清洗人工智能大数据大数据学习深度学习大数据大数据学习 YARN hadoop
1.YARN本质上是资源管理系统。YARN提供了资源管理和资源调度等机制1.1原HadoopMapReduce框架对于业界的大数据存储及分布式处理系统来说，Hadoop是耳熟能详的卓越开源分布式文件存储及处理框架，对于Hadoop框架的介绍在此不再累述，读者可参考Hadoop官方简介。使用和学习过老Hadoop框架（0.20.0及之前版本）的同仁应该很熟悉如下的原MapReduce框架图：1.2H
Hive的优势与使用场景傲雪凌霜，松柏长青后端大数据 hive hadoop 数据仓库
Hive的优势Hive作为一个构建在Hadoop上的数据仓库工具，具有许多优势，特别是在处理大规模数据分析任务时。以下是Hive的主要优势：1.与Hadoop生态系统的紧密集成Hive构建在Hadoop分布式文件系统(HDFS)之上，能够处理海量数据并进行分布式计算。它利用Hadoop的MapReduce或Spark来执行查询，具备高度扩展性，适合大数据处理。2.支持SQL-like查询语言(Hi
Spark概念知识笔记 kuntoria
最近总结了个人的各项能力，发现在大数据这方面几乎没有涉及，因此想补充这方面的知识，丰富自己的知识体系，大数据生态主要包含：Hadoop和Spark两个部分，Spark作用相当于MapReduceMapReduce和Spark对比如下磁盘由于其物理特性现在，速度提升非常困难，远远跟不上CPU和内存的发展速度。近几十年来，内存的发展一直遵循摩尔定律，价格在下降，内存在增加。现在主流的服务器，几百GB或
【Hadoop】- MapReduce & YARN 初体验[9] 星星法术嗲人 hadoop hadoop mapreduce
目录提交MapReduce程序至YARN运行1、提交wordcount示例程序1.1、先准备words.txt文件上传到hdfs，文件内容如下：1.2、在hdfs中创建两个文件夹，分别为/input、/output1.3、将创建好的words.txt文件上传到hdfs中/input1.4、提交MapReduce程序至YARN1.5、可通过node1:8088查看1.6、返回我们的服务器，检查输出文
DAG (directed acyclic graph) 作为大数据执行引擎的优点 joeywen 分布式计算 Storm Spark Storm 杂谈 Storm spark DAG
TL;DR-ConceptuallyDAGmodelisastrictgeneralizationofMapReducemodel.DAG-basedsystemslikeSparkandTezthatareawareofthewholeDAGofoperationscandobetterglobaloptimizationsthansystemslikeHadoopMapReducewhicha
Hadoop组件静听山水 Hadoop hadoop
这张图片展示了Hadoop生态系统的一些主要组件。Hadoop是一个开源的大数据处理框架，由Apache基金会维护。以下是每个组件的简短介绍：HBase：一个分布式、面向列的NoSQL数据库，基于GoogleBigTable的设计理念构建。HBase提供了实时读写访问大量结构化和半结构化数据的能力，非常适合大规模数据存储。Pig：一种高级数据流语言和执行引擎，用于编写MapReduce任务。Pig
Hadoop-MapReduce机制原理 H.S.T不想卷大数据 hadoop mapreduce 大数据
MapReduce机制原理1、MapReduce概述2、MapReduce特点3、MapReduce局限性4、MapTask5、Map阶段步骤：6、Reduce阶段步骤：7、MapReduce阶段图1、MapReduce概述 HadoopMapReduce是一个分布式计算框架，用于轻松编写分布式应用程序，这些应用程序以可靠，容错的方式并行处理大型硬件集群（数千个节点）上的大量数据（多TB数据集）
EMR组件部署指南 ivwdcwso 运维 EMR 大数据开源运维
EMR(ElasticMapReduce)是一个大数据处理和分析平台,包含了多个开源组件。本文将详细介绍如何部署EMR的主要组件,包括:JDK1.8ElasticsearchKafkaFlinkZookeeperHBaseHadoopPhoenixScalaSparkHive准备工作所有操作都在/data目录下进行。首先安装JDK1.8:yuminstalljava-1.8.0-openjdk部署
hive学习记录 2302_80695227 hive 学习 hadoop
一、Hive的基本概念定义：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。Hive将HQL（HiveQueryLanguage）转化成MapReduce程序或其他分布式计算引擎（如Tez、Spark）的任务进行计算。数据存储：Hive处理的数据存储在HDFS（HadoopDistributedFileSystem）上。执行引擎：Hive的
Mapreduce是什么 whisky丶
简单来说，MapReduce是一个编程模型，用以进行大数据量的计算。HadoopMapReduce是一个软件框架，基于该框架能够容易地编写应用程序，这些应用程序能够运行在由上千个商用机器组成的大集群上，并以一种可靠的，具有容错能力的方式并行地处理上TB级别的海量数据集。Mapreduce的特点：软件框架并行处理可靠且容错大规模集群海量数据集
Hadoop之MapReduce qq_43198449
1.MapReduce解决的问题1)数据问题：10G的TXT文件2)生活问题：统计分类上海市的图书馆的书2.MapReduce是什么MapReduce是一种分布式的离线计算框架，是一种编程模型，用于大规模数据集(大于1TB)的并行运算将自己的程序运行在分布式系统上。概念是：Map(映射)"和"Reduce(归约)指定一个Map(映射)函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduc
生产环境中MapReduce的最佳实践大数据深度洞察 Hadoop mapreduce 大数据
目录MapReduce跑的慢的原因MapReduce常用调优参数1.MapTask相关参数2.ReduceTask相关参数3.总体调优参数4.其他重要参数调优策略MapReduce数据倾斜问题1.数据预处理2.自定义Partitioner3.调整Reduce任务数4.小文件问题处理5.二次排序6.使用桶表7.使用随机前缀8.参数调优实施步骤MapReduce跑的慢的原因MapReduce程序效率的
Hive 运行在 Tez 上爱吃酸梨大数据
Tez介绍Tez是一种基于内存的计算框架，速度比MapReduce要快解释：浅蓝色方块表示Map任务，绿色方块表示Reduce任务，蓝色边框的云朵表示中间结果落地磁盘。Tez下载Tez官网Tez在Hive上的运用前提要有Hadoop集群上传Tez压缩包到Hive节点上tar-zxvfapache-tez-0.9.1-bin.tar.gz-C/opt/module/tez-0.9.1修改$HIVE_
经验笔记：Hadoop 漆黑的莫莫随手笔记笔记 hadoop 大数据
Hadoop经验笔记一、Hadoop概述Hadoop是一个开源软件框架，用于分布式存储和处理大规模数据集。其设计目的是为了在商用硬件上运行，具备高容错性和可扩展性。Hadoop的核心是HadoopDistributedFileSystem(HDFS)和YARN(YetAnotherResourceNegotiator)，这两个组件加上MapReduce编程模型，构成了Hadoop的基本架构。二、H
大数据毕业设计hadoop+spark+hive微博舆情情感分析知识图谱微博推荐系统 qq_79856539 javaweb 大数据 hadoop 课程设计
（一）Selenium自动化Python爬虫工具采集新浪微博评论、热搜、文章等约10万条存入.csv文件作为数据集；（二）使用pandas+numpy或MapReduce对数据进行数据清洗，生成最终的.csv文件并上传到hdfs；（三）使用hive数仓技术建表建库，导入.csv数据集；（四）离线分析采用hive_sql完成，实时分析利用Spark之Scala完成;（五）统计指标使用sqoop导入m
Data-Intensive Text Processing with MapReduce 西二旗小码农自然语言处理（NLP）mapreduce processing 算法 integer hadoop pair
大量高效的MapReduce程序因为它简单的编写方法而产生：除了准备输入数据之外，程序员只需要实现mapper和ruducer接口，或加上合并器（combiner）和分配器（partitioner）。所有其他方面的执行都透明地控制在由一个节点到上千个节点组成的，数据级别达到GB到PB级别的集群的执行框架中。然而，这就意味着程序员想在上面实现的算法必须表现为一些严格定义的组件，必须用特殊的方法把它们
双十一云起实验室体验专场，七大场景，体验有礼阿里云天池体验场景活动云计算大数据容器云原生
云起实验室云起实验室是阿里云为开发者打造的一站式体验学习平台，在这里你可以了解并亲自动手体验各类云产品和云计算基础，无需关注资源开通和底层产品，无需任何费用。只要有一颗想要了解云、学习云、体验云的心，这里就是你的上云第一站。场景介绍此次体验《双十一云起实验室体验专场》，涉及七大技术场景实践体验，云上实践，云上成长。\大数据计算场景《基于EMR离线数据分析》E-MapReduce（简称“EMR”）是
小白学习大数据测试之hadoop hdfs和MapReduce小实战大数据学习02
转发是对小编的最大支持在湿货|大数据测试之hadoop单机环境搭建(超级详细版)这个基础上，我们来运行一个官网的MapReducedemo程序来看看效果和处理过程。大致步骤如下：新建一个文件test.txt，内容为HelloHadoopHelloxiaoqiangHellotestingbangHellohttp://xqtesting.sxl.cn将test.txt上传到hdfs的根目录/usr
虚拟机安装hadoop，hbase（单机伪集群模式）流~星~雨大数据相关 hadoop hbase 大数据
虚拟机安装Hadoop，Hbase工作中遇到了大数据方面的一些技术栈，没有退路可言，只能去学习掌握它，就像当初做爬虫一样（虽然很简单），在数据爆发的现在，传统的数据库mysql，oracle显然在处理大数据量级的数据时显得力不从心，所以有些特定的业务需要引进能够处理大数据量的数据库，hadoop提供了分布式文件系统（HDFS）来存储数据，又提供了分布式计算框架（mapreduce）来对这些数据进行
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/

Hadoop日记Day18---MapReduce排序分组

MapReduce的排序分组任务与要求

一、 排序算法

1.1 MapReduce默认排序算法

1.2 自定义排序算法

二、分组算法

2.1 MapReduce默认分组

2.2 自定义分组比较器

三、MapReduce的一些算法

3.1 MapReduce中Shuffle过程

3.2 Hadoop压缩算法

3.2.1 算法介绍

3.2.2 MapReduce的输出进行压缩

3.3 常见算法

3.3.1 MapReduce常见算介绍

3.3.2 Top K 最值案例

你可能感兴趣的:(mapreduce)

一、排序算法