Hadoop日记Day17---计数器、map规约、分区学习

一、Hadoop计数器

1.1 什么是Hadoop计数器

　　Haoop是处理大数据的，不适合处理小数据，有些大数据问题是小数据程序是处理不了的，他是一个高延迟的任务，有时处理一个大数据需要花费好几个小时这都是正常的。下面我们说一下Hadoop计数器，Hadoop计数器就相当于我们的日志，而日志可以让我们查看程序运行时的很多状态，而计数器也有这方面的作用。那么就研究一下Hadoop自身的计数器。计数器的程序如代码1.1所示，下面代码还是以内容为“hello you；hell0 me”的单词统计为例。

 1 package counter;

 2 

 3 import java.net.URI;

 4 

 5 import org.apache.hadoop.conf.Configuration;

 6 import org.apache.hadoop.fs.FileSystem;

 7 import org.apache.hadoop.fs.Path;

 8 import org.apache.hadoop.io.LongWritable;

 9 import org.apache.hadoop.io.Text;

10 import org.apache.hadoop.mapreduce.Counter;

11 import org.apache.hadoop.mapreduce.Job;

12 import org.apache.hadoop.mapreduce.Mapper;

13 import org.apache.hadoop.mapreduce.Reducer;

14 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

15 import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

16 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

17 import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

18 import org.apache.hadoop.mapreduce.lib.partition.HashPartitioner;

19 

20 public class WordCountApp {

21     static final String INPUT_PATH = "hdfs://hadoop:9000/input";

22     static final String OUT_PATH = "hdfs://hadoop:9000/output";

23     

24     public static void main(String[] args) throws Exception {

25         

26         Configuration conf = new Configuration();

27         

28         final FileSystem fileSystem = FileSystem.get(new URI(INPUT_PATH), conf);

29         final Path outPath = new Path(OUT_PATH);

30         

31         if(fileSystem.exists(outPath)){

32             fileSystem.delete(outPath, true);

33         }        

34         final Job job = new Job(conf , WordCountApp.class.getSimpleName());

35         

36         //1.1指定读取的文件位于哪里

37         FileInputFormat.setInputPaths(job, INPUT_PATH);        

38         job.setInputFormatClass(TextInputFormat.class);//指定如何对输入文件进行格式化，把输入文件每一行解析成键值对

39         

40         //1.2 指定自定义的map类

41         job.setMapperClass(MyMapper.class);

42         job.setMapOutputKeyClass(Text.class);//map输出的<k,v>类型。

43         job.setMapOutputValueClass(LongWritable.class);//如果<k3,v3>的类型与<k2,v2>类型一致，则可以省略

44         

45         //1.3 分区

46         job.setPartitionerClass(HashPartitioner.class);        

47         job.setNumReduceTasks(1);//有一个reduce任务运行                

48         

49         //2.2 指定自定义reduce类

50         job.setReducerClass(MyReducer.class);

51         

52         job.setOutputKeyClass(Text.class);//指定reduce的输出类型

53         job.setOutputValueClass(LongWritable.class);

54         

55         //2.3 指定写出到哪里

56         FileOutputFormat.setOutputPath(job, outPath);        

57         job.setOutputFormatClass(TextOutputFormat.class);//指定输出文件的格式化类

58                 

59         job.waitForCompletion(true);//把job提交给JobTracker运行

60     }

61     

62     /**

63      * KEYIN    即k1        表示行的偏移量

64      * VALUEIN    即v1        表示行文本内容

65      * KEYOUT    即k2        表示行中出现的单词

66      * VALUEOUT    即v2        表示行中出现的单词的次数，固定值1

67      */

68     static class MyMapper extends Mapper<LongWritable, Text, Text, LongWritable>{

69         protected void map(LongWritable k1, Text v1, Context context) throws java.io.IOException ,InterruptedException {            

70             final String line = v1.toString();        

71             final String[] splited = line.split("\t");

72             for (String word : splited) {

73                 context.write(new Text(word), new LongWritable(1));

74             }

75         };

76     }

77     

78     /**

79      * KEYIN    即k2        表示行中出现的单词

80      * VALUEIN    即v2        表示行中出现的单词的次数

81      * KEYOUT    即k3        表示文本中出现的不同单词

82      * VALUEOUT    即v3        表示文本中出现的不同单词的总次数

83      *

84      */

85     static class MyReducer extends Reducer<Text, LongWritable, Text, LongWritable>{

86         protected void reduce(Text k2, java.lang.Iterable<LongWritable> v2s, Context ctx) throws java.io.IOException ,InterruptedException {

87             long times = 0L;

88             for (LongWritable count : v2s) {

89                 times += count.get();

90             }

91             ctx.write(k2, new LongWritable(times));

92         };

93     }

94         

95 }

View Code

代码 1.1

　　运行结果如下图1.1所示。

Counters: 19//Counter表示计数器，19表示有19个计数器（下面一共4计数器组）

   File Output Format Counters //文件输出格式化计数器组

     Bytes Written=19       //reduce输出到hdfs的字节数，一共19个字节

   FileSystemCounters//文件系统计数器组

     FILE_BYTES_READ=481

     HDFS_BYTES_READ=38

     FILE_BYTES_WRITTEN=81316

     HDFS_BYTES_WRITTEN=19 File Input Format Counters //文件输入格式化计数器组

     Bytes Read=19     //map从hdfs读取的字节数

   Map-Reduce Framework//MapReduce框架

     Map output materialized bytes=49 Map input records=2       //map读入的记录行数，读取两行记录,”hello you”,”hello me”

     Reduce shuffle bytes=0//规约分区的字节数

     Spilled Records=8

     Map output bytes=35

     Total committed heap usage (bytes)=266469376

     SPLIT_RAW_BYTES=105 Combine input records=0//合并输入的记录数

     Reduce input records=4     //reduce从map端接收的记录行数

     Reduce input groups=3     //reduce函数接收的key数量，即归并后的k2数量

     Combine output records=0//合并输出的记录数

     Reduce output records=3    //reduce输出的记录行数。<helllo,{1,1}>,<you,{1}>,<me,{1}>

     Map output records=4     //map输出的记录行数，输出4行记录

图 1.1

　　通过上面我们对计数器的分析，可以知道，我们可以通过计数器来分析MapReduece程序的运行状态。

1.2 自定义计数器

　　通过上面的分析，我们了解了计数器的作用，那么我们可以自定义一个计数器，来实现我们自己想要的功能。如定义一个记录敏感词的计数器，记录敏感词在一行所出现的次数，如代码2.1所示。我们处理文件内容为“hello you”，“hello me”。

 1 Counters: 19//Counter表示计数器，19表示有19个计数器（下面一共4计数器组）

 2    File Output Format Counters //文件输出格式化计数器组

 3      Bytes Written=19       //reduce输出到hdfs的字节数，一共19个字节

 4    FileSystemCounters//文件系统计数器组

 5      FILE_BYTES_READ=481

 6      HDFS_BYTES_READ=38

 7      FILE_BYTES_WRITTEN=81316

 8      HDFS_BYTES_WRITTEN=19

 9    File Input Format Counters //文件输入格式化计数器组

10      Bytes Read=19     //map从hdfs读取的字节数

11    Map-Reduce Framework//MapReduce框架

12      Map output materialized bytes=49

13      Map input records=2       //map读入的记录行数，读取两行记录,”hello you”,”hello me”

14      Reduce shuffle bytes=0//规约分区的字节数

15      Spilled Records=8

16      Map output bytes=35

17      Total committed heap usage (bytes)=266469376

18      SPLIT_RAW_BYTES=105

19      Combine input records=0//合并输入的记录数

20      Reduce input records=4     //reduce从map端接收的记录行数

21      Reduce input groups=3     //reduce函数接收的key数量，即归并后的k2数量

22      Combine output records=0//合并输出的记录数

23      Reduce output records=3    //reduce输出的记录行数。<helllo,{1,1}>,<you,{1}>,<me,{1}>

24      Map output records=4     //map输出的记录行数，输出4行记录

View Code

代码2.1

运行结果如下图2.1所示。

 Counters: 20 Sensitive Words

     hello=2 File Output Format Counters 

     Bytes Written=21 FileSystemCounters

     FILE_BYTES_READ=359

     HDFS_BYTES_READ=42

     FILE_BYTES_WRITTEN=129080

     HDFS_BYTES_WRITTEN=21 File Input Format Counters 

     Bytes Read=21 Map-Reduce Framework

     Map output materialized bytes=67

     Map input records=2

     Reduce shuffle bytes=0

     Spilled Records=8

     Map output bytes=53

     Total committed heap usage (bytes)=391774208

     SPLIT_RAW_BYTES=95 Combine input records=0

     Reduce input records=4

     Reduce input groups=3 Combine output records=0

     Reduce output records=3

     Map output records=4

图 2.1

二、Combiners编程

2.1 什么是Combiners

　　从上面程序运行的结果我们可以发现，在Map-Reduce Framework即MapReduce框架的输出中，Combine input records这个字段为零，那么combine怎么使用呢？其实这是MapReduce程序中Mapper任务中第五步，这是可选的一步，使用方法非常简单，以上面单词统计为例，只需添加下面一行代码即可，如下： job.setCombinerClass(MyReducer.class);

　　combine操作是一个可选的操作，使用时需要我们自己设定，我们用MyReducer类来设置Combiners，表示Combiners与Reduce功能相同，带有combine功能的MapRduce程序如代码3.1所示。

  1 package combine;

  2 

  3 import java.net.URI;

  4 

  5 import org.apache.hadoop.conf.Configuration;

  6 import org.apache.hadoop.fs.FileSystem;

  7 import org.apache.hadoop.fs.Path;

  8 import org.apache.hadoop.io.LongWritable;

  9 import org.apache.hadoop.io.Text;

 10 import org.apache.hadoop.mapreduce.Job;

 11 import org.apache.hadoop.mapreduce.Mapper;

 12 import org.apache.hadoop.mapreduce.Partitioner;

 13 import org.apache.hadoop.mapreduce.Reducer;

 14 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 15 import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

 16 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 17 import org.apache.jasper.tagplugins.jstl.core.If;

 18 

 19 public class WordCountApp2 {

 20     static final String INPUT_PATH = "hdfs://hadoop:9000/hello";

 21     static final String OUT_PATH = "hdfs://hadoop:9000/out";

 22     

 23     public static void main(String[] args) throws Exception {

 24         Configuration conf = new Configuration();

 25         final FileSystem fileSystem = FileSystem.get(new URI(INPUT_PATH), conf);

 26         final Path outPath = new Path(OUT_PATH);

 27         if(fileSystem.exists(outPath)){

 28             fileSystem.delete(outPath, true);

 29         }

 30         final Job job = new Job(conf , WordCountApp2.class.getSimpleName());

 31         job.setJarByClass(WordCountApp2.class);

 32         

 33         //1.1指定读取的文件位于哪里

 34         FileInputFormat.setInputPaths(job, INPUT_PATH);        

 35         job.setInputFormatClass(TextInputFormat.class);//指定如何对输入文件进行格式化，把输入文件每一行解析成键值对

 36         

 37         //1.2 指定自定义的map类

 38         job.setMapperClass(MyMapper.class);

 39         job.setMapOutputKeyClass(Text.class);//map输出的<k,v>类型。

 40         job.setMapOutputValueClass(LongWritable.class);//如果<k3,v3>的类型与<k2,v2>类型一致，则可以省略

 41         

 42         //1.3 分区

 43         job.setPartitionerClass(MyPartitioner.class);

 44         //有几个reduce任务运行

 45         job.setNumReduceTasks(2);

 46         

 47         //1.4 TODO 排序、分组

 48         

 49         //1.5 规约

 50         job.setCombinerClass(MyCombiner.class);

 51         

 52         //2.2 指定自定义reduce类

 53         job.setReducerClass(MyReducer.class);

 54         //指定reduce的输出类型

 55         job.setOutputKeyClass(Text.class);

 56         job.setOutputValueClass(LongWritable.class);

 57         

 58         //2.3 指定写出到哪里

 59         FileOutputFormat.setOutputPath(job, outPath);

 60         //指定输出文件的格式化类

 61         //job.setOutputFormatClass(TextOutputFormat.class);

 62         

 63         //把job提交给JobTracker运行

 64         job.waitForCompletion(true);

 65     }

 66     

 67     static class MyPartitioner extends Partitioner<Text, LongWritable>{

 68         @Override

 69         public int getPartition(Text key, LongWritable value, int numReduceTasks) {

 70             return (key.toString().equals("hello"))?0:1;

 71         }

 72     }

 73     

 74     /**

 75      * KEYIN    即k1        表示行的偏移量

 76      * VALUEIN    即v1        表示行文本内容

 77      * KEYOUT    即k2        表示行中出现的单词

 78      * VALUEOUT    即v2        表示行中出现的单词的次数，固定值1

 79      */

 80     static class MyMapper extends Mapper<LongWritable, Text, Text, LongWritable>{

 81         protected void map(LongWritable k1, Text v1, Context context) throws java.io.IOException ,InterruptedException {

 82             final String[] splited = v1.toString().split("\t");

 83             for (String word : splited) {

 84                 context.write(new Text(word), new LongWritable(1));

 85                 System.out.println("Mapper输出<"+word+","+1+">");

 86             }

 87         };

 88     }

 89     

 90     /**

 91      * KEYIN    即k2        表示行中出现的单词

 92      * VALUEIN    即v2        表示行中出现的单词的次数

 93      * KEYOUT    即k3        表示文本中出现的不同单词

 94      * VALUEOUT    即v3        表示文本中出现的不同单词的总次数

 95      *

 96      */

 97     static class MyReducer extends Reducer<Text, LongWritable, Text, LongWritable>{

 98         protected void reduce(Text k2, java.lang.Iterable<LongWritable> v2s, Context ctx) throws java.io.IOException ,InterruptedException {

 99             //显示次数表示redcue函数被调用了多少次，表示k2有多少个分组

100             System.out.println("MyReducer输入分组<"+k2.toString()+",...>");

101             long times = 0L;

102             for (LongWritable count : v2s) {

103                 times += count.get();

104                 //显示次数表示输入的k2,v2的键值对数量

105                 System.out.println("MyReducer输入键值对<"+k2.toString()+","+count.get()+">");

106             }

107             ctx.write(k2, new LongWritable(times));

108         };

109     }

110     

111     

112     static class MyCombiner extends Reducer<Text, LongWritable, Text, LongWritable>{

113         protected void reduce(Text k2, java.lang.Iterable<LongWritable> v2s, Context ctx) throws java.io.IOException ,InterruptedException {

114             //显示次数表示redcue函数被调用了多少次，表示k2有多少个分组

115             System.out.println("Combiner输入分组<"+k2.toString()+",...>");

116             long times = 0L;

117             for (LongWritable count : v2s) {

118                 times += count.get();

119                 //显示次数表示输入的k2,v2的键值对数量

120                 System.out.println("Combiner输入键值对<"+k2.toString()+","+count.get()+">");

121             }

122             

123             ctx.write(k2, new LongWritable(times));

124             //显示次数表示输出的k2,v2的键值对数量

125             System.out.println("Combiner输出键值对<"+k2.toString()+","+times+">");

126         };

127     }

128 }

View Code

代码 3.1

　　运行结果如下图3.1所示。

Counters: 20 Sensitive Words

     hello=2 File Output Format Counters 

     Bytes Written=21 FileSystemCounters

     FILE_BYTES_READ=359

     HDFS_BYTES_READ=42

     FILE_BYTES_WRITTEN=129080

     HDFS_BYTES_WRITTEN=21 File Input Format Counters 

     Bytes Read=21 Map-Reduce Framework

     Map output materialized bytes=67

     Map input records=2

     Reduce shuffle bytes=0

     Spilled Records=8

     Map output bytes=53

     Total committed heap usage (bytes)=391774208

     SPLIT_RAW_BYTES=95

     Combine input records=4

     Reduce input records=3

     Reduce input groups=3

     Combine output records=3

     Reduce output records=3

     Map output records=4

图 3.1

　　从上面的运行结果我们可以发现，此时Combine input records=4，Combine output records=3，Reduce input records=3，因为Combine阶段在Ma pper结束与Reducer开始之间，Combiners处理的数据，就是在不设置Combiners时，Reduce所应该接受的数据，所以为4，然后再将Combiners的输出作为Re duce端的输入，所以Reduce input records这个字段由4变成了3。注意，combine操作是一个可选的操作，使用时需要我们自己设定，在本代码中我们用MyRed ucer类来设置Combiners，Combine方法的使用的是Reduce的方法，这说明归约的方法是通用的，Reducer阶段的方法也可以用到Mapper阶段。

2.1 自定义Combiners

　　为了能够更加清晰的理解Combiners的工作原理，我们自定义一个Combiners类，不再使用MyReduce做为Combiners的类，如代码3.2所示。

  1 package combine;

  2 

  3 import java.net.URI;

  4 

  5 import org.apache.hadoop.conf.Configuration;

  6 import org.apache.hadoop.fs.FileSystem;

  7 import org.apache.hadoop.fs.Path;

  8 import org.apache.hadoop.io.LongWritable;

  9 import org.apache.hadoop.io.Text;

 10 import org.apache.hadoop.mapreduce.Job;

 11 import org.apache.hadoop.mapreduce.Mapper;

 12 import org.apache.hadoop.mapreduce.Partitioner;

 13 import org.apache.hadoop.mapreduce.Reducer;

 14 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 15 import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

 16 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 17 import org.apache.jasper.tagplugins.jstl.core.If;

 18 

 19 /**

 20  * 问：为什么使用Combiner？

 21  * 答：Combiner发生在Map端，对数据进行规约处理，数据量变小了，传送到reduce端的数据量变小了，传输时间变短，作业的整体时间变短。

 22  * 

 23  * 问：为什么Combiner不作为MR运行的标配，而是可选步骤哪？

 24  * 答：因为不是所有的算法都适合使用Combiner处理，例如求平均数。

 25  *

 26  * 问：Combiner本身已经执行了reduce操作，为什么在Reducer阶段还要执行reduce操作哪？

 27  * 答：combiner操作发生在map端的，处理一个任务所接收的文件中的数据，不能跨map任务执行；只有reduce可以接收多个map任务处理的数据。

 28  *

 29  */

 30 public class WordCountApp2 {

 31     static final String INPUT_PATH = "hdfs://hadoop:9000/hello";

 32     static final String OUT_PATH = "hdfs://hadoop:9000/out";

 33     

 34     public static void main(String[] args) throws Exception {

 35         Configuration conf = new Configuration();

 36         final FileSystem fileSystem = FileSystem.get(new URI(INPUT_PATH), conf);

 37         final Path outPath = new Path(OUT_PATH);

 38         if(fileSystem.exists(outPath)){

 39             fileSystem.delete(outPath, true);

 40         }

 41         final Job job = new Job(conf , WordCountApp2.class.getSimpleName());

 42         job.setJarByClass(WordCountApp2.class);

 43         

 44         //1.1指定读取的文件位于哪里

 45         FileInputFormat.setInputPaths(job, INPUT_PATH);        

 46         job.setInputFormatClass(TextInputFormat.class);//指定如何对输入文件进行格式化，把输入文件每一行解析成键值对

 47         

 48         //1.2 指定自定义的map类

 49         job.setMapperClass(MyMapper.class);

 50         job.setMapOutputKeyClass(Text.class);//map输出的<k,v>类型。

 51         job.setMapOutputValueClass(LongWritable.class);//如果<k3,v3>的类型与<k2,v2>类型一致，则可以省略

 52         

 53         //1.3 分区

 54         job.setPartitionerClass(MyPartitioner.class);

 55         //有几个reduce任务运行

 56         job.setNumReduceTasks(2);

 57         

 58         //1.4 TODO 排序、分组

 59         

 60         //1.5 规约

 61         job.setCombinerClass(MyCombiner.class);

 62         

 63         //2.2 指定自定义reduce类

 64         job.setReducerClass(MyReducer.class);

 65         //指定reduce的输出类型

 66         job.setOutputKeyClass(Text.class);

 67         job.setOutputValueClass(LongWritable.class);

 68         

 69         //2.3 指定写出到哪里

 70         FileOutputFormat.setOutputPath(job, outPath);

 71         //指定输出文件的格式化类

 72         //job.setOutputFormatClass(TextOutputFormat.class);

 73         

 74         //把job提交给JobTracker运行

 75         job.waitForCompletion(true);

 76     }

 77     

 78     static class MyPartitioner extends Partitioner<Text, LongWritable>{

 79         @Override

 80         public int getPartition(Text key, LongWritable value, int numReduceTasks) {

 81             return (key.toString().equals("hello"))?0:1;

 82         }

 83     }

 84     

 85     /**

 86      * KEYIN    即k1        表示行的偏移量

 87      * VALUEIN    即v1        表示行文本内容

 88      * KEYOUT    即k2        表示行中出现的单词

 89      * VALUEOUT    即v2        表示行中出现的单词的次数，固定值1

 90      */

 91     static class MyMapper extends Mapper<LongWritable, Text, Text, LongWritable>{

 92         protected void map(LongWritable k1, Text v1, Context context) throws java.io.IOException ,InterruptedException {

 93             final String[] splited = v1.toString().split("\t");

 94             for (String word : splited) {

 95                 context.write(new Text(word), new LongWritable(1));

 96                 System.out.println("Mapper输出<"+word+","+1+">");

 97             }

 98         };

 99     }

100     

101     /**

102      * KEYIN    即k2        表示行中出现的单词

103      * VALUEIN    即v2        表示行中出现的单词的次数

104      * KEYOUT    即k3        表示文本中出现的不同单词

105      * VALUEOUT    即v3        表示文本中出现的不同单词的总次数

106      *

107      */

108     static class MyReducer extends Reducer<Text, LongWritable, Text, LongWritable>{

109         protected void reduce(Text k2, java.lang.Iterable<LongWritable> v2s, Context ctx) throws java.io.IOException ,InterruptedException {

110             //显示次数表示redcue函数被调用了多少次，表示k2有多少个分组

111             System.out.println("MyReducer输入分组<"+k2.toString()+",...>");

112             long times = 0L;

113             for (LongWritable count : v2s) {

114                 times += count.get();

115                 //显示次数表示输入的k2,v2的键值对数量

116                 System.out.println("MyReducer输入键值对<"+k2.toString()+","+count.get()+">");

117             }

118             ctx.write(k2, new LongWritable(times));

119         };

120     }

121     

122     

123     static class MyCombiner extends Reducer<Text, LongWritable, Text, LongWritable>{

124         protected void reduce(Text k2, java.lang.Iterable<LongWritable> v2s, Context ctx) throws java.io.IOException ,InterruptedException {

125             //显示次数表示redcue函数被调用了多少次，表示k2有多少个分组

126             System.out.println("Combiner输入分组<"+k2.toString()+",...>");

127             long times = 0L;

128             for (LongWritable count : v2s) {

129                 times += count.get();

130                 //显示次数表示输入的k2,v2的键值对数量

131                 System.out.println("Combiner输入键值对<"+k2.toString()+","+count.get()+">");

132             }

133             

134             ctx.write(k2, new LongWritable(times));

135             //显示次数表示输出的k2,v2的键值对数量

136             System.out.println("Combiner输出键值对<"+k2.toString()+","+times+">");

137         };

138     }

139 }

View Code

代码 3.2

运行结果如图3.2所示。

14/10/07 18:56:32 INFO mapred.MapTask: record buffer = 262144/327680

Mapper输出<hello,1>

14/10/07 18:56:32 INFO mapred.MapTask: Starting flush of map output

Mapper输出<world,1>

Mapper输出<hello,1>

Mapper输出<me,1>

Combiner输入分组<hello,...>

Combiner输入键值对<hello,1>

Combiner输入键值对<hello,1>

Combiner输出键值对<hello,2>

Combiner输入分组<me,...>

Combiner输入键值对<me,1>

Combiner输出键值对<me,1>

Combiner输入分组<world,...>

Combiner输入键值对<world,1>

Combiner输出键值对<world,1>

14/10/07 18:56:32 INFO mapred.MapTask: Finished spill 0

14/10/07 18:56:32 INFO mapred.Task: Task:attempt_local_0001_m_000000_0 is done. And is in the process of commiting

14/10/07 18:56:32 INFO mapred.LocalJobRunner: 

14/10/07 18:56:32 INFO mapred.Task: Task 'attempt_local_0001_m_000000_0' done.

14/10/07 18:56:32 INFO mapred.Task:  Using ResourceCalculatorPlugin : null

14/10/07 18:56:32 INFO mapred.LocalJobRunner: 

14/10/07 18:56:32 INFO mapred.Merger: Merging 1 sorted segments

14/10/07 18:56:32 INFO mapred.Merger: Down to the last merge-pass, with 1 segments left of total size: 47 bytes

14/10/07 18:56:32 INFO mapred.LocalJobRunner: 

MyReducer输入分组<hello,...>

MyReducer输入键值对<hello,2>

MyReducer输入分组<me,...>

MyReducer输入键值对<me,1>

MyReducer输入分组<world,...>

MyReducer输入键值对<world,1>

14/10/07 18:56:33 INFO mapred.Task: Task:attempt_local_0001_r_000000_0 is done. And is in the process of commiting

14/10/07 18:56:33 INFO mapred.LocalJobRunner: 

14/10/07 18:56:33 INFO mapred.Task: Task attempt_local_0001_r_000000_0 is allowed to commit now

14/10/07 18:56:33 INFO output.FileOutputCommitter: Saved output of task 'attempt_local_0001_r_000000_0' to hdfs://hadoop:9000/output

14/10/07 18:56:33 INFO mapred.LocalJobRunner: reduce > reduce

14/10/07 18:56:33 INFO mapred.Task: Task 'attempt_local_0001_r_000000_0' done.

14/10/07 18:56:33 INFO mapred.JobClient:  map 100% reduce 100%

14/10/07 18:56:33 INFO mapred.JobClient: Job complete: job_local_0001

14/10/07 18:56:33 INFO mapred.JobClient: Counters: 19

14/10/07 18:56:33 INFO mapred.JobClient:   File Output Format Counters 

14/10/07 18:56:33 INFO mapred.JobClient:     Bytes Written=21

14/10/07 18:56:33 INFO mapred.JobClient:   FileSystemCounters

14/10/07 18:56:33 INFO mapred.JobClient:     FILE_BYTES_READ=343

14/10/07 18:56:33 INFO mapred.JobClient:     HDFS_BYTES_READ=42

14/10/07 18:56:33 INFO mapred.JobClient:     FILE_BYTES_WRITTEN=129572

14/10/07 18:56:33 INFO mapred.JobClient:     HDFS_BYTES_WRITTEN=21

14/10/07 18:56:33 INFO mapred.JobClient:   File Input Format Counters 

14/10/07 18:56:33 INFO mapred.JobClient:     Bytes Read=21

14/10/07 18:56:33 INFO mapred.JobClient:   Map-Reduce Framework

14/10/07 18:56:33 INFO mapred.JobClient:     Map output materialized bytes=51

14/10/07 18:56:33 INFO mapred.JobClient:     Map input records=2

14/10/07 18:56:33 INFO mapred.JobClient:     Reduce shuffle bytes=0

14/10/07 18:56:33 INFO mapred.JobClient:     Spilled Records=6

14/10/07 18:56:33 INFO mapred.JobClient:     Map output bytes=53

14/10/07 18:56:33 INFO mapred.JobClient:     Total committed heap usage (bytes)=391774208

14/10/07 18:56:33 INFO mapred.JobClient:     SPLIT_RAW_BYTES=95

14/10/07 18:56:33 INFO mapred.JobClient:     Combine input records=4

14/10/07 18:56:33 INFO mapred.JobClient:     Reduce input records=3

14/10/07 18:56:33 INFO mapred.JobClient:     Reduce input groups=3

14/10/07 18:56:33 INFO mapred.JobClient:     Combine output records=3

14/10/07 18:56:33 INFO mapred.JobClient:     Reduce output records=3

14/10/07 18:56:33 INFO mapred.JobClient:     Map output records=4

图 3.2

　　从上面的运行结果我们可以得知，combine具体作用如下：

每一个map可能会产生大量的输出，combiner的作用就是在map端对输出先做一次合并，以减少传输到reducer的数据量。
combiner最基本是实现本地key的归并，combiner具有类似本地的reduce功能。
如果不用combiner，那么，所有的结果都是reduce完成，效率会相对低下。使用combiner，先完成的map会在本地聚合，提升速度。

　　注意：Combiner的输出是Reducer的输入，Combiner绝不能改变最终的计算结果。所以从我的想法来看，Combiner只应该用于那种Reduce的输入key/value与输出key/value类型完全一致，且不影响最终结果的场景。比如累加，最大值等。

解释一下

*问：为什么使用Combiner？
   答：Combiner发生在Map端，对数据进行规约处理，数据量变小了，传送到reduce端的数据量变小了，传输时间变短，作业的整体时间变短。
* 问：为什么Combiner不作为MR运行的标配，而是可选步骤？
    答：因为不是所有的算法都适合使用Combiner处理，例如求平均数。
* 问：Combiner本身已经执行了reduce操作，为什么在Reducer阶段还要执行reduce操作？
    答：combiner操作发生在map端的，智能处理一个map任务中的数据，不能跨map任务执行；只有reduce可以接收多个map任务处理的数据。

三、Partitioner编程

4.1 什么是分区

　　在MapReuce程序中的Mapper任务的第三步就是分区，那么分区到底是干什么的呢？其实，把数据分区是为了更好的利用数据，根据数据的属性不同来分成不同区，再根据不同的分区完成不同的任务。MapReduce程序中他的默认分区是1个分区，我们看一下默认分区的代码，还是以单词统计为例如代码4.1所示。

  1 package counter;

  2 

  3 import java.net.URI;

  4 

  5 import org.apache.hadoop.conf.Configuration;

  6 import org.apache.hadoop.fs.FileSystem;

  7 import org.apache.hadoop.fs.Path;

  8 import org.apache.hadoop.io.LongWritable;

  9 import org.apache.hadoop.io.Text;

 10 import org.apache.hadoop.mapreduce.Counter;

 11 import org.apache.hadoop.mapreduce.Job;

 12 import org.apache.hadoop.mapreduce.Mapper;

 13 import org.apache.hadoop.mapreduce.Reducer;

 14 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 15 import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

 16 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 17 import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

 18 import org.apache.hadoop.mapreduce.lib.partition.HashPartitioner;

 19 

 20 public class WordCountApp {

 21     static final String INPUT_PATH = "hdfs://hadoop:9000/input";

 22     static final String OUT_PATH = "hdfs://hadoop:9000/output";

 23     

 24     public static void main(String[] args) throws Exception {

 25         

 26         Configuration conf = new Configuration();

 27         

 28         final FileSystem fileSystem = FileSystem.get(new URI(INPUT_PATH), conf);

 29         final Path outPath = new Path(OUT_PATH);

 30         

 31         if(fileSystem.exists(outPath)){

 32             fileSystem.delete(outPath, true);

 33         }        

 34         final Job job = new Job(conf , WordCountApp.class.getSimpleName());

 35         

 36         //1.1指定读取的文件位于哪里

 37         FileInputFormat.setInputPaths(job, INPUT_PATH);        

 38         job.setInputFormatClass(TextInputFormat.class);//指定如何对输入文件进行格式化，把输入文件每一行解析成键值对

 39         

 40         //1.2 指定自定义的map类

 41         job.setMapperClass(MyMapper.class);

 42         job.setMapOutputKeyClass(Text.class);//map输出的<k,v>类型。

 43         job.setMapOutputValueClass(LongWritable.class);//如果<k3,v3>的类型与<k2,v2>类型一致，则可以省略

 44         

 45         //1.3 分区

 46         job.setPartitionerClass(HashPartitioner.class);        

 47         job.setNumReduceTasks(1);//有一个reduce任务运行                

 48         

 49         job.setCombinerClass(MyReducer.class);

 50         //2.2 指定自定义reduce类

 51         job.setReducerClass(MyReducer.class);

 52         

 53         job.setOutputKeyClass(Text.class);//指定reduce的输出类型

 54         job.setOutputValueClass(LongWritable.class);

 55         

 56         //2.3 指定写出到哪里

 57         FileOutputFormat.setOutputPath(job, outPath);        

 58         job.setOutputFormatClass(TextOutputFormat.class);//指定输出文件的格式化类

 59                 

 60         job.waitForCompletion(true);//把job提交给JobTracker运行

 61     }

 62     

 63     /**

 64      * KEYIN    即k1        表示行的偏移量

 65      * VALUEIN    即v1        表示行文本内容

 66      * KEYOUT    即k2        表示行中出现的单词

 67      * VALUEOUT    即v2        表示行中出现的单词的次数，固定值1

 68      */

 69     static class MyMapper extends Mapper<LongWritable, Text, Text, LongWritable>{

 70         protected void map(LongWritable k1, Text v1, Context context) throws java.io.IOException ,InterruptedException {

 71             final Counter helloCounter = context.getCounter("Sensitive Words", "hello");

 72             

 73             final String line = v1.toString();

 74             if(line.contains("hello")){

 75                 //记录敏感词出现在一行中

 76                 helloCounter.increment(1L);

 77             }

 78             final String[] splited = line.split("\t");

 79             for (String word : splited) {

 80                 context.write(new Text(word), new LongWritable(1));

 81             }

 82         };

 83     }

 84     

 85     /**

 86      * KEYIN    即k2        表示行中出现的单词

 87      * VALUEIN    即v2        表示行中出现的单词的次数

 88      * KEYOUT    即k3        表示文本中出现的不同单词

 89      * VALUEOUT    即v3        表示文本中出现的不同单词的总次数

 90      *

 91      */

 92     static class MyReducer extends Reducer<Text, LongWritable, Text, LongWritable>{

 93         protected void reduce(Text k2, java.lang.Iterable<LongWritable> v2s, Context ctx) throws java.io.IOException ,InterruptedException {

 94             long times = 0L;

 95             for (LongWritable count : v2s) {

 96                 times += count.get();

 97             }

 98             ctx.write(k2, new LongWritable(times));

 99         };

100     }

101         

102 }

View Code

代码 4.1

　　在MapReduce程序中默认的分区方法为HashPartitioner，代码job.setNumReduceTasks(1)表示运行的Reduce任务数，他会将numReduceTask这个变量设为1. HashPartitioner继承自Partitioner，Partitioner是Partitioner的基类，如果需要定制partitioner也需要继承该类。 HashPartitioner计算方法如代码4.2所示。

1 public class HashPartitioner<K, V> extends Partitioner<K, V> {

2 

3   /** Use {@link Object#hashCode()} to partition. */

4   public int getPartition(K key, V value,

5                           int numReduceTasks) {

6     return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;

7   }

8 

9 }

代码 4.2

　　在上面的代码中K和V，表示k2和v2,该类中只有一个方法getPartition(),返回值如下”(key.hashCode()& Integer.MAX_VALUE)%numReduceTasks“其中key.hashCode()表示该关键是否属于该类。numReduceTasks的值在上面代码中设置为1，取模后只有一种结果那就是0。getPartition()的意义就是表示划分到不同区域的一个标记，返回0，就是表示划分到第0区，所以我们可以把它理解分区的下标，来代表不同的分区。

4.2 自定义分区

　　下面我们尝试自定义一个分区，来处理一下手机的日志数据（在前面学习中用过），手机日志数据如下图4.1所示。

图 4.1

　　从图中我们可以发现，在第二列上并不是所有的数据都是手机号，我们任务就是在统计手机流量时，将手机号码和非手机号输出到不同的文件中。我们的分区是按手机和非手机号码来分的，所以我们可以按该字段的长度来划分，如代码4.3所示。

  1 package partition;

  2 

  3 import java.io.DataInput;

  4 import java.io.DataOutput;

  5 import java.io.IOException;

  6 

  7 import org.apache.hadoop.conf.Configuration;

  8 import org.apache.hadoop.fs.Path;

  9 import org.apache.hadoop.io.LongWritable;

 10 import org.apache.hadoop.io.Text;

 11 import org.apache.hadoop.io.Writable;

 12 import org.apache.hadoop.mapreduce.Job;

 13 import org.apache.hadoop.mapreduce.Mapper;

 14 import org.apache.hadoop.mapreduce.Reducer;

 15 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 16 import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

 17 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 18 import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

 19 import org.apache.hadoop.mapreduce.lib.partition.HashPartitioner;

 20 

 21 public class KpiApp {

 22     static final String INPUT_PATH = "hdfs://hadoop:9000/wlan";

 23     static final String OUT_PATH = "hdfs://hadoop:9000/out";

 24     public static void main(String[] args) throws Exception{

 25         final Job job = new Job(new Configuration(), KpiApp.class.getSimpleName());

 26         

 27         job.setJarByClass(KpiApp.class);

 28         

 29         //1.1 指定输入文件路径

 30         FileInputFormat.setInputPaths(job, INPUT_PATH);

 31         job.setInputFormatClass(TextInputFormat.class);//指定哪个类用来格式化输入文件

 32         

 33         //1.2指定自定义的Mapper类

 34         job.setMapperClass(MyMapper.class);        

 35         job.setMapOutputKeyClass(Text.class);//指定输出<k2,v2>的类型

 36         job.setMapOutputValueClass(KpiWritable.class);

 37         

 38         //1.3 指定分区类

 39         job.setPartitionerClass(KpiPartitioner.class);

 40         job.setNumReduceTasks(2);

 41                 

 42         //2.2 指定自定义的reduce类

 43         job.setReducerClass(MyReducer.class);

 44         job.setOutputKeyClass(Text.class);//指定输出<k3,v3>的类型

 45         job.setOutputValueClass(KpiWritable.class);

 46         

 47         //2.3 指定输出到哪里

 48         FileOutputFormat.setOutputPath(job, new Path(OUT_PATH));

 49         job.setOutputFormatClass(TextOutputFormat.class);//设定输出文件的格式化类

 50         job.waitForCompletion(true);//把代码提交给JobTracker执行

 51     }

 52 

 53     static class MyMapper extends Mapper<LongWritable, Text, Text, KpiWritable>{

 54         protected void map(LongWritable key, Text value, org.apache.hadoop.mapreduce.Mapper<LongWritable,Text,Text,KpiWritable>.Context context) throws IOException ,InterruptedException {

 55             final String[] splited = value.toString().split("\t");

 56             final String msisdn = splited[1];

 57             final Text k2 = new Text(msisdn);

 58             final KpiWritable v2 = new KpiWritable(splited[6],splited[7],splited[8],splited[9]);

 59             context.write(k2, v2);

 60         };

 61     }

 62     

 63     static class MyReducer extends Reducer<Text, KpiWritable, Text, KpiWritable>{

 64         /**

 65          * @param    k2    表示整个文件中不同的手机号码    

 66          * @param    v2s    表示该手机号在不同时段的流量的集合

 67          */

 68         protected void reduce(Text k2, java.lang.Iterable<KpiWritable> v2s, org.apache.hadoop.mapreduce.Reducer<Text,KpiWritable,Text,KpiWritable>.Context context) throws IOException ,InterruptedException {

 69             long upPackNum = 0L;

 70             long downPackNum = 0L;

 71             long upPayLoad = 0L;

 72             long downPayLoad = 0L;

 73             

 74             for (KpiWritable kpiWritable : v2s) {

 75                 upPackNum += kpiWritable.upPackNum;

 76                 downPackNum += kpiWritable.downPackNum;

 77                 upPayLoad += kpiWritable.upPayLoad;

 78                 downPayLoad += kpiWritable.downPayLoad;

 79             }

 80             

 81             final KpiWritable v3 = new KpiWritable(upPackNum+"", downPackNum+"", upPayLoad+"", downPayLoad+"");

 82             context.write(k2, v3);

 83         };

 84     }

 85     

 86     static class KpiPartitioner extends HashPartitioner<Text, KpiWritable>{

 87         @Override

 88         public int getPartition(Text key, KpiWritable value, int numReduceTasks) {

 89             return (key.toString().length()==11)?0:1;

 90         }

 91     }

 92 }

 93 

 94 class KpiWritable implements Writable{

 95     long upPackNum;

 96     long downPackNum;

 97     long upPayLoad;

 98     long downPayLoad;

 99     

100     public KpiWritable(){}

101     

102     public KpiWritable(String upPackNum, String downPackNum, String upPayLoad, String downPayLoad){

103         this.upPackNum = Long.parseLong(upPackNum);

104         this.downPackNum = Long.parseLong(downPackNum);

105         this.upPayLoad = Long.parseLong(upPayLoad);

106         this.downPayLoad = Long.parseLong(downPayLoad);

107     }

108     

109     

110     @Override

111     public void readFields(DataInput in) throws IOException {

112         this.upPackNum = in.readLong();

113         this.downPackNum = in.readLong();

114         this.upPayLoad = in.readLong();

115         this.downPayLoad = in.readLong();

116     }

117 

118     @Override

119     public void write(DataOutput out) throws IOException {

120         out.writeLong(upPackNum);

121         out.writeLong(downPackNum);

122         out.writeLong(upPayLoad);

123         out.writeLong(downPayLoad);

124     }

125     

126     @Override

127     public String toString() {

128         return upPackNum + "\t" + downPackNum + "\t" + upPayLoad + "\t" + downPayLoad;

129     }

130 }

View Code

代码 4.3

　　注意：分区的例子必须打成jar运行,运行结果如下图4.3,4.4所示,4.3表示手机号码流量，4.4为非手机号流量。

图 4.3

图4.4

　　我们知道一个分区对应一个Reducer任务是否是这样呢，我可以通过访问50030MapReduce端口来验证，在浏览器输入”http://hadoop:50030"可以看到MapReduce界面，如图4.5，4.6所示。

图 4.5

图4.6

　　从图中可以知道，该MapReduce任务有一个Mapper任务，两个Reducer任务，那么我们细看一下Reducer的两个任务到底是什么？如图4.7,4.8,4.9所示。task_201410070239_0002_r_000000表示第一个分区的输出，有20条记录，task_201410070239_0002_r_000001表示第二分区，有一条输出记录。和我们程序运行结果一样。

图 4.7

图 4.8 第一分区

图 4.9 第二分区

　　综上一些列分析，分区的用处如下：
　　　　1.根据业务需要，产生多个输出文件
　　　　2.多个reduce任务在并发运行，提高整体job的运行效率

你可能感兴趣的:(hadoop)

尚硅谷电商数仓6.0，hive on spark,spark启动不了新时代赚钱战士 hive spark hadoop
在datagrip执行分区插入语句时报错[42000][40000]Errorwhilecompilingstatement:FAILED:SemanticExceptionFailedtogetasparksession:org.apache.hadoop.hive.ql.metadata.HiveException:FailedtocreateSparkclientforSparksessio
Hadoop相关面试题努力的搬砖人. java 面试 hadoop
以下是150道Hadoop面试题及其详细回答，涵盖了Hadoop的基础知识、HDFS、MapReduce、YARN、HBase、Hive、Sqoop、Flume、ZooKeeper等多个方面，每道题目都尽量详细且简单易懂：Hadoop基础概念类1.什么是Hadoop？Hadoop是一个由Apache基金会开发的开源分布式计算框架，主要用于处理和存储大规模数据集。它提供了高容错性和高扩展性的分布式存
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
Apache storm 赵世炎 storm hadoop
Apachestorm是一个分布式的实时大数据处理系统。用于在容错和水平可拓展方法中处理大量数据。它是一个流数据框架，具有很高的摄取率，无状态。通过zk管理分布式环境和集群状态，并行地对实时数据执行各种操作。storm易于设置和操作，并且它保证每个消息将通过拓扑至少处理一次。基本上Hadoop和Storm框架用于分析大数据。两者互补，在某些方面有所不同。ApacheStorm执行除持久性之外的所有
什么是Apache Avro？ maozexijr apache
什么是ApacheAvro？ApacheAvro是一个开源的数据序列化框架，主要用于高效的数据交换和存储。它由ApacheHadoop项目开发，广泛应用于大数据生态系统中（如Hadoop、Kafka等）。Avro提供了一种紧凑、快速的二进制数据格式，同时支持丰富的数据结构和模式演化。核心特性跨语言支持Avro支持多种编程语言（如Java、Python、C++、Go等），使得不同语言之间的数据交换变
计算机毕业设计之基于Hadoop的热点新闻分析系统的设计与实现微信bishe69 课程设计 python django mysql
近些年来，随着科技的飞速发展，互联网的普及逐渐延伸到各行各业中，给人们生活带来了十分的便利，热点新闻分析系统利用计算机网络实现信息化管理，使整个热点新闻分析的发展和服务水平有显著提升。本文拟采用PyCharm开发工具，django框架、Python语言、Hadoop大数据处理技术进行开发，后台使用MySQL数据库进行信息管理，设计开发的热点新闻分析系统。通过调研和分析，系统拥有管理员和用户两个模块
Hadoop 实战笔记（二）-- HDFS 常用 shell 命令总结 dazhong2012 Hadoop hdfs hadoop
一、HDFS命令显示当前目录结构#显示当前目录结构hadoopfs-ls#递归显示当前目录结构hadoopfs-ls-R#显示根目录下内容hadoopfs-ls/创建目录#创建目录hadoopfs-mkdir#递归创建目录hadoopfs-mkdir-p删除操作#删除文件hadoopfs-rm#递归删除目录和文件hadoopfs-rm-R从本地加载文件到HDFS#二选一执行即可hadoopfs-p
How Spark Read Sftp Files from Hadoop SFTP FileSystem IT•轩辕 Cloudy Computation spark hadoop 大数据
GradleDependenciesimplementation('org.apache.spark:spark-sql_2.13:3.5.3'){excludegroup:"org.apache.logging.log4j",module:"log4j-slf4j2-impl"}implementation('org.apache.hadoop:hadoop-common:3.3.4'){exc
中电金信25/3/18面前笔试（需求分析岗+数据开发岗）苍曦需求分析前端 javascript
部分相同题目在第二次数据开发岗中不做解析，本次解析来源于豆包AI，正确与否有待商榷，本文只提供一个速查与知识点的补充。一、需求分析第1题，单选题,Hadoop的核心组件包括HDFS和以下哪个？MapReduceSparkStormFlink解析：Hadoop的核心组件是HDFS（分布式文件系统）和MapReduce（分布式计算框架）。Spark、Storm、Flink虽然也是大数据处理相关技术，但
Spark集群启动与关闭陈沐 spark spark hadoop big data
Hadoop集群和Spark的启动与关闭Hadoop集群开启三台虚拟机均启动ZookeeperzkServer.shstartMaster1上面执行启动HDFSstart-dfs.shslave1上面执行开启YARNstart-yarn.shslave2上面执行开启YARN的资源管理器yarn-daemon.shstartresourcemanager(如果nodeManager没有启动(正常情况
Hive函数大全：从核心内置函数到自定义UDF实战指南（附详细案例与总结）一个天蝎座白勺程序猿大数据开发从入门到实战合集 hive hadoop 数据仓库
目录背景‌一、Hive函数分类与核心函数表‌1.内置函数分类‌2.用户自定义函数（UDF）分类二、常用函数详解与实战案例‌1.数学函数‌2.字符串函数‌3.窗口函数‌4.自定义UDF实战‌三、总结与优化建议‌1.核心总结2.性能优化建议‌3.常问问题背景‌Hive作为Hadoop生态中最常用的数据仓库工具，其强大的函数库是高效处理和分析海量数据的核心能力之一。Hive函数分为‌内置函数‌和‌用户自
Hadoop MapReduce 词频统计（WordCount）代码解析教程我不是少爷. Java基础 hadoop mapreduce 大数据
一、概述这是一个基于HadoopMapReduce框架实现的经典词频统计程序。程序会统计输入文本中每个单词出现的次数，并将结果输出到HDFS文件系统。二、代码结构packagecom.bigdata.wc;//Hadoop核心类库导入importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;//数据类型定义
从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路 Echo_Wish 大数据大数据 hadoop spark
从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路说起大数据技术，Hadoop和Spark可以说是这个领域的两座里程碑。Hadoop曾是大数据的开山之作，而Spark则带领我们迈入了一个高效、灵活的大数据处理新时代。那么，它们的演变过程到底有何深意？背后技术上的取舍和选择，又意味着什么？一、Hadoop：分布式存储与计算的奠基者Hadoop诞生于互联网流量爆发式增长的时代，
hadoop集群关闭命令顺序_启动和关闭Hadoop集群命令步骤氪老师 hadoop集群关闭命令顺序
启动和关闭Hadoop集群命令步骤总结：1.在master上启动hadoop-daemon.shstartnamenode.2.在slave上启动hadoop-daemon.shstartdatanode.3.用jps指令观察执行结果.4.用hdfsdfsadmin-report观察集群配置情况.5.通过http://npfdev1:50070界面观察集群运行情况.(如果遇到问题看https://
在kali linux中配置hadoop伪分布式 we19a0sen 三数据分析分布式 linux hadoop
目录一.配置静态网络二.配置主机名与IP地址映射三.配置SSH免密登录四.配置Java和Hadoop环境五.配置Hadoop伪分布式六.启动与验证一.配置静态网络原因：Hadoop集群依赖稳定的网络通信，动态IP可能导致节点失联。静态IP确保节点始终通过固定地址通信。操作步骤：#修改网络配置文件sudovim/etc/network/interfaces#添加内容（根据实际网络修改）：autoet
Spark任务读取hive表数据导入es 小小小小小小小小小小码农 hive elasticsearch spark java
使用elasticsearch-hadoop将hive表数据导入es，超级简单1.引入pomorg.elasticsearchelasticsearch-hadoop9.0.0-SNAPSHOT2.创建sparkconf//spark参数设置SparkConfsparkConf=newSparkConf();//要写入的索引sparkConf.set("es.resource","");//es集
hive-进阶版-1 数据牧马人 hive hadoop 数据仓库
第6章hive内部表与外部表的区别Hive是一个基于Hadoop的数据仓库工具，用于对大规模数据集进行数据存储、查询和分析。Hive支持内部表（ManagedTable）和外部表（ExternalTable）两种表类型，它们在数据存储、管理方式和生命周期等方面存在显著区别。以下是内部表和外部表的主要区别：1.数据存储位置内部表：数据存储在Hive的默认存储目录下，通常位于HDFS（HadoopDi
大数据手册(Spark)--Spark安装配置 WilenWu 数据分析(Data Analysis)大数据 spark 分布式
本文默认在zsh终端安装配置，若使用bash终端，环境变量的配置文件相应变化。若安装包下载缓慢，可复制链接到迅雷下载，亲测极速～准备工作Spark的安装过程较为简单，在已安装好Hadoop的前提下，经过简单配置即可使用。假设已经安装好了hadoop（伪分布式）和hive，环境变量如下JAVA_HOME=/usr/opt/jdkHADOOP_HOME=/usr/local/hadoopHIVE_HO
虚拟机中Hadoop集群NameNode进程缺失问题解析与解决申朝先生 hadoop 大数据分布式 linux
目录问题概述问题分析解决办法总结问题概述在虚拟机中运行Hadoop集群时，通过执行jps命令检查进程时，发现NameNode进程缺失。这通常会导致Hadoop集群无法正常运行，影响数据的存储和访问。问题分析导致NameNode进程缺失的原因可能有以下几点：集群未正确停止：在关闭虚拟机或重启Hadoop集群之前，未执行stop-all.sh命令正确停止集群，导致Hadoop服务异常退出，留下残留数据
大数据学习（67）- Flume、Sqoop、Kafka、DataX对比 viperrrrrrr 大数据学习 flume kafka sqoop datax
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦工具主要作用数据流向实时性数据源/目标应用场景Flume实时日志采集与传输从数据源到存储系统实时日志文件、网络流量等→HDFS、HBase、Kafka等日志收集、实时监控、实时分析Sqoop关系型数据库与Hadoop间数据同步关系型数据库→Hadoop生态系统（HDFS、Hive、
Kubernetes集群版本升级程序员Realeo Java后端 kubernetes 容器云原生
集群升级注意事项升级集群版本建议逐步升级，比如v1.20.1–>v1.21.1–>v1.22.1–>v1.23.1–>v1.24.1，不能跨度过大，否则会报错。升级步骤查看集群版本[root@hadoop102~]#kubectlgetnodesNAMESTATUSROLESAGEVERSIONhadoop102Ready,SchedulingDisabledcontrol-plane,maste
Kubernetes集群版本升级后端java
集群升级注意事项升级集群版本建议逐步升级，比如v1.20.1–>v1.21.1–>v1.22.1–>v1.23.1–>v1.24.1，不能跨度过大，否则会报错。升级步骤查看集群版本[root@hadoop102~]#kubectlgetnodesNAMESTATUSROLESAGEVERSIONhadoop102Ready,SchedulingDisabledcontrol-plane,maste
Hive高级SQL技巧及实际应用场景小技工丨大数据随笔 sql hive 数据仓库大数据
Hive高级SQL技巧及实际应用场景引言ApacheHive是一个建立在Hadoop之上的数据仓库基础设施，它提供了一个用于查询和管理分布式存储中的大型数据集的机制。通过使用类似于SQL（称为HiveQL）的语言，Hive使得数据分析变得更加简单和高效。本文将详细探讨一些Hive高级SQL技巧，并结合实际的应用场景进行说明。HiveSQL的高级使用技巧1.窗口函数描述：窗口函数允许我们在不使用GR
hive 数字转换字符串_Hive架构及Hive SQL的执行流程解读 weixin_39756416 hive 数字转换字符串
1、Hive产生背景MapReduce编程的不便性HDFS上的文件缺少Schema(表名，名称，ID等，为数据库对象的集合)2、Hive是什么Hive的使用场景是什么？基于Hadoop做一些数据清洗啊(ETL)、报表啊、数据分析可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。Hive是SQL解析引擎，它将SQL语句转译成M/RJob然后在Hadoop执行。由Facebook开源，
在hadoop上运行python_hadoop上运行python程序廷哥带你小路超车
数据来源：http://www.nber.org/patents/acite75_99.zip首先上传测试数据到hdfs：[root@localhost:/usr/local/hadoop/hadoop-0.19.2]#bin/hadoopfs-ls/user/root/test-inFound5items-rw-r--r--1rootsupergroup1012010-10-2414:39/us
ranger集成starrock报错蘑菇丁大数据+机器学习+oracle 大数据
org.apache.ranger.plugin.client.HadoopException:initConnection:UnabletoconnecttoStarRocksinstance,pleaseprovidevalidvalueoffield:{jdbc.driverClassName}..com.mysql.cj.jdbc.Driver.可能的原因JDBC驱动缺失：运行环境中没有安
深入大数据世界：Kontext.TECH的Hadoop之旅钱桦实Emery
深入大数据世界：Kontext.TECH的Hadoop之旅winutils项目地址:https://gitcode.com/gh_mirrors/winut/winutils在大数据的浩瀚宇宙中，Hadoop作为一颗璀璨的星辰，一直扮演着至关重要的角色。对于渴望探索这一领域的开发者和学习者而言，Kontext.TECH提供了一扇独特而便捷的大门，让你的学习之旅更加顺畅。项目介绍Kontext.Ha
大数据学习（61）-Impala与Hive计算引擎 viperrrrrrr 学习 impala hive yarn hadoop
&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、impala与yarn资源管理YARN是ApacheHadoop生态系统中的一个资源管理器，它采用了master/slave的架构，使得多个处理框架能够在同一集群上共享资源。Impala作为Hadoop生态系统中的一个组件，可以与YARN集成，以便更好地管理
大数据学习（62）- Hadoop-yarn viperrrrrrr 大数据 yarn
&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、YARN概述1.YARN简介Hadoop-YARN是ApacheHadoop生态系统中的一个集群资源管理器。它作为Hadoop的第二代资源管理框架，负责管理和分配集群中的计算资源。YARN的设计目标是提供一个通用的资源管理框架，使得Hadoop集群可以同时运
HBase2.6.1部署文档 CXH728 zookeeper hbase
1、HBase概述ApacheHBase是基于Hadoop分布式文件系统（HDFS）之上的分布式、列存储、NoSQL数据库。它适合处理结构化和半结构化数据，能够存储数十亿行和数百万列的数据，并支持实时读写操作。HBase通常应用于需要快速随机读写、低延迟访问以及高吞吐量的场景，例如大规模日志处理、社交网络数据存储等。HBase特性列存储模型：HBase的数据是按列族存储的，适合高稀疏数据。行键分区
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在

Hadoop日记Day17---计数器、map规约、分区学习

一、Hadoop计数器

1.1 什么是Hadoop计数器

1.2 自定义计数器

二、Combiners编程

2.1 什么是Combiners

2.1 自定义Combiners

注意：Combiner的输出是Reducer的输入，Combiner绝不能改变最终的计算结果。所以从我的想法来看，Combiner只应该用于那 种Reduce的输入key/value与输出key/value类型完全一致，且不影响最终结果的场景。比如累加，最大值等。

三、Partitioner编程

4.1 什么是分区

4.2 自定义分区

你可能感兴趣的:(hadoop)

　　注意：Combiner的输出是Reducer的输入，Combiner绝不能改变最终的计算结果。所以从我的想法来看，Combiner只应该用于那种Reduce的输入key/value与输出key/value类型完全一致，且不影响最终结果的场景。比如累加，最大值等。