Mapreduce执行过程分析(基于Hadoop2.4)——(一)

1 概述

该瞅瞅MapReduce的内部运行原理了，以前只知道个皮毛，再不搞搞，不然怎么死的都不晓得。下文会以2.4版本中的WordCount这个经典例子作为分析的切入点，一步步来看里面到底是个什么情况。

2 为什么要使用MapReduce

Map/Reduce，是一种模式，适合解决并行计算的问题，比如TopN、贝叶斯分类等。注意，是并行计算，而非迭代计算，像涉及到层次聚类的问题就不太适合了。

从名字可以看出，这种模式有两个步骤，Map和Reduce。Map即数据的映射，用于把一组键值对映射成另一组新的键值对，而Reduce这个东东，以Map阶段的输出结果作为输入，对数据做化简、合并等操作。

而MapReduce是Hadoop生态系统中基于底层HDFS的一个计算框架，它的上层又可以是Hive、Pig等数据仓库框架，也可以是Mahout这样的数据挖掘工具。由于MapReduce依赖于HDFS，其运算过程中的数据等会保存到HDFS上，把对数据集的计算分发给各个节点，并将结果进行汇总，再加上各种状态汇报、心跳汇报等，其只适合做离线计算。和实时计算框架Storm、Spark等相比，速度上没有优势。旧的Hadoop生态几乎是以MapReduce为核心的，但是慢慢的发展，其扩展性差、资源利用率低、可靠性等问题都越来越让人觉得不爽，于是才产生了Yarn这个新的东东，并且二代版的Hadoop生态都是以Yarn为核心。Storm、Spark等都可以基于Yarn使用。

3 怎么运行MapReduce

明白了哪些地方可以使用这个牛叉的MapReduce框架，那该怎么用呢？Hadoop的MapReduce源码给我们提供了范例，在其hadoop-mapreduce-examples子工程中包含了MapReduce的Java版例子。在写完类似的代码后，打包成jar，在HDFS的客户端运行：

bin/hadoop jar mapreduce_examples.jar mainClass args

即可。当然，也可以在IDE(如Eclipse)中，进行远程运行、调试程序。

至于，HadoopStreaming方式，网上有很多。我们这里只讨论Java的实现。

4 如何编写MapReduce程序

如前文所说，MapReduce中有Map和Reduce，在实现MapReduce的过程中，主要分为这两个阶段，分别以两类函数进行展现，一个是map函数，一个是reduce函数。map函数的参数是一个<key,value>键值对，其输出结果也是键值对，reduce函数以map的输出作为输入进行处理。

4.1 代码构成

实际的代码中，需要三个元素，分别是Map、Reduce、运行任务的代码。这里的Map类是继承了org.apache.hadoop.mapreduce.Mapper，并实现其中的map方法；而Reduce类是继承了org.apache.hadoop.mapreduce.Reducer，实现其中的reduce方法。至于运行任务的代码，就是我们程序的入口。

下面是Hadoop提供的WordCount源码。

 1 /**

 2  * Licensed to the Apache Software Foundation (ASF) under one

 3  * or more contributor license agreements.  See the NOTICE file

 4  * distributed with this work for additional information

 5  * regarding copyright ownership.  The ASF licenses this file

 6  * to you under the Apache License, Version 2.0 (the

 7  * "License"); you may not use this file except in compliance

 8  * with the License.  You may obtain a copy of the License at

 9  *

10  *     http://www.apache.org/licenses/LICENSE-2.0

11  *

12  * Unless required by applicable law or agreed to in writing, software

13  * distributed under the License is distributed on an "AS IS" BASIS,

14  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

15  * See the License for the specific language governing permissions and

16  * limitations under the License.

17  */

18 package org.apache.hadoop.examples;

19 

20 import java.io.IOException;

21 import java.util.StringTokenizer;

22 

23 import org.apache.hadoop.conf.Configuration;

24 import org.apache.hadoop.fs.Path;

25 import org.apache.hadoop.io.IntWritable;

26 import org.apache.hadoop.io.Text;

27 import org.apache.hadoop.mapreduce.Job;

28 import org.apache.hadoop.mapreduce.Mapper;

29 import org.apache.hadoop.mapreduce.Reducer;

30 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

31 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

32 import org.apache.hadoop.util.GenericOptionsParser;

33 

34 public class WordCount {

35 

36   public static class TokenizerMapper 

37        extends Mapper<Object, Text, Text, IntWritable>{

38     

39     private final static IntWritable one = new IntWritable(1);

40     private Text word = new Text();

41       

42     public void map(Object key, Text value, Context context

43                     ) throws IOException, InterruptedException {

44       StringTokenizer itr = new StringTokenizer(value.toString());

45       while (itr.hasMoreTokens()) {

46         word.set(itr.nextToken());

47         context.write(word, one);

48       }

49     }

50   }

51   

52   public static class IntSumReducer 

53        extends Reducer<Text,IntWritable,Text,IntWritable> {

54     private IntWritable result = new IntWritable();

55 

56     public void reduce(Text key, Iterable<IntWritable> values, 

57                        Context context

58                        ) throws IOException, InterruptedException {

59       int sum = 0;

60       for (IntWritable val : values) {

61         sum += val.get();

62       }

63       result.set(sum);

64       context.write(key, result);

65     }

66   }

67 

68   public static void main(String[] args) throws Exception {

69     Configuration conf = new Configuration();

70     String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();

71     if (otherArgs.length != 2) {

72       System.err.println("Usage: wordcount <in> <out>");

73       System.exit(2);

74     }

75     Job job = new Job(conf, "word count");

76     job.setJarByClass(WordCount.class);

77     job.setMapperClass(TokenizerMapper.class);

78     job.setCombinerClass(IntSumReducer.class);

79     job.setReducerClass(IntSumReducer.class);

80     job.setOutputKeyClass(Text.class);

81     job.setOutputValueClass(IntWritable.class);

82     FileInputFormat.addInputPath(job, new Path(otherArgs[0]));

83     FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

84     System.exit(job.waitForCompletion(true) ? 0 : 1);

85   }

86 }

View Code

4.2 入口类

4.2.1 参数获取

首先定义配置文件类Configuration，此类是Hadoop各个模块的公共使用类，用于加载类路径下的各种配置文件，读写其中的配置选项。

第二步中，用到了GenericOptionsParser类，其目的是将命令行中参数自动设置到变量conf中。

GenericOptionsParser的构造方法进去之后，会进行到parseGeneralOptions，对传入的参数进行解析：

 1 private void parseGeneralOptions(Options opts, Configuration conf,

 2 

 3       String[] args) throws IOException {

 4 

 5     opts = buildGeneralOptions(opts);

 6 

 7     CommandLineParser parser = new GnuParser();

 8 

 9     try {

10 

11       commandLine = parser.parse(opts, preProcessForWindows(args), true);

12 

13       processGeneralOptions(conf, commandLine);

14 

15     } catch(ParseException e) {

16 

17       LOG.warn("options parsing failed: "+e.getMessage());

18 

19  

20 

21       HelpFormatter formatter = new HelpFormatter();

22 

23       formatter.printHelp("general options are: ", opts);

24 

25     }

26 

27   }

而getRemainingArgs方法会获得传入的参数，接着在main方法中会进行判断参数的个数，由于此处是WordCount计算，只需要传入文件的输入路径和输出路径即可，因此参数的个数为2，否则将退出：

1 if (otherArgs.length != 2) {

2 

3       System.err.println("Usage: wordcount <in> <out>");

4 

5       System.exit(2);

6 

7 }

如果在代码运行的时候传入其他的参数，比如指定reduce的个数，可以根据GenericOptionsParser的命令行格式这么写：

bin/hadoop jar MyJob.jar com.xxx.MyJobDriver -Dmapred.reduce.tasks=5

其规则是-D加MapReduce的配置选项，当然还支持-fs等其他参数传入。当然，默认情况下Reduce的数目为1，Map的数目也为1。

4.2.2 Job定义

定义Job对象，其构造方法为：

1 public Job(Configuration conf, String jobName) throws IOException {

2 

3     this(conf);

4 

5     setJobName(jobName);

6 

7   }

可见，传入的"word count"就是Job的名字。而conf被传递给了JobConf进行环境变量的获取：

 1 public JobConf(Configuration conf) {

 2 

 3     super(conf);    

 6 

 7     if (conf instanceof JobConf) {

 8 

 9       JobConf that = (JobConf)conf;

10 

11       credentials = that.credentials;

12 

13     }

14      checkAndWarnDeprecation(); 

19   }

Job已经实例化了，下面就得给这个Job加点佐料才能让它按照我们的要求运行。于是依次给Job添加启动Jar包、设置Mapper类、设置合并类、设置Reducer类、设置输出键类型、设置输出值的类型。

这里有必要说下设置Jar包的这个方法setJarByClass：

1 public void setJarByClass(Class<?> cls) {

2 

3     ensureState(JobState.DEFINE);

4 

5     conf.setJarByClass(cls);

6 

7   }

它会首先判断当前Job的状态是否是运行中，接着通过class找到其所属的jar文件，将jar路径赋值给mapreduce.job.jar属性。至于寻找jar文件的方法，则是通过classloader获取类路径下的资源文件，进行循环遍历。具体实现见ClassUtil类中的findContainingJar方法。

搞完了上面的东西，紧接着就会给mapreduce.input.fileinputformat.inputdir参数赋值，这是Job的输入路径，还有mapreduce.input.fileinputformat.inputdir，这是Job的输出路径。具体的位置，就是我们前面main中传入的Args。

4.2.3 Job提交

万事俱备，那就运行吧。

这里调用的方法如下：

 1 public boolean waitForCompletion(boolean verbose

 2 

 3                                    ) throws IOException, InterruptedException,

 4 

 5                                             ClassNotFoundException {

 6 

 7     if (state == JobState.DEFINE) {

 8 

 9       submit();

10 

11     }

12 

13     if (verbose) {

14 

15       monitorAndPrintJob();

16 

17     } else {

18 

19       // get the completion poll interval from the client.

20 

21       int completionPollIntervalMillis =

22 

23         Job.getCompletionPollInterval(cluster.getConf());

24 

25       while (!isComplete()) {

26 

27         try {

28 

29           Thread.sleep(completionPollIntervalMillis);

30 

31         } catch (InterruptedException ie) {

32 

33         }

34 

35       }

36 

37     }

38 

39     return isSuccessful();

40 

41   }

至于方法的参数verbose，如果想在控制台打印当前的进度，则设置为true。

至于submit方法，如果当前在HDFS的配置文件中配置了mapreduce.framework.name属性为“yarn”的话，会创建一个YARNRunner对象来进行任务的提交。其构造方法如下：

 1 public YARNRunner(Configuration conf, ResourceMgrDelegate resMgrDelegate,

 2 

 3       ClientCache clientCache) {

 4 

 5     this.conf = conf;

 6 

 7     try {

 8 

 9       this.resMgrDelegate = resMgrDelegate;

10 

11       this.clientCache = clientCache;

12 

13       this.defaultFileContext = FileContext.getFileContext(this.conf);

14 

15     } catch (UnsupportedFileSystemException ufe) {

16 

17       throw new RuntimeException("Error in instantiating YarnClient", ufe);

18 

19     }

20 

21   }

其中，ResourceMgrDelegate实际上ResourceManager的代理类，其实现了YarnClient接口，通过ApplicationClientProtocol代理直接向RM提交Job，杀死Job，查看Job运行状态等操作。同时，在ResourceMgrDelegate类中会通过YarnConfiguration来读取yarn-site.xml、core-site.xml等配置文件中的配置属性。

下面就到了客户端最关键的时刻了，提交Job到集群运行。具体实现类是JobSubmitter类中的submitJobInternal方法。这个牛气哄哄的方法写了100多行，还不算其几十行的注释。我们看它干了点啥。

Step1:

检查job的输出路径是否存在，如果存在则抛出异常。

Step2:

初始化用于存放Job相关资源的路径。注意此路径的构造方式为：

1 conf.get(MRJobConfig.MR_AM_STAGING_DIR,

2 

3         MRJobConfig.DEFAULT_MR_AM_STAGING_DIR)

4 

5         + Path.SEPARATOR + user

6 

7 + Path.SEPARATOR + STAGING_CONSTANT

其中，MRJobConfig.DEFAULT_MR_AM_STAGING_DIR为“/tmp/hadoop-yarn/staging”，STAGING_CONSTANT为".staging"。

Step3:

设置客户端的host属性：mapreduce.job.submithostname和mapreduce.job.submithostaddress。

Step4:

通过RPC，向Yarn的ResourceManager申请JobID对象。

Step5:

从HDFS的NameNode获取验证用的Token，并将其放入缓存。

Step6:

将作业文件上传到HDFS，这里如果我们前面没有对Job命名的话，默认的名称就会在这里设置成jar的名字。并且，作业默认的副本数是10，如果属性mapreduce.client.submit.file.replication没有被设置的话。

Step7:

文件上传到HDFS之后，还要被DistributedCache进行缓存起来。这是因为计算节点收到该作业的第一个任务后，就会有DistributedCache自动将作业文件Cache到节点本地目录下，并且会对压缩文件进行解压，如：.zip，.jar，.tar等等，然后开始任务。

最后，对于同一个计算节点接下来收到的任务，DistributedCache不会重复去下载作业文件，而是直接运行任务。如果一个作业的任务数很多，这种设计避免了在同一个节点上对用一个job的文件会下载多次，大大提高了任务运行的效率。

Step8:

对每个输入文件进行split划分。注意这只是个逻辑的划分，不是物理的。因为此处是输入文件，因此执行的是FileInputFormat类中的getSplits方法。只有非压缩的文件和几种特定压缩方式压缩后的文件才分片。分片的大小由如下几个参数决定：mapreduce.input.fileinputformat.split.maxsize、mapreduce.input.fileinputformat.split.minsize、文件的块大小。

具体计算方式为：

Math.max(minSize, Math.min(maxSize, blockSize))

分片的大小有可能比默认块大小64M要大，当然也有可能小于它，默认情况下分片大小为当前HDFS的块大小，64M。

接下来就该正儿八经的获取分片详情了。代码如下：

 1           long bytesRemaining = length; 2 

 3           while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {

 4 

 5             int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining);

 6 

 7             splits.add(makeSplit(path, length-bytesRemaining, splitSize, 

 9                                      blkLocations[blkIndex].getHosts()));

10 

11             bytesRemaining -= splitSize; 

13           }  

15 

16           if (bytesRemaining != 0) { 

18             int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining);

19 

20             splits.add(makeSplit(path, length-bytesRemaining, bytesRemaining, 

22                        blkLocations[blkIndex].getHosts()));

23 

24           }

Step8.1：

将bytesRemaining(剩余未分片字节数)设置为整个文件的长度。

Step8.2：

如果bytesRemaining超过分片大小splitSize一定量才会将文件分成多个InputSplit，SPLIT_SLOP(默认1.1)。接着就会执行如下方法获取block的索引，其中第二个参数是这个block在整个文件中的偏移量，在循环中会从0越来越大：

 1 protected int getBlockIndex(BlockLocation[] blkLocations, long offset) {

 4     for (int i = 0 ; i < blkLocations.length; i++) {

 5       // is the offset inside this block?

 6       if ((blkLocations[i].getOffset() <= offset) &&

 7           (offset < blkLocations[i].getOffset() + blkLocations[i].getLength())){

 8         return i;

 9       }

10     }

11 

12     BlockLocation last = blkLocations[blkLocations.length -1];

13     long fileLength = last.getOffset() + last.getLength() -1;

14     throw new IllegalArgumentException("Offset " + offset + " is outside of file (0.." + fileLength + ")");

17   }

将符合条件的块的索引对应的block信息的主机节点以及文件的路径名、开始的偏移量、分片大小splitSize封装到一个InputSplit中加入List<InputSplit> splits。

Step8.3：

bytesRemaining -= splitSize修改剩余字节大小。剩余如果bytesRemaining还不为0，表示还有未分配的数据，将剩余的数据及最后一个block加入splits。

Step8.4

如果不允许分割isSplitable==false，则将第一个block、文件目录、开始位置为0，长度为整个文件的长度封装到一个InputSplit，加入splits中；如果文件的长度==0，则splits.add(new FileSplit(path, 0, length, new String[0]))没有block，并且初始和长度都为0；

Step8.5

将输入目录下文件的个数赋值给 "mapreduce.input.num.files"，方便以后校对，返回分片信息splits。

　　这就是getSplits获取分片的过程。当使用基于FileInputFormat实现InputFormat时，为了提高MapTask的数据本地性，应尽量使InputSplit大小与block大小相同。

　如果分片大小超过bolck大小，但是InputSplit中的封装了单个block的所在主机信息啊，这样能读取多个bolck数据吗？

比如当前文件很大，1G，我们设置的最小分片是100M，最大是200M，当前块大小为64M，经过计算后的实际分片大小是100M，这个时候第二个分片中存放的也只是一个block的host信息。需要注意的是split是逻辑分片，不是物理分片，当Map任务需要的数据本地性发挥作用时，会从本机的block开始读取，超过这个block的部分可能不在本机，这就需要从别的DataNode拉数据过来，因为实际获取数据是一个输入流，这个输入流面向的是整个文件，不受split的影响，split的大小越大可能需要从别的节点拉的数据越多，从从而效率也会越慢，拉数据的多少是由getSplits方法中的splitSize决定的。所以为了更有效率，分片的大小尽量保持在一个block大小吧。

Step9:

将split信息和SplitMetaInfo都写入HDFS中。使用方法：

1 JobSplitWriter.createSplitFiles(jobSubmitDir, conf, jobSubmitDir.getFileSystem(conf), array);

Step10:

对Map数目设置，上面获得到的split的个数就是实际的Map任务的数目。

Step11:

4.2.4 另一种运行方式

提交MapReduce任务的方式除了上述源码中给出的之外，还可以使用ToolRunner方式。具体方式为：

1 ToolRunner.run(new Configuration(),new WordCount(), args);

至此，我们的MapReduce的启动类要做的事情已经分析完了。

-------------------------------------------------------------------------------

如果您看了本篇博客,觉得对您有所收获，请点击右下角的 [推荐]

如果您想转载本博客，请注明出处

如果您对本文有意见或者建议，欢迎留言

感谢您的阅读，请关注我的后续博客

中电金信25/3/18面前笔试（需求分析岗+数据开发岗）苍曦需求分析前端 javascript
部分相同题目在第二次数据开发岗中不做解析，本次解析来源于豆包AI，正确与否有待商榷，本文只提供一个速查与知识点的补充。一、需求分析第1题，单选题,Hadoop的核心组件包括HDFS和以下哪个？MapReduceSparkStormFlink解析：Hadoop的核心组件是HDFS（分布式文件系统）和MapReduce（分布式计算框架）。Spark、Storm、Flink虽然也是大数据处理相关技术，但
Hadoop MapReduce 词频统计（WordCount）代码解析教程我不是少爷. Java基础 hadoop mapreduce 大数据
一、概述这是一个基于HadoopMapReduce框架实现的经典词频统计程序。程序会统计输入文本中每个单词出现的次数，并将结果输出到HDFS文件系统。二、代码结构packagecom.bigdata.wc;//Hadoop核心类库导入importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;//数据类型定义
介绍 Apache Spark 的基本概念和在大数据分析中的应用佛渡红尘 apache
ApacheSpark是一个开源的集群计算框架，最初由加州大学伯克利分校的AMPLab开发，用于大规模数据处理和分析。相比于传统的MapReduce框架，Spark具有更快的数据处理速度和更强大的计算能力。ApacheSpark的基本概念包括：弹性分布式数据集（RDD）：是Spark中基本的数据抽象，是一个可并行操作的分区记录集合。RDD可以在集群中的节点间进行分布式计算。转换（Transform
基于MapReduce的气候数据分析赵谨言论文毕业设计经验分享
标题:基于MapReduce的气候数据分析内容:1.摘要本文聚焦于基于MapReduce的气候数据分析。背景在于随着全球气候变化问题日益严峻，海量气候数据的高效处理和分析成为关键。目的是利用MapReduce技术对气候数据进行有效挖掘，以揭示气候变化规律和趋势。方法上，采用MapReduce编程模型对大规模气候数据进行分布式处理，通过数据的映射和归约操作实现并行计算。结果表明，运用该技术能显著提高
场景题：100G的文件里有很多id，用1G内存的机器排序，怎么做？
海量数据排序思路核心方案：外排序（分治+多路归并）MapReduce外排序是指数据量太大，无法全部加载到内存中，需要将数据分成多个小块进行排序，然后将排序后的小块合并成一个大的有序块1.分块排序（Map阶段）分块策略按1G内存容量限制，将100G文件拆分为200个500MB分块（保留内存用于排序计算和系统开销）内存排序每个分块加载至内存后：①使用快速排序（时间复杂度O(nlogn)）②去重优化：若
上万个Map运行时链接ApplicationMaster超时FAILED 500佰大数据云计算 big data mapreduce
#MapReduce业务常见故障#大数据#生产环境真实案例#MapReduce#批计算#离线业务#整理#经验总结说明：此篇总结MapReduce业务常见故障案例处理方案结合自身经历总结不易+关注+收藏欢迎留言更多专题(详见)：MapReduce计算引擎详解--项目优化(指导书)上万个Map运行时链接ApplicationMaster超时FAILED症状Mapreduce任务会并发起几万个map,会
hive 数字转换字符串_Hive架构及Hive SQL的执行流程解读 weixin_39756416 hive 数字转换字符串
1、Hive产生背景MapReduce编程的不便性HDFS上的文件缺少Schema(表名，名称，ID等，为数据库对象的集合)2、Hive是什么Hive的使用场景是什么？基于Hadoop做一些数据清洗啊(ETL)、报表啊、数据分析可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。Hive是SQL解析引擎，它将SQL语句转译成M/RJob然后在Hadoop执行。由Facebook开源，
mySQL和Hive的区别 iijik55 面试学习路线阿里巴巴 hive mysql 大数据 tomcat 面试
SQL和HQL的区别整体1、存储位置：Hive在Hadoop上；Mysql将数据存储在设备或本地系统中；2、数据更新：Hive不支持数据的改写和添加，是在加载的时候就已经确定好了；数据库可以CRUD；3、索引：Hive无索引，每次扫描所有数据，底层是MR，并行计算，适用于大数据量；MySQL有索引，适合在线查询数据；4、执行：Hive底层是MapReduce；MySQL底层是执行引擎；5、可扩展性
Hadoop、Spark和 Hive 的详细关系夜行容忍 hadoop spark hive
Hadoop、Spark和Hive的详细关系1.ApacheHadoopHadoop是一个开源框架，用于分布式存储和处理大规模数据集。核心组件：HDFS(HadoopDistributedFileSystem)：分布式文件系统，提供高吞吐量的数据访问。YARN(YetAnotherResourceNegotiator)：集群资源管理和作业调度系统。MapReduce：基于YARN的并行处理框架，用
大数据面试之路 (一) 数据倾斜愿与狸花过一生大数据面试职场和发展
记录大数据面试历程数据倾斜大数据岗位，数据倾斜面试必问的一个问题。一、数据倾斜的表现与原因表现某个或某几个Task执行时间过长，其他Task快速完成。Spark/MapReduce作业卡在某个阶段（如reduce阶段），日志显示少数Task处理大量数据。资源利用率不均衡（如CPU、内存集中在某些节点）。常见场景Key分布不均：如某些Key对应的数据量极大（如用户ID为空的记录、热点事件）。数据分区
Hadoop的运行模式对许 #Hadoop hadoop 大数据分布式
Hadoop的运行模式1、本地运行模式2、伪分布式运行模式3、完全分布式运行模式4、区别与总结Hadoop有三种可以运行的模式：本地运行模式、伪分布式运行模式和完全分布式运行模式1、本地运行模式本地运行模式无需任何守护进程，单机运行，所有的程序都运行在同一个JVM上执行Hadoop安装后默认为本地模式，数据存储在Linux本地。在本地模式下调试MapReduce程序非常高效方便，一般该模式主要是在
Hadoop的mapreduce的执行过程画纸仁大数据 hadoop mapreduce 大数据
一、map阶段的执行过程第一阶段：把输入目录下文件按照一定的标准逐个进行逻辑切片，形成切片规划。默认Splitsize=Blocksize（128M），每一个切片由一个MapTask处理。（getSplits）第二阶段：对切片中的数据按照一定的规则读取解析返回对。默认是按行读取数据。key是每一行的起始位置偏移量，value是本行的文本内容。（TextInputFormat）第三阶段：调用Mapp
Hadoop：分布式计算平台初探 dccrtbn6261333 大数据运维 java
Hadoop是一个开发和运行处理大规模数据的软件平台，是Apache的一个用java语言实现开源软件框架，实现在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop框架中最核心设计就是：MapReduce和HDFS。MapReduce提供了对数据的计算，HDFS提供了海量数据的存储。MapReduceMapReduce的思想是由Google的一篇论文所提及而被广为流传的，简单的一句话解释M
探秘开源项目 MapReduce：分布式计算的新篇章褚知茉Jade
探秘开源项目MapReduce：分布式计算的新篇章去发现同类优质开源项目:https://gitcode.com/在大数据处理领域，一个名字始终熠熠生辉，那就是。这是一个由Google提出的并被广泛应用的编程模型，用于大规模数据集的并行计算。本文将带你深入了解这一开源实现的魅力，分析其技术原理，探讨它的应用场景，并揭示它独特的特性。项目简介该项目是ChubbyJiang对原始GoogleMapRe
MapReduce：分布式并行编程的基石 JAZJD mapreduce 分布式大数据
目录概述分布式并行编程分布式并行编程模型分布式并行编程框架MapReduce模型简介Map和Reduce函数Map函数Map函数的输入和输出Map函数的常见操作Reduce函数Reduce函数的输入和输出Reduce函数的常见操作工作流程概述各个阶段1.输入分片2.Map阶段3.Shuffle阶段4.Reduce阶段MapReduce工作流程总结Shuffle过程详解1.分区（Partitioni
MapReduce：分布式计算的基石 Earth explosion mapreduce 大数据
MapReduce是一种用于处理和生成大数据集的编程模型，以及一个用于执行该模型的关联实现。它使得在大型商用硬件集群（数千台机器）上进行并行处理海量数据成为可能。本文将深入探讨MapReduce的核心概念、工作原理、应用场景以及一些高级主题。核心概念：分而治之MapReduce的核心思想是“分而治之”。它将复杂的计算任务分解成两个主要阶段：Map阶段和Reduce阶段。Map阶段:输入数据被分割成
【Hadoop】如何理解MapReduce？ 2302_79952574 hadoop mapreduce 数据库
MapReduce是一种用于处理大规模数据集的编程模型和计算框架。它的核心思想是将复杂的计算任务分解为两个简单的阶段：Map（映射）和Reduce（归约）。通过这种方式，MapReduce可以高效地并行处理海量数据。一.MapReduce的核心概念1.Map（映射）：将输入数据分割成小块，并对每个小块进行初步处理。输出键值对（key-valuepairs），例如。2.Shuffle和Sort（洗牌
Hadoop介绍：什么是Hadoop？了解Hadoop的应用 Zzzxt007 hadoop 大数据分布式
一、认识Hadoop框架Hadoop是一个提供分布式存储和计算的开源软件框架，使用Java语言编写，具有高扩展性、高容错性、无共享和高可用（HA）等特点，非常适合处理海量数据。它基于Google发布的MapReduce论文实现，并且应用了函数式编程的思想。Hadoop框架主要包括HDFS（HadoopDistributedFileSystem，Hadoop分布式文件系统）、MapReduce、YA
【Hadoop】详解HDFS 2302_79952574 hadoop hdfs 大数据
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件上的分布式文件系统，它是一个高度容错性的系统，适合部署在廉价的机器上，能够提供高吞吐量的数据访问，非常适合大规模数据集上的应用。为了做到可靠性，HDFS创建了多份数据块的副本，并将它们放置在服务器群的计算节点中，MapReduce可以在它们所在的节点上处理这些数据。1.HDFS的设计目标存储大规模数据：HDFS可以存储并管理PB级甚至
hadoop框架与核心组件刨析（四）MapReduce 小刘爱喇石( ˝ᗢ̈˝ ) hadoop mapreduce 大数据
MapReduce是一种用于大规模数据处理的编程模型和计算框架，最初由Google提出，后来由ApacheHadoop实现并广泛应用。它的核心思想是将数据处理任务分解为两个阶段：Map和Reduce，并通过分布式计算并行处理海量数据。MapReduce的核心思想分而治之：将大规模数据集分割成多个小块，分布到集群中的多个节点上并行处理。Map阶段：将输入数据转换为键值对（Key-ValuePair）
hadoop运行java程序命令_使用命令行编译打包运行自己的MapReduce程序 Hadoop2.6.0 emi0wb
网上的MapReduceWordCount教程对于如何编译WordCount.java几乎是一笔带过…而有写到的，大多又是0.20等旧版本版本的做法，即javac-classpath/usr/local/hadoop/hadoop-1.0.1/hadoop-core-1.0.1.jarWordCount.java，但较新的2.X版本中，已经没有hadoop-core*.jar这个文件，因此编辑和打
大数据Hadoop集群运行程序赵广陆 hadoop hadoop big data mapreduce
目录1运行自带的MapReduce程序2常见错误1运行自带的MapReduce程序下面我们在Hadoop集群上运行一个MapReduce程序，以帮助读者对分布式计算有个基本印象。在安装Hadoop时，系统给用户提供了一些MapReduce示例程序，其中有一个典型的用于计算圆周率的Java程序包，现在运行该程序。该jar包文件的位置和文件名是“~/hadoop-3.1.0/share/Hadoop/
大数据面试系列之——Hadoop 潜心_守道大数据面经面试大数据 Hadoop
Hadoop的三个核心：HDFS（分布式存储系统）MapReduce（分布式计算系统）YARN(分布式资源调度)1.Hadoop集群的几种搭建模式1.单机模式：直接解压安装，不存在分布式存储系统2.伪分布式：NameNode和DataNode安装于同一个节点，无法体现分布式处理的优势。3.完全分布式：一个主节点，多个从节点，存在如果主节点宕机，集群就无法使用的缺点。4.高可用模式：多个主节点，多个
hadoop 百里自来卷 hadoop 大数据分布式
Hadoop是一个用于分布式存储和处理大规模数据的开源框架，它的架构主要由以下几个核心组件组成：1.Hadoop生态系统核心组件Hadoop的核心架构主要包括HDFS（HadoopDistributedFileSystem）和YARN（YetAnotherResourceNegotiator），以及MapReduce计算框架：1.1HDFS（分布式文件系统）HDFS负责存储大规模数据，采用主从架构
第一个Hadoop程序 lqlj2233 hadoop 大数据分布式
编写和运行第一个Hadoop程序是学习Hadoop的重要步骤。以下是一个经典的“WordCount”程序示例，它统计文本文件中每个单词出现的次数。我们将使用Java编写MapReduce程序，并在Hadoop集群上运行它。一、WordCount程序概述WordCount是Hadoop的“HelloWorld”程序。它的基本逻辑如下：Mapper：读取输入文件，将每一行文本拆分为单词，并输出每个单词
【自学笔记】Hadoop基础知识点总览-持续更新 Long_poem 笔记 hadoop 大数据
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Hadoop基础知识点总览1.Hadoop简介2.Hadoop生态系统3.HDFS（HadoopDistributedFileSystem）HDFS基本命令4.MapReduceWordCount示例（Java）5.YARN（YetAnotherResourceNegotiator）6.其他组件简介总结Hadoop基础知识点总
Spark是什么？可以用来做什么？ Bugkillers 大数据 spark 大数据分布式
ApacheSpark是一个开源的分布式计算框架，专为处理大规模数据而设计。它最初由加州大学伯克利分校开发，现已成为大数据处理领域的核心工具之一。相比传统的HadoopMapReduce，Spark在速度、易用性和功能多样性上具有显著优势。一、Spark的核心特点速度快：基于内存计算（In-MemoryProcessing），比基于磁盘的MapReduce快10~100倍。支持高效的DAG（有向无
大数据面试临阵磨枪不知看什么？看这份心理就有底了-大数据常用技术栈常见面试100道题大模型大数据攻城狮大数据面试职场和发展面试题数据仓库算法
目录1描述Hadoop的架构和它的主要组件。2MapReduce的工作原理是什么？3什么是YARN，它在Hadoop中扮演什么角色？4Spark和HadoopMapReduce的区别是什么？5如何在Spark中实现数据的持久化？6SparkStreaming的工作原理是什么？7如何优化Spark作业的性能？8描述HBase的架构和它的主要组件。9HBase的读写流程是怎样的？10HBase如何处理
Spark核心之06：知识点梳理小技工丨大数据技术学习 SparkSQL spark 大数据
spark知识点梳理spark_〇一1、spark是什么spark是针对于大规模数据处理的统一分析引擎，它是基于内存计算框架，计算速度非常之快，但是它仅仅只是涉及到计算，并没有涉及到数据的存储，后期需要使用spark对接外部的数据源，比如hdfs。2、spark四大特性1、速度快spark比mapreduce快的2个主要原因1、基于内存（1）mapreduce任务后期再计算的时候，每一个job的输
Hadoop基础知识及部署模式 2301_82242502 hadoop 大数据分布式
一、Hadoop是什么Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力，解决海量数据的存储及海量数据的分析计算问题。广义上的Hadoop是指Hadoop的整个技术生态圈；狭义上的Hadoop指的是其核心三大组件，包括HDFS、YARN及MapReduce.二、Hadoop的发展史Hadoop起源于Lucen
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它