MapReduce的MapTask任务的运行源码级分析

　　TaskTracker任务初始化及启动task源码级分析这篇文章中分析了任务的启动，每个task都会使用一个进程占用一个JVM来执行，org.apache.hadoop.mapred.Child方法是具体的JVM启动类，其main方法中的taskFinal.run(job, umbilical)会启动具体的Task。

　　Task分为两种类型：MapTask和ReduceTask，很明显，前者对应于Map任务，后者对应于Reduce任务。且MapTask分为4种：Job-setup Task、Job-cleanup Task、Task-cleanup Task和 Map Task。Job-setup Task、Job-cleanup Task分别是作业运行时启动的第一个任务和最后一个任务，主要工作分别是进行一些作业初始化和收尾工作，比如创建和删除作业临时输出目录；Task-cleanup Task则是任务失败或者被杀死后，用于清理已写入临时目录中数据的任务；最后一种Map Task则是处理数据并将结果存到本地磁盘上。

　　本节先看MapTask，Child类调用run()方法，此类任务的run()方法代码如下：　　

 1  @Override

 2   public void run(final JobConf job, final TaskUmbilicalProtocol umbilical) 

 3     throws IOException, ClassNotFoundException, InterruptedException {

 4       //负责与TaskTracker的通信，通过该对象可以获得必要的对象 

 5     this.umbilical = umbilical;

 6 

 7     // start thread that will handle communication with parent

 8     // 启动Reporter线程，用来和TaskTracker交互目前运行的状态

 9     TaskReporter reporter = new TaskReporter(getProgress(), umbilical,

10         jvmContext);

11     reporter.startCommunicationThread();

12     boolean useNewApi = job.getUseNewMapper();

13     /*用来初始化任务，主要是进行一些和任务输出相关的设置，比如创 建commiter，设置工作目录等*/ 

14     initialize(job, getJobID(), reporter, useNewApi);

15 

16     // check if it is a cleanupJobTask

17     /*以下4个if语句均是根据任务类型的不同进行相应的操作，这些方 法均是Task类的方法，所以与任务是MapTask还是ReduceTask无关*/ 

18     if (jobCleanup) {

19       runJobCleanupTask(umbilical, reporter);

20       return;

21     }

22     if (jobSetup) {

23         //主要是创建工作目录的FileSystem对象 

24       runJobSetupTask(umbilical, reporter);

25       return;

26     }

27     if (taskCleanup) {

28         //设置任务目前所处的阶段为结束阶段，并且删除工作目录 

29       runTaskCleanupTask(umbilical, reporter);

30       return;

31     }

32     //如果不是上述四种类型，则真正运行任务

33     if (useNewApi) {

34       runNewMapper(job, splitMetaInfo, umbilical, reporter);

35     } else {

36       runOldMapper(job, splitMetaInfo, umbilical, reporter);

37     }

38     done(umbilical, reporter);//等待JobTracker的commit命令

39   }

　　(1)参数TaskUmbilicalProtocol，这个协议用于Child和TaskTracker之间的通信。Child通过此协议，查看TaskTracker是否存在，取得任务，报告任务的进度，状态，出错信息，Commit文件到HDFS，并取得map结果给reduce；TaskTracker接收任务并监控任务的进度。

　　(2)TaskReporter类是是Task类的内部私有类。Task.TaskReporter用于向TaskTracker提交计数器报告和状态报告，它实现了计数器报告Reporter和状态报告StatusReporter。为了不影响主线程的工作，TaskReporter有一个独立的线程，该线程通过TaskUmbilicalProtocol接口，向TaskTracker报告Task执行情况。startCommunicationThread()方法会启动线程。

　　(3)useNewApi = job.getUseNewMapper()获取这个Task使用的新的API还是旧的API。mapreduce job提交流程源码级分析（一）（原创）这篇文章有讲在Job提交的时候就设置了使用新的API(包括新的Mapper和新的Reducer)。

　　(4)initialize(job, getJobID(), reporter, useNewApi)该方法在父类Task中。这个方法会将Task的状态设置为RUNNING，表示正在运行；然后如果是新API会获取对应的OutputFormatClass默认是TextOutputFormat.class，新API会获取mapreduce.FileOutputCommitter旧API会获取mapred.FileOutputCommitter；再获取在MapReduce程序中通过FileOutputFormat.setOutputPath设置的输出目录，如果这个输出目录不为null且是新的API会执行else语句FileOutputFormat.setWorkOutputPath(conf, outputPath)(这个是旧版mapred.FileOutputFormat)设置工作目录，比如hdfs://IP:8020/user/XXX，IP指的是namenode，XXX指的是用户名；然后构造一个资源计算器ResourceCalculatorPlugin对象，来获取内存、CPU等资源信息。

　　(5)如果jobCleanup==true(是在TaskInProgress类中设置的)表明这个task是清理Job的。直接运行runJobCleanupTask(umbilical, reporter)方法，这个方法是清理Job，包括步骤状态设置，更新状态到TaskTracker，调用org.apache.hadoop.mapreduce.OutputCommitter的相关方法，删除目录，通过done，通知TaskTracker任务完成等待commit命令。

　　(6)如果jobSetup==true(是在TaskInProgress类中设置的)表明要初始化Job，直接运行runJobSetupTask(umbilical, reporter)为建立Job做准备，执行状态设置，然后调用org.apache.hadoop.mapreduce.OutputCommitter的setupJob，最后通过done，通知TaskTracker任务完成等待commit命令。

　　(7)如果是taskCleanup==true(是在TaskInProgress类中设置的)表明是清理task的任务，直接运行runTaskCleanupTask(umbilical, reporter)，清理Task任务，和上面(5)中runJobCleanupTask类似。

　　(8)接下来才是执行Mapper的步骤，如果不是上面的5,6,7三种，如果是启用新的API(实际上是启用的，我们也只分析新API)，就执行runNewMapper(job, splitMetaInfo, umbilical, reporter)方法。

　　(9)done(umbilical, reporter)这个方法也被上面的5,6,7调用了，这个方法用于做结束任务的一些清理工作：更新计数器updateCounters()；如果任务需要提交，设置Taks状态为COMMIT_PENDING，并利用TaskUmbilicalProtocol，汇报Task完成，等待提交，然后调用commit提交任务；设置任务结束标志位；结束Reporter通信线程；发送最后一次统计报告(通过sendLastUpdate方法)；利用TaskUmbilicalProtocol报告结束状态（通过sendDone方法)。

　　下面我们来看(8)中的runNewMapper(job, splitMetaInfo, umbilical, reporter)方法方法，这个方法将会构造一系列的对象来辅助执行Mapper。其代码如下：

 1 private <INKEY,INVALUE,OUTKEY,OUTVALUE>

 2   void runNewMapper(final JobConf job,

 3                     final TaskSplitIndex splitIndex,

 4                     final TaskUmbilicalProtocol umbilical,

 5                     TaskReporter reporter

 6                     ) throws IOException, ClassNotFoundException,

 7                              InterruptedException {

 8       /*TaskAttemptContext类继承于JobContext类，相对于JobContext类增加了一些有关task的信息。

 9        * 通过taskContext对象可以获得很多与任务执行相关的类，比如用户定义的Mapper类，InputFormat类等等 */ 

10     // make a task context so we can get the classes

11     org.apache.hadoop.mapreduce.TaskAttemptContext taskContext =

12       new org.apache.hadoop.mapreduce.TaskAttemptContext(job, getTaskID());

13     // make a mapper//创建用户自定义的Mapper类的实例

14     org.apache.hadoop.mapreduce.Mapper<INKEY,INVALUE,OUTKEY,OUTVALUE> mapper =

15       (org.apache.hadoop.mapreduce.Mapper<INKEY,INVALUE,OUTKEY,OUTVALUE>)

16         ReflectionUtils.newInstance(taskContext.getMapperClass(), job);

17     // make the input format 创建用户指定的InputFormat类的实例 

18     org.apache.hadoop.mapreduce.InputFormat<INKEY,INVALUE> inputFormat =

19       (org.apache.hadoop.mapreduce.InputFormat<INKEY,INVALUE>)

20         ReflectionUtils.newInstance(taskContext.getInputFormatClass(), job);

21     // rebuild the input split  重新生成InputSplit 

22     org.apache.hadoop.mapreduce.InputSplit split = null;

23     split = getSplitDetails(new Path(splitIndex.getSplitLocation()),

24         splitIndex.getStartOffset());

25   //根据InputFormat对象创建RecordReader对象，默认是LineRecordReader 

26     org.apache.hadoop.mapreduce.RecordReader<INKEY,INVALUE> input =

27       new NewTrackingRecordReader<INKEY,INVALUE>

28           (split, inputFormat, reporter, job, taskContext);

29 

30     job.setBoolean("mapred.skip.on", isSkipping());

31   //生成RecordWriter对象

32     org.apache.hadoop.mapreduce.RecordWriter output = null;

33     org.apache.hadoop.mapreduce.Mapper<INKEY,INVALUE,OUTKEY,OUTVALUE>.Context 

34          mapperContext = null;

35     try {

36       Constructor<org.apache.hadoop.mapreduce.Mapper.Context> contextConstructor =

37         org.apache.hadoop.mapreduce.Mapper.Context.class.getConstructor

38         (new Class[]{org.apache.hadoop.mapreduce.Mapper.class,

39                      Configuration.class,

40                      org.apache.hadoop.mapreduce.TaskAttemptID.class,

41                      org.apache.hadoop.mapreduce.RecordReader.class,

42                      org.apache.hadoop.mapreduce.RecordWriter.class,

43                      org.apache.hadoop.mapreduce.OutputCommitter.class,

44                      org.apache.hadoop.mapreduce.StatusReporter.class,

45                      org.apache.hadoop.mapreduce.InputSplit.class});

46 

47       // get an output object

48       if (job.getNumReduceTasks() == 0) {

49          output =

50            new NewDirectOutputCollector(taskContext, job, umbilical, reporter);

51       } else {

52         output = new NewOutputCollector(taskContext, job, umbilical, reporter);

53       }

54 

55       mapperContext = contextConstructor.newInstance(mapper, job, getTaskID(),

56                                                      input, output, committer,

57                                                      reporter, split);

58       /*初始化，在默认情况下调用的是LineRecordReader的initialize方 法，主要是打开输入文件并且将文件指针指向文件头*/ 

59       input.initialize(split, mapperContext);

60       mapper.run(mapperContext);    //Mapper的执行

61       input.close();

62       output.close(mapperContext);

63     } catch (NoSuchMethodException e) {

64       throw new IOException("Can't find Context constructor", e);

65     } catch (InstantiationException e) {

66       throw new IOException("Can't create Context", e);

67     } catch (InvocationTargetException e) {

68       throw new IOException("Can't invoke Context constructor", e);

69     } catch (IllegalAccessException e) {

70       throw new IOException("Can't invoke Context constructor", e);

71     }

72   }

View Code

　　(1)会获取配置信息类对象taskContext、自己开发的Mapper的实例mapper、用户指定的InputFormat对象inputFormat(默认是TextInputFormat)、任务对应的分片信息split

　　(2)根据inputFormat构建一个NewTrackingRecordReader对象，这个对象中的RecordReader<K,V> real是LineRecordReader。这个类是读取分片中的内容的。

　　(3)然后创建mapreduce.RecordWriter output，如果没有reducer(满足job.getNumReduceTasks() == 0)，就output =new NewDirectOutputCollector(taskContext, job, umbilical, reporter)直接输出到HDFS上；如果有reducer，就output = new NewOutputCollector(taskContext, job, umbilical, reporter)作为输出，这俩都继承自org.apache.hadoop.mapreduce.RecordWriter类。output是map任务的输出。

　　(4)input.initialize(split, mapperContext)初始化，在默认情况下调用的是LineRecordReader的initialize方法，主要是打开输入文件(构建一个LineReader对象，在这实现文件内容的具体读)并且将文件指针指向文件头。

　　(5)mapper.run(mapperContext)这里是具体执行mapper的地方，下面再讲。

　　(6)最后mapper执行完毕之后，就会关闭输入输出流：input.close();output.close(mapperContext)。

　　上面这些就是MapTask的执行过程。还有一些地方需要再详细解读一下：

　　一、NewDirectOutputCollector是没有reducer的作业，直接将map的输出写入HDFS中。输出流mapreduce.RecordWriter out = outputFormat.getRecordWriter(taskContext)，默认是TextOutputFormat.getRecordWriter(taskContext)这个方法会判断有无压缩配置项，然后通过Path file = getDefaultWorkFile(job, extension)，extension这个参数如果没有压缩选项会为空，获取输出文件的写入目录和文件名，形"$output/_temporary/_$taskid/part-[mr]-$id"，这个$output是你MR程序设置的输出目录，_temporary/_$taskid这个是临时目录，part-[mr]-$id这一部分是通过getUniqueFile获取的文件名，其中的mr是看具体的task任务类型而定，id就是taskid；getRecordWriter方法最终会返回LineRecordWriter<K, V>(fileOut, keyValueSeparator)，fileOut是FSDataOutputStream指向要写入的文件，keyValueSeparator是数据的分隔符，可通过"mapred.textoutputformat.separator"来配置，默认是"\t"表示输入数据要以\t分割。NewDirectOutputCollector.write(K key, V value)其实是调用out.write(key, value)来完成写入HDFS文件的。

　　二、NewOutputCollector是有reducer的作业的map的输出。这个类的主要包含的对象是MapOutputCollector<K,V> collector = new MapOutputBuffer<K,V>(umbilical, job, reporter)，并且实例化了mapreduce.Partitioner<K,V> partitioner(默认是HashPartitioner.class)这个是用来对mapper的输出数据进行分区的就是要数据要汇总到那个reducer上，NewOutputCollector的write方法会调用collector.collect(key, value,partitioner.getPartition(key, value, partitions))。

　　三、LineRecordReader类，是用来从指定的文件读取内容传递给Mapper的map方法做处理的。实际上读文件内容的是类中的LineReader对象in，该对象在initialize方法(上面的步骤(4))中进行了初始化，会根据输入文件的文件类型(压缩或不压缩)传入相应输入流对象。LineReader会总输入流对象中通过readLine(Text str, int maxLineLength,int maxBytesToConsume)(其实有3个readLine方法，但是最终都会调用这个方法)方法每次读取一行放入str中，并返回读取数据的长度。LineRecordReader.nextKeyValue()方法会设置两个对象key和value，key是一个偏移量指的是当前这行数据在输入文件中的偏移量(注意这个偏移量可不是对应单个分片内的偏移量，而是针对整个分布式文中的偏移量)，value是通过LineReader的对象in读取的一行内容，如果没有数据可读了，这个方法会返回false，否则true。getCurrentKey()和getCurrentValue()是获取当前的key和value，调用这俩方法之前需要先调用nextKeyValue()为key和value赋新值，否则会重复，当然我们不用考虑这个因为在mapper.run方法中已经做了。

　　四、mapper.run方法开始执行mapper，因为使用的新的API，我们查看类org.apache.hadoop.mapreduce.Mapper(我们开发的Mapper都是继承自这个类，我们只需要实现map方法即可)，该类下的run方法代码如下：

1 public void run(Context context) throws IOException, InterruptedException {

2     setup(context);

3     while (context.nextKeyValue()) {

4       map(context.getCurrentKey(), context.getCurrentValue(), context);

5     }

6     cleanup(context);

7   }

　　首先会执行setup方法，我们在开发自己的mapper时有时需要传一些自己的参数，可以写入context，自己重写setup方法，获取这个参数；然后循环调用nextKeyValue()方法获取key和value，执行map方法，这里有疑问了，上面讲的不是reader是用来读数据的么，这里怎么是context了？我们查看runNewMapper中的mapperContext，这是mapreduce.Mapper<INKEY,INVALUE,OUTKEY,OUTVALUE>.Context对象，这个Context是Mapper的一个内部类，这句mapperContext = contextConstructor.newInstance(mapper, job, getTaskID(),input, output, committer,reporter, split)会实例化一个mapreduce.Mapper<INKEY,INVALUE,OUTKEY,OUTVALUE>.Context对象，会将LineRecordReader的实例和NewOutputCollector的实例传进去，mapreduce.Mapper<INKEY,INVALUE,OUTKEY,OUTVALUE>.Context extends MapContext<KEYIN,VALUEIN,KEYOUT,VALUEOUT>，在MapContext类中LineRecordReader的实例会被赋给RecordReader<KEYIN,VALUEIN> reader，然后会有同样的nextKeyValue()、getCurrentValue()、getCurrentKey()会调用reader的相应方法，从而实现了Mapper.run方法中的nextKeyValue()不断获取key和value。回到run方法，循环中的map方法就是我们自己的map，当读完数据之后，会调用cleanup方法来做一些清理工作，这点我们同样可以利用，我们可以根据自己的需要重写cleanup方法。

　　另外我们自己的map方法中最后都会有context.write(K,V)方法用来将计算数据输出，我们顺着上一段继续追查MapContext类中并无write方法，但是它继承自TaskInputOutputContext类，进去发现RecordWriter<KEYOUT,VALUEOUT> output这个对象是输出对象，被赋值NewOutputCollector，其write方法直接调用的是NewOutputCollector.write方法，我们上面的二已经说了，write方法会调用MapOutputBuffer.collect(key, value,partitioner.getPartition(key, value, partitions))方法，将数据先写入缓存中。好麻烦是吧，呵呵。

　　五、接下来我们看看MapOutputBuffer implements MapOutputCollector这个类了。这个类比较复杂，有1000行代码。该类内部使用一个缓冲区暂时存储用户输出数据，当缓冲区使用率达到一定阈值后，再讲缓冲区中的数据写到磁盘上。Hadoop的这个缓冲区采用环形缓冲区：当缓冲区使用率达到一定的阈值后，便开始向磁盘上写入数据，同时生产者扔可以向不断增加的剩余空间中循环写入数据，进而达到读写并行(Map Task的collect阶段和spill阶段)，性能也比较高。

　　MapOutputBuffer采用两级索引结构，涉及三个环形缓冲区：int[] kvoffsets(偏移量索引数组，保存KV信息在位置索引kvindices中的偏移量)、int[] kvindices(位置索引数组，用于保存KV值在数据缓冲区kvbuffer中的起始位置)、byte[] kvbuffer(数据缓冲区，保存实际的KV值，默认情况下最多使用io.sort.mb的95%)。一对KV需占用数组kvoffsets的1个int大小，数组kvindices的3个int大小(分别保存所在partion号、key值开始位置、Value值开始位置)，所以按比例1:3将大小为${io.sort.record.percent}*${io.sort.mb}的内存空间分配给数组kvoffsets和kvindices，默认是0.05*100MB。

　　MapOutputBuffer类中有一个BlockingBuffer extends DataOutputStream内部类，该类中的OutputStream out对象也是MapOutputBuffer的一个内部类Buffer extends OutputStream，Buffer主要是对kvbuffer操纵，BlockingBuffer的实例化对象是bb，该值同时是keySerializer和valSerializer(默认都是org.apache.hadoop.io.serializer.WritableSerialization的内部类WritableSerializer)的输出流对象。

　　MapOutputBuffer.collect方法每次都会先检查kvoffsets数组的有效容量是否超过io.sort.spill.percent，默认0.8，如果超过则唤醒spill线程写到临时文件中( startSpill()方法完成)；然后通过keySerializer.serialize(key)将key写入上述说的bb输出流中，实际最终调用的是Buffer.write(byte b[], int off, int len)，这个方法会将key写入环形缓冲区kvbuffer中，如果kvbuffer的有效内存容量超过io.sort.spill.percent则会唤醒spill线程写到临时文件中( startSpill()方法完成)，如果发生key跨界情况(bufindex < keystart)，要保证key不能跨界(因为是排序的关键字要求排序关键字连续存储)，会调用bb.reset()来直接操纵kvbuffer处理两种情况(一种是头部可以放下key，另外一种则不可以)；然后是keySerializer.serialize(key)，写到kvbuffer中，可以参考序列化key时的过程，但value可以跨界。如果遇到一条记录的key或者value太大以至于真个缓冲区都放不下，则会抛出MapBufferTooSmallException，执行spillSingleRecord(key, value, partition)会将该记录单独输出到一个文件中。

　　可以看出触发spill溢写操作的条件是：kvoffsets或者kvbuffer有效容量超过io.sort.spill.percent；出现一条缓冲区kvbuffer无法容纳的超大记录。

　　SpillThread线程在构造方法中已经启动，线程的run方法就是一直等待被唤醒，一旦唤醒就调用sortAndSpill()方法排序并写文件，startSpill()会唤醒这个线程。

sortAndSpill()方法代码如下：

View Code

　　先计算写入文件的大小；然后获取写到本地(非HDFS)文件的文件名，会有一个编号，例如output/spill2.out；然后构造一个输出流；然后使用快排对缓冲区kvbuffe中区间[bufstart,bufend)内的数据进行排序，先按分区编号partition进行排序，然后按照key进行排序。这样经过排序后，数据以分区为单位聚集在一起，且同一分区内所有数据按照key有序。

　　会构建一个IFile.Writer对象将输出流传进去，输出到指定的文件当中，这个对象支持行级的压缩。如果用户设置了Combiner(实际上是一个reducer)，则写入文件之前会对每个分区中的数据进行一次聚集操作，通过combinerRunner.combine(kvIter, combineCollector)实现，因为使用了新版的API，所以combinerRunner会是NewCombinerRunner，它的combine方法会执行reducer.run方法，只不过输出和正常的reducer不一样而已，这里最终会调用IFile.Writer的append方法实现本地文件的写入。

　　还有将分区数据的元信息写到内存索引数据结构SpillRecord中，其中每个分区的元信息包括在临时文件中的偏移量、压缩前数据大小和压缩后数据大小。如果内存中索引大于1MB，则写到文件output/spill2.out.index中。
　　runNewMapper方法的最后会有输出流的关闭：output.close(mapperContext)，其实就是NewOutputCollector.close(mapperContext)该方法会执行MapOutputBuffer.flush()操作会将剩余的数据也通过sortAndSpill()方法写入本地文件，并在最后调用mergeParts()方法合并所有spill文件。代码如下：　　

  1 private void mergeParts() throws IOException, InterruptedException, 

  2                                      ClassNotFoundException {

  3       // get the approximate size of the final output/index files

  4       long finalOutFileSize = 0;

  5       long finalIndexFileSize = 0;

  6       final Path[] filename = new Path[numSpills];

  7       final TaskAttemptID mapId = getTaskID();

  8 

  9       for(int i = 0; i < numSpills; i++) {

 10         filename[i] = mapOutputFile.getSpillFile(i);    //通过spill文件的编号获取到指定的spill文件路径

 11         finalOutFileSize += rfs.getFileStatus(filename[i]).getLen();

 12       }

 13       //合并输出有俩文件一个是output/file.out，一个是output/file.out.index

 14       if (numSpills == 1) { //the spill is the final output

 15         rfs.rename(filename[0],

 16             new Path(filename[0].getParent(), "file.out"));

 17         if (indexCacheList.size() == 0) {

 18           rfs.rename(mapOutputFile.getSpillIndexFile(0),

 19               new Path(filename[0].getParent(),"file.out.index"));

 20         } else {    //写入文件

 21           indexCacheList.get(0).writeToFile(

 22                 new Path(filename[0].getParent(),"file.out.index"), job);

 23         }

 24         return;

 25       }

 26 

 27       // read in paged indices

 28       for (int i = indexCacheList.size(); i < numSpills; ++i) {

 29         Path indexFileName = mapOutputFile.getSpillIndexFile(i);

 30         indexCacheList.add(new SpillRecord(indexFileName, job, null));

 31       }

 32 

 33       //make correction in the length to include the sequence file header

 34       //lengths for each partition

 35       finalOutFileSize += partitions * APPROX_HEADER_LENGTH;

 36       finalIndexFileSize = partitions * MAP_OUTPUT_INDEX_RECORD_LENGTH;

 37       Path finalOutputFile =

 38           mapOutputFile.getOutputFileForWrite(finalOutFileSize);   //output/file.out

 39       Path finalIndexFile =

 40           mapOutputFile.getOutputIndexFileForWrite(finalIndexFileSize);    //output/file.out.index

 41 

 42       //The output stream for the final single output file

 43       FSDataOutputStream finalOut = rfs.create(finalOutputFile, true, 4096);

 44 

 45       if (numSpills == 0) {

 46         //create dummy（假的，假设） files

 47         IndexRecord rec = new IndexRecord();

 48         SpillRecord sr = new SpillRecord(partitions);

 49         try {

 50           for (int i = 0; i < partitions; i++) {

 51             long segmentStart = finalOut.getPos();

 52             Writer<K, V> writer =

 53               new Writer<K, V>(job, finalOut, keyClass, valClass, codec, null);

 54             writer.close();

 55             rec.startOffset = segmentStart;

 56             rec.rawLength = writer.getRawLength();

 57             rec.partLength = writer.getCompressedLength();

 58             sr.putIndex(rec, i);

 59           }

 60           sr.writeToFile(finalIndexFile, job);

 61         } finally {

 62           finalOut.close();

 63         }

 64         return;

 65       }

 66       {

 67         IndexRecord rec = new IndexRecord();

 68         final SpillRecord spillRec = new SpillRecord(partitions);

 69         //finalOut最终输出文件。循环分区获得所有spill文件的该分区数据，合并写入finalOut

 70         for (int parts = 0; parts < partitions; parts++) {

 71           //create the segments to be merged

 72           List<Segment<K,V>> segmentList =

 73             new ArrayList<Segment<K, V>>(numSpills);

 74           for(int i = 0; i < numSpills; i++) {

 75             IndexRecord indexRecord = indexCacheList.get(i).getIndex(parts);

 76 

 77             Segment<K,V> s =

 78               new Segment<K,V>(job, rfs, filename[i], indexRecord.startOffset,

 79                                indexRecord.partLength, codec, true);

 80             segmentList.add(i, s);

 81 

 82             if (LOG.isDebugEnabled()) {

 83               LOG.debug("MapId=" + mapId + " Reducer=" + parts +

 84                   "Spill =" + i + "(" + indexRecord.startOffset + "," +

 85                   indexRecord.rawLength + ", " + indexRecord.partLength + ")");

 86             }

 87           }

 88 

 89           //merge

 90           @SuppressWarnings("unchecked")

 91           RawKeyValueIterator kvIter = Merger.merge(job, rfs,

 92                          keyClass, valClass, codec,

 93                          segmentList, job.getInt("io.sort.factor", 100),//做merge操作时同时操作的stream数上限

 94                          new Path(mapId.toString()),

 95                          job.getOutputKeyComparator(), reporter,

 96                          null, spilledRecordsCounter);

 97 

 98           //write merged output to disk

 99           long segmentStart = finalOut.getPos();

100           Writer<K, V> writer =

101               new Writer<K, V>(job, finalOut, keyClass, valClass, codec,

102                                spilledRecordsCounter);

103        // minSpillsForCombine 在MapOutputBuffer构造函数内被初始化，  

104        // numSpills 为mapTask已经溢写到磁盘spill文件数量  

105           if (combinerRunner == null || numSpills < minSpillsForCombine) {

106             Merger.writeFile(kvIter, writer, reporter, job);

107           } else {

108             combineCollector.setWriter(writer);

109           //其实写入数据的还是这里的writer类的append方法，这的输出是output/file.out文件，是合并后的文件

110             combinerRunner.combine(kvIter, combineCollector);

111           }

112 

113           //close

114           writer.close();

115 

116           // record offsets

117           rec.startOffset = segmentStart;

118           rec.rawLength = writer.getRawLength();

119           rec.partLength = writer.getCompressedLength();

120           spillRec.putIndex(rec, parts);

121         }

122         spillRec.writeToFile(finalIndexFile, job);    //写入索引文件

123         finalOut.close();        //合并后的输出文件

124         for(int i = 0; i < numSpills; i++) {

125           rfs.delete(filename[i],true);

126         }

127       }

128     }

View Code

　　该方法会将所有临时文件合并成一个大文件保存到output/file.out中，同时生成相应的索引文件output/file.out.index。在进行文件合并的过程中，Map Task以分区为单位进行合并。对于某个分区，它将采用多轮递归合并的方式：每轮合并io.sort.factor，默认是100，个文件，并将产生的文件重新加入待合并列表中，对文件排序后，重复上述过程，直到只有一个文件。只生产一个文件可以避免同时打开大量的文件和同时读取大量的小文件产生的随机读取带来的开销。最后会删除所有的spill文件。

　　另外需要注意的是，mergeParts()中也有combiner的操作，但是需要满足一定的条件：1、用户设置了combiner；2、spill文件的数量超过了minSpillsForCombine的值，对应配置项"min.num.spills.for.combine"，可自行设置，默认是3。这俩必须同时具备才会在此启动combiner的本地聚集操作。所以在Map阶段有可能combiner会执行两次，所以有可能你的combiner执行两次之后输出数据不符合预期了。

　　这样Map阶段的任务就算完成了。主要是读取数据然后写入内存缓冲区，缓存区满足条件就会快排后并设置partition后，spill到本地文件和索引文件；如果有combiner，spill之前也会做一次聚集操作，待数据跑完会通过归并合并所有spill文件和索引文件，如果有combiner，合并之前在满足条件后会做一次综合的聚集操作。map阶段的结果都会存储在本地中(如果有reducer的话)，非HDFS。

　　参考：1、董西成，《hadoop技术内幕---深入理解MapReduce架构设计与实现原理》

你可能感兴趣的:(mapreduce)

浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
Hadoop windows intelij 跑 MR WordCount piziyang12138
一、软件环境我使用的软件版本如下:IntellijIdea2017.1Maven3.3.9Hadoop分布式环境二、创建maven工程打开Idea,file->new->Project,左侧面板选择maven工程。(如果只跑MapReduce创建java工程即可，不用勾选Creatfromarchetype，如果想创建web工程或者使用骨架可以勾选)image.png设置GroupId和Artif
ArcGIS地图切片原理与算法数智侠 GIS
ArcGIS地图切图系列之（一）切片原理解析点击打开链接ArcGIS地图切图系列之（二）JAVA实现点击打开链接ArcGIS地图切图系列之（三）MapReduce实现点击打开链接
数据中台建设方案-基于大数据平台(下) FRDATA1550333 大数据数据库架构数据库开发数据库
数据中台建设方案-基于大数据平台(下)1数据中台建设方案1.1总体建设方案1.2大数据集成平台1.3大数据计算平台1.3.1数据计算层建设计算层技术含量最高，最为活跃，发展也最为迅速。计算层主要实现各类数据的加工、处理和计算，为上层应用提供良好和充分的数据支持。大数据基础平台技术能力的高低，主要依赖于该层组件的发展。本建设方案满足甲方对于数据计算层建设的基本要求：利用了MapReduce、Spar
MIT6.824 课程-MapReduce 余为民同志 6.824 mapreduce 分布式 6.824
MapReduce：在大型集群上简化数据处理概要MapReduce是一种编程模型，它是一种用于处理和生成大型数据集的实现。用户通过指定一个用来处理键值对(Key/Value)的map函数来生成一个中间键值对集合。然后，再指定一个reduce函数，它用来合并所有的具有相同中间key的中间value。现实生活中有许多任务可以通过该模型进行表达，具体案例会在论文中展现出来。以这种函数式风格编写的程序能够
Hadoop之mapreduce -- WrodCount案例以及各种概念 lzhlizihang hadoop mapreduce 大数据
文章目录一、MapReduce的优缺点二、MapReduce案例--WordCount1、导包2、Mapper方法3、Partitioner方法（自定义分区器）4、reducer方法5、driver（main方法）6、Writable（手机流量统计案例的实体类）三、关于片和块1、什么是片，什么是块？2、mapreduce启动多少个MapTask任务？四、MapReduce的原理五、Shuffle过
Yarn介绍 - 大数据框架 why do not 大数据 hadoop
YARN的概述YARN是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序YARN是Hadoop2.x版本中的一个新特性。它的出现其实是为了解决第一代MapReduce编程框架的不足，提高集群环境下的资源利用率，这些资源包括内存，磁盘，网络，IO等。Hadoop2.X版本中重新设计的这个YARN集群
浅析大数据Hadoop之YARN架构 haotian1685 python 数据清洗人工智能大数据大数据学习深度学习大数据大数据学习 YARN hadoop
1.YARN本质上是资源管理系统。YARN提供了资源管理和资源调度等机制1.1原HadoopMapReduce框架对于业界的大数据存储及分布式处理系统来说，Hadoop是耳熟能详的卓越开源分布式文件存储及处理框架，对于Hadoop框架的介绍在此不再累述，读者可参考Hadoop官方简介。使用和学习过老Hadoop框架（0.20.0及之前版本）的同仁应该很熟悉如下的原MapReduce框架图：1.2H
Hive的优势与使用场景傲雪凌霜，松柏长青后端大数据 hive hadoop 数据仓库
Hive的优势Hive作为一个构建在Hadoop上的数据仓库工具，具有许多优势，特别是在处理大规模数据分析任务时。以下是Hive的主要优势：1.与Hadoop生态系统的紧密集成Hive构建在Hadoop分布式文件系统(HDFS)之上，能够处理海量数据并进行分布式计算。它利用Hadoop的MapReduce或Spark来执行查询，具备高度扩展性，适合大数据处理。2.支持SQL-like查询语言(Hi
Spark概念知识笔记 kuntoria
最近总结了个人的各项能力，发现在大数据这方面几乎没有涉及，因此想补充这方面的知识，丰富自己的知识体系，大数据生态主要包含：Hadoop和Spark两个部分，Spark作用相当于MapReduceMapReduce和Spark对比如下磁盘由于其物理特性现在，速度提升非常困难，远远跟不上CPU和内存的发展速度。近几十年来，内存的发展一直遵循摩尔定律，价格在下降，内存在增加。现在主流的服务器，几百GB或
【Hadoop】- MapReduce & YARN 初体验[9] 星星法术嗲人 hadoop hadoop mapreduce
目录提交MapReduce程序至YARN运行1、提交wordcount示例程序1.1、先准备words.txt文件上传到hdfs，文件内容如下：1.2、在hdfs中创建两个文件夹，分别为/input、/output1.3、将创建好的words.txt文件上传到hdfs中/input1.4、提交MapReduce程序至YARN1.5、可通过node1:8088查看1.6、返回我们的服务器，检查输出文
DAG (directed acyclic graph) 作为大数据执行引擎的优点 joeywen 分布式计算 Storm Spark Storm 杂谈 Storm spark DAG
TL;DR-ConceptuallyDAGmodelisastrictgeneralizationofMapReducemodel.DAG-basedsystemslikeSparkandTezthatareawareofthewholeDAGofoperationscandobetterglobaloptimizationsthansystemslikeHadoopMapReducewhicha
Hadoop组件静听山水 Hadoop hadoop
这张图片展示了Hadoop生态系统的一些主要组件。Hadoop是一个开源的大数据处理框架，由Apache基金会维护。以下是每个组件的简短介绍：HBase：一个分布式、面向列的NoSQL数据库，基于GoogleBigTable的设计理念构建。HBase提供了实时读写访问大量结构化和半结构化数据的能力，非常适合大规模数据存储。Pig：一种高级数据流语言和执行引擎，用于编写MapReduce任务。Pig
Hadoop-MapReduce机制原理 H.S.T不想卷大数据 hadoop mapreduce 大数据
MapReduce机制原理1、MapReduce概述2、MapReduce特点3、MapReduce局限性4、MapTask5、Map阶段步骤：6、Reduce阶段步骤：7、MapReduce阶段图1、MapReduce概述 HadoopMapReduce是一个分布式计算框架，用于轻松编写分布式应用程序，这些应用程序以可靠，容错的方式并行处理大型硬件集群（数千个节点）上的大量数据（多TB数据集）
EMR组件部署指南 ivwdcwso 运维 EMR 大数据开源运维
EMR(ElasticMapReduce)是一个大数据处理和分析平台,包含了多个开源组件。本文将详细介绍如何部署EMR的主要组件,包括:JDK1.8ElasticsearchKafkaFlinkZookeeperHBaseHadoopPhoenixScalaSparkHive准备工作所有操作都在/data目录下进行。首先安装JDK1.8:yuminstalljava-1.8.0-openjdk部署
hive学习记录 2302_80695227 hive 学习 hadoop
一、Hive的基本概念定义：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。Hive将HQL（HiveQueryLanguage）转化成MapReduce程序或其他分布式计算引擎（如Tez、Spark）的任务进行计算。数据存储：Hive处理的数据存储在HDFS（HadoopDistributedFileSystem）上。执行引擎：Hive的
Mapreduce是什么 whisky丶
简单来说，MapReduce是一个编程模型，用以进行大数据量的计算。HadoopMapReduce是一个软件框架，基于该框架能够容易地编写应用程序，这些应用程序能够运行在由上千个商用机器组成的大集群上，并以一种可靠的，具有容错能力的方式并行地处理上TB级别的海量数据集。Mapreduce的特点：软件框架并行处理可靠且容错大规模集群海量数据集
Hadoop之MapReduce qq_43198449
1.MapReduce解决的问题1)数据问题：10G的TXT文件2)生活问题：统计分类上海市的图书馆的书2.MapReduce是什么MapReduce是一种分布式的离线计算框架，是一种编程模型，用于大规模数据集(大于1TB)的并行运算将自己的程序运行在分布式系统上。概念是：Map(映射)"和"Reduce(归约)指定一个Map(映射)函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduc
生产环境中MapReduce的最佳实践大数据深度洞察 Hadoop mapreduce 大数据
目录MapReduce跑的慢的原因MapReduce常用调优参数1.MapTask相关参数2.ReduceTask相关参数3.总体调优参数4.其他重要参数调优策略MapReduce数据倾斜问题1.数据预处理2.自定义Partitioner3.调整Reduce任务数4.小文件问题处理5.二次排序6.使用桶表7.使用随机前缀8.参数调优实施步骤MapReduce跑的慢的原因MapReduce程序效率的
Hive 运行在 Tez 上爱吃酸梨大数据
Tez介绍Tez是一种基于内存的计算框架，速度比MapReduce要快解释：浅蓝色方块表示Map任务，绿色方块表示Reduce任务，蓝色边框的云朵表示中间结果落地磁盘。Tez下载Tez官网Tez在Hive上的运用前提要有Hadoop集群上传Tez压缩包到Hive节点上tar-zxvfapache-tez-0.9.1-bin.tar.gz-C/opt/module/tez-0.9.1修改$HIVE_
经验笔记：Hadoop 漆黑的莫莫随手笔记笔记 hadoop 大数据
Hadoop经验笔记一、Hadoop概述Hadoop是一个开源软件框架，用于分布式存储和处理大规模数据集。其设计目的是为了在商用硬件上运行，具备高容错性和可扩展性。Hadoop的核心是HadoopDistributedFileSystem(HDFS)和YARN(YetAnotherResourceNegotiator)，这两个组件加上MapReduce编程模型，构成了Hadoop的基本架构。二、H
大数据毕业设计hadoop+spark+hive微博舆情情感分析知识图谱微博推荐系统 qq_79856539 javaweb 大数据 hadoop 课程设计
（一）Selenium自动化Python爬虫工具采集新浪微博评论、热搜、文章等约10万条存入.csv文件作为数据集；（二）使用pandas+numpy或MapReduce对数据进行数据清洗，生成最终的.csv文件并上传到hdfs；（三）使用hive数仓技术建表建库，导入.csv数据集；（四）离线分析采用hive_sql完成，实时分析利用Spark之Scala完成;（五）统计指标使用sqoop导入m
Data-Intensive Text Processing with MapReduce 西二旗小码农自然语言处理（NLP）mapreduce processing 算法 integer hadoop pair
大量高效的MapReduce程序因为它简单的编写方法而产生：除了准备输入数据之外，程序员只需要实现mapper和ruducer接口，或加上合并器（combiner）和分配器（partitioner）。所有其他方面的执行都透明地控制在由一个节点到上千个节点组成的，数据级别达到GB到PB级别的集群的执行框架中。然而，这就意味着程序员想在上面实现的算法必须表现为一些严格定义的组件，必须用特殊的方法把它们
双十一云起实验室体验专场，七大场景，体验有礼阿里云天池体验场景活动云计算大数据容器云原生
云起实验室云起实验室是阿里云为开发者打造的一站式体验学习平台，在这里你可以了解并亲自动手体验各类云产品和云计算基础，无需关注资源开通和底层产品，无需任何费用。只要有一颗想要了解云、学习云、体验云的心，这里就是你的上云第一站。场景介绍此次体验《双十一云起实验室体验专场》，涉及七大技术场景实践体验，云上实践，云上成长。\大数据计算场景《基于EMR离线数据分析》E-MapReduce（简称“EMR”）是
小白学习大数据测试之hadoop hdfs和MapReduce小实战大数据学习02
转发是对小编的最大支持在湿货|大数据测试之hadoop单机环境搭建(超级详细版)这个基础上，我们来运行一个官网的MapReducedemo程序来看看效果和处理过程。大致步骤如下：新建一个文件test.txt，内容为HelloHadoopHelloxiaoqiangHellotestingbangHellohttp://xqtesting.sxl.cn将test.txt上传到hdfs的根目录/usr
虚拟机安装hadoop，hbase（单机伪集群模式）流~星~雨大数据相关 hadoop hbase 大数据
虚拟机安装Hadoop，Hbase工作中遇到了大数据方面的一些技术栈，没有退路可言，只能去学习掌握它，就像当初做爬虫一样（虽然很简单），在数据爆发的现在，传统的数据库mysql，oracle显然在处理大数据量级的数据时显得力不从心，所以有些特定的业务需要引进能够处理大数据量的数据库，hadoop提供了分布式文件系统（HDFS）来存储数据，又提供了分布式计算框架（mapreduce）来对这些数据进行
矩阵求逆（JAVA）利用伴随矩阵 qiuwanchi 利用伴随矩阵求逆矩阵
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(利用伴随矩阵) * @author 邱万迟
单例（Singleton）模式 aoyouzi 单例模式 Singleton
3.1 概述如果要保证系统里一个类最多只能存在一个实例时，我们就需要单例模式。这种情况在我们应用中经常碰到，例如缓存池，数据库连接池，线程池，一些应用服务实例等。在多线程环境中，为了保证实例的唯一性其实并不简单，这章将和读者一起探讨如何实现单例模式。 3.2
[开源与自主研发]就算可以轻易获得外部技术支持,自己也必须研发 comsci 开源
现在国内有大量的信息技术产品，都是通过盗版，免费下载，开源，附送等方式从国外的开发者那里获得的。。。。。。虽然这种情况带来了国内信息产业的短暂繁荣，也促进了电子商务和互联网产业的快速发展，但是实际上，我们应该清醒的看到，这些产业的核心力量是被国外的
页面有两个frame,怎样点击一个的链接改变另一个的内容 Array_06 UI XHTML
<a src="地址" targets="这里写你要操作的Frame的名字" />搜索然后你点击连接以后你的新页面就会显示在你设置的Frame名字的框那里 targerts="",就是你要填写目标的显示页面位置 ===================== 例如： <frame src=&
Struts2实现单个/多个文件上传和下载 oloz 文件上传 struts
struts2单文件上传：步骤01:jsp页面  　　<form action="fileUplo
推荐10个在线logo设计网站 362217990 logo
在线设计Logo网站。 1、http://flickr.nosv.org（这个太简单） 2、http://www.logomaker.com/?source=1.5770.1 3、http://www.simwebsol.com/ImageTool 4、http://www.logogenerator.com/logo.php?nal=1&tpl_catlist[]=2 5、ht
jsp上传文件香水浓 jsp fileupload
1. jsp上传 Notice： 1. form表单 method 属性必须设置为 POST 方法，不能使用 GET 方法 2. form表单 enctype 属性需要设置为 multipart/form-data 3. form表单 action 属性需要设置为提交到后台处理文件上传的jsp文件地址或者servlet地址。例如 uploadFile.jsp 程序文件用来处理上传的文
我的架构经验系列文章 - 前端架构 agevs JavaScript Web 框架 UI jQuer
框架层面：近几年前端发展很快，前端之所以叫前端因为前端是已经可以独立成为一种职业了，js也不再是十年前的玩具了，以前富客户端RIA的应用可能会用flash/flex或是silverlight，现在可以使用js来完成大部分的功能，因此js作为一门前端的支撑语言也不仅仅是进行的简单的编码，越来越多框架性的东西出现了。越来越多的开发模式转变为后端只是吐json的数据源，而前端做所有UI的事情。MVCMV
android ksoap2 中把XML(DataSet) 当做参数传递 aijuans android
我的android app中需要发送webservice ，于是我使用了 ksop2 进行发送，在测试过程中不是很顺利,不能正常工作.我的web service 请求格式如下 [html] view plain copy <Envelope xmlns="http://schemas.
使用Spring进行统一日志管理 + 统一异常管理 baalwolf spring
统一日志和异常管理配置好后，SSH项目中，代码以往散落的log.info() 和 try..catch..finally 再也不见踪影！统一日志异常实现类： [java] view plain copy package com.pilelot.web.util; impor
Android SDK 国内镜像 BigBird2012 android sdk
一、镜像地址： 1、东软信息学院的 Android SDK 镜像，比配置代理下载快多了。配置地址， http://mirrors.neusoft.edu.cn/configurations.we#android 2、北京化工大学的： IPV4:ubuntu.buct.edu.cn IPV4:ubuntu.buct.cn IPV6:ubuntu.buct6.edu.cn
HTML无害化和Sanitize模块 bijian1013 JavaScript AngularJS Linky Sanitize
一.ng-bind-html、ng-bind-html-unsafe AngularJS非常注重安全方面的问题，它会尽一切可能把大多数攻击手段最小化。其中一个攻击手段是向你的web页面里注入不安全的HTML，然后利用它触发跨站攻击或者注入攻击。考虑这样一个例子，假设我们有一个变量存
[Maven学习笔记二]Maven命令 bit1129 maven
mvn compile compile编译命令将src/main/java和src/main/resources中的代码和配置文件编译到target/classes中，不会对src/test/java中的测试类进行编译 MVN编译使用 maven-resources-plugin:2.6:resources maven-compiler-plugin:2.5.1:compile &nbs
【Java命令二】jhat bit1129 Java命令
jhat用于分析使用jmap dump的文件，，可以将堆中的对象以html的形式显示出来，包括对象的数量，大小等等，并支持对象查询语言。 jhat默认开启监听端口7000的HTTP服务，jhat是Java Heap Analysis Tool的缩写 1. 用法： [hadoop@hadoop bin]$ jhat -help Usage: jhat [-stack <bool&g
JBoss 5.1.0 GA:Error installing to Instantiated: name=AttachmentStore state=Desc ronin47
进到类似目录 server/default/conf/bootstrap，打开文件 profile.xml找到： Xml代码<bean name="AttachmentStore" class="org.jboss.system.server.profileservice.repository.AbstractAtta
写给初学者的6条网页设计安全配色指南 brotherlamp UI ui自学 ui视频 ui教程 ui资料
网页设计中最基本的原则之一是，不管你花多长时间创造一个华丽的设计，其最终的角色都是这场秀中真正的明星——内容的衬托我仍然清楚地记得我最早的一次美术课，那时我还是一个小小的、对凡事都充满渴望的孩子，我摆放出一大堆漂亮的彩色颜料。我仍然记得当我第一次看到原色与另一种颜色混合变成第二种颜色时的那种兴奋，并且我想，既然两种颜色能创造出一种全新的美丽色彩，那所有颜色
有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。写一个函数实现。复杂度是什么。 bylijinnan java 算法面试
import java.util.Random; import java.util.Set; import java.util.TreeSet; /** * http://weibo.com/1915548291/z7HtOF4sx * #面试题#有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。 * 写一个函数实现。复杂度是什么
struts2获得request、session、application方式 chiangfai application
1、与Servlet API解耦的访问方式。 a.Struts2对HttpServletRequest、HttpSession、ServletContext进行了封装，构造了三个Map对象来替代这三种对象要获取这三个Map对象，使用ActionContext类。 -----> package pro.action; import java.util.Map; imp
改变python的默认语言设置 chenchao051 python
import sys sys.getdefaultencoding() 可以测试出默认语言，要改变的话，需要在python lib的site-packages文件夹下新建： sitecustomize.py，这个文件比较特殊，会在python启动时来加载，所以就可以在里面写上： import sys sys.setdefaultencoding('utf-8') &n
mysql导入数据load data infile用法 daizj mysql 导入数据
我们常常导入数据！mysql有一个高效导入方法，那就是load data infile 下面来看案例说明基本语法： load data [low_priority] [local] infile 'file_name txt' [replace | ignore] into table tbl_name [fields [terminated by't'] [OPTI
phpexcel导入excel表到数据库简单入门示例 dcj3sjt126com PHP Excel
跟导出相对应的，同一个数据表，也是将phpexcel类放在class目录下，将Excel表格中的内容读取出来放到数据库中 <?php error_reporting(E_ALL); set_time_limit(0); ?> <html> <head> <meta http-equiv="Content-Type"
22岁到72岁的男人对女人的要求 dcj3sjt126com
22岁男人对女人的要求是：一，美丽，二，性感，三，有份具品味的职业，四，极有耐性，善解人意，五，该聪明的时候聪明，六，作小鸟依人状时尽量自然，七，怎样穿都好看，八，懂得适当地撒娇，九，虽作惊喜反应，但看起来自然，十，上了床就是个无条件荡妇。 32岁的男人对女人的要求，略作修定，是：一，入得厨房，进得睡房，二，不必服侍皇太后，三，不介意浪漫蜡烛配盒饭，四，听多过说，五，不再傻笑，六，懂得独
Spring和HIbernate对DDM设计的支持 e200702084 DAO 设计模式 spring Hibernate 领域模型
A：数据访问对象 DAO和资源库在领域驱动设计中都很重要。DAO是关系型数据库和应用之间的契约。它封装了Web应用中的数据库CRUD操作细节。另一方面，资源库是一个独立的抽象，它与DAO进行交互，并提供到领域模型的“业务接口”。资源库使用领域的通用语言，处理所有必要的DAO，并使用领域理解的语言提供对领域模型的数据访问服务。
NoSql 数据库的特性比较 geeksun NoSQL
Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。目前由VMware主持开发工作。 1. 数据模型作为Key-value型数据库，Redis也提供了键（Key）和值（Value）的映射关系。除了常规的数值或字符串，Redis的键值还可以是以下形式之一： Lists （列表） Sets
使用 Nginx Upload Module 实现上传文件功能 hongtoushizi nginx
转载自： http://www.tuicool.com/wx/aUrAzm 普通网站在实现文件上传功能的时候，一般是使用Python，Java等后端程序实现，比较麻烦。Nginx有一个Upload模块，可以非常简单的实现文件上传功能。此模块的原理是先把用户上传的文件保存到临时文件，然后在交由后台页面处理，并且把文件的原名，上传后的名称，文件类型，文件大小set到页面。下
spring-boot-web-ui及thymeleaf基本使用 jishiweili spring thymeleaf
视图控制层代码demo如下： @Controller @RequestMapping("/") public class MessageController { private final MessageRepository messageRepository; @Autowired public MessageController(Mes
数据源架构模式之活动记录 home198979 PHP 架构活动记录数据映射
hello!架构一、概念活动记录（Active Record）：一个对象，它包装数据库表或视图中某一行，封装数据库访问，并在这些数据上增加了领域逻辑。对象既有数据又有行为。活动记录使用直截了当的方法，把数据访问逻辑置于领域对象中。二、实现简单活动记录活动记录在php许多框架中都有应用，如cakephp。 <?php /** * 行数据入口类 *
Linux Shell脚本之自动修改IP pda158 linux centos Debian 脚本
作为一名 Linux SA，日常运维中很多地方都会用到脚本，而服务器的ip一般采用静态ip或者MAC绑定，当然后者比较操作起来相对繁琐，而前者我们可以设置主机名、ip信息、网关等配置。修改成特定的主机名在维护和管理方面也比较方便。如下脚本用途为：修改ip和主机名等相关信息，可以根据实际需求修改，举一反三！ #!/bin/sh #auto Change ip netmask ga
开发环境搭建独浮云 eclipse jdk tomcat
最近在开发过程中，经常出现MyEclipse内存溢出等错误，需要重启的情况，好麻烦。对于一般的JAVA+TOMCAT项目开发，其实没有必要使用重量级的MyEclipse，使用eclipse就足够了。尤其是开发机器硬件配置一般的人。 &n