luchunli1985

Hadoop2.6.0学习笔记（四）TextInputFormat及RecordReader解析

鲁春利的工作笔记，谁说程序员不能有文艺范？

一个最简单的MapReduce程序

package com.lucl.hadoop.mapreduce;

public class MiniMRDriver extends Configured implements Tool {
    public static void main(String[] args) {
        try {
            ToolRunner.run(new MiniMRDriver(), args);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
    
    @Override
    public int run(String[] args) throws Exception {
        Job job = Job.getInstance(this.getConf(), this.getClass().getSimpleName());
        job.setJarByClass(MiniMRDriver.class);
        
        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
   
        return job.waitForCompletion(true) ? 0 : 1;
    }

}

查看MapReduce任务的数据

[hadoop@nnode code]$ hdfs dfs -text /data/HTTP_SITE_FLOW.log
视频网站        15      1527
信息安全        20      3156
站点统计        24      6960
搜索引擎        28      3659
站点统计        3       1938
综合门户        15      1938
搜索引擎        21      9531
搜索引擎        63      11058
[hadoop@nnode code]$

打包运行该MapReduce程序

[hadoop@nnode code]$ hadoop jar MiniMR.jar /data/HTTP_SITE_FLOW.log /201511302119
15/11/30 21:19:46 INFO client.RMProxy: Connecting to ResourceManager at nnode/192.168.137.117:8032
15/11/30 21:19:48 INFO input.FileInputFormat: Total input paths to process : 1
15/11/30 21:19:48 INFO mapreduce.JobSubmitter: number of splits:1
15/11/30 21:19:49 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1448889273221_0001
15/11/30 21:19:50 INFO impl.YarnClientImpl: Submitted application application_1448889273221_0001
15/11/30 21:19:50 INFO mapreduce.Job: The url to track the job: http://nnode:8088/proxy/application_1448889273221_0001/
15/11/30 21:19:50 INFO mapreduce.Job: Running job: job_1448889273221_0001
15/11/30 21:20:26 INFO mapreduce.Job: Job job_1448889273221_0001 running in uber mode : false
15/11/30 21:20:26 INFO mapreduce.Job:  map 0% reduce 0%
15/11/30 21:20:59 INFO mapreduce.Job:  map 100% reduce 0%
15/11/30 21:21:30 INFO mapreduce.Job:  map 100% reduce 100%
15/11/30 21:21:31 INFO mapreduce.Job: Job job_1448889273221_0001 completed successfully
15/11/30 21:21:31 INFO mapreduce.Job: Counters: 49
        File System Counters
                FILE: Number of bytes read=254
                FILE: Number of bytes written=213863
                FILE: Number of read operations=0
                FILE: Number of large read operations=0
                FILE: Number of write operations=0
                HDFS: Number of bytes read=277
                HDFS: Number of bytes written=194
                HDFS: Number of read operations=6
                HDFS: Number of large read operations=0
                HDFS: Number of write operations=2
        Job Counters 
                Launched map tasks=1
                Launched reduce tasks=1
                Data-local map tasks=1
                Total time spent by all maps in occupied slots (ms)=30256
                Total time spent by all reduces in occupied slots (ms)=27787
                Total time spent by all map tasks (ms)=30256
                Total time spent by all reduce tasks (ms)=27787
                Total vcore-seconds taken by all map tasks=30256
                Total vcore-seconds taken by all reduce tasks=27787
                Total megabyte-seconds taken by all map tasks=30982144
                Total megabyte-seconds taken by all reduce tasks=28453888
        Map-Reduce Framework
                Map input records=8
                Map output records=8
                Map output bytes=232
                Map output materialized bytes=254
                Input split bytes=103
                Combine input records=0
                Combine output records=0
                Reduce input groups=8
                Reduce shuffle bytes=254
                Reduce input records=8
                Reduce output records=8
                Spilled Records=16
                Shuffled Maps =1
                Failed Shuffles=0
                Merged Map outputs=1
                GC time elapsed (ms)=182
                CPU time spent (ms)=2000
                Physical memory (bytes) snapshot=305459200
                Virtual memory (bytes) snapshot=1697824768
                Total committed heap usage (bytes)=136450048
        Shuffle Errors
                BAD_ID=0
                CONNECTION=0
                IO_ERROR=0
                WRONG_LENGTH=0
                WRONG_MAP=0
                WRONG_REDUCE=0
        File Input Format Counters 
                Bytes Read=174
        File Output Format Counters 
                Bytes Written=194
[hadoop@nnode code]$

查看输出结果

[hadoop@nnode code]$ hdfs dfs -ls /201511302119
Found 2 items
-rw-r--r--   2 hadoop hadoop          0 2015-11-30 21:21 /201511302119/_SUCCESS
-rw-r--r--   2 hadoop hadoop        194 2015-11-30 21:21 /201511302119/part-r-00000
[hadoop@nnode code]$ hdfs dfs -text /201511302119/part-r-00000
0       视频网站        15      1527
22      信息安全        20      3156
44      站点统计        24      6960
66      搜索引擎        28      3659
88      站点统计        3       1938
109     综合门户        15      1938
131     搜索引擎        21      9531
153     搜索引擎        63      11058
[hadoop@nnode code]$

在这里没有指定Mapper类、Reducer类，并通过FileInputFormat和FileOutputFormat指定了输入数据及输出结果存储路径，执行后把行偏移量和行内容保存到了指定的输出路径下。

FileInputFormat的默认实现为TextInputFormat，专门用来处理文本数据，以回车换行符作为一行的分割标记，其中key为该行的行偏移量，value为这一行内容。

类定义如下：

public class TextInputFormat extends FileInputFormat<LongWritable, Text> {

  @Override
  public RecordReader<LongWritable, Text> createRecordReader(InputSplit split, 
                                                  TaskAttemptContext context) {
    // 略
    return new LineRecordReader(recordDelimiterBytes);
  }

  @Override
  protected boolean isSplitable(JobContext context, Path file) {
    // 是否可切片
  }
}

在Job任务中可以通过public void setInputFormatClass(Class<? extends InputFormat> cls）方法设定希望使用的InputFormat格式。

public abstract class InputFormat<K, V> {
    public abstract List<InputSplit> getSplits(JobContext context) 
                        throws IOException, InterruptedException;
                               
    public abstract RecordReader<K,V> createRecordReader(InputSplit split,
                                         TaskAttemptContext context
                                        ) throws IOException, InterruptedException;
}

文件在HDFS上是以Block块的形式存储的，而在MapReduce计算中则是以划分的切片（split后称为split分片或chunk）进行读取的，每个split的就对应一个mapper task，split的数量决定了mappertask的数量。

注意：MapReduce是由Mapper和Reducer组成的，MapperTask由split决定，那么Reducer由什么来决定呢？后面会逐渐通过示例代码进行说明

List<InputSplit> getSplits(JobContext context)负责将一个大数据逻辑分成多片。比如数据库表有100条数据，按照主键ID升序存储，假设每20条分成一片，这个List的大小就是5，然后每个InputSplit记录两个参数，第一个为这个分片的起始ID，第二个为这个分片数据的大小（这里是20）。InputSplit并没有真正存储数据，只是提供了一个如何将数据分片的方法。

RecordReader<K, V) createRecordReader(InputSplit split, TaskAttemptContext context)根据InputSplit定义的分片方法，返回一个能够读取分片记录的RecordReader。

InputSplit类定义

public abstract class InputSplit {
    // Split分片的大小，用来实现输入的split的排序
    public abstract long getLength() throws IOException, InterruptedException;
    // 用来获取存储分片的位置列表
    public abstract String[] getLocations() throws IOException, InterruptedException;
}

RecordReader类定义

public abstract class RecordReader<KEYIN, VALUEIN> implements Closeable {
    public abstract void initialize(InputSplit split,TaskAttemptContext context
                                  ) throws IOException, InterruptedException;
    public abstract boolean nextKeyValue() throws IOException, InterruptedException;
    public abstract KEYIN getCurrentKey() throws IOException, InterruptedException;
    public abstract VALUEIN getCurrentValue() throws IOException, InterruptedException;
    public abstract float getProgress() throws IOException, InterruptedException;
    public abstract void close() throws IOException;
}

InputSplit描述了数据块的切分方式，RecordReader类则是实际用来加载split分片数据，并把数据转换为适合Mapper类里面map()方法处理的<key, value>形式。

RecordReader实例是由输入格式定义的，默认的输入格式为TextInputFormat，提供了一个LineRecordReader，把每一行的行偏移量作为key，把内容作为value。RecordReader会在输入块上被反复调用，直到整个输入块被处理完毕，每一次调用RecordReader都会调用Mapper类的map()函数。

TextInputFormat并没有getSplits的实现，而是其父类FileInputFormat进行了实现。

public abstract class FileInputFormat<K, V> extends InputFormat<K, V> {
    // Generate the list of files and make them into FileSplits
    public List<InputSplit> getSplits(JobContext job) throws IOException {
        // 1. 通过JobContext中获取List<FileStatus>；
        // 2. 遍历文件属性数据
        //    2.1. 如果是空文件，则初始化一个无主机信息的FileSplits实例；
        //    2.2. 非空文件,判断是否分片，默认是分片的
        //         如果不分片则每个文件作为一个FileSplit
        //         计算分片大小splitSize
        
        // getFormatMinSplitSize()返回固定值1
        // getMinSplitSize(job)通过Configuration获取，配置参数为(mapred-default.xml)：
        // mapreduce.input.fileinputformat.split.minsize默认值为0
        // minSize的值为1
        long minSize = Math.max(getFormatMinSplitSize(), getMinSplitSize(job));
        // 实际调用context.getConfiguration().getLong(SPLIT_MAXSIZE, Long.MAX_VALUE);
        // 通过Configuration获取，配置参数为(mapred-default.xml无该参数)：
        // mapreduce.input.fileinputformat.split.maxsize
        // 未配置该参数，取Long.MAX_VALUE，maxSize的值为Long.MAX_VALUE
        long maxSize = getMaxSplitSize(job);
    
        // generate splits
        List<InputSplit> splits = new ArrayList<InputSplit>();
        List<FileStatus> files = listStatus(job);
        for (FileStatus file: files) {
          Path path = file.getPath();     // 在HDFS上的绝对路径
          long length = file.getLen();    // 文件的实际大小
          if (length != 0) {
            BlockLocation[] blkLocations;
            if (file instanceof LocatedFileStatus) {
              blkLocations = ((LocatedFileStatus) file).getBlockLocations();
            } else {
              FileSystem fs = path.getFileSystem(job.getConfiguration());
              blkLocations = fs.getFileBlockLocations(file, 0, length);
            }
            if (isSplitable(job, path)) {
              // 这里取的是Block块的大小，在2.6里面默认是134217728（即128M）
              long blockSize = file.getBlockSize();
              // 获取切片大小，computeSplitSize(blockSize, minSize, maxSize)实际调用:
              //          1                Long.MAX_VALUE   128M
              // Math.max(minSize, Math.min(maxSize,        blockSize));
              // split的大小刚好等于block块的大小，为128M
              long splitSize = computeSplitSize(blockSize, minSize, maxSize);
    
              long bytesRemaining = length;   // 取文件的实际大小 
              // 如果文件的实际大小/splitSize > 1.1（即实际大小大于128M * 1.1）
              while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {
                // getBlockIndex判断is the offset inside this block?
                // 第一次length-bytesRemaining的值为0，取block块的第一个复本
                int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining);
                splits.add(makeSplit(path, length-bytesRemaining, splitSize,
                            blkLocations[blkIndex].getHosts(),
                            blkLocations[blkIndex].getCachedHosts()));
                bytesRemaining -= splitSize;    // 依次减去分片的大小，对剩余长度再次分片
              }
              
              /**
              * 加入有一个300M的文件，设置bytesRemaining = length = 300M；
              * 1、判定bytesRemaining / splitSize = 300 / 128 > 1.1
              *  makeSplie-->FileSplit(path, length - bytesRemaining = 0, splitSize=128M)
              *  bytesRemaining -= splitSize => bytesRemaining = 172M
              * 2、判定bytesRemaining / splitSize = 172 / 128 > 1.1
              *  makeSplie-->FileSplit(path, length - bytesRemaining = 128, splitSize=128M)
              *  bytesRemaining -= splitSize => bytesRemaining = 44M
              * 3、判定bytesRemaining / splitSize = 44 / 128 < 1.1
              *  while循环结束。
              */
    
              // 多次分片后，最后的数据长度仍不为0但又不足一个分片大小
              if (bytesRemaining != 0) {   
                int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining);
                splits.add(makeSplit(path, length-bytesRemaining, bytesRemaining,
                           blkLocations[blkIndex].getHosts(),
                           blkLocations[blkIndex].getCachedHosts()));
                // 在这里把最后的44M又make了一个分片
                // makeSplie-->FileSplit(path, length - bytesRemaining = 256, splitSize=44)
              }
            } else { // not splitable,就取实际大小
              splits.add(makeSplit(path, 0, length, blkLocations[0].getHosts(),
                          blkLocations[0].getCachedHosts()));
            }
          } else { 
            //Create empty hosts array for zero length files
            splits.add(makeSplit(path, 0, length, new String[0]));
          }
        }
        // Save the number of input files for metrics/loadgen
        job.getConfiguration().setLong(NUM_INPUT_FILES, files.size());
        
        return splits;
    }
}

说明：List<FileStatus>中FileStatus可能为LocatedFileStatus（a FileStatus that includes a file's block locations）。

LineRecordReader提供对文本数据的读取解析，并依次调用Mapper的map()函数传入<key, value>。

个人理解：TextInputFormat通过Split将文件逻辑上进行分片，对于每一个分片分别new一个LineRecordReader进行解析处理，解析后的买一行调用一次map()函数，而map task仍是一个。

public class LineRecordReader extends RecordReader<LongWritable, Text> {
    public void initialize(InputSplit genericSplit,TaskAttemptContext context)
     throws IOException {
         // 1. 接收split（FileSplit对象）分片，并通过分片解析出：
         //     分片起始位置：start = split.getStart();
         //     结束位置：end = start + split.getLength();
         //     文件位置：在HDFS上的绝对路径final Path file = split.getPath();
         // 2. 获取文件的输入流
         //     通过FileSystem获取文件，并获取输入流 fileIn = fs.open(file);
         // 3. 判定是否为压缩文件，并获取压缩格式
         //     CompressionCodec codec = new CompressionCodecFactory(job).getCodec(file);
         // 4. 计算行偏移量（原始解释如下）
         //     If this is not the first split, we always throw away first record
         //     because we always (except the last split) read one extra line in
         //     next() method.
        if (start != 0) {
          start += in.readLine(new Text(), 0, maxBytesToConsume(start));
        }
        this.pos = start;       
    }
    
    public boolean nextKeyValue() throws IOException {
         if (key == null) {    // key-->这里为map task中map()函数的key
          key = new LongWritable();
         }
         key.set(pos);         // 取的是行偏移量
         if (value == null) {
          value = new Text();
         }
         // 判定split是否已经读取解析完成，如果未完成的话就读取一行数据
         // 通过org.apache.hadoop.util.LineReader的readCustomLine或readDefaultLine读取
         //   如果指定了行分隔符则调用readCustomLine；
         //   否则默认通过回车换行作为分隔符调用readDefaultLine
         newSize = in.readLine(value, maxLineLength, maxBytesToConsume(pos));
         pos += newSize;        // 偏移量加上个读取的行的长度，作为下一行的偏移量
    }
    
    /**
     * nextKeyValue是一个对split分片依次读入迭代的过程，
     * 每次读一行，并从这一行中解析出key和value，并分别赋值，
     * 传入到map函数时将该<key, value>值传入（具体是怎么调用map函数的，后续分析）。
     */
    @Override
    public LongWritable getCurrentKey() {
        return key;
    }

    @Override
    public Text getCurrentValue() {
        return value;
    }
    
    /**
    * Get the progress within the split
    */
    public float getProgress() throws IOException {
        if (start == end) {
          return 0.0f;
        } else {
          return Math.min(1.0f, (getFilePosition() - start) / (float)(end - start));
        }
    }
    
    // 关闭打开的从hdfs的输入流对象
    public synchronized void close() throws IOException {
        try {
          if (in != null) {
            in.close();
          }
        } finally {
          if (decompressor != null) {
            CodecPool.returnDecompressor(decompressor);
          }
        }
    }
}

MapTask && ReduceTask 工作机制 tracy_668
image.png（1）Read阶段：MapTask通过用户编写的RecordReader，从输入InputSplit中解析出一个个key/value。（2）Map阶段：该节点主要是将解析出的key/value交给用户编写map()函数处理，并产生一系列新的key/value。（3）Collect收集阶段：在用户编写map()函数中，当数据处理完成后，一般会调用OutputCollector.co
【大数据】Hadoop_MapReduce➕实操（附详细代码）欧叶冲冲冲 Hadoop 大数据 hadoop mapreduce 分布式学习笔记
目录前言一、概述1.MapReduce定义、优缺点2.MapReduce核心思想、进程3.MapReduce编程——WordCount二、Hadoop序列化1.序列化概述2.自定义bean对象实现序列化接口（Writable）三、MapReduce框架原理1.InputFormat数据输入2.TextInputFormat3.CombineTextInputFormat切片机制4.MapReduc
Spark RDD分区数和分区器 maplea2012 spark 大数据 hadoop
一、分区数如何决定1、数据源RDD数据源RDD的分区数由数据源的读取器决定,比如sc.textFile产生的rdd,分区数由TextInputFormat.getInputSplits()方法决定,具体源码追踪及解析如下:valrdd1=sc.textFile("data/tbPerson.txt")①Ctrl+B进入textFiletextFile底层其实就是通过hadoopFile去读文件②C
MapReduce数据处理流程(四) maplea2012 Hadoop hadoop
一图胜千言①MapTask调用run方法②③循环调用LineRecordReader，读取文件中的数据，具体读取方式取决于InputFormat的类型（默认是TextInputFormat）④返回数据，其中key为数据偏移量，value为某一行数据⑤⑥⑦读取到的数据，序列化后写入环形缓冲区。写满80%之后，环形缓冲区会发生溢出，在这之前需要按照Key对数据进行排序，然后将数据写出到本地磁盘（包含k
深入理解 Spark（三）SparkTask 执行与 shuffle 详解我很ruo 大数据 spark 大数据 hadoop 分布式 java
SparkTask的分发部署与启动流程分析SparkAction算子触发job提交Spark当中Stage切分源码详解Task的提交与执行SparkShuffle机制详解MapReduceShuﬄe全流程深度剖析MapReduce全流程执行过程中参与工作的组件以及他们的执行先后顺序：InputFormat=>RecordReader=>Mapper=>Partitioner=>Sorter=>Co
【大数据】NiFi 中的处理器（二）：PutDatabaseRecord G皮T #NiFi 大数据 NiFi ETL 数据集成数据同步 CDC
NiFi中的处理器（二）：PutDatabaseRecord1.基本介绍2.属性配置3.连接关系4.应用场景1.基本介绍PutDatabaseRecord处理器使用指定的RecordReader从传入的流文件中读取（可能是多个，说数组也成）记录。这些记录将转换为SQL语句，并作为一个批次执行。如果发生任何错误，则将流文件路由到failure或retry，如果执行成功，则将传入的流文件路由到succ
MapReduce计算任务的步骤未烬丶 MapReduce
MapReduce计算任务的步骤第1步：InputFormatInputFormat到hdfs上读取数据将数据传给Split第2步：Split//设置读取数据的路径TextInputFormat.addInputPath(job,newPath("C:\\bbb.txt"));//3、设置Mapjob.setMapperClass(WordCountMap.class);//设置map输出的类型j
Spark数据倾斜解决思路小小大数据 Spark spark 大数据 kafka
1.避免数据源倾斜-HDFSSpark通过textFile(path,minPartitions)方法读取文件时，使用TextInputFormat。对于不可切分的文件，每个文件对应一个Split从而对应一个Partition。此时各文件大小是否一致，很大程度上决定了是否存在数据源侧的数据倾斜。另外，对于不可切分的压缩文件，即使压缩后的文件大小一致，它所包含的实际数据量也可能差别很多，因为源文件数
mapreduce详细工作流程瞌死在大数据 hadoop mapreduce hadoop hdfs
mapreduce工作流程map任务处理1.1框架使用InputFormat类的子类把输入文件(夹)划分为很多InputSplit，默认，每个HDFS的block对应一个InputSplit。通过RecordReader类，把每个InputSplit解析成一个个。默认，框架对每个InputSplit中的每一行，解析成一个。1.2框架调用Mapper类中的map(…)函数，map函数的形参是对，输出
【Hadoop】MapReduce工作流程温wen而雅大数据 hadoop mapreduce
MapReducer工作流程读数据1.客户端提交作业任务；2.Job根据作业任务获取文件信息；3.InputFormat将文件按照设定的切片大小（一般切片大小等于HDFS中的Block块大小）进行切片操作，并将切片的数据读入并生成一个MapTask任务；Mapper4.MapTask通过InputFormat获得RecordReader，从InputSplit中获取并解析出对应的key-value
Hadoop学习之MapReduce（MapReduce详细工作流程）心得顺其自然的济帅哈 Hadoop hadoop mapreduce
MapReduce详细工作流程：1.准备好待处理的输入文件2.对文件进行切片分析3.客户端将三样东西（Job.splitwc.jarJob.xml）提交至Yarn4.Yarn开启Mrappmaster根据提供的切片个数开启对应的MapTask个数5.默认的TextInputFormat读取K，v传递给Mapper6.进行逻辑运算后数据输出至环形缓冲区7.向环形缓冲区写入数据（默认大小100M，左侧
Hadoop MapReduce 流浪山人
HadoopMapReducemapreduce-process-overview.png整个MR的过程可以分解为下面几步读取数据MapreduceoutputHadoop读取数据通过InputFormat决定读取的数据的类型，然后拆分成一个个InputSplit，每个InputSplit对应一个Map处理，RecordReader读取InputSplit的内容给Map通过InputFormat决
大数据知识专栏 - MapReduce工作机制详解能力工场小马哥大数据 Hadoop hadoop 大数据 mapreduce
1,MapTask工作机制详细步骤读取数据组件InputFormat(默认TextInputFormat)会通过getSplits方法对输入目录中文件进行逻辑切片规划得到block,有多少个block就对应启动多少个MapTask.将输入文件切分为block之后,由RecordReader对象(默认是LineRecordReader)进行读取,以\n作为分隔符,读取一行数据,返回.Key表示每行首
源码解析flink文件连接源TextInputFormat lixia0417mul2 大数据 flink flink 大数据
背景：kafka的文件系统数据源可以支持精准一次的一致性,本文就从源码看下如何TextInputFormat如何支持状态的精准一致性TextInputFormat源码解析首先flink会把输入的文件进行切分，分成多个数据块的形式，每个数据源算子任务会被分配以读取其中的数据块,但是不是所有的文件都能进行分块，判断文件是否可以进行分块的代码如下：protectedbooleantestForUnspl
Hadoop3教程（十）：MapReduce中的InputFormat 经年藏殊大数据技术 mapreduce 大数据 hadoop
文章目录（87）切片机制与MapTask并行度决定机制（90）切片源码总结（91）FileInputFormat切片机制（92）TextInputFormat及其他实现类一览（93）CombineTextInputFormat切片机制原理案例讲解参考文献（87）切片机制与MapTask并行度决定机制什么是MapTask的并行度？即在一个MR程序里，需要并行开启多少个MapTask，来处理数据。并行
Flink Data Source shangjg3 计算引擎 Flink flink 大数据数据仓库
FlinkDataSource一、内置DataSourceFlinkDataSource用于定义Flink程序的数据来源，Flink官方提供了多种数据获取方法，用于帮助开发者简单快速地构建输入流，具体如下：1.1基于文件构建1.readTextFile(path)：按照TextInputFormat格式读取文本文件，并将其内容以字符串的形式返回。示例如下：env.readTextFile(file
InputFormat 流砂月歌
InputFormat的作用：数据输入->splits->键值对。将数据转化成为键值对，供Map使用。所以InputFormat后面跟随的泛型，就是map所处理的类型。InputFormat之中的getSplits()获取split。内部的RecordReader将split转化成为键值对。自定义InputFormat的关键在于自定义实现RecordReader这个类用来解析split,来确定，返
常用文件处理方法大闪电啊
GBK格式内容转码vallogRdd=sc.hadoopFile(logPath,classOf[TextInputFormat],classOf[LongWritable],classOf[Text]).map(p=>newString(p._2.getBytes,0,p._2.getLength,"GBK"))获取文件路径或文件名hadoopmr中使用如下方式InputSplitinputSp
切片机制和MR工作机制十七✧ᐦ̤ mr 大数据 etl
切片机制默认的切片大小和块大小一致，切片的个数决定了MapTask的个数。数据倾斜问题：如果某个切片的大小太小，会浪费了MapTask申请的CPU资源。如果剩余数据长度大于128*1.1,就切片成2份，否则就不进行切分了。InputFormat基类TextInputFormat：TextInputFormat是默认的FileInputFormat实现类。按行读取每条记录。键是存储该行在整个文件中的
MapReduce工作流程 spark大数据玩家 hadoop mapreduce
工作流程MapReduce启动的时候，最先启动的是MRAppMaster，MRAppMaster根据Job的描述信息，计算出Maptask的数量，申请相对应的Maptask进程。Maptask进程启动之后，根据指定的InputFormat来获取RecordReader读取数据，形成KV键值对，传递给map方法，对数据按一定的切分逻辑进行切分，结果输出到环形缓冲区中，环形缓冲区默认是100M，当超过
Flink DataSet API Alex90
DataSourceDataSource创建初始数据集。Flink附带了几种内置输入格式，可以从通用文件格式创建数据集。ExecutionEnvironment上有创建的方法。基于文件的：readTextFile(path)/TextInputFormat，按行读取文件并将其作为字符串返回。readTextFileWithValue(path)/TextValueInputFormat，按行读取文
MapReduce框架 molecule_jp mapreduce 大数据后端
TextInputFormat1）FileInputFormat实现类思考：在运行MapReduce程序时，输入的文件格式包括：基于行的日志文件、二进制格式文件、数据库表等。那么，针对不同的数据类型，MapReduce是如何读取这些数据的呢？FileInputFormat常见的接口实现类包括：TextInputFormat、KeyValueTextInputFormat、NLineInputFor
MapReduce开发流程及示例菜鸡努力学习中 hadoop mapreduce big data hadoop 大数据分布式
文章目录MapReduce开发流程（1）输入数据接口：InputFormat（2）逻辑处理接口：Mapper（3）Partitioner分区（4）Comparable排序（5）Combiner合并（6）逻辑处理接口：Reducer（7）输出数据接口：OutputFormatMapReduce开发流程（1）输入数据接口：InputFormat（1）默认使用的实现类是：TextInputFormat（
【大数据之路4】分布式计算模型 MapReduce 程序员胖五大数据大数据 mapreduce yarn 环形缓冲区 Shuffle
4.分布式计算模型MapReduce1.MapReduce概述1.概念2.程序演示1.计算WordCount2.计算圆周率π3.核心架构组件4.编程流程与规范1.编程流程2.编程规范3.程序主要配置参数4.相关问题1.为什么不能在Mapper中进行“聚合”（加法）？为什么需要“减速器”2.RecordReader的作用5.单词统计案例1.过程分析2.案例编写1.相关说明2.JDK（Java）数据类
MapReduce的常见输入格式之CombineTextInputFormat 秋名山车神不开车大数据 Hadoop hadoop mapreduce
CombineTextInputFormat框架默认的TextInputFormat切片机制是对任务按文件规划切片，不管文件多小，都会是一个单独的切片，都会交给一个MapTask，这样如果有大量小文件，就会产生大量的MapTask，处理效率极其低下。1）应用场景：CombineTextInputFormat用于小文件过多的场景，它可以将多个小文件从逻辑上规划到一个切片中，这样，多个小文件就可以交给
MapReduce经典案例--WordCount 代码（实测可以运行）夜空Sora java大数据处理 hadoop 大数据分布式 mapreduce java
MapReduce经典案例--WordCount代码一.MapReduce工作的三阶段1.Map阶段map阶段将要处理的任务切分成一个个的MapTask，每个MapTask各自计算自己负责计算的内容，也就是将计算分布式。map阶段有两步：1.设置TextInputFormat类，将数据切分为,输入到第二步。这里k1和v1的切分由hadoop框架帮我们完成。2.自定义Map逻辑，将第一步的结果转化为
Spark读取数据(GBK)乱码解决孤单的阿怪
//可以使用以下方式读取text文件数据JavaRDDrdd=sc.hadoopFile("PSP_MCC_CB.TXT",TextInputFormat.class,LongWritable.class,Text.class).map(newFunction,String>(){@OverridepublicStringcall(Tuple2tuple)throwsException{retur
MapReduce 开发总结-尚硅谷坏孩子充电自习室大数据 hadoop 大数据
1）输入数据接口：InputFormat（1）默认使用的实现类是：TextInputFormat（2）TextInputFormat的功能逻辑是：一次读一行文本，然后将该行的起始偏移量作为key，行内容作为value返回。（3）CombineTextInputFormat可以把多个小文件合并成一个切片处理，提高处理效率。需要尚硅谷八斗学院奈学教育完整大数据资料和多家机构面试题的加威：Y177446
Flink批量处理之DataSet 我还不够强
flink不仅可以支持实时流式处理，它也可以支持批量处理，其中批量处理也可以看作是实时处理的一个特殊情况1、dataSet的内置数据源基于文件数据源：readTextFile(path)/TextInputFormat：逐行读取文件并将其作为字符串(String)返回readTextFileWithValue(path)/TextValueInputFormat：逐行读取文件并将其作为String
MapReduce原理剖析（深入源码）每天都要加油呀！大数据 mapreduce hadoop 大数据
文章目录1.概述1.1提交任务1.2初始化作业1.3任务分配1.4任务执行1.5进度和状态更新1.6作业完成2.提交任务&切片源码分析2.1提交任务源码分析2.2提交核心之切片流程源码分析2.3FileInputFormat切片机制2.3.1切片机制2.3.2案例分析2.3.3源码中计算切片大小的公式2.4FileInputFormat实现类2.4.1TextInputFormat2.4.2Com
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D

Hadoop2.6.0学习笔记（四）TextInputFormat及RecordReader解析

你可能感兴趣的:(recordreader,TextInputFormat)