象在舞

十三、MapReduce中的OutputFormat

既然有InputFormat，那么自然就会有OutputFormat，本文主要介绍MapReduce中的OutputFormat。关注专栏《破茧成蝶——大数据篇》查看相关系列的文章~

一、MapReduce的工作机制

1.1 MapTask的工作机制

1.2 ReduceTask工作机制

二、MapReduce中的OutputFormat

2.1 常见的OutputFormat实现类

2.1.1 TextOutputFormat

2.1.2 SequenceFileOutputFormat

2.2 自定义OutputFormat实例

2.2.1 需求与数据

2.2.2 编写Bean类

2.2.3 编写Mapper类

2.2.4 编写RecordWriter类

2.2.5 编写OutputFormat类

2.2.6 编写Reducer类

2.2.7 编写Driver驱动类

2.2.8 测试

一、MapReduce的工作机制

在介绍OutputFormat之前，我们首先来看下MapTask和ReduceTask的工作机制。

1.1 MapTask的工作机制

（1）Read阶段：MapTask通过用户编写的RecordReader，从输入InputSplit中解析出一个个key/value。（2）Map阶段：该节点主要是将解析出的key/value交给用户编写map()函数处理，并产生一系列新的key/value。（3）Collect收集阶段：在用户编写map()函数中，当数据处理完成后，一般会调用OutputCollector.collect()输出结果。在该函数内部，它会将生成的key/value分区（调用Partitioner），并写入一个环形内存缓冲区中。（4）Spill阶段：即“溢写”，当环形缓冲区满后，MapReduce会将数据写到本地磁盘上，生成一个临时文件。需要注意的是，将数据写入本地磁盘之前，先要对数据进行一次本地排序，并在必要时对数据进行合并、压缩等操作。（5）Combine阶段：当所有数据处理完成后，MapTask对所有临时文件进行一次合并，以确保最终只会生成一个数据文件。当所有数据处理完后，MapTask会将所有临时文件合并成一个大文件，并保存到文件output/file.out中，同时生成相应的索引文件output/file.out.index。在进行文件合并过程中，MapTask以分区为单位进行合并。对于某个分区，它将采用多轮递归合并的方式。每轮合并io.sort.factor（默认10）个文件，并将产生的文件重新加入待合并列表中，对文件排序后，重复以上过程，直到最终得到一个大文件。让每个MapTask最终只生成一个数据文件，可避免同时打开大量文件和同时读取大量小文件产生的随机读取带来的开销。

溢写阶段的详细步骤：1、利用快速排序算法对缓存区内的数据进行排序，排序方式是，先按照分区编号Partition进行排序，然后按照key进行排序。这样，经过排序后，数据以分区为单位聚集在一起，且同一分区内所有数据按照key有序。2、按照分区编号由小到大依次将每个分区中的数据写入任务工作目录下的临时文件output/spillN.out（N表示当前溢写次数）中。如果用户设置了Combiner，则写入文件之前，对每个分区中的数据进行一次聚集操作。3、将分区数据的元信息写到内存索引数据结构SpillRecord中，其中每个分区的元信息包括在临时文件中的偏移量、压缩前数据大小和压缩后数据大小。如果当前内存索引大小超过1MB，则将内存索引写到文件output/spillN.out.index中。

1.2 ReduceTask工作机制

（1）Copy阶段：ReduceTask从各个MapTask上远程拷贝一片数据，并针对某一片数据，如果其大小超过一定阈值，则写到磁盘上，否则直接放到内存中。（2）Merge阶段：在远程拷贝数据的同时，ReduceTask启动了两个后台线程对内存和磁盘上的文件进行合并，以防止内存使用过多或磁盘上文件过多。（3）Sort阶段：按照MapReduce语义，用户编写reduce()函数输入数据是按key进行聚集的一组数据。为了将key相同的数据聚在一起，Hadoop采用了基于排序的策略。由于各个MapTask已经实现对自己的处理结果进行了局部排序，因此，ReduceTask只需对所有数据进行一次归并排序即可。（4）Reduce阶段：reduce()函数将计算结果写到HDFS上。

注意事项：

1、ReduceTask=0表示没有Reduce阶段，输出文件个数和Map个数一致。

2、ReduceTask默认值就是1，所以输出文件个数为一个。

3、如果数据分布不均，就可能会在Reduce端产生数据倾斜。

4、ReduceTask的数量并不是任意设置，还要考虑具体的业务场景。

5、要根据集群的性能来设置有多少个ReduceTask。

6、如果分区不是1，但是ReduceTask为1，此时是不执行分区过程的。因为在MapTask的源码中，执行分区的前提是先判断ReduceNum是否大于1，如果不大于1，肯定不会执行。

二、MapReduce中的OutputFormat

2.1 常见的OutputFormat实现类

OutputFormat是MapReduce输出的基类，所有实现MapReduce输出都实现了OutputFormat接口。以下是常见的几种OutputFormat实现类。

2.1.1 TextOutputFormat

TextOutputFormat是默认的输出格式，他把每条记录写为文本行。他的键和值可以是任意类型，因为TextOutputFormat调用toString()方法把他们转换为字符串。

2.1.2 SequenceFileOutputFormat

将SequenceFileOutputFormat输出作为后续MapReduce任务的输入，这是一种很好的输出格式，因为他的格式紧凑，很容易被压缩。

2.2 自定义OutputFormat实例

自定义OutputFormat是本文的重点，因为有时候为了满足不同的业务场景，必须得自定义OutputFormat，我们通过一个案例来看一下。

2.2.1 需求与数据

先来看下数据：

数据还是我们前面例子中用到的Nginx的日志数据，上图中的各个字段分别表示：时间、版本、客户端ip、访问路径、状态、域名、服务端ip、size、响应时间。现在想要将访问路径中为“/iclock/getrequest”路径的输出到一个文件中，其余的访问路径放到另外一个文件中。

2.2.2 编写Bean类

package com.xzw.hadoop.mapreduce.outputformat;

import org.apache.hadoop.io.Writable;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

/**
 * @author: xzw
 * @create_date: 2020/8/10 14:02
 * @desc: 时间、版本、客户端ip、访问路径、状态、域名、服务端ip、size、响应时间
 * @modifier:
 * @modified_date:
 * @desc:
 */
public class LogBean implements Writable {
    private String date;
    private String version;
    private String clientIP;
    private String url;
    private String status;
    private String domainName;
    private String serverIP;
    private String size;
    private String responseDate;

    public LogBean() {
    }

    public void set(String date, String version, String clientIP, String url, String status, String domainName,
                    String serverIP, String size, String responseDate) {
        this.date = date;
        this.version = version;
        this.clientIP = clientIP;
        this.url = url;
        this.status = status;
        this.domainName = domainName;
        this.serverIP = serverIP;
        this.size = size;
        this.responseDate = responseDate;
    }

    public String getDate() {
        return date;
    }

    public void setDate(String date) {
        this.date = date;
    }

    public String getVersion() {
        return version;
    }

    public void setVersion(String version) {
        this.version = version;
    }

    public String getClientIP() {
        return clientIP;
    }

    public void setClientIP(String clientIP) {
        this.clientIP = clientIP;
    }

    public String getUrl() {
        return url;
    }

    public void setUrl(String url) {
        this.url = url;
    }

    public String getStatus() {
        return status;
    }

    public void setStatus(String status) {
        this.status = status;
    }

    public String getDomainName() {
        return domainName;
    }

    public void setDomainName(String domainName) {
        this.domainName = domainName;
    }

    public String getServerIP() {
        return serverIP;
    }

    public void setServerIP(String serverIP) {
        this.serverIP = serverIP;
    }

    public String getSize() {
        return size;
    }

    public void setSize(String size) {
        this.size = size;
    }

    public String getResponseDate() {
        return responseDate;
    }

    public void setResponseDate(String responseDate) {
        this.responseDate = responseDate;
    }

    @Override
    public String toString() {
        return date + '\t' + version + '\t' + clientIP + '\t' + url + '\t' + status + '\t' + domainName + '\t'
                + serverIP + '\t' + size + '\t' + responseDate;
    }

    /**
     * 序列化方法
     *
     * @param dataOutput
     * @throws IOException
     */
    @Override
    public void write(DataOutput dataOutput) throws IOException {
        dataOutput.writeUTF(date);
        dataOutput.writeUTF(version);
        dataOutput.writeUTF(clientIP);
        dataOutput.writeUTF(url);
        dataOutput.writeUTF(status);
        dataOutput.writeUTF(domainName);
        dataOutput.writeUTF(serverIP);
        dataOutput.writeUTF(size);
        dataOutput.writeUTF(responseDate);
    }

    /**
     * 反序列化方法
     *
     * @param dataInput
     * @throws IOException
     */
    @Override
    public void readFields(DataInput dataInput) throws IOException {
        this.date = dataInput.readUTF();
        this.version = dataInput.readUTF();
        this.clientIP = dataInput.readUTF();
        this.url = dataInput.readUTF();
        this.status = dataInput.readUTF();
        this.domainName = dataInput.readUTF();
        this.serverIP = dataInput.readUTF();
        this.size = dataInput.readUTF();
        this.responseDate = dataInput.readUTF();
    }
}

2.2.3 编写Mapper类

package com.xzw.hadoop.mapreduce.outputformat;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

/**
 * @author: xzw
 * @create_date: 2020/8/10 13:59
 * @desc:
 * @modifier:
 * @modified_date:
 * @desc:
 */
public class LogMapper extends Mapper {
    private Text k = new Text();
    private LogBean v = new LogBean();

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        //1、获取一行数据
        String line = value.toString();

        //2、切分
        String[] fields = line.split("\t");

        //3、获取对应的数据
        String date = fields[0];
        String version = fields[1];
        String clientIP = fields[2];
        String url = fields[3];
        String status = fields[4];
        String domainName = fields[5];
        String serverIP = fields[6];
        String size = fields[7];
        String responseDate = fields[8];

        //4、封装数据
        k.set(url);
        v.set(date, version, clientIP, url, status, domainName, serverIP, size, responseDate);

        //5、写出
        context.write(k, v);
    }
}

2.2.4 编写RecordWriter类

package com.xzw.hadoop.mapreduce.outputformat;

import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.RecordWriter;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

/**
 * @author: xzw
 * @create_date: 2020/8/10 14:23
 * @desc:
 * @modifier:
 * @modified_date:
 * @desc:
 */
public class LogRecordWriter extends RecordWriter {

    private FSDataOutputStream getrequest;
    private FSDataOutputStream others;

    public LogRecordWriter(TaskAttemptContext job) throws IOException {
        //1、获取文件系统
        FileSystem fs;
        fs = FileSystem.get(job.getConfiguration());

        //2、创建输出流
        String outDir = job.getConfiguration().get(FileOutputFormat.OUTDIR);
        getrequest = fs.create(new Path(outDir + "/getrequest.txt"));
        others = fs.create(new Path(outDir + "/others.txt"));
    }

    @Override
    public void write(Text key, LogBean value) throws IOException, InterruptedException {
        //判断路径是否是/iclock/getrequest，然后将value输出到不同的文件
        String k = key.toString() + "\n";
        if (k.contains("getrequest")) {
            getrequest.write(value.toString().getBytes());
            getrequest.write("\n".getBytes());
        } else {
            others.write(value.toString().getBytes());
            others.write("\n".getBytes());
        }
    }

    @Override
    public void close(TaskAttemptContext taskAttemptContext) throws IOException, InterruptedException {
        //关闭资源
        IOUtils.closeStream(getrequest);
        IOUtils.closeStream(others);
    }
}

2.2.5 编写OutputFormat类

package com.xzw.hadoop.mapreduce.outputformat;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.RecordWriter;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

/**
 * @author: xzw
 * @create_date: 2020/8/10 14:44
 * @desc:
 * @modifier:
 * @modified_date:
 * @desc:
 */
public class LogOutputFormat extends FileOutputFormat {
    @Override
    public RecordWriter getRecordWriter(TaskAttemptContext job) throws IOException,
            InterruptedException {
        return new LogRecordWriter(job);
    }
}

2.2.6 编写Reducer类

package com.xzw.hadoop.mapreduce.outputformat;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/**
 * @author: xzw
 * @create_date: 2020/8/10 14:20
 * @desc:
 * @modifier:
 * @modified_date:
 * @desc:
 */
public class LogReducer extends Reducer {
    @Override
    protected void reduce(Text key, Iterable values, Context context) throws IOException,
            InterruptedException {
        for (LogBean value: values) {
            context.write(key, value);
        }
    }
}

2.2.7 编写Driver驱动类

package com.xzw.hadoop.mapreduce.outputformat;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

/**
 * @author: xzw
 * @create_date: 2020/8/10 14:54
 * @desc:
 * @modifier:
 * @modified_date:
 * @desc:
 */
public class LogDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        //输入输出路径
        args = new String[]{"e:/input/nginx_log", "e:/output"};

        Job job = Job.getInstance(new Configuration());

        job.setJarByClass(LogDriver.class);

        job.setMapperClass(LogMapper.class);
        job.setReducerClass(LogReducer.class);

        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(LogBean.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(LogBean.class);

        job.setOutputFormatClass(LogOutputFormat.class);

        FileInputFormat.setInputPaths(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        boolean b = job.waitForCompletion(true);
        System.exit(b ? 0 : 1);
    }
}

2.2.8 测试

测试结果如下所示：

getrequest.txt内容如下：

others.txt内容如下：

马可·奥勒留·安东尼丨帝王日课 D 313 丨张伟丨
帝王日课丨文/张伟乐之写作工作坊这是椰子私塾第2015篇原创输出每天审视生活。D3132022年11月5日我的品格正在创造一种顺畅的生活吗？不，不顺畅。前几年工作不顺，当时觉得主要原因是和领导脾气不和，无论做什么，领导都看不顺眼。那段时间很苦恼，也找了几本如何和领导相处，以及性格测试类书籍。书没有读了几本，有个同事突然升职。后来才知道，原来啊人们有关系。领导不是看不惯我，而是另有深意，只是我不知道
Python星球日记 - 第8天：函数基础 Code_流苏 Python星球日记 python 函数 def关键字函数参数返回值
引言：上一篇：Python星球日记-第7天：字典与集合名人说：路漫漫其修远兮，吾将上下而求索。——屈原《离骚》创作者：Code_流苏(CSDN)（一个喜欢古诗词和编程的Coder）目录一、函数的定义与调用1.什么是函数？2.如何定义函数-`def`关键字3.函数调用方式二、参数与返回值1.函数参数类型2.如何传递参数3.返回值和`return`语句三、局部变量与全局变量1.变量作用域概念2.局部变
Flutter基础（前端教程①⑨-margin-padding） aaiier Flutter 前端
比喻：把框的盒子把Container想象成一个带边框的盒子：margin是盒子外面的空白（盒子与周围其他东西的距离）。padding是盒子里面的空白（盒子边框与内部内容的距离）。代码示例（带边框更直观）：Container(//盒子外部的空白（与其他组件的距离）margin:EdgeInsets.all(20),//盒子内部的空白（边框与文本的距离）padding:EdgeInsets.all(1
Flutter状态管理篇之ValueNotifier（三）
目录前言一、ValueNotifier概述二、ValueNotifier的实现原理1.类定义1.类定义2.关键字段3.关键方法1.构造函数2.getter:value3.setter:value:4.toString2.继承自ChangeNotifier的机制3.ValueListenable接口三、ValueNotifier的用法1.自动监听单个值的变化2.手动监听3.结合Provider四、V
《金吾生〈庄子发微〉日课4.2021-12-6》金吾生
《金吾生〈庄子发微〉日课4.2021-12-6》今天是辛丑己亥甲寅，冬月初三，2021-12-6星期一。《消摇游第一》1钟泰先生讲解道，“消摇”是叠韵连语。外篇《天运》说“以游消摇之虚……消摇，无为也。”这句话说的是，如果无为则得消摇，并不是说消摇就是无为。具体分析而言，“消”，是消释的意思。《田子方篇》说：“物无道，正容以悟之，使人之意也消。”杂篇《则阳》说：“非相助以德，相助消也。”“摇”，是
散吧散吧 Hi花小溪
匆匆地一天又一天一年又一年如此之快年龄亦是那么悄无声息走过一个又一个的沙漏缓慢地流却又似迅速的升其实岁月一直静好着每天乘的公交车还是会不偏不倚的时间到达拥挤颤动的人群匆忙里隐藏着各种心情车上反复播映的电影片段再次看到还是会让我湿了眼眶虽已老大不小却依然不改容易感动的初心凄凉唯美的感情总是更能刺激俗人的神经更能冲击如我般感性玻璃般的心灵明知不可能在一起是痛苦的却还是抱着蜡炬成灰泪始干的热忱即使灰飞烟
惠州孕期亲子鉴定中心在哪里(附2024年最新亲子鉴定办理流程) 成之嘉_基因检测
2024年惠州最新亲子鉴定收费标准：个人隐私亲子鉴定收费标准：￥2000-￥2400，常见用途：怀疑孩子的父亲身份，想私下偷偷检测；无创胎儿亲子鉴定收费标准：￥4500-￥5000，常见用途：孩子未出世，怀疑胎儿的父亲身份，想思想偷偷检测；司法亲子鉴定收费标准：￥2400-￥3600，常见用途：上户口、移民；成之嘉亲子鉴定优势1、全程匿名2、快速出结果3、检测更精准口号：每一次检测都是一份责任无创
齁甜！大小姐她被腹黑大佬掐腰宠（沈今岁、周晏琮）全文免费阅读无弹窗大结局_（齁甜！大小姐她被腹黑大佬掐腰宠）沈今岁、周晏琮最新章节列表_笔趣阁（齁甜！大小姐她被腹黑大佬掐腰宠）霸道推书3
小说名：《齁甜！大小姐她被腹黑大佬掐腰宠》主角配角：沈今岁、周晏琮简介：她，豪门千金，长得明艳美丽，简直就是有钱有颜的代表。却没想，她还能被渣？更离谱的是，她男友脚踏两条船，还让她成他的跟？跟个头，他也配？她火速和渣男分手，进入新生活。遇到京圈太子爷后，她终于知道什么才是真正的爱情。比起渣男，太子爷他尊重她，爱护她，这才是良配。结婚后，人人都说联姻没有爱情，他们用实际行动向众人证明，他们是妥妥的真
金型人格的修炼蒋沅臻_cb46
姓名～沅臻【日精进打卡第46天】【知～学习】1.耳语练习30分钟NG2.有声阅读文章1篇OK3.看书30分钟OK4.运动30分钟NG5.扫除整理OK【行～实践】一、修身：（对自己个人）1、找爸爸好处第16天。二、齐家：（对家庭和家人）今天上课，没有接到弟弟的电话。三、建功：（对工作）1、经营者传习之旅第一天，今天接受的信息有点多，需要花时间好好消化。2、找到了金型人格的修炼方向。｛积善｝：发愿从2
我的老大，我的礼物叶子手札
我是叶子，两娃妈。心理学工作者，从事中小学心理健康教育工作13年。这是我第53篇原创手稿。上周，和朋友们聊天的时候，被她们说，你看，你每次讲到老二，眼神流露出满满的爱和欣赏，说老二是老大的礼物。这对待老大和老二的差别很大啊。已经不止一个人和我提及这个差异了。是的，我自己也很清楚，老二确实让我省心放心许多，他爱吃，能睡，待人大方主动，积极向外探索。只是偶尔闹闹小脾气，还有点小倔强。可在他爸看来，这个
达达日记第三十二篇豪达兄弟
今天我很开心，因为我喜欢玩平板，读书，我还喜欢放风筝。我们在公园放风筝了，放风筝的时候需要抓住手把，而且想加高的时候就用手转黑色的手把。我买的是一个毛头鹰的风筝，放风筝需要两个人配合，一个拉着线，一个人拿着风筝，两个人跑着跑着把风筝往一扔，风筝就飞起来了。我们放完风筝就回家了，我们回家之后我爸爸给我炖大雁肉吃了，我很喜欢吃大雁肉，我吃饱之后洗洗手玩了一会平板，哥哥就去发阅读了。等哥哥发完阅读我们就
【Elasticsearch】安全地删除快照仓库、快照
安全地删除快照仓库、快照1.删除仓库2.删除快照在上一篇博文《【Elasticsearch】快照与恢复功能详解》中，我们针对Elasticsearch的快照和恢复功能进行的讲解。细心的同学可能会对以下的命令产生疑惑，直接删除是安全的吗？本文将会给你答案。删除仓库：DELETE/_snapshot/my_backup_repo删除快照：DELETE/_snapshot/my_backup_repo/
人工智能真的能编程吗？研究勾勒出自主软件工程的障碍 WSSWWWSSW 人工智能软件工程
想象一下这样一个未来：人工智能悄然承担起软件开发的繁重工作：重构杂乱无章的代码、迁移遗留系统以及排查竞态条件，这样人类工程师就可以专注于架构、设计以及那些机器仍然无法解决的真正新颖的问题。最近的进展似乎让这个未来近在咫尺，但麻省理工学院计算机科学与人工智能实验室（CSAIL）以及其他几家合作机构的研究人员发表的一篇新论文指出，要实现这个潜在的未来，需要认真审视当前面临的挑战。这篇题为《面向软件工程
arXiv.org
arXiv的发展历程与目标解析一、发展历程：从邮件列表到学术基础设施（1991年至今）萌芽期（1989-1991）起源：1989年，物理学家PaulGinsparg基于弦理论专家的邮件列表，尝试自动化预印本分发。1991年8月，洛斯阿拉莫斯国家实验室上线xxx.lanl.gov，最初仅服务高能物理领域，通过电子邮件接收投稿，半年内收录400篇论文。技术突破：1993年接入万维网，成为首个使用“摘要
【Elasticsearch】合适的锅炒合适的菜：性能与成本平衡原理公式解析
合适的锅炒合适的菜：性能与成本平衡原理公式解析1.公式本质：用合适的锅炒合适的菜2.拆解成现实场景3.当顾客点单时（数据操作）4.灾难场景：没有分层架构5.分层架构的精妙之处6.对应到Elasticsearch的真实参数在上一篇博客《【Elasticsearch】冷热集群架构》中，我们介绍了一个性能与成本平衡原理公式。总成本=∑i=hotcold(Ni×Cihardware+Qi×Ciquery)
修改文章《写作的意义》小结读写缘
昨天，读周老师的文章《找到写作意义》，我反思自己对写作的认识，写了一篇文章《写作的意义》。全文一千两百多字，自信满满。初稿形成时，感觉梳理的不是很清楚，对直接引用周老师的原话是否合适有疑问，便把文章发给燕老师，请教修改意见。得到燕老师的点拨，思路逐渐明晰，提笔重写。这次换了说法，把周老师文章中的原话全部删减，理解找出关键语句作为小标题，展开分层描述。修改后的文章九百多字，有些小惋惜，但很值得。文章
305李03days作业#裂变实验室# 李_d891
A账号大数据里加的人B账号精筛选一遍的客户C账号vip客户深度信任客户今天事情有点多，没有好好学习，明天重新写一个补到新作业里。
2021-07-17 星月格格
自律在合适的时间想正确的事情在合适的时间做合适的事情说起来容易做起来难，今天看到一篇文章，讨论我们女人～为什么喜欢买买买？曾经的“口红经济”和“裙子经济”，随着时代的发展已经不复存在了。现在的大部分女人，都是喜欢什么买什么，网上有人问:你减压的最好方式是什么？九成以上的女性回答“买买买”，生活压力大，女人需要通过招飞来减压，取悦自己。工作的憋屈，生活的繁琐，每天的疲惫都可以通过“买买买”来减轻负担
唯美意境——诗词分享收藏流云飞过诗与梦
1.清夜无尘，月色如银。酒斟时，须满十分。——苏轼《行香子·述怀》2.世间应有，芳甘浓美，不到吾家门户。——辛弃疾《永遇乐》3.诗成流水上，梦尽落花间。——钱起《送夏侯审校书东归》4.层波潋滟远山横，一笑一倾城。——柳永《少年游》5.听杜宇声声，劝人不如归去。——柳永《安公子·远岸收残雨》6.惟有王城最堪隐，万人如海一身藏。——苏轼7.当时爱缩山川去，有夜自携星月来。——方千《赠天台叶尊师》8.吴
《相面天师》第九百二十章下台挑战先峰老师
方才的小村野郎虽然实力不弱，但他所学得是来自中国的奇门遁法，更精于暗杀偷袭，本身的攻击力，比周少云还要差上一些，只要破去他的隐身术，就能占得主动，这也是李尚鸿敢让周少云下场迎敌的原因。事实也正是如此，在小村野郎大意之下，偷袭周少云未成反而被一拳击毙，严格说来，周少云的实力也就是和小村野郎相当，并不会比他高出多少。但是乃他信.沙旺素西不同，这位泰国的国师兼僧王所学的是降头术，有许多诡异的手段就连李尚
婚礼当天，我将女友还给她的竹马小说(许瑶程哲)什么小说-婚礼当天，我将女友还给她的竹马小说热门小说更新许瑶程哲花朵文库
婚礼当天，我将女友还给她的竹马小说(许瑶程哲)什么小说-婚礼当天，我将女友还给她的竹马小说热门小说更新许瑶程哲主角配角：许瑶程哲小说别名：我和许瑶恋爱八年。在婚期前三天，却发现她电脑里存了上万张同一个男生的照片。人，只以为她性格含蓄不善表达。现在想想，我简直天真的可笑。朋友圈的简介我追着她问了许多次，她都没有回答过。此刻终于知道了答案。距离我们简略的婚礼还有三天，我将倒计时设置成手机的动态壁纸每天
第142天解读静冥儿
38天，38篇，看完占芳解读的《金瓶梅》，觉得自己原先看完的书只是看的表面。对鲍鹏山老师的认识是上周在得到直播间，听他讲水浒，受益匪浅，原先只知道易中天，于丹。翻家里书柜，找一本书看，意外看到《鲍鹏山新说水浒》，2009年版，里面有标记，或许9年前我已经看过一遍。开始新的阅读旅程。图片发自App
2019-04-10 我是个石头
1.自律A1①早起提前到4:50，朗读文章、录制音频、三点即兴演讲。✔②复盘✔③每天看书60分钟，两天听懂书一本，看三篇文章。✔④演讲视频每天10个，音频一个。✔⑤坚持健身一小时。✔⑥文章输出2000字。✔2.练车科目三。✔3.制作工资表。未做好，电脑忘记带了。今日收获①.学习。今天把小狗钱钱这本书看完还看了第二部的前一百页，小狗钱钱第一本书，我主要有以下收获。对于钱财的分配，学会投资。去寻找一个
三衢诗歌笔记(51)·徐一槱莲子风父抱石人
徐一槱，字帆昕。乾隆时人。菱湖诗社中友也。《殷浩宅修禊分韵得藏字》为继兰亭迹，行来曲水旁；宅今成梵宇，名尚纪殷墙；湍自双溪合，荫连万绿藏；群贤矜盛事，可拟永和芳。《瞻定光佛真身》遗蜕千年委梵宫，香台花雨散濛濛；残碑犹识传清献，妙谛无惭号慧通；解脱涅槃常灭度，怪他色相未全空；真如三昧同游戏，大有禅机在个中。《红叶》秋花已寂寂，秋叶尚垂垂；色比红妆丽，功缘青女施；露漙疑浣锦，霜染胜凝脂；最是关情处，遥
代码随想录算法Day35(2)||贪心算法-LeetCode406根据身高重建队列
学习内容参考卡哥代码随想录，有文字学习资料（代码随想录网站）和视频讲解（b站）2.根据身高重建队列题目力扣题目链接(opensnewwindow)假设有打乱顺序的一群人站成一个队列，数组people表示队列中一些人的属性（不一定按顺序）。每个people[i]=[hi,ki]表示第i个人的身高为hi，前面正好有ki个身高大于或等于hi的人。请你重新构造并返回输入数组people所表示的队列。返回的
2020-04-04 我心依旧_79e2
【六项精进打卡】2020.4.4日姓名：陈岗企业名称：上海孚因流体动力设备股份有限公司打卡第712天【知~学习】《六项精进》3遍,共1568遍《大学》1遍，共940遍【经典名言名句分享》只有创造，才是真正的享受，只有拼搏，才是充实的生活。修身：（对自己个人）有理想的地方，地狱就是天堂，有希望的地方，痛苦也成快乐。1每天坚持诵读《六项精进》和《大学》。2学会宽恕他人，同时从错误中吸取教训。3每天中午
今日计划与复盘2019.7.6 河北凤凰高飞
今日计划与复盘2019.7.61.早起：6点前达标2.写字一篇3.跑步五公里复盘：今天是妈妈生日，给妈妈买了生日蛋糕。说来惭愧，不是爸爸提醒，我差点忘了妈妈生日，还不如我儿子晚上从衡水一中打来电话，祝他奶奶生日快乐。今天以休息为主，很放松。打卡也很随意，晚上快11点才打了部分卡。
明天股市大盘走势预测 05ccd5c4766a
今天上证低开高走，收出缩量小阳线在五天线上方，成指也收复五天线，创业板收长阳线，大涨3.9%。从盘面看，早盘宽幅震荡，先上攻3590点附近受阻回落，午后再向上拉高，收复五天线。二市成交量9100亿，缩量严重，二市红盘家数1817家，一改前几天多数股上涨的格局。从早盘银行券商冲高回落，到稀土、钢铁、有色、汽车概念后接力上涨，权重交替拉抬下，让大盘收在3580点上方。但由于量能不续，明仍需提防冲击36
苹果手机赚钱app推荐，ios赚钱app软件高省张导师
对于苹果手机（iOS）赚钱app的推荐，以下是一些在市场上较为受欢迎且评价较高的应用：1、社交导购电商社交导购电商是当下最值得年轻人去尝试创业的一种零成本创业模式，也是最早淘宝客的优化版，无货源无售后操作模式，很多小伙伴不知道怎么做，这里我给大家介绍一个靠谱的淘宝导购电商赚钱渠道，可以用来抖音快速短视频直播带货选品，可以地摊进货赚佣金，也可以做微信羊毛群，捡漏群，社群团购等多种赚钱方法就算你不用这
2021年3月26日施工日志天气多云☁️（10～18℃） LL一生所爱
一、施工作业人员：1、主体班组13人；2、桩基班组15人；3、土方班组8人；4、零星班组5人；二、当日施工情况：1、2栋号工程桩破除；2、对2栋号工程桩周边清土；3、旋挖桩桩基成孔5根、累计成孔208根、其中；①、1栋成孔累计并浇筑74根、剩于4根；②、2栋成孔累计并浇筑82根以完成；③、3栋成孔累计并浇筑20根、剩余62根；④、4栋成孔累计并浇筑1根、剩于76根；⑤、5栋成孔累计并浇筑1根、剩于
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比

十三、MapReduce中的OutputFormat

一、MapReduce的工作机制

1.1 MapTask的工作机制

1.2 ReduceTask工作机制

二、MapReduce中的OutputFormat

2.1 常见的OutputFormat实现类

2.1.1 TextOutputFormat

2.1.2 SequenceFileOutputFormat

2.2 自定义OutputFormat实例

2.2.1 需求与数据

2.2.2 编写Bean类

2.2.3 编写Mapper类

2.2.4 编写RecordWriter类

2.2.5 编写OutputFormat类

2.2.6 编写Reducer类

2.2.7 编写Driver驱动类

2.2.8 测试

你可能感兴趣的:(破茧成蝶——大数据篇,MapReduce,hadoop,Reducer)