咘雷扎克

大数据篇：MapReduce

MapReduce

MapReduce是什么?

MapReduce源自于Google发表于2004年12月的MapReduce论文，是面向大数据并行处理的计算模型、框架和平台，而Hadoop MapReduce是Google MapReduce克隆版。

如果没有MapReduce!

那么在分布式计算上面将很难办，不好编程。

在早期无法处理大数据的离线计算。

编程中不易扩展性

分布式计算任务一旦挂了，没有容错机制进行处理

说明：MapReduce不擅长的方面(慢!)

实时计算：像MySQL一样，在毫秒级或者秒级内返回结果。

流式计算：MapReduce的输入数据集是静态的，不能动态变化。

DAG计算：多个应用程序存在依赖关系，后一个应用程序的输入为前一个的输出

现在MapReduce逐渐被Spark，Flink等框架取代。但是思想很重要，值得学习。

1 MapReduce编程模型

场景：有大量文件，里面存储了单词，且一个单词占一行
任务：如何统计每个单词出现的次数？
类似应用场景：
- 搜索引擎中，统计最流行的K个搜索词；
- 统计搜索词频率，帮助优化搜索词提示
三种问题
- Case 1：整个文件可以加载到内存中；sort datafile | uniq -c；
- Case 2：文件太大不能加载到内存中，但每一行可以存放到内存中；
- Case 3：文件太大无法加载到内存中，且也不用保存在内存中；
将三种问题范化为：有一批文件（规模为TB级或者 PB级），如何统计这些文件中所有单词出现的次数；
- 方案：首先，分别统计每个文件中单词出现次数，然后累加不同文件中同一个单词出现次数；
- 典型的MapReduce过程。

1.1 WordCount案例

1.1.1 WordCount流程图

input阶段，我们取出文件中的一些数据
splitting阶段，我们将取出的单词进行分片
Mapping阶段，将每个出现的单词进行1次统计，转换数据类型为（单词，1）
Shuffling阶段，进行hash分片，放入对应的桶，俗称洗牌，将同样的单词放入同一个桶。
Reducing阶段，进行数据整合，求出每个词的出现的次数
Final result阶段，最后获取到的结果

1.1.2 WordCount代码及本地运行

1 新建word.txt文件

Deer Bear River
Car Car River
Deer Car Bear

2 导入maven依赖

    
        org.apache.hadoop
        hadoop-client
        3.0.0-cdh6.2.0
    
    
        org.apache.hadoop
        hadoop-common
        3.0.0-cdh6.2.0
    
    
        org.apache.hadoop
        hadoop-hdfs
        3.0.0-cdh6.2.0

3 map类

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.IOException;

/**
 * Mapper 四个泛型意思：
 * Mapper
 * KEYIN -> LongWritable:偏移量(存储该行在整个文件中的起始字节偏移量)
 * VALUEIN -> Text:进入数据类型
 * KEYOUT -> Text:输出数据键类型
 * VALUEOUT -> IntWritable:输出数据值类型
 */
public class WcMapper extends Mapper {
    private Text word = new Text();
    private IntWritable one = new IntWritable(1);

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        //拿到一行数据,以空格切分
        String[] words = value.toString().split(" ");
        //遍历单词数据，将数据变成（单词，1）的形式放入上下文中（框架）
        for (String word : words) {
            this.word.set(word);
            context.write(this.word, one);
        }
    }
}

4 reducer类

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;

/**
 * Reducer 四个泛型意思：
 * Reducer
 * KEYIN -> Text:输入数据键类型
 * VALUEIN -> IntWritable:输入数据值类型
 * KEYOUT -> Text:输出数据键类型
 * VALUEOUT -> IntWritable:输出数据值类型
 */
public class WcReducer extends Reducer {
    private IntWritable total = new IntWritable();

    @Override
    protected void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException {
        //累加相同单词的数量
        int sum = 0;
        for (IntWritable value : values) {
            sum += value.get();
        }
        //包装结果为（单词，总数）输出
        total.set(sum);
        context.write(key, total);
    }
}

5 执行任务Driver类

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;

public class WcDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        //获取Job实例
        Job job = Job.getInstance(new Configuration());

        //设置工作类
        job.setJarByClass(WcDriver.class);

        //设置Mapper和Reducer类
        job.setMapperClass(WcMapper.class);
        job.setReducerClass(WcReducer.class);

        //设置Mapper和Reducer输出的类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

        //设置输入输出数据
        FileInputFormat.setInputPaths(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        //提交job
        boolean b = job.waitForCompletion(true);
        System.exit(b ? 0 : 1);
    }
}

6 设置文件输入输出参数，执行程序，得到结果

#### 1.1.3 集群运行

打包上面写好的项目，上传集群，执行提交命令。

2 Hadoop序列化

为什么hadoop要自己实现基本的数据类型而不直接使用Java的类？如：IntWritable，LongWritable，Text。

因为Java的序列化是一个重量级框架（Serializable），一个对象被序列化后，会附带很多额外的信息（校验信息，继承体系，Header等），在网络中传输高效性有影响，所以hadoop自己实现了序列化机制（Writable）。

注：网络传输中的信息都需要序列化，因为hadoop自己实现了序列化机制（Writable），所以我们才可以进行简单的分布式计算代码开发。

2.1 手机流量统计(序列化案例)

1 新建flow.txt文件(行号手机号 IP 网址上行流量下行流量状态码)

1   13408542222 192.168.10.1    www.baidu.com   1000    2000    200
2   17358643333 192.168.10.1    www.baidu.com   2000    4000    200
3   13408542222 192.168.10.1    www.baidu.com   1000    2000    200
4   17358643333 192.168.10.1    www.baidu.com   2000    4000    200
5   13408542222 192.168.10.1    www.baidu.com   1000    2000    200
6   17358643333 192.168.10.1    www.baidu.com   2000    4000    200

2 导入maven依赖

    
        org.apache.hadoop
        hadoop-client
        3.0.0-cdh6.2.0
    
    
        org.apache.hadoop
        hadoop-common
        3.0.0-cdh6.2.0
    
    
        org.apache.hadoop
        hadoop-hdfs
        3.0.0-cdh6.2.0

3 实体类对象

import lombok.Getter;
import lombok.NoArgsConstructor;
import lombok.Setter;
import lombok.ToString;
import org.apache.hadoop.io.Writable;
import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

@Getter
@Setter
@NoArgsConstructor
@ToString
//注意toString方法和最后打印结果效果相关
public class Flow implements Writable {
    private long upFlow;
    private long downFlow;
    private long totalFlow;

    public void setFlow(long upFlow, long downFlow) {
        this.upFlow = upFlow;
        this.downFlow = downFlow;
        this.totalFlow = upFlow + downFlow;
    }

    //序列化方法
    @Override
    public void write(DataOutput dataOutput) throws IOException {
        dataOutput.writeLong(upFlow);
        dataOutput.writeLong(downFlow);
        dataOutput.writeLong(totalFlow);
    }

    //反序列化方法
    @Override
    public void readFields(DataInput dataInput) throws IOException {
        upFlow = dataInput.readLong();
        downFlow = dataInput.readLong();
        totalFlow = dataInput.readLong();
    }
}

4 map类

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.IOException;


public class FlowMapper extends Mapper {
    private Text phone = new Text();
    private Flow flow = new Flow();

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String[] data = value.toString().split(" ");
        phone.set(data[1]);
        long upFlow = Long.parseLong(data[4]);
        long downFlow = Long.parseLong(data[5]);
        flow.setFlow(upFlow, downFlow);
        context.write(phone, flow);
    }
}

5 reducer类

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;

public class FlowReducer extends Reducer {
    private Flow flow = new Flow();

    @Override
    protected void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException {
        long sumUpFlow = 0;
        long sumDownFlow = 0;
        for (Flow value : values) {
            sumUpFlow += value.getUpFlow();
            sumDownFlow += value.getDownFlow();
        }
        flow.setFlow(sumUpFlow, sumDownFlow);
        context.write(key, flow);
    }
}

6 执行任务Driver类

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;

public class FlowDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        //获取Job实例
        Job job = Job.getInstance(new Configuration());

        //设置工作类
        job.setJarByClass(FlowDriver.class);

        //设置Mapper和Reducer类
        job.setMapperClass(FlowMapper.class);
        job.setReducerClass(FlowReducer.class);

        //设置Mapper和Reducer输入输出的类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(Flow.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Flow.class);

        //设置输入输出数据
        FileInputFormat.setInputPaths(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        //提交job
        boolean b = job.waitForCompletion(true);
        System.exit(b ? 0 : 1);
    }
}

7 设置文件输入输出参数，执行程序，得到结果

3 MapReduce原理

3.1MapReduce的集群管理架构

1.客户端发送MR任务到RM上
2.RM分配资源，找到对应的NM，分配Container容器，启动对应的Application Master
3.Application Master向Applications Manager注册
4.Application Master向Resource Scheduler申请资源
5.找到对应的NM
6.分配Container容器，启动对应的的Map Task或者是Reduce Task任务
7.Map Task和Reduce Task对Application Master汇报心跳，任务进度
8.Application Master向Applications Manager汇报整体任务进度，如果执行完了Applications Manager会将Application Master移除

注意：原则上MapReduce分为两个阶段：Map Task和Reduce Task，但是由于Shuffling阶段很重要，人为划分了Shuffling阶段，这个阶段发生在Map Task和Reduce Task之间，可以理解为由Map Task后半段和Reduce Task前半段组成。

3.2 MapReduce的数据流

3.3 MapTask

3.3.1 并行度决定机制

1G的数据，分成8份并行计算，那么每一份需要计算的数据为128M，感觉还不错。

1M的数据，分成8份并行计算，那么每一份需要计算的数据为128B，感觉资源浪费严重。

那么就需要有一个东西来决定怎么切分，它就是InputFormat，而切分大小一般由HDFS块大小决定。

一个Job的Map阶段并行度由客户端在提交Job时的切片数决定。
每一个Split切片分配一个MapTask并行处理实例。
默认情况下，切片大小=BlockSize(128M)。
切片时不考虑数据集整体，而是逐个针对每一个文件单独切片。

针对第四点说明：比如有3个文件，一个300M，第二个50M，第三个50M，那么一共就是切了5个MapTask出来。

针对每一个文件，第一个300M切了3个，第二个50M切了一个，第三个50M切了一个，共5个。

而如果只有一个文件为128M+1KB，那么就只会切分一个，因为切片判断规则为->如果文件小于切片大小1.1倍，就和上一个切片将就放在一起了，这样可以防止过小的切片在执行任务的时候，调度资源的时间超过执行时间的情况。

3.3.2 InputFormat

TextInputFormat:

TextInputFormat是默认的FileInputFormat实现类，按行读取每条记录。
键：存储该行在整个文件中的起始字节偏移量，LongWritable类型
值：为这行内容，不包括任何行止符(如回车，换行)

示例，一个分片中包含了如下记录：

#源文件
si chuan cheng du
jiang su wu xi
he bei bei jing

#被TextInputFormat加载后会变成
(0，si chuan cheng du)
(18，jiang su wu xi)
(33，he  bei bei jing)

KeyValueInputFormat:

KeyValueInputFormat每一行均为一条记录，被分隔符号分割为key，value。
可以通过在驱动类中设置conf.set(KeyValueLineRecordReader.KEY_VALUE_SEPERATOR,"\t");来设置分隔符。默认\t

示例，一个分片中包含了如下记录：

#源文件
line1  si chuan cheng du
line2  jiang su wu xi
line3  he  bei bei jing

#被KeyValueInputFormat加载后会变成
(line1，si chuan cheng du)
(line2，jiang su wu xi)
(line3，he  bei bei jing)

NlineInputFormat:

NlineInputFormat代表每个map进程处理的inputSplit不在按Block块去划分，而是按指定的行数N来划分。
输入文件的总行数/N=切片数，如果不整除，切片数=商+1
键：存储该行在整个文件中的起始字节偏移量，LongWritable类型
值：为这行内容，不包括任何行止符(如回车，换行)

示例，一个分片中包含了如下记录：

#源文件
si chuan cheng du
jiang su wu xi
he bei bei jing
hu bei wu han

如果N是2，则每个输入分片包含2行，开启2个Map Task

#第一个map收到
(0，si chuan cheng du)
(18，jiang su wu xi)
#第二个map收到
(33，he bei bei jing)
(49，hu bei wu han)

CombineTextInputFormat:

根据设置的阈值来决定切片数。
假设setMaxInputSplitSize值为5M，如下4个文件

a.txt 2.1M
b.txt 5.8M
c.txt 3.6M
d.txt 7.8M
#虚拟储存过程(因为如上4小个文件在hdfs上占用了4个块，所以要有一个虚拟划块的过程)
2.1M < 5M 划分一块，2.1M
5.8M > 5M 大于5M但是小于2*5M，划分2个同样大小的块，2.9M-2.9M
3.6M < 5M 划分一块，3.6M
12M  > 5M 大于2*5M，先划分5M，剩下的 7M > 5M 但是 < 2*5M 划分2个同样大小的块，5M-3.5M-3.5M
(得到结果)
2.1M
2.9M
2.9M
3.6M
4M
3.5M
3.5M
#切片过程(补够5M划成一块)
第一块 2.1M + 2.9M = 5M
第二块 2.9M + 3.6M = 6.5M
第三块 4M + 3.5M = 7.5M
第四块 3.5M

SequenceFileInputFormat:

SequenceFile其实就是上一个MR程序的输出
由于每一个MR都会落地磁盘，那么框架就提供了一种文件对接格式SequenceFile
使用SequenceFileInputFormat作为中间结果的链接

3.4 Shuffle

Partitioner分区

Partitioner决定了Map Task输出的每条数据，交给哪个Reduce Task处理
默认实现：hash(key) mod ReduceTask数目
- 允许用户自定义
很多情况需自定义Partitioner
- 比如hash(hostname(URL)) mod ReduceTask数目，确保相同域名的网页交给同一个Reduce Task处理

3.5 Combiner合并

Combiner是MR程序中Mapper和Reducer之外的一种组件。
Combiner组件的父类是Reducer。
Combiner和Reducer的区别是运行位置不同。
- Combiner是在每一个MapTask所在的节点运行；
- Reducer是接受全局所有的Mapper的输出结果；
Combiner的意义就是对每一个MapTask的输出进行局部汇总，以减小网络传输量。

Combiner能够应用的前提是不能影响最终的业务逻辑，且Combiner输出KV要和Reducer的输入KV对应。

Mapper                      Reducer
3 5 7 ->(3+5+7) / 3 = 5           (5+4) / 2 = 4.5 不等于 (3+5+7+2+6) / 5 = 4.6
2 6 ->(2+6) / 2 = 4

那个抄袭的大张伟猫小努
最近一直在追《即刻电音》这个综艺，除了觉得出场节目的音乐制作人有意思之外，也觉得有两个导师挺有趣的（另外一个就忽略了吧）。孙艺兴在上一篇文章里面已经说过了，那么这篇就说说我们的大老师，大张伟吧。其实在节目刚开始大张伟出来的时候，我以为他是属于导师里面来活跃气氛负责搞笑的，毕竟孙艺兴属于卖萌卖傻卖老实的，尚雯婕一般负责装逼耍狠的，而大张伟一贯以来上综艺的形象基本上都是蹦蹦跳跳带动气氛的。谁知道，两期
18-115 一切思考不能有效转化为行动，都TM是扯淡！成长时间线
7月25号写了一篇关于为什么会断更如此严重的反思，然而，之后日更仅仅维持了一周，又出现了这次更严重的现象。从8月2号到昨天8月6号，5天！又是5天没有更文！虽然这次断更时间和上次一样，那为什么说这次更严重？因为上次之后就分析了问题的原因，以及应该如何解决，按理说应该会好转，然而，没过几天严重断更的现象再次出现，想想，经过反思，问题依然没有解决与改变，这让我有些担忧。到底是哪里出了问题，难道我就真的
直返最高等级与直返APP：无需邀请码的返利新体验古楼
随着互联网的普及和电商的兴起，直返模式逐渐成为一种流行的商业模式。在这种模式下，消费者通过购买产品或服务，获得一定的返利，并可以分享给更多的人。其中，直返最高等级和直返APP是直返模式中的重要概念和工具。本文将详细介绍直返最高等级的概念、直返APP的使用以及与邀请码的关系。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
想明白这个问题，你才能写下去文自拾
春节放假的时候，又有一天梦见她，第二天她冒着漫天大雪，傻傻地跑来见我。她说，见见傻傻的我，天很冷，心很暖。她回去后，我写了一篇文章，题目叫——从此梦中只有你。我们没在一起的很长一段时间里，她都在我的心底，一次次出现在我的梦里。我对她说，在一起之前，是胆小且闷骚，在一起之后，我变得不要脸了。不要脸的——去爱你。那文章没写完，火车上，给她看了。我有点小失望，花了好几个小时写，她分分钟就看完，很希望她逐
2022现在哪个打车软件比较好用又便宜实惠的打车软件合集高省APP珊珊
这是一个信息高速传播的社会。信息可以通过手机，微信，自媒体，抖音等方式进行传播。但同时这也是一个交通四通发达的社会。高省APP，是2022年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。珊珊导师，高省邀请码777777，注册送2皇冠会员，送万元推广大礼包，教你如何1年做到百万团队。高
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
Redis系列：Geo 类型赋能亿级地图位置计算 Ly768768 redis bootstrap 数据库
1前言我们在篇深刻理解高性能Redis的本质的时候就介绍过Redis的几种基本数据结构，它是基于不同业务场景而设计的：动态字符串(REDIS_STRING)：整数(REDIS_ENCODING_INT)、字符串(REDIS_ENCODING_RAW)双端列表(REDIS_ENCODING_LINKEDLIST)压缩列表(REDIS_ENCODING_ZIPLIST)跳跃表(REDIS_ENCODI
2019-11-04复盘——飞来山上千寻塔，闻说鸡鸣见日升。那一叶秋
1、大盘篇先上老图，看习惯了，也就知道走势了图1上证指数日线图还是那张老图，自己可以在自己的相关软件上画出来，快变盘了。2、个股篇未加仓、未减仓。分析量能的时候，突然发现这么一个东西：“放量突破年线，缩量回调。”合众科技日线图其实，最近的N只个股，在技术分析上，都到了变盘的临界时候。结合这么久的走势，特别是ZJH不断放开IPO的申请，本质上说是融资难度变大，或者说是为企业的融资开创便利。但现在市场
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
【六】阿伟开始搭建Kafka学习环境能源恒观中间件学习 kafka spring
阿伟开始搭建Kafka学习环境概述上一篇文章阿伟学习了Kafka的核心概念，并且把市面上流行的消息中间件特性进行了梳理和对比，方便大家在学习过程中进行对比学习，最后梳理了一些Kafka使用中经常遇到的Kafka难题以及解决思路，经过上一篇的学习我相信大家对Kafka有了初步的认识，本篇将继续学习Kafka。一、安装和配置学习一项技术首先要搭建一套服务，而Kafka的运行主要需要部署jdk、zook
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
戴先华2021.4.18《我的第129篇幸运作业》 39f4298779c4
2021.4.18今天小宝和大表姐出去玩，我和婆婆在烧饭，突然小宝冲了进来，告诉奶奶说：“奶奶，奶奶姐姐在亭子里倒了”我一下子看出小宝的紧张，马上跑了出去，发现大外甥女又患了病，看起来心疼极了，整个人面朝地下的倒下了，在地上不停的抽搐，额头摔了一个大泡，整张脸都是紫色的，眼睛边上都出血了，真的是非常紧张，这么多年姐姐两夫妻就这样看着自己的孩子一次次晕倒，姐夫这么多年，年年都拿不出钱回家，使得家一次
我与《红楼梦》‖纪念曹雪芹出生307周年！归海逸舟是周成功子阳佳乐归海逸舟是周成功子阳佳乐
【今日作家推荐】中国古典小说之首《红楼梦》，其作者曹雪芹是文坛泰斗。约1715年5月28日，曹雪芹出生。所以，今天推荐的是中国人众所周知的作家——曹雪芹。曹雪芹在世界读者心目中也影响广大，可以与西方世界引以为豪的莎士比亚、歌德等媲美。1、我与《红楼梦》我一直想写一篇和《红楼梦》相关的文章，现在机会终于来了！《红楼梦》作为我国家喻户晓的文学名著，其影响是空前的。还在我很小的时候，姥姥经常讲《红楼梦》
白骑士的Java教学基础篇 2.5 控制流语句白骑士所长 Java 教学 java 开发语言
欢迎继续学习Java编程的基础篇！在前面的章节中，我们了解了Java的变量、数据类型和运算符。接下来，我们将探讨Java中的控制流语句。控制流语句用于控制程序的执行顺序，使我们能够根据特定条件执行不同的代码块，或重复执行某段代码。这是编写复杂程序的基础。通过学习这一节内容，你将掌握如何使用条件语句和循环语句来编写更加灵活和高效的代码。条件语句条件语句用于根据条件的真假来执行不同的代码块。if语句‘
系统架构设计师需求分析篇二 AmHardy 软件架构设计师系统架构需求分析面向对象分析分析模型 UML和SysML
面向对象分析方法1.用例模型构建用例模型一般需要经历4个阶段：识别参与者：识别与系统交互的所有事物。合并需求获得用例：将需求分配给予其相关的参与者。细化用例描述：详细描述每个用例的功能。调整用例模型：优化用例之间的关系和结构，前三个阶段是必需的。2.用例图的三元素参与者：使用系统的用户或其他外部系统和设备。用例：系统所提供的服务。通信关联：参与者和用例之间的关系，或用例与用例之间的关系。3.识别参
手机上有什么兼职可以做？网上兼职一单一结手机就可以做？优惠券高省
建议上班族和全职宝妈把空闲时间拿出来一点做做副业，什么也不耽搁还能多一笔收入！推荐大家一定要试一试！！！只要有手机就可以做，下面小编就为大家推荐用手机就可以做的三类网上兼职工作。一，高省APP高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。万方导师高省邀请码005500，注册送双皇冠会员，送万元推广大礼包，教你如
2023-06-19【感恩日记】第246篇 o泡沫o
思想日记：坚持下去，相信自己一定可以的【感恩日记】第246篇1.我真是太幸福啦！感恩孩子早起阅读，放学到学生之家完成作业，平安度过美好的一天。感恩！感恩！感恩！❤️2.我真是太幸福啦！感恩自己早起给孩子煮早餐，完成计划的工作，晚上学习。感恩！感恩！感恩！❤️3.我真是太幸福啦！感恩为我设计效果图的老师。感恩！感恩！感恩！❤️4.我真是太幸福啦！感恩父母养育了我，有妈的孩子真幸福。感恩！感恩！感恩！
摄影小白，怎么才能拍出高大上产品图片？是波妞唉
很多人以为文案只要会码字，会排版就OK了！说实话，没接触到这一行的时候，我的想法更简单，以为只要会写字就行！可是真做了文案才发现，码字只是入门级的基本功。一篇文章离不开排版、配图，说起来很简单！从头做到尾你就会发现，写文章用两个小时，找合适的配图居然要花掉半天的时间，甚至更久！图片能找到合适的就不怕，还有找不到的，比如产品图，只能亲自拍。拿着摆弄了半天，就是拍不出想要的效果，光线不好、搭出来丑破天
【创客文案社】第三期写手招募筱瑶123
创客文案社第三期写手招募开始了。要求：1：注册一个月以上2：本身热爱写作3：有时间参与接单投稿参与方式：可以关注公众号：写作灵感；也可以通过其他转发文章的文友帮忙拉入群；也可以简信我。参与之后的文友，会先进入新人班，进行基本的试稿与培训，先接一些比较简单的单子；在这里可以一边赚钱，一边学习。不知不觉，来三四个月了，也发现了很多很有意思的现象。1：在上写一篇文章，基本都是几毛钱，多的也不过几块钱的收
[故旧之事]外婆记事(28) 石里夜人
二十七．破四旧本来是庆祝儿童节的日子，因为报纸的一篇文章，让很多家庭陷入了惶恐之中。为了响应这项旨在“破除旧思想、旧文化、旧风俗、旧习惯”的群众运动，街道里的干部给大家开了会，做了总动员，要求大家首先自省，从身边的人开始，自纠自查。院里的街坊们回到家，转悠了一圈，发现并没有什么可做的。这几条街家家都很穷。有的人翻了家里的书，除了把孩子的课本留着，找到仅有的几本旧书，一把火塞进了炉膛里。有的人检查了
ESP32-C3入门教程网络篇⑩——基于esp_https_ota和MQTT实现开机主动升级和被动触发升级的OTA功能小康师兄 ESP32-C3入门教程 https 服务器 esp32 OTA MQTT
文章目录一、前言二、软件流程三、部分源码四、运行演示一、前言本文基于VSCodeIDE进行编程、编译、下载、运行等操作基础入门章节请查阅：ESP32-C3入门教程基础篇①——基于VSCode构建HelloWorld教程目录大纲请查阅：ESP32-C3入门教程——导读ESP32-C3入门教程网络篇⑨——基于esp_https_ota实现史上最简单的ESP32OTA远程固件升级功能二、软件流程
阅读笔记：阅读方法中的逻辑和转念施吉涛
聊聊一些阅读的方法论吧，别人家的读书方法刚开始想写，然后就不知道写什么了，因为作者写的非常的“精致”我有一种乡巴佬进城的感觉，看到精美的摆盘，精致的食材不知道该如何下口也就是《阅读的方法》，我们姑且来试一下强劲的大脑篇，第一节：逻辑通俗的来讲，也就是表达的排列和顺序，再进一步就是因果关系和关联实际上书已经看了大概一遍，但直到打算写一下笔记的时候，才发现作者讲的推理更多的是阅读的对象中呈现出的逻辑也
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
每天赚50零花钱的方法，日赚50元左右的5个正规渠道一起高省
每个人都希望拥有一笔自己的零花钱，但是很多人可能没有太多的时间去赚钱，或者没有太多的机会去赚取收入。但是，你可以通过一些简单的方法来赚取每天50元的零花钱。下面分享一些能每天赚50元的方法门路，总有一个适合你！①电商——高省高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。拂晓导师高省邀请码989898，注册送双皇
阿里云服务器4核8G配置购买及价格类文章汇总（10篇）阿里云最新优惠和活动汇总
阿里云服务器4核8G配置如何购买？价格是多少？4核8G配置的阿里云服务器可以通过云服务器产品页购买也可以通过阿里云活动去下单购买，一般通过活动购买的用户比较多，但是不同实例规格的阿里云服务器价格不一样，带宽不同价格也不一样，本文为大家汇总了10篇关于阿里云服务器4核8G配置购买教程文章和价格类文章，分为购买类文章和价格类文章，以供大家参考如何购买阿里云服务器4核8G配置和最新优惠价格是多少。阿里云
拼多多返现要输入身份证号码安全吗?拼单返现是什么? 优惠券高省
当我们谈到拼多多返现金活动时，很多朋友会担心提供身份证信息的安全性以及返现金额的真实性。今天，我就来为大家揭开这些疑虑的面纱，为大家提供一个清晰的答案。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。高省是公认的返利最高的软件。古楼导师
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
自动写论文的网站推荐这5款实用类工具小猪包333 写论文人工智能深度学习计算机视觉 AI写作
在当今学术研究和写作领域，AI论文写作工具的出现极大地提高了写作效率和质量。这些工具不仅能够帮助研究人员快速生成论文草稿，还能进行内容优化、查重和排版等操作。以下是五款实用类工具推荐，特别是千笔-AIPassPaper。1.千笔-AIPassPaper千笔-AIPassPaper是一款功能强大且全面的AI论文写作助手，用户只需输入基本的研究需求和关键词，便能迅速生成一篇完整的论文。该工具利用先进的
酒店床装车出货臧冰
一百多套的酒店床、圆床，床垫终于出货了，可惜还没装完，明天将继续出货，辛苦了各位小伙伴们！图片发自App图片发自App图片发自App图片发自App图片发自App图片发自App图片发自App图片发自App我是两个孩子的宝妈，经营着一间软体家具厂，“伊力威斯”是我们的品牌。这是我的第178篇原创日记。栽一棵树最好的时间是十年前跟今天，写日记亦是如此，抓住今天，我们将收获更精彩的人生！
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f

大数据篇：MapReduce

MapReduce

1 MapReduce编程模型

1.1 WordCount案例

1.1.1 WordCount流程图

1.1.2 WordCount代码及本地运行

2 Hadoop序列化

2.1 手机流量统计(序列化案例)

3 MapReduce原理

3.1MapReduce的集群管理架构

3.2 MapReduce的数据流

3.3 MapTask

3.3.1 并行度决定机制

3.3.2 InputFormat

TextInputFormat:

KeyValueInputFormat:

NlineInputFormat:

CombineTextInputFormat:

SequenceFileInputFormat:

3.4 Shuffle

Partitioner分区

3.5 Combiner合并

你可能感兴趣的:(大数据篇：MapReduce)