梦回pq

hadoop之MapReduce简介

一、MapReduce概述
- 1、MapReduce定义
- 2、MapReduce的优缺点
- 3、MapReduce的进程
- 4、MapReduce的编程规范
- 5、hadoop的数据类型
- 6、wordCount的案例演示
- - 程序思路分析：
  - 程序实现：
二、hadoop序列化
- 1、序列化的定义
- 2、java和hadoop的序列化对比
- 3、序列化的操作步骤
三、MapReduce框架原理
- 1、框架原理
- 2、inputFormat
- - 数据读取
  - 数据的切片
- 3、mapper
- 4、shuffle
- - 分区 partitioner
  - 排序
  - combiner（可选）
- 5、reducer
- 6、outputFormat
- 7、ReduceTask并行度
四、hadoop数据压缩
- 1、数据压缩概述
- - 压缩的好处和坏处
  - 压缩原则
- 2、MR支持的压缩编码
- - 压缩算法介绍
  - 压缩性能的比较
- 3、数据压缩的使用场景
- 4、数据压缩的代码配置

一、MapReduce概述

1、MapReduce定义

MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。
简单说MapReduce是一个框架，一个分布式计算框架，只需用户将业务逻辑放到框架中，就会和框架组成一个分布式运算程序，在Hadoop集群上实行分布式计算。
MapReduce的核心思想就是将大数据的任务，分解成多个小数据的任务，交由Map分布式处理，最后再由Reduce合并结果。

2、MapReduce的优缺点

优点：
（1）MapReduce易于编程，简单的实现一些接口，即可完成一个分布式程序
（2）良好的扩展性，当计算资源不足时，可以通过简单的增加廉价的机器来扩展计算能力
（3）高容错性，当一个任务计算失败时，可以将失败的计算任务转移到另外一个节点运行
（4）适合TB，PB以上海量数据的离线处理
缺点：
（1）不擅长实时计算，现在的实时计算框架，由Flink完成
（2）不擅长流式计算，流式计算的输入数据是动态的，而MapReduce的输入数据集是静态的，目前流式计算由Flink或者spark完成
（3）不擅长DAG（有向无环图）计算，即一个计算的结果，作为下一个计算的输入，现在的流式计算框架由Spark完成，因为Spark的计算结果存储在内存，而MapReduce的计算结果存在磁盘中，每次输出的结果都存在磁盘，会导致频繁的IO，使MapReduce的性能比较低。
Spark 和 Flink 都是分布式计算框架，但他们都是基于内存的，所以计算的速度要优于MapReduce。

3、MapReduce的进程

MapReduce的实例进程一般为三部分：
（1）MRAppMaster：负责整个MR程序的过程调度以及和 ResourceManager 的交互，一个MapReduce只开启1个。
（2）MapTask：负责Map阶段的过程调度以及具体实施，一般为1个到多个，根据切片数量来决定开启数量。
（3）ReduceTask：负责Reduce阶段的数据合并处理，一般为0个到多个，当数据在Map阶段就能合并时，Reduce可以不用开启。
其中 ResourceManager 就是Yarn的管理者，就是资源管理器的管理者，简称为RM。

MapReduce的代码处理过程分为三个阶段：
（1）Mapper 阶段
Map阶段将大的处理任务分为小任务，然后交由各个节点独立运行，互不干扰。
（2）Reduce 阶段
Reduce阶段将Map阶段的运行结果做汇总。
（3）Driver 阶段
Driver相当于Yarn集群的客户端，用于提交整个MapReduce程序到Yarn集群运行，提交的是封装了MapReduce程序相关运行参数的Job对象。因为所有的MapReduce最终都是交由节点来运行的，而具体分配到哪个节点，就由Yarn来做资源分配。

4、MapReduce的编程规范

Map阶段：
（1）用户自定义的Mapper需要继承Mapper的父类，extends Mapper
（2）Mapper的输入数据是Key-Value对（健值对）的形式（KV的泛型类型需要根据业务逻辑来确定）
（3）Mapper中的业务逻辑是写在map()方法中的，重写父类的map方法来实现
（4）Mapper的输出数据也是Key-Value对（键值对）的形式（KV的泛型类型需要根据业务逻辑来确定）
（5）输出的健值对，通过context.write写入到上下文中
（6）针对每一对都会调用一次map()方法（MapTask进程）
Reduce阶段：
（1）用户自定义的Reduce需要继承Reduce的父类
（2）Reduce的输入数据是KV对的形式，同时也是mapper阶段的输出数据，这里的健值对必须跟Map阶段的键值对类型一致，Mapper的输出，就是这里的输入。
（3）Reduce中的业务逻辑是写在reduce()方法中的，重写父类的reduce方法来实现
（4）输出的健值对，通过context.write写入到上下文中
（5）ReduceTask进程对每一组相同的key调用一次reduce()方法
Driver阶段：
（1）获取配置信息，获取Job对象实例
（2）关联本Driver的jar包
（3）关联mapper和reducer的jar包
（4）设置mapper的输出健值参数
（5）输出最终输出的健值参数，不一定是Reduce的，有些没有Reduce或其他
（6）设置输入和输出路径
（7）提交job到yarn运行
（8）根据其他需要设置，比如设置分区等

5、hadoop的数据类型

Java类型	Hadoop Writable类型
Boolean	BooleanWritable
Byte	ByteWritable
Int	IntWritable
Float	FloatWritable
Long	LongWritable
Double	DoubleWritable
String	Text
Map	MapWritable
Array	ArrayWritable
Null	NullWritable

其中只有java中的String类型，对应hadoop的类型写法不同，其他的都是原类型+Writable的写法，同时也要注意两种类型的切换。

6、wordCount的案例演示

wordCount就是计算每个单词出现的次数，假设有文件 words.txt 内容如下：

hello hadoop
hello map
hello reduce
hello map reduce
hadoop hadoop

程序思路分析：

mapper阶段：
（1）每次读取1行，hadoop中读取的文本为text，将类型转为string
（2）将每一行String根据空格进行拆分，将每个单词存到String类型的数组中
（3）取出每个单词，合并成<单词，1>的键值对，1代表该单词出现的次数
因为这里的输入是每一行，所以当数据量很大时，可以按行将任务划分为小任务，符合分布式思想，且怎么划分都不会影响后续的计算结果。
reducer阶段：
（1）读取所有<单词，1>的键值对的值
（2）根据<单词，1>的键值对，对每个相同的单词，对后面的数字1进行累加即可计算该单词的次数
driver阶段：
（1）获取配置信息，获取JOB对象
（2）关联本Driver的jar包
（3）关联mapper和reducer的jar包
（4）指定mapper输出类型的kv类型
（5）指定最终输出的数据的kv类型
（6）指定JOB输入和输出文件的路径
（7）提交作业

程序实现：

（1）创建maven工程，MapReduceDemo
（2）在pom.xml文件中添加如下依赖

<dependencies>
    <dependency>
        <groupId>org.apache.hadoopgroupId>
        <artifactId>hadoop-clientartifactId>
        <version>3.1.3version>
    dependency>
    <dependency>
        <groupId>junitgroupId>
        <artifactId>junitartifactId>
        <version>4.12version>
    dependency>
    <dependency>
        <groupId>org.slf4jgroupId>
        <artifactId>slf4j-log4j12artifactId>
        <version>1.7.30version>
    dependency>
dependencies>

（3）在项目的src/main/resources目录下，新建一个文件，命名为“log4j.properties”，在文件中填入。

log4j.rootLogger=INFO, stdout  
log4j.appender.stdout=org.apache.log4j.ConsoleAppender  
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout  
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n  
log4j.appender.logfile=org.apache.log4j.FileAppender  
log4j.appender.logfile.File=target/spring.log  
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout  
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

（4）创建包名：com.mapreduce.wordcount
（5）编写程序
编写Mapper类

package com.mapreduce.wordcount;
import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{
	Text k = new Text();
	IntWritable v = new IntWritable(1);
	@Override
	protected void map(LongWritable key, Text value, Context context)	throws IOException, InterruptedException {
		// 1 获取一行并将其转成String类型来处理
		String line = value.toString();
		// 2 将String类型按照空格切割后存进String数组
		String[] words = line.split(" ");
		// 3 依次取出单词，将每个单词和次数包装成键值对，写入context上下文中供后续调用
		for (String word : words) {
			// 先将String类型，转为text，再包装成健值对
			k.set(word);
			context.write(k, v);
		}
	}
}

Mapper继承Mapper父类的时候，需要加上泛型，这里有两对键值对和第一个键值对表示输入的数据，LongWritable表示输入数据的索引，就是类似于第几行数据，Text表示读入的内容，就是当读取文件时，系统会将文件的索引和该行的值赋给这两个泛型。第二个键值对表示输出的数据，Text表示输入的单词，IntWritable表示该单词的次数，一般第一个健值对可以按照系统默认，第二个键值对需要根据业务逻辑来确定。

编写Reducer类

package com.mapreduce.wordcount;
import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable>{
	int sum;
	IntWritable v = new IntWritable();
	@Override
	protected void reduce(Text key, Iterable<IntWritable> values,Context context) throws IOException, InterruptedException {
		// 1 累加求和
		sum = 0;
		for (IntWritable count : values) {
			sum += count.get();
		}
		// 2 输出
         v.set(sum);
		context.write(key,v);
	}
}

Reducer继承父类的时候，这里的泛型，其中第一对泛型就是Mapper阶段的输出泛型，表示每个单词和出现的次数，第二个泛型就是需要输出的结果数据，这里需要输出每个单词的出现次数，就是将次数叠加之后，还是int类型，所以还是类型。
上面有说到，Reduce是每组会执行一次，就是相同的key是会分到同一组的，所以此处只需计算每个key的count叠加即可。

编写Driver驱动类

package com.mapreduce.wordcount;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCountDriver {
	public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
		// 1 获取配置信息以及获取job对象
		Configuration conf = new Configuration();
		Job job = Job.getInstance(conf);
		// 2 关联本Driver程序的jar
		job.setJarByClass(WordCountDriver.class);
		// 3 关联Mapper和Reducer的jar
		job.setMapperClass(WordCountMapper.class);
		job.setReducerClass(WordCountReducer.class);
		// 4 设置Mapper输出的kv类型
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(IntWritable.class);
		// 5 设置最终输出kv类型，此处是reduce的kv对类型输出
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);
		// 6 设置输入和输出路径
		FileInputFormat.setInputPaths(job, new Path(args[0]));
		FileOutputFormat.setOutputPath(job, new Path(args[1]));
		// 7 提交job到yarn运行
		boolean result = job.waitForCompletion(true);
		System.exit(result ? 0 : 1);
	}
}

二、hadoop序列化

1、序列化的定义

序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储到磁盘（持久化）和网络传输。
反序列化就是将收到字节序列（或其他数据传输协议）或者是磁盘的持久化数据，转换成内存中的对象。
上面在介绍MapReduce的优点时，说的是MapReduce可以在任务处理失败的时候，会将失败的任务转给其他节点执行。每个节点就是每个服务器，在A服务器执行失败的任务，我们需要将任务交给B服务器来执行。这里面有个问题就是，我们在A服务器中创建的对象是在A服务器的内存中的，那内存中的对象要怎么传递到B服务器中呢。如果这个对象的类型就是我们上面说的基本类型，IntWritable等，hadoop已经做好序列化了。但如果对象是自定义的，这时就需要序列化了，将自定义的对象类型按照定义序列化后转成字节序列，到了B服务器再将其反序列化，转成对象，这样就能实现在不同节点直接传递任务，就能做到高容错性了。

2、java和hadoop的序列化对比

Java的序列化是一个重量级序列化框架，一个对象被序列化后，会附带很多额外的信息（各种校验信息，Header，继承体系等），不便于在网络中高效传输。所以，Hadoop自己开发了一套序列化机制（Writable），以便更方便快捷的实现序列和反序列化。
hadoop自己的序列化相对java的序列化拥有以下优点：
（1）紧凑：高效使用存储空间。
（2）快速：读写数据的额外开销小。
（3）互操作：支持多语言的交互。

3、序列化的操作步骤

序列化的步骤：
（1）序列化对象必须实现Writable接口，implements Writable
（2）反序列化时，需要调用空参构造函数，所以序列化对象必须要有空参构造方法
（3）重写序列化方法write()
（4）重写反序列化方法readFields()
（5）注意反序列化的顺序和序列化的顺序必须完全一致
（6）要想把结果显示在文件中，需要重写toString()，可用"\t"分开，方便后续用。
（7）如果需要将自定义的序列化对象放在key中传输，则还需要实现Comparable接口，因为MapReduce框架中的Shuffle过程要求对key必须能排序

序列化简单示例：
（1）编写序列化对象

package com.mapreduce.writable;
import org.apache.hadoop.io.Writable;
import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

//1 继承Writable接口
public class FlowBean implements Writable {
    private long upFlow; //上行流量
    private long downFlow; //下行流量
    private long sumFlow; //总流量
    //2 提供无参构造
    public FlowBean() {
    }
    //3 提供三个参数的getter和setter方法
    public long getUpFlow() {
        return upFlow;
    }
    public void setUpFlow(long upFlow) {
        this.upFlow = upFlow;
    }
    public long getDownFlow() {
        return downFlow;
    }
    public void setDownFlow(long downFlow) {
        this.downFlow = downFlow;
    }
    public long getSumFlow() {
        return sumFlow;
    }
    public void setSumFlow(long sumFlow) {
        this.sumFlow = sumFlow;
    }
    public void setSumFlow() {
        this.sumFlow = this.upFlow + this.downFlow;
    }
    //4 实现序列化和反序列化方法,注意顺序一定要保持一致
    @Override
    public void write(DataOutput dataOutput) throws IOException {
        dataOutput.writeLong(upFlow);
        dataOutput.writeLong(downFlow);
        dataOutput.writeLong(sumFlow);
    }
    @Override
    public void readFields(DataInput dataInput) throws IOException {
        this.upFlow = dataInput.readLong();
        this.downFlow = dataInput.readLong();
        this.sumFlow = dataInput.readLong();
    }
    //5 重写ToString
    @Override
    public String toString() {
        return upFlow + "\t" + downFlow + "\t" + sumFlow;
    }
    // 6 如果作为Key传输，则还需要实现compareTo方法
    //@Override
	//public int compareTo(FlowBean o) {
		// 倒序排列，从大到小
		//return this.sumFlow > o.getSumFlow() ? -1 : 1;
	//}
}

（2）编写Mapper类

package com.mapreduce.writable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.IOException;

public class FlowMapper extends Mapper<LongWritable, Text, Text, FlowBean> {
    private Text outK = new Text();
    private FlowBean outV = new FlowBean();
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        //1 获取一行数据,转成字符串
        String line = value.toString();
        //2 切割数据
        String[] split = line.split("\t");
        //3 抓取我们需要的数据:手机号,上行流量,下行流量
        String phone = split[1];
        String up = split[split.length - 3];
        String down = split[split.length - 2];
        //4 封装outK outV
        outK.set(phone);
        outV.setUpFlow(Long.parseLong(up));
        outV.setDownFlow(Long.parseLong(down));
        outV.setSumFlow();
        //5 写出outK outV
        context.write(outK, outV);
    }
}

（3）编写Reducer类

package com.mapreduce.writable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;

public class FlowReducer extends Reducer<Text, FlowBean, Text, FlowBean> {
    private FlowBean outV = new FlowBean();
    @Override
    protected void reduce(Text key, Iterable<FlowBean> values, Context context) throws IOException, InterruptedException {
        long totalUp = 0;
        long totalDown = 0;
        //1 遍历values,将其中的上行流量,下行流量分别累加
        for (FlowBean flowBean : values) {
            totalUp += flowBean.getUpFlow();
            totalDown += flowBean.getDownFlow();
        }
        //2 封装outKV
        outV.setUpFlow(totalUp);
        outV.setDownFlow(totalDown);
        outV.setSumFlow();
        //3 写出outK outV
        context.write(key,outV);
    }
}

（4）编写Driver驱动类

package com.mapreduce.writable;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;

public class FlowDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        //1 获取job对象
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);
        //2 关联本Driver类
        job.setJarByClass(FlowDriver.class);
        //3 关联Mapper和Reducer
        job.setMapperClass(FlowMapper.class);
        job.setReducerClass(FlowReducer.class);
		//4 设置Map端输出KV类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(FlowBean.class);
		//5 设置程序最终输出的KV类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(FlowBean.class);
		//6 设置程序的输入输出路径
        FileInputFormat.setInputPaths(job, new Path("D:\\inputflow"));
        FileOutputFormat.setOutputPath(job, new Path("D:\\flowoutput"));
		//7 提交Job
        boolean b = job.waitForCompletion(true);
        System.exit(b ? 0 : 1);
    }
}

三、MapReduce框架原理

1、框架原理

上面说MapReduce可以分为三个阶段，那是代码的编写和处理划分，其实MapReduce的框架可以划分为五大部分，分别是inputFormat，mapper，shuffle，reducer和outputFormat。
其中inputFormat负责文件的读取方式和切块的方式；mapper就是将大任务分成小任务让节点执行；shuffle就是对mapper之后reduce之前的数据进行分区和排序，key在MapReduce框架中必须排序；reduce就是将mapper阶段的数据进行合并；outputFormat就是控制输出文件的格式，是以压缩的方式存储还是以特定的方式输出来作为下一个mapper的输入等。这就是MapReduce的整个处理的流程。

2、inputFormat

就是数据输入的格式，主要涉及两种，1是数据的读取方式，2是数据的切片方式；

数据读取

数据读取的方式主要针对不同的文件格式（如日志文件，二进制文件，数据库表等）和不同的读取方式（如单行读取，多行读取，还是多个文件合并读取等），这里只介绍部分常见的接口，FileInputFormat常见的接口包括TextInputFormat（文本输入）、KeyValueTextInputFormat（健值输入）、NLineInputFormat（多行输入）、CombineTextInputFormat（合并输入）和自定义InputFormat（自定义输入）等。
（1）TextInputFormat 是默认的FileInputFormat实现类，也是hadoop默认的数据读取方式，按行读取，一般效率较低。健值对中的Key是存储该行在整个文件中的偏移量，为LongWritable类型，值Value是这行的内容，为Text类型
（2）NLineInputFormat 多行读取文件，效率比textInputFormat高，一次读取多行数据
（3）CombineTextInputFormat 多文件合并读取，这个需要设置最大切片数值，默认是4M，由CombineTextInputFormat.setMaxInputSplitSize(job, 4194304) 来设置大小。
例如有文件：

A.txt 3M	B.txt 6M	C.txt 7M	D.txt 1M

规则如下：
1.按照4M比较，大于4M，则对半切分，切分后为

A.txt 3M	B1.txt 3M	B2.txt 3M	C1.txt 3.5M	C2.txt 3.5M	D.txt 1M

2.按照顺序合并，A跟B1合在一起，B2跟C1合在一起，C2跟D合在一起，最后就是3个文件切片。

AB1.txt	B2C1.txt	C2D.txt

当然4M（4x1024x1024）这个值可以调整，当调整成20M时，4个文件就会合成1个文件处理，切片数就是1个，可以提高资源的利用，因为容器资源的申请是1G，只需开辟一个容器即可，不用按照4个文件开启4个容器。（容器的概念是在yarn中的资源调配时会介绍）

数据的切片

数据块与数据切片：
数据块：Block是HDFS物理上把数据分成一块一块来存储，数据块是HDFS存储数据的单位。
数据切片：数据切片只是在逻辑上对输入进行分片，并不会在磁盘上将其切分成片进行存储。数据切片是MapReduce程序计算输入数据的单位，一个切片会对应启动一个MapTask。
切片规则：
系统默认切片时不考虑数据集整体，而是针对每一个文件单独切片，如果文件较小，则文件单独为1片；如果文件较大，则按块大小来切分；这样当小文件很多时，系统默认多少个小文件就切多少切片，这样就会起多少个MapTask，当我们资源不足时，其实这种效率是很低下的。因为当我们8个2K的小文件时，系统需要起8个MapTask，每个的内存默认是1G，就会占用8G的内存，其实只需起1个MapTask就能处理8*2K的文件内容了。
（1）一个Job的Map阶段并行度由客户端在提交Job时的切片数决定
（2）每一个切片分配一个MapTask并行实例处理
（3）默认情况下，切片大小=BlockSize大小，HDFS默认是128M或256M，本地模式默认是32M，因为一个块是存储在一个节点上面，所以当本地节点处理本地数据的时候效率最高，如果同时还要处理其他节点过来的数据，就会效率变低，所以一般按块大小处理
（4）切片时不考虑数据集整体大小，而是逐个针对每一个文件单独切片，即文件能切就切，不能切就按照一个切片处理
（5）切片时考虑切完后大小是否是小于切片后的1.1倍，如果小于，就不切片，按照一个处理。如文件大小33M，块大小32M，33小于32的1.1倍，此时不会切成2片，而是按照1片处理。
（6）切完后的切片信息保留在客户端（此外还有xml配置文件和jar包），在申请执行mapper时，会上传给MRAppMater
（7）调整切片大小，需调小，可以设置Maxsize值，需调大，可以设置MinSize值
（8）代码中整个切片核心过程都在getSplit()里面完成

3、mapper

map阶段就是将大数据任务分成小数据任务，并行分布式处理。

4、shuffle

shuffle其实就是在mapper之后，reduce之前对数据在内存中的一些处理操作，一般分为分区和排序。
大概的流程如下：
（1）MapTask收集mapper输出的KV对，放到内存缓冲区
（2）如果内存缓冲区不断溢出数据，就会将溢出数据调用partitioner进行分区和对key排序，如果内存不溢出，则map结束时一次性将所有数据调用partitioner进行分区和对key排序
（3）如果数据很大，不断溢出时，会将多个溢出文件合并成大文件
（4）ReduceTask根据自己的分区号，主动去MapTask机器上面取得相应的结果分区数据
（5）ReduceTask会抓取同一个分区的来自不同MapTask的结果文件，并将这些文件再次进行合并和排序
（6）合并成大文件，或者一次性将所有数据都调出分区和排序后，shuffle过程也即结束
Shuffle的缓冲区大小会影响MapReduce程序的执行效率，原则上缓冲区越大，减少了IO次数，效率越高。但对内存的占用也越大，当数据量较大时，可以作为其中一个调优的策略。
参数调整为：mapreduce.task.io.sort.mb 默认是100M的大小

分区 partitioner

分区就是按照不同的条件将数据输出到不同的分区中，是为了将同种类型的数据按照统一的规格分配到对应的reducer中进行处理。
分区的数量由numReduceTasks决定，代码中的表现如下：

return key.hashCode() % numReduceTasks;

所以控制numReduceTasks的值就能控制分区的数量，并且分区是从0开始的，只能顺序递增，因为上面的代码是取模。当不主动设置分区时，系统默认都是1个分区，并且分区里面也是会排序。

自定义设置分区的步骤如下：
（1）自定义类如abc.class继承Partitioner类，重写getPartition()方法

public class abc extends Partitioner<Text, FlowBean> {
	@override
	public int getPartition(Text key, FlowBean value, int numPartitions) {
		// 控制分区代码逻辑
		...
		return partition;
	}
}

（2）在job驱动中设置自定义的Partitioner

job.setPartitonerClass(abc.class);

（3）自定义partitioner后，要根据自定义的Partitioner的逻辑设置相应的reduceTask数量

job.setNumReduceTasks(5);

注意：但设置的ReduceTasks数量跟getPartition数量不一致时，就是相当于设置的分区数量跟开启的reduce数量不一致时：
（1）如果setNumReduceTasks(5) > getPartition分区的数量，则会多出几个空的输出文件part-r-000xx
（2）如果setNumReduceTasks(5) < getPartition分区的数量，则会有多出的文件无处安放，系统会抛异常信息
（3）如果setNumReduceTasks(1)数量为1，则不管getPartition分区的数量设置为多少个，最终文件都只会产生一个结果文件，part-r-0000
（4）分区号必须从0开始，并逐一累加，因为上面分区号的取值由return key.hashCode() % numReduceTasks的取模得出，是按照0开始顺序取出的，不按照从0开始，分区号对不上，势必会报错。

排序

MapTask和ReduceTask均会对数据按照Key进行排序，该操作属于Hadoop的默认行为，任何应用程序中的数据均会被排序，而不管逻辑上是否需要，排序也是MapReduce框架中重要的操作之一。
对于shuffle，也就是map之后的数据，会先将结果暂时存放在环形缓冲区，达到一定阈值或者Map结束之后，会对缓冲区中的数据按照字典顺序按照快速排序的方式进行排序。排完序后直接写到磁盘上，如果是达到阈值后溢写的数据，则当整个Map结束后，会对缓冲区和磁盘上的数据再进行一次归并排序，以达到整体数据有序的状态。
（1）mapper处理之后的数据，分区内进行排序，分区合并的时候也会进行排序，排序按照字典顺序，用的算法是快速排序算法。
（2）快速排序是按照key的索引来排序的，而不是key的内容
（3）环形缓冲区默认是100M，分两边存储，一遍存储索引，一边存储数据，阈值默认是80%
（4）排序的规则是按照字典的规则来排序的
（5）如果不超出缓冲区的80%，直接在内存快速排序，排完后直接写出到磁盘
（6）如果超出缓冲区的80%，则将内存的数据快速排序后，写出到磁盘形成文件，每次超过阈值都会在磁盘写出文件，等磁盘达到一定阈值时，会对磁盘的文件做归并排序形成更大的文件。或者MapTask结束时，会将缓冲区的数据和磁盘的文件一起做归并排序，形成更大的文件。

排序分类：
（1）部分排序(分区排序)
MapReduce根据输入的记录的健对数据集排序，保证每个输出的文件内部有序；
（2）全排序
输出文件只有1个，且文件内部有序，实现方式是只实现一个reduceTask，实际使用该方式效率极低，一般不采用；
（3）辅助排序GroupingComparator
在Reduce端对数据进行分组；
（4）二次排序
在上面排序的里面对另外一个字段再次排序。

combiner（可选）

可选组建combine是将一些可以合并的操作在传输给reducer之前已经合并好，这样可以减少map之后传递给reducer的数据量，可以提升效率。比如健值对出现1万次，可以合并成，但combine只局限于一些可以合并的情况，一些求平均数之类的就不能合并策略。
（1）Combiner是MR程序中Mapper和Reducer之外的一种组件。
（2）Combiner组件的父类就是Reducer
（3）Combiner跟Reducer的区别在于运行的位置，Combiner是在每一个MapTask所在的节点运行，Reducer是接收全局所有MapTask的输出结果进行合并
（4）Combiner的意义就是对每一个MapTask的输出进行局部汇总，以减少网络传输流量
（5）Combiner能够应用的前提是不能影响最终的业务逻辑，而且Combiner输出的键值对跟Reducer输入的键值对必须一致

5、reducer

reducer细分可以分为三个阶段：
（1）copy阶段（数据复制）
ReduceTask从各个MapTask上远程拷贝一片数据，并针对某一片数据，如果其大小超过一定阈值，则写到磁盘上，否则直接放到内存中。
（2）sort阶段（排序阶段）
在远程拷贝数据的同时，ReduceTask启动了两个后台线程对内存和磁盘上的文件进行合并，以防止内存使用过多或磁盘上文件过多。按照MapReduce语义，用户编写reduce()函数输入数据是按key进行聚集的一组数据。为了将key相同的数据聚在一起，Hadoop采用了基于排序的策略。由于各个MapTask已经实现对自己的处理结果进行了局部排序，因此，ReduceTask只需对所有数据进行一次归并排序即可。
（3）reduce阶段（处理阶段）
数据的处理和输出，reduce处理完数据后将计算结果写到HDFS上。

6、outputFormat

输出格式有MapFileOutputFormat，SequenceFileOutputFormat、TextOutputFormat等，系统默认的输出格式是TextOutputFormat，这里先不做过大介绍。

7、ReduceTask并行度

上面说的MapTask的并行度是由切片的数量来决定的，最好的情况当然是切片大小等于块大小，刚好这整个的数据都是MapTask运行的节点上。但ReduceTask的数量是可以手动设置的，虽然还要配合分区的设置。ReduceTask的设置也不是越多越好，当然数据量大时只有1个显然也发挥不了分布式的优点，所以其实ReduceTask存在一个最优或者接近最优的数量，这个无法给出准确的判断，因为这个是根据实际的业务数据量和实际的节点配置来决定的。

// 默认值是1，手动设置为4
job.setNumReduceTasks(4);

四、hadoop数据压缩

1、数据压缩概述

压缩的好处和坏处

压缩的优点：以减少磁盘IO、减少磁盘存储空间、减少网络传输流量。
压缩的缺点：增加CPU开销。

压缩原则

（1）运算密集型的Job，少用压缩
（2）IO密集型的Job，多用压缩
（3）压缩方式选择，重点考虑：压缩/解压缩速度、压缩率（压缩后存储大小）、压缩后是否可以支持切片等。

2、MR支持的压缩编码

压缩算法介绍

压缩格式	Hadoop自带	算法	文件扩展名	是否可切片	换成压缩格式后，原来的程序是否需要修改
DEFLATE	是，直接使用	DEFLATE	.deflate	否	和文本处理一样，不需要修改
Gzip	是，直接使用	DEFLATE	.gz	否	和文本处理一样，不需要修改
bzip2	是，直接使用	bzip2	.bz2	是	和文本处理一样，不需要修改
LZO	否，需要安装	LZO	.lzo	是	需要建索引，还需要指定输入格式
Snappy	是，直接使用	Snappy	.snappy	否	和文本处理一样，不需要修改

压缩性能的比较

压缩算法	原始文件大小	压缩文件大小	压缩速度	解压速度
gzip	8.3GB	1.8GB	17.5MB/s	58MB/s
bzip2	8.3GB	1.1GB	2.4MB/s	9.5MB/s
LZO	8.3GB	2.9GB	49.3MB/s	74.6MB/s

由上表可知Gzip压缩：
优点：压缩率比较高；
缺点：不支持切片；压缩/解压速度一般；
Bzip2压缩：
优点：压缩率高；支持切片；
缺点：压缩/解压速度慢。
Lzo压缩：
优点：压缩/解压速度比较快；支持切片；
缺点：压缩率一般；想支持切片需要额外创建索引。
Snappy压缩：
优点：压缩和解压缩速度快；
缺点：不支持切片；压缩率一般；

3、数据压缩的使用场景

理论上来说，数据压缩可以用在MapReduce过程中的任意阶段，但一般常用的有如下的三个阶段：
一是在Map之前数据压缩；二是在Map之后，Reduce之前的数据压缩，这是为了减少Map到Reduce之间的IO或网络传输；三是Reduce之后的数据压缩。

Map之前压缩：
如果数据量小于块大小，重点考虑压缩和解压缩速度，可以使用LZO或Snappy压缩算法；
如果数据量非常大，重点考虑切片功能，考虑Bzip2和LZO，数据可以切片；
Map之后Reduce之前：
重点考虑压缩和解压缩速度可以使用LZO或Snappy，因为后续的Reduce还要用到
Reduce之后：
如果文件需要存储，则使用压缩比较高的Bzip2和Gzip，速度可以不作为考虑的优先因素。
如果文件作为下一个MR程序的输入，则就是map之前的压缩了，可以考虑数据量的大小，再考虑是否可以切片。

4、数据压缩的代码配置

压缩设置一般在Driver里面就可以设置了

// 开启map端输出压缩
conf.setBoolean("mapreduce.map.output.compress", true);

// 设置map端输出压缩方式
conf.setClass("mapreduce.map.output.compress.codec", BZip2Codec.class,CompressionCodec.class);

// 开启Reduce端输出压缩
FileOutputFormat.setCompressOutput(job, true);

// 设置Reduce端输出压缩的方式
 FileOutputFormat.setOutputCompressorClass(job, BZip2Codec.class);

你可能感兴趣的:(大数据,hadoop,mapreduce,大数据)

HDFS相关的面试题努力的搬砖人. java 面试 hdfs
以下是150道HDFS相关的面试题，涵盖了HDFS的基本概念、架构、操作、数据存储、高可用性、权限管理、性能优化、容错机制、与MapReduce的结合、安全性、数据压缩、监控与管理、与YARN的关系、数据一致性、数据备份与恢复等方面，希望对你有所帮助。HDFS基本概念1.HDFS是什么？它的设计目标是什么？•HDFS是Hadoop分布式文件系统，设计目标是实现对大规模数据的高吞吐量访问，适用于一次
Flink相关面试题努力的搬砖人. 面试 java 后端 flink
以下是150道ApacheFlink面试题及其详细回答，涵盖了Flink的基础知识、核心架构、API使用、性能调优等多个方面，每道题目都尽量详细且简单易懂：Flink基础概念类1.什么是ApacheFlink？ApacheFlink是一个开源的流处理和批处理框架，能够实现快速、可靠、可扩展的大数据处理。它既可以处理无界的数据流，也可以处理有界的数据批，提供了低延迟和高吞吐量的实时数据处理能力。Fl
2017安全之势：云、大数据、IoT、人工智能 weixin_34392906 人工智能大数据嵌入式
“新技术让信息系统变成了孙悟空，开始无所不能，但安全仍是它的‘紧箍咒’！怎样解开这个‘紧箍咒’？各路安全厂商各显其能，但似乎路漫漫兮离目标还很遥远。”三未信安董事长张岳公在ZD至顶网《百位意见领袖寄语2017》中说出了这样一句话，我觉着很有道理。安全是一个永恒的话题，如果说它与新的信息技术相生相克也不过分。即便如此，我们更要尽可能的减少安全带来的束缚。2017已经到来，不妨来看看至顶网与业界大咖总
hadoop3.x--搭建hadoop高可用集群（HA模式）运维小菜 hadoop hadoop hdfs
hadoop高可用集群（HA模式）一、安装前1.集群规划2.安装前配置3.安装jdk与hadoop4.克隆虚拟机与互信配置5.搭建zookeeper集群二、HDFS1.配置hdfs2.初始化启动hdfs集群三、MapReduce与Yarn1.配置MapReduce2.配置yarn3.启动yarn四、验证1.查看java进程2.hdfs与yarn前台页面一、安装前1.集群规划hostnameipNN
直方图梯度提升：大数据时代的极速决策引擎万事可爱^ 大数据机器学习深度学习直方图梯度提升 GBDT 算法
一、为什么需要直方图梯度提升？在Kaggle竞赛的冠军解决方案中，超过70%的获奖方案都使用了梯度提升算法。但当数据量突破百万级时，传统梯度提升树（GBDT）面临三大致命瓶颈：训练耗时剧增：每个特征的分割点计算都需要全量数据排序内存消耗爆炸：存储排序后的特征值需要额外空间处理效率低下：无法有效利用现代CPU的多核特性而梯度提升决策树（GBDT）作为集成学习的代表算法，通过迭代构建决策树实现预测能力
从原理到实践：Go 语言内存优化策略深度解析叶间清风1998 服务器 linux 网络
目录一、引言二、Go语言内存管理基础原理2.1栈与堆内存分配2.2垃圾回收机制剖析三、内存优化策略与实践3.1合理使用指针传递3.2避免不必要的内存分配3.3优化切片与映射的使用3.4控制变量作用域3.5减少闭包导致的变量逃逸四、内存优化工具与性能分析4.1pprof工具的使用4.2其他性能分析辅助手段五、不同场景下的内存优化案例分析5.1高并发Web服务场景5.2大数据处理与分析场景六、总结与展
在虚拟机上安装Hadoop 杜清卿 hadoop
基本步骤与安装java一致:先用finalshell将hadoop-3.1.3.tar.gz导入到opt目录下面的software文件夹下面，然后解压,最后配置环境变量。1.使用finalshell上传。这里直接鼠标拖动操作即可。2.解压。进入到Hadoop安装包路径下，cd/opt/software/，再解压安装文件到/opt/module下，对应的命令是:tar-zxvfhadoop-.1.3
hadoop集群配置-scp拓展使用杜清卿 hadoop 服务器大数据
任务1：在hadoop102上，将hadoop101中/opt/module/hadoop-3.1.3目录拷贝到hadoop102上。分析：使用scp进行拉取操作：先登录到hadoop2使用命令：scp-rroot@hadoop101:/opt/module/hadoop-3.1.3/opt/module/任务2：在hadoop101上操作，将hadoop100中/opt/module目录下所有目
硅谷企业的大数据平台架构什么样？看看Twitter、Airbnb、Uber的实践大数据v 分布式数据库大数据编程语言 hadoop
导读：本文分析一下典型硅谷互联网企业的大数据平台架构。作者：彭锋宋文欣孙浩峰来源：大数据DT（ID：hzdashuju）01Twitter的大数据平台架构Twitter是最早一批推进数字化运营的硅谷企业之一，其公司运营和产品迭代的很多功能是由其底层的大数据平台提供的。图7-2所示为Twitter大数据平台的基本示意图。▲图7-2Twitter大数据平台架构Twitter的大数据平台开发比较早，很多
【图像预处理】瞬间记忆深度学习 python
(4条消息)图像预处理方法总结_AI强仔的博客-CSDN博客对图像进行预处理的一些常见方法包括：调整图像大小和分辨率，以便适应模型的输入要求。对图像进行裁剪或填充，以使其大小和比例符合要求。调整图像的亮度、对比度和饱和度等图像属性。进行图像平滑或锐化操作，以去除噪声或增强图像特征。进行图像归一化或标准化，以确保各个特征在相同的尺度上。应用数据增强技术，如旋转、平移、缩放、翻转等，以扩大数据集，提高
大数据学习（75）-大数据组件总结 viperrrrrrr 大数据 impala yarn hdfs hive CDH mapreduce
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的
大数据点燃智能制造变革之火——从数据到价值的跃迁 Echo_Wish 大数据高阶实战秘籍大数据制造
大数据点燃智能制造变革之火——从数据到价值的跃迁在全球制造业向智能化转型的浪潮中，大数据已然成为点燃变革的关键火种。从车间到供应链，从设备到产品生命周期，制造业正通过大数据分析找到隐形的效率优化机会，打破传统生产模式的桎梏。作为Echo_Wish，今天我将和大家探讨大数据如何融入智能制造，助力实现生产效率和业务价值的双重飞跃。一、智能制造的核心诉求：数据驱动的决策与执行智能制造的目标是通过数据驱动
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
AI预测体彩排3新模型百十个定位预测+胆码预测+杀和尾+杀和值2025年3月21日第25弹 GIS小天体彩排3 人工智能机器学习彩票算法
前面由于工作原因停更了很长时间，停更期间很多彩友一直私信我何时恢复发布每日预测，目前手头上的项目已经基本收尾，接下来恢复发布。当然，也有很多朋友一直咨询3D超级助手开发的进度，在这里统一回复下。由于本人既精通编程+大数据分析，也热衷于彩票研究，所以很多彩友通过一些渠道找到了我。目前，加我的已有不少彩友，分成了3类人群：第一类：平时不懂数据分析，买彩全靠瞎猜乱蒙，这些朋友希望借助我的技术和方法来给他
Zynq PL端IP核之AXI DMA Mazy.v fpga开发嵌入式硬件 arm开发单片机
1.AXIDMA简介Zynq提供了两种DMA，一种是PS中的DMA控制器，通过GP口与PL端连接，另一种是PL中的AXIDMAIP核（软核），通过HP口与PS端连接。Zynq有4个HP接口，每一个HP接口都包含控制和数据FIFO，这些FIFO为大数据量突发传输提供缓冲，让HP接口成为理想的高速数据传输接口。AXIDMAIP内核在AXI4内存映射和AXI4StreamIP接口之间提供高带宽直接储存访
揭秘时空大数据：详细介绍、真实应用场景和数据示例解析陈书予 GIS开发（时空大数据）前端大数据 python 时序数据库
时空大数据(SpatialBigData)是指利用空间环境和时间环境信息，以及数字技术，从多种来源获取的海量、动态的、多维的数据，对空间环境和时间环境进行实时监测，并基于复杂的数据分析和挖掘，获取有价值的信息。时空大数据示例：1）社会网络数据：Twitter、Facebook、Instagram等社交媒体上的海量数据，可以通过时间、空间、主题等来提取有价值的信息。2）遥感图像数据：通过遥感技术从卫
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
ssh命令满分对我强制爱 linux 服务器运维 spark
ssh命令无需密码也可登录要先关闭防火墙，命令如下：systemctlstopfirewalldsystemctldisablefirewalldsystemctlstatusfirewalldeg：目标：hadoop100通过ssh访问hadoop101,hadoop102时不需要密码，其他两台设备也类似。具体操作如下：1.在hadoop100中生成公钥和密码。ssh-keygen-trsa三次
存算一体与存算分离：架构设计的深度解析与实现方案克里斯蒂亚诺罗纳尔多阿维罗大数据数据库
随着数据量的不断增大和对计算能力的需求日益提高，存算一体作为一种新型架构设计理念，在大数据处理、云计算和人工智能等领域正逐步引起广泛关注。在深入探讨存算一体之前，我们需要先了解存储和计算的基本概念，以及存算分离和存算一体之间的区别。什么是存算一体？存算一体，顾名思义，是将数据存储与计算资源紧密结合，形成一个统一的架构。在这种架构下，存储和计算不仅在物理层面上结合，更在架构设计上深度融合。具体来说，
LakeHouse湖仓一体成为下一站灯塔，数仓、数据湖架构即将退出群聊科杰科技大数据数据仓库
摘要：当前的大数据技术应用趋势表明，客户对单一的数据湖和数仓架构并不满意。近年来几乎所有的数据仓库都增加了对Parquet和ORC格式的外部表支持，这使数仓用户可以从相同的SQL引擎查询数据湖表，但它不会使数据湖表更易于管理，也不会消除仓库中数据的ETL复杂性、陈旧性和高级分析挑战。KeenDataLakeHouse（湖仓一体）作为新一代大数据技术架构，将逐渐取代单一数据湖和数仓架构，成为大数据架
数据让农业更聪明——用大数据激活田间地头 Echo_Wish 大数据大数据
数据让农业更聪明——用大数据激活田间地头在农业领域，随着人口增长和气候变化的影响，如何提升生产力始终是个关键话题。大数据，这个曾经只属于科技领域的概念，如今已悄然进入田间地头。今天，我以Echo_Wish的视角，和大家聊聊大数据如何赋能农业生产力，帮农民在阳光下也能掌握“科技的钥匙”。认识农业中的大数据什么是农业中的“大数据”？简单来说，就是收集和分析有关土地、气候、作物、病虫害以及市场需求等方面
GraphCube、Spark和深度学习技术赋能快消行业关键运营环节 weixin_30777913 开发语言大数据深度学习人工智能 spark
在快消品（FMCG）行业，需求计划（DemandPlanning）、库存管理（InventoryManagement）和需求供应管理（DemandSupplyManagement）是影响企业整体效率和利润水平的关键运营环节。GraphCube图多维数据集技术、Spark大数据分析处理技术和深度学习技术的结合，为这些环节提供了智能化、动态化和实时化的解决方案，显著提升业务运营效率和企业利润。一、技术
从 0 到 1 构建 Python 分布式爬虫，实现搜索引擎全攻略七七知享 Python python 分布式爬虫搜索引擎算法程序人生网络爬虫
从0到1构建Python分布式爬虫，实现搜索引擎全攻略在大数据与信息爆炸的时代，搜索引擎已然成为人们获取信息的关键入口。你是否好奇，像百度、谷歌这般强大的搜索引擎，背后是如何精准且高效地抓取海量网页数据的？本文将带你一探究竟，以Python为工具，打造属于自己的分布式爬虫，进而搭建一个简易搜索引擎，完整呈现从底层代码编写到系统搭建的全过程。通过本文的实践，我们成功打造了Python分布式爬虫，并以
第三十篇维度建模：从理论到落地的企业级实践随缘而动，随遇而安数据库 sql 数据仓库大数据数据库架构
目录一、维度建模核心理论体系1.1Kimball方法论四大支柱1.2关键概念对比矩阵二、四步建模法全流程解析2.1选择业务过程（以电商为例）2.2声明原子粒度（订单案例）2.3维度设计规范时间维度（含财年逻辑）SCDType2完整实现（Hudi）2.4事实表类型与设计三、企业级建模实战：电商用户分析3.1业务矩阵分析3.2模型实现代码四、高级建模技巧4.1多星型模式关联4.2大数据场景优化五、性能
Hive面试题御风行云天面试题大全 hive hadoop 数据仓库面试
Hive面试题1Hive基础概念1.1解释Hive是什么以及它的用途Hive的主要用途：1.2描述Hive架构和组件1.HiveCLI/Beeline和WebUI2.HiveQL3.HiveDriver（驱动）4.Metastore5.Compiler（编译器）6.Optimizer（优化器）7.Executor（执行器）8.HadoopCoreComponents（核心组件）9.HiveUDFs
计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
深陷“大数据杀熟”漩涡的飞猪，庄卓然如何力挽狂澜？财经三剑客大数据
在线旅游市场（OTA）的蓬勃发展为消费者带来了诸多便利，然而，在这股数字化浪潮中，飞猪旅行却因其频繁陷入“大数据杀熟”的争议而备受瞩目。这一行为不仅损害了消费者的合法权益，更让飞猪的品牌形象蒙上了一层阴影。近年来，飞猪平台上关于价格乱象的投诉屡禁不止。在黑猫投诉平台上，与“飞猪”相关的投诉累计已超9万条，其中直接以“飞猪杀熟”为关键词的投诉便达数百条。消费者们纷纷反映，在飞猪平台上预订机票、酒店等
API item_get 在电商平台的核心作用以及如何测试 index_all 数据供应商京东api java 大数据开发语言
在电商行业蓬勃发展的今天，跨平台运营已成为众多商家的必然选择。然而，随之而来的数据孤岛问题却成为了制约电商企业进一步发展的瓶颈。为了解决这一问题，电商大数据平台应运而生，而item_getAPI作为获取商品详情的关键接口，在其中扮演着至关重要的角色。本文将深入探讨item_getAPI在跨平台电商数据整合中的应用与优势，为电商企业在数据驱动的道路上提供有力支持。一、跨平台电商数据整合的挑战在跨平台
“四预”驱动数字孪生水利：让智慧治水守护山河安澜 GeoSaaS 实景三维智慧城市人工智能 gis 大数据安全
近年来，从黄河秋汛到海河特大洪水，从珠江流域性洪灾到长江罕见骤旱，极端天气频发让水安全问题备受关注。如何实现“治水于未发”？数字孪生水利以“预报、预警、预演、预案”（四预）为核心，正在掀起一场水利治理的智慧革命。一、数字孪生水利：从物理世界到虚拟镜像的跃迁数字孪生水利并非简单的“数字建模”，而是通过高精度传感器、大数据、人工智能等技术，在虚拟空间构建与物理流域完全映射的“数字分身”，实现水情、工情
数智读书笔记系列021《大数据医疗》：探索医疗行业的智能变革 Allen_Lyb 数智读书笔记大数据健康医疗人工智能 python
一、书籍介绍《大数据医疗》由徐曼、沈江、余海燕合著，由机械工业出版社出版。徐曼是南开大学商学院副教授，在大数据驱动的智能决策研究领域颇有建树，尤其在大数据驱动的医疗与健康决策方面有着深入研究，曾获天津优秀博士论文、教育部博士研究生新人奖。沈江等作者也在相关学术和实践领域有着丰富的经验和深厚的专业知识。这本书系统且深入地探讨了大数据技术在医疗领域的应用与变革，对推动医疗行业的智能化发展具有重要的理论
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓