LIUXUN1993728

Hadoop详解(四)——Shuffle原理，Partitioner分区原理，Combiner编程，常见的MR算法

Partitioner编程

Partition简介

shuffle是通过分区partitioner 分配给Reduce的一个Reducer对应一个记录文件
Partitioner是shuffle的一部分
partitioner执行时机：在mapper执行完成，Reducer还没有执行的时候，mapper的输出就是partitioner的输入即
partitioner 分区主要是用来提高效率的例如从全国基站的数据中查找北京基站的数据，如果计算时不分区全国的数据都放在一起，查询的时候就相当于全表扫描效率非常低，如果在第一次进行Mapreducer计算的时候按照省市进行分区，每个城市的基站数据都存储在对应的每个文件，那么下次再进行查询的时候直接从北京分区里直接查找效率很高。
分区的依据是具体业务需求，可以按照省市分区，时间进行分区等。
如果不手动进行分区，Hadoop有一个默认的分区规则

Partitioner是partitioner的基类，如果需要定制partitioner也需要继承该类。HashPartitioner是mapreduce的默认partitioner。计算方法是which reducer=(key.hashCode() & Integer.MAX_VALUE) % numReduceTasks，得到当前的目的reducer。

Partitioner原理

Hadoop详解(四)——Shuffle原理，Partitioner分区原理，Combiner编程，常见的MR算法_第1张图片

以上流程省略了shuffle的过程
DataNode在此处用于下载jar
NodeManager用于运行Yarn 由YarnChild运行Mapper或Reducer
当启动一个Reducer时会分配一个分区号默认是按数字分区
Partitioner是Shuffle的一部分，当Partition的返回值是N时会将shuffle的结果输出给对应的分区号为N的Reducer
一个Reducer对应一个分区文件 Reducer计算完毕后就会按照分区号写入对应的分区文件

Partitioner编程

① 先分析一下具体的业务逻辑，确定大概有多少个分区
② 首先书写一个类，它要继承org.apache.hadoop.mapreduce.Partitioner这个类
③ 重写public int getPartition这个方法，根据具体逻辑，读数据库或者配置返回相同的数字
④ 在main方法中设置Partioner的类，job.setPartitionerClass(DataPartitioner.class);
⑤ 设置Reducer的数量，job.setNumReduceTasks(6);

实例如下：

日志数据：HTTP_20130313143750.dat

1363157985066 	13726230503	00-FD-07-A4-72-B8:CMCC	120.196.100.82	i02.c.aliimg.com		24	27	2481	24681	200
1363157995052 	13826544101	5C-0E-8B-C7-F1-E0:CMCC	120.197.40.4			4	0	264	0	200
1363157991076 	13926435656	20-10-7A-28-CC-0A:CMCC	120.196.100.99			2	4	132	1512	200
1363154400022 	13926251106	5C-0E-8B-8B-B1-50:CMCC	120.197.40.4			4	0	240	0	200
1363157993044 	18211575961	94-71-AC-CD-E6-18:CMCC-EASY	120.196.100.99	iface.qiyi.com	视频网站	15	12	1527	2106	200
1363157995074 	84138413	5C-0E-8B-8C-E8-20:7DaysInn	120.197.40.4	122.72.52.12		20	16	4116	1432	200
1363157993055 	13560439658	C4-17-FE-BA-DE-D9:CMCC	120.196.100.99			18	15	1116	954	200
1363157995033 	15920133257	5C-0E-8B-C7-BA-20:CMCC	120.197.40.4	sug.so.360.cn	信息安全	20	20	3156	2936	200
1363157983019	13719199419	68-A1-B7-03-07-B1:CMCC-EASY	120.196.100.82			4	0	240	0	200
1363157984041 	13660577991	5C-0E-8B-92-5C-20:CMCC-EASY	120.197.40.4	s19.cnzz.com	站点统计	24	9	6960	690	200
1363157973098 	15013685858	5C-0E-8B-C7-F7-90:CMCC	120.197.40.4	rank.ie.sogou.com	搜索引擎	28	27	3659	3538	200
1363157986029 	15989002119	E8-99-C4-4E-93-E0:CMCC-EASY	120.196.100.99	www.umeng.com	站点统计	3	3	1938	180	200
1363157992093 	13560439658	C4-17-FE-BA-DE-D9:CMCC	120.196.100.99			15	9	918	4938	200
1363157986041 	13480253104	5C-0E-8B-C7-FC-80:CMCC-EASY	120.197.40.4			3	3	180	180	200
1363157984040 	13602846565	5C-0E-8B-8B-B6-00:CMCC	120.197.40.4	2052.flash2-http.qq.com	综合门户	15	12	1938	2910	200
1363157995093 	13922314466	00-FD-07-A2-EC-BA:CMCC	120.196.100.82	img.qfc.cn		12	12	3008	3720	200
1363157982040 	13502468823	5C-0A-5B-6A-0B-D4:CMCC-EASY	120.196.100.99	y0.ifengimg.com	综合门户	57	102	7335	110349	200
1363157986072 	18320173382	84-25-DB-4F-10-1A:CMCC-EASY	120.196.100.99	input.shouji.sogou.com	搜索引擎	21	18	9531	2412	200
1363157990043 	13925057413	00-1F-64-E1-E6-9A:CMCC	120.196.100.55	t3.baidu.com	搜索引擎	69	63	11058	48243	200
1363157988072 	13760778710	00-FD-07-A4-7B-08:CMCC	120.196.100.82			2	2	120	120	200
1363157985066 	13726238888	00-FD-07-A4-72-B8:CMCC	120.196.100.82	i02.c.aliimg.com		24	27	2481	24681	200
1363157993055 	13560436666	C4-17-FE-BA-DE-D9:CMCC	120.196.100.99			18	15	1116	954	200

根据手机号的前几位既可以查找手机号和归属地或运营商的映射关系
这种映射关系在实际开发中一般存储在数据库中，通过web项目的Service查询数据库得到
需求：统计每个手机号的上行总流量，下行总流量，总流量，并按照手机号进行分区存储。

代码如下：

DataBean(自定义Bean)

package liuxun.hadoop.mr.dc;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

import org.apache.hadoop.io.Writable;

public class DataBean implements Writable {

	private String tel;

	private long upPayLoad;

	private long downPayLoad;

	private long totalPayLoad;

	public DataBean() {
	}

	public DataBean(String tel, long upPayLoad, long downPayLoad) {
		this.tel = tel;
		this.upPayLoad = upPayLoad;
		this.downPayLoad = downPayLoad;
		this.totalPayLoad = upPayLoad + downPayLoad;
	}

	@Override
	public String toString() {
		return this.upPayLoad + "\t" + this.downPayLoad + "\t" + this.totalPayLoad;
	}

	public void readFields(DataInput in) throws IOException {
		this.tel = in.readUTF();
		this.upPayLoad = in.readLong();
		this.downPayLoad = in.readLong();
		this.totalPayLoad = in.readLong();

	}

	// 注意两点：写入的顺序和写入的类型
	public void write(DataOutput out) throws IOException {
		out.writeUTF(tel);
		out.writeLong(upPayLoad);
		out.writeLong(downPayLoad);
		out.writeLong(totalPayLoad);
	}

	public String getTel() {
		return tel;
	}

	public void setTel(String tel) {
		this.tel = tel;
	}

	public long getUpPayLoad() {
		return upPayLoad;
	}

	public void setUpPayLoad(long upPayLoad) {
		this.upPayLoad = upPayLoad;
	}

	public long getDownPayLoad() {
		return downPayLoad;
	}

	public void setDownPayLoad(long downPayLoad) {
		this.downPayLoad = downPayLoad;
	}

	public long getTotalPayLoad() {
		return totalPayLoad;
	}

	public void setTotalPayLoad(long totalPayLoad) {
		this.totalPayLoad = totalPayLoad;
	}

}

DataCountPartition (编写计算模型)

package liuxun.hadoop.mr.dc;

import java.io.IOException;
import java.util.HashMap;
import java.util.Map;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Partitioner;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class DataCountPartition {

	public static class DCMapper extends Mapper {

		@Override
		protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
			// accept
			String line = value.toString();
			// split
			String[] fields = line.split("\t");
			String tel = fields[1];
			long up = Long.parseLong(fields[8]);
			long down = Long.parseLong(fields[9]);
			DataBean bean = new DataBean(tel, up, down);
			// send
			context.write(new Text(tel), bean);
		}

	}

	public static class DCReducer extends Reducer {

		@Override
		protected void reduce(Text key, Iterable values, Context context)
				throws IOException, InterruptedException {
			long up_sum = 0;
			long down_sum = 0;
			for (DataBean bean : values) {
				up_sum += bean.getUpPayLoad();
				down_sum += bean.getDownPayLoad();
			}
			DataBean bean = new DataBean("", up_sum, down_sum);
			context.write(key, bean);
		}

	}

	public static class ProviderPartitioner extends Partitioner {

		private static Map prividerMap = new HashMap();
		static {
			// 实际开发时是从数据库加载这种映射关系的
			// 1：中国移动 2：中国联通 3：中国电信
			prividerMap.put("135", 1);
			prividerMap.put("136", 1);
			prividerMap.put("137", 1);
			prividerMap.put("150", 2);
			prividerMap.put("159", 2);
			prividerMap.put("182", 3);
			prividerMap.put("183", 3);
		}

		// 此方法的返回值是分区号
		// key: mapper一次输出的key 这里是手机号
		// key: mapper一次输出的Value 这里是DataBean
		// numPartitions:分区数量，由Reducer的数量决定，启动几个Reducer就会有几个partition
		@Override
		public int getPartition(Text key, DataBean value, int numPartitions) {
			// 根据手机号得到运营商 此处根据key进行分区，实际开发中也可以根据value进行分区
			String account = key.toString();
			String sub_acc = account.substring(0, 3);
			Integer code = prividerMap.get(sub_acc);
			if (code == null) {
				code  =0;
			}
			return code;
		}

	}

	public static void main(String[] args) throws Exception {
		Configuration conf = new Configuration();
		Job job = Job.getInstance(conf);

		job.setJarByClass(DataCountPartition.class);

		job.setMapperClass(DCMapper.class);
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(DataBean.class);
		FileInputFormat.setInputPaths(job, new Path(args[0]));

		job.setReducerClass(DCReducer.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(DataBean.class);
		FileOutputFormat.setOutputPath(job, new Path(args[1]));

		job.setPartitionerClass(ProviderPartitioner.class);
		
		// 设置启动Reducer的数量
		job.setNumReduceTasks(Integer.parseInt(args[2]));
		
		job.waitForCompletion(true);

	}

}

① 首先将日志数据上传至HDFS

② 将以上程序打包成WCP.jar —>上传至Linux主机—>hadoop jar /日志地址 /统计结果地址 /reducer数量

hadoop fs -put HTTP_20130313143750.dat /log.txt
hadoop jar WCP.jar /log.txt /logResult 4

查看统计结果

[root@hadoop0 Desktop]# hadoop fs -ls /logResult
Found 5 items
-rw-r--r-- 1 root supergroup 0 2017-08-31 19:02 /logResult/_SUCCESS
-rw-r--r-- 1 root supergroup 175 2017-08-31 19:02 /logResult/part-r-00000
-rw-r--r-- 1 root supergroup 241 2017-08-31 19:02 /logResult/part-r-00001
-rw-r--r-- 1 root supergroup 80 2017-08-31 19:02 /logResult/part-r-00002
-rw-r--r-- 1 root supergroup 55 2017-08-31 19:02 /logResult/part-r-00003
[root@hadoop0 Desktop]# hadoop fs -cat /logResult/part-r-00000
13480253104 180 180 360
13826544101 264 0 264
13922314466 3008 3720 6728
13925057413 11058 48243 59301
13926251106 240 0 240
13926435656 132 1512 1644
84138413 4116 1432 5548
[root@hadoop0 Desktop]# hadoop fs -cat /logResult/part-r-00001
13502468823 7335 110349 117684
13560436666 1116 954 2070
13560439658 2034 5892 7926
13602846565 1938 2910 4848
13660577991 6960 690 7650
13719199419 240 0 240
13726230503 2481 24681 27162
13726238888 2481 24681 27162
13760778710 120 120 240
[root@hadoop0 Desktop]# hadoop fs -cat /logResult/part-r-00002
15013685858 3659 3538 7197
15920133257 3156 2936 6092
15989002119 1938 180 2118
[root@hadoop0 Desktop]# hadoop fs -cat /logResult/part-r-00003
18211575961 1527 2106 3633
18320173382 9531 2412 11943

注意：

分区的程序不可在Eclipse上运行，因为在Eclipse上运行的是本地模式，始终只会启动一个mapper和一个reducer 不能实现分区
指定分区数如果小于写入所需的最大分区数量会抛出异常
如果大于写入所需的最大分区数量不会抛异常但是多余的分区不会存储数据
所以在指定分区的时候数量要大于或等于最所需的最大分区数量

排序

如果没有自定义排序规则则如果k2的类型是Text默认按照k2的字典顺序进行排序
MapReducer 实现原理就是迭代式编程，如果一个MapReduce无法完成具体的需求，可以实现多个MapReduce，就是可以将一个MapReduce的输出的内容作为中间结果作为另一个MapReducer的输入
如果要实现排序参数中的Bean对象要实现WritableComparable接口此接口是Writable的子接口

注意：如果业务比较复杂，可以编写多个MapReduce迭代编程处理

实例：

交易信息trade_info

[email protected]	6000	0	2014-02-20
[email protected]	2000	0	2014-02-20
[email protected]	0	100	2014-02-20
[email protected]	3000	0	2014-02-20
[email protected]	9000	0	2014-02-20
[email protected]	0	200		2014-02-20

需求：将每个用户的总支出、总收入以及总结余统计出来，并进行排序，首先按照收入高低进行排序，收入相同的按照支出的多少进行排序

代码编写：

① 自定义BeanInfo实现WritableComparable接口，并重写compareTo方法和toString方法

package liuxun.hadoop.mr.sort;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

import org.apache.hadoop.io.WritableComparable;

public class InfoBean implements WritableComparable {
	private String account; // 账号
	private double income;  // 收入
	private double expenses;// 支出
	private double surplus; // 结余
	
	public void set(String account,double income,double expenses) {
		this.account = account;
		this.income = income;
		this.expenses = expenses;
		this.surplus = this.income - this.expenses;
	}
	
	// 序列化
	public void write(DataOutput out) throws IOException {
		out.writeUTF(account);
		out.writeDouble(income);
		out.writeDouble(expenses);
		out.writeDouble(surplus);
	}

	// 反序列化
	public void readFields(DataInput in) throws IOException {
		this.account = in.readUTF();
		this.income = in.readDouble();
		this.expenses = in.readDouble();
		this.surplus = in.readDouble();
	}

	public int compareTo(InfoBean o) {
		if (this.income == o.getIncome()) {
			return this.expenses > o.getExpenses() ? 1 : -1;
		}else {
			return this.income > o.getIncome() ?  -1 :1;
		}
	}

	public String getAccount() {
		return account;
	}

	public void setAccount(String account) {
		this.account = account;
	}

	public double getIncome() {
		return income;
	}

	public void setIncome(double income) {
		this.income = income;
	}

	public double getExpenses() {
		return expenses;
	}

	public void setExpenses(double expenses) {
		this.expenses = expenses;
	}

	public double getSurplus() {
		return surplus;
	}

	public void setSurplus(double surplus) {
		this.surplus = surplus;
	}

	// 注意：toString方法决定了Bean写入文件的顺序
	@Override
	public String toString() {
		return income+"\t"+expenses+"\t"+surplus+"\t";
	}
   
}

② 编写MR进行统计(SumStep)

package liuxun.hadoop.mr.sort;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class SumStep {
	public static class SumMapper extends Mapper {
		private Text k = new Text();
		private InfoBean v = new InfoBean();
		@Override
		protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
			String line = value.toString();
			String[] fields =  line.split("\t");
			String account = fields[0];
			double in = Double.parseDouble(fields[1]);
			double out = Double.parseDouble(fields[2]);
			k.set(account);
			v.set(account, in, out);
			context.write(k, v);
		}
	}

	public static class SumReducer extends Reducer{
		private InfoBean v = new InfoBean();
		@Override
		protected void reduce(Text key, Iterable value,Context context)
				throws IOException, InterruptedException {
			double in_sum = 0;
			double out_sum = 0;
			for (InfoBean bean : value) {
				in_sum +=  bean.getIncome();
				out_sum += bean.getExpenses();
			}
			v.set("", in_sum, out_sum);
			context.write(key, v);
		}
	}
	public static void main(String[] args) throws Exception {
		Configuration conf = new Configuration();
		Job job = Job.getInstance(conf);
		job.setJarByClass(SumStep.class);
		job.setMapperClass(SumMapper.class);
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(InfoBean.class);
		FileInputFormat.setInputPaths(job, new Path(args[0]));
		
		job.setReducerClass(SumReducer.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(InfoBean.class);
		FileOutputFormat.setOutputPath(job, new Path(args[1]));
		
		job.waitForCompletion(true);
	}
}

③ 编写MR实现对统计结果进行排序 SortStep

package liuxun.hadoop.mr.sort;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class SortStep {
	public static class SortMapper extends Mapper {
		private InfoBean k = new InfoBean();

		@Override
		protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
			String line = value.toString();
			String[] fields = line.split("\t");
			String account = fields[0];
			double in = Double.parseDouble(fields[1]);
			double out = Double.parseDouble(fields[2]);
			k.set(account, in, out);
			context.write(k, NullWritable.get());
		}

	}

	public static class SortReducer extends Reducer {
		private Text k = new Text();
		@Override
		protected void reduce(InfoBean bean, Iterable value, Context context)
				throws IOException, InterruptedException {
			String account = bean.getAccount();
			k.set(account);
			context.write(k, bean);
		}
	}

	public static void main(String[] args) throws Exception {
		Configuration conf = new Configuration();
		Job job = Job.getInstance(conf );
		job.setJarByClass(SortStep.class);
		job.setMapperClass(SortMapper.class);
		job.setMapOutputKeyClass(InfoBean.class);
		job.setMapOutputValueClass(NullWritable.class);
		FileInputFormat.setInputPaths(job, new Path(args[0]));
		
		job.setReducerClass(SortReducer.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(InfoBean.class);
		FileOutputFormat.setOutputPath(job, new Path(args[1]));
		
		job.waitForCompletion(true);
	}
}

执行步骤：

首先将trade_info上传至HDFS

再对统计程序进行打包 SumStep.jar

其次对排序程序打包 SortStep.jar

将jar包上传至Linux主机，步骤如下：

hadoop fs -put trade_info.txt /trade_info
hadoop jar SumStep.jar /trade_info /sumResult
hadoop jar SortStep.jar /sumResult /sortResult
[root@hadoop0 Desktop]# hadoop fs -cat /sortResult/part-r-00000
[email protected] 9000.0 0.0 9000.0
[email protected] 9000.0 200.0 8800.0
[email protected] 2000.0 100.0 1900.0

Combiners编程

每一个map可能会产生大量的输出，combiner的作用就是在map端对输出先做一次合并，以减少传输到reducer的数据量。

combiner最基本是实现本地key的归并，combiner最基本是实现本地key的归并，combiner有类似于本地reducer的功能。如果不使用combiner，那么所有的结果都是Reduce完成，效率会相对低下。使用combiner，先完成的map会在本地聚合，提升速度。

注意：Combiner的输出是Reducer的输入，如果combiner是可插拔的，添加combiner绝对不能改变最终计算结果。所以在可插拔的情况下Combiner只应该用于那种和Reduce的输入key/value与输出key/value类型完全一致，且不影响最终结果的场景。比如累加，最大值等。

注意：

如果数据量大的时候使用Combiner的情况效率高

如果数据量很小的话有可能会更慢毕竟又增加了一个部分

如果Combiner是可插拔的（有Combiner或没有Combine都不会影响运行结果），那么Combiner的功能和Reducer的功能就是相同的。

Combine也可以是不可插拔的，例如实际开发中经常使用Combine在Mapper端做数据过滤。

例如求总的平均数 Combine就不能和Reducer一样

如果一样：

a.txt 3 6 3 Combine：12/3=4

b.txt 2 5 Combine：7/2=3.5

Reducer：(4+3.5)/2=3.75 != 3.8

只可以按照以下的方式运算：

a.txt 3 6 3 Combine：12 3

b.txt 2 5 Combine：7 2

Reducer：(12+7)/(3+2)=3.8

实例：例如WordCount程序就是 Combiner和Reducer功能相同可插拔的，流程分析如下：

① 没有使用Combiner的情况

Hadoop详解(四)——Shuffle原理，Partitioner分区原理，Combiner编程，常见的MR算法_第2张图片

② 使用Combiner的情况

Hadoop详解(四)——Shuffle原理，Partitioner分区原理，Combiner编程，常见的MR算法_第3张图片

注意：Combiner的实现和Reduce相同，都是继承Reducer类。

使用方式 job.setCombinerClass(WCReducer.class);

当Combiner和Reducer的功能相同时，即可插拔的，这种情况下Reducer类即是Combiner

Shuffle原理******

一个切片对应一个map ，每一个map对应一个在内存中的环形缓冲区，用来存储map的输出，缓冲区的大小默认是100M
当map向环形缓冲区写入数据达到一定阀值，就是超出一定范围(80%) 就会启动一个后台线程将缓冲区数据溢写到磁盘，注意：不仅仅是将数据存入到磁盘，而是经过很复杂的过程，写入磁盘之前首先将数据按照分区规则进行分区，如果没有指定分区规则，就会按照Hadoop默认的分区规则进行分区，然后按照排序规则对分区内的数据按照k2(map输出的key即reducer输入的key)进行排序，如果k2是Text类型则按照k2的字典顺序的排序规则，如果是Bean按照自定义的排序规则排序，然后得到多个分区且排序的小文件。分区是按照分区号排序，分区内的数据是按照k2的排序规则进行排序，小文件内可以有多个分区。由于map向缓存区中存数据速度远远比缓冲区向磁盘写数据的速度，所以当缓冲区中的数据达到80%，map就会阻塞，停止向缓冲区存入数据，直到缓冲区中的数据写入到多个小文件并清空缓冲区，才让map继续向缓冲区存入数据，之所以写入多个小文件，是因为文件越小排序的速度越快。注意：一个分区如果过大可能存在于多个小文件之中。在得到多个分区且排序的小文件后要进行合并，合并规则是按照分区号将多个小文件中的部分分区数据合并成对应分区号的完整分区数据里面，在合并的同时再对分区内的多个部分数据按照k2排序规则进行一次排序。
小文件1：[1号分区[1,1,3,4], 2号分区[2,3], 3号分区[1,5]]
小文件2：[1号分区[3,2], 2号分区[1,2,3], 3号分区[6,7]]
小文件3：[1号分区[4,5], 2号分区[6], 3号分区[3,4,8]]
(这里的数据1，2，3.....代表以key排序的键值对假设1代表 2: 3:)
注意：小文件中的内容按分区号排序，分区内容按照k2进行排序，但是分区中的内容并没有按照key值进行合并。
合并后的大文件：
大文件:[1号分区[,,,,然后得到了一个分区且排序的大文件，并向上级汇报信息后，map的任务就完成了。
接着对应分区号的Reduce会从多个Map输出的大文件中取出对应分区的数据然后合并，进行排序合并成多个排序的文件，最后进行合并排序计算后写入到对应的分区中写入到HDFS内。

默认的分区规则

默认的分区规则类：HashPartitioner（org.apache.hadoop.mapreduce.lib.partition）

Hadoop详解(四)——Shuffle原理，Partitioner分区原理，Combiner编程，常见的MR算法_第5张图片

&是二进制“与”运算，参加运算的两个数的二进制按位进行运算，运算的规律是：
0 & 0=0
0 & 1=0
1 & 0=0
1 & 1=1
对于参加运算的数要换算为二进制进行运算，例如3 & 2的结果是2，过程如下：
3 & 2
=0111 & 0010
=0010
=2
与的计算规则是，如果两个二进制数都为真(或为1)，其结果为真，如果两位数中有一位为假(或为0）者结果为假
按照key的哈希值和最大整型数进行与操作然后对启动的Reducer数量进行取余操作得到分区号
如果不指定Reducer的数量，默认只启动一个Reducer 则取余结果均为0，所以最终结果只会存入到0号分区
假设：启动reducer的数量为4
1 % 4 = 1
2 % 4 = 2
3 % 4 = 3
4 % 4 = 0
5 % 4 = 1
6 % 4 = 2
…… 获取的分区号始终在0~3之间每个分区号出现的概率相当
此算法的好处就是可以将数据均匀的分布到每个Reducer，不至于使某个Reducer的压力过大。(每个Reducer对应磁盘上的一个分区文件)

Hadoop1.0~Hadoop2.0演变

1.0中Hadoop的核心是JobTracker，它既要监控全局的任务又要负责资源的分配，所谓的资源分配就是决定在哪些机器上运行MapReducer。这会导致JobTracker的压力非常大。

在Hadoop2.0之后，就将JobTracker进行了拆分，将资源的分配交给了ReourceManager完成，将任务的监控交给了AppMater, 只要启动了一个计算任务(MapReduce)就会启动一个AppMaster。

Hadoop1.0通讯过程

Hadoop详解(四)——Shuffle原理，Partitioner分区原理，Combiner编程，常见的MR算法_第6张图片

JobTracker将任务切片分配给每个TaskTracker，每个TaskTracker可以启动多个child，child会启动一个Reducer或Mapper来完成任务。当其中一个Mapper完成分配的任务后会将Mapper输出结果的描述信息(输出的数据的存储位置例如数据在哪个文件路径，哪个分区)汇报给自己的TaskTracker，TaskTracker会将此信息通过RPC协议传递给JobTracker，而Reducer会启动一个后台进程不断的向JobTracker询问任务信息，从而从JobTracker获取Mapper输出数据的描述信息，然后根据描述信息通过Http协议从指定的位置下载到本地进行运算。
注意：由于reducer可能执行失败，因此TaskTracker并没有在第一个reducer检索到map输出时就立即从磁盘删除它们，TaskTracker会一直等待，直到JobTracker告知它可以删除map的输出。

Hadoop2.0通讯过程

Hadoop详解(四)——Shuffle原理，Partitioner分区原理，Combiner编程，常见的MR算法_第7张图片

Hadoop2.0之后由ResourceManager(Yarn的老大)负责任务的分配，NodeManager(Yarn的小弟)负责管理当前节点的状态，一台主机只会有一个NodeManager，NodeManager可以启动多个YarnChild，每个YarnChild 负责启动Map和Reduce完成任务。每次启动一个计算任务都会在其中的一个NodeManager所管理的节点中开启一个MrAppMaster负责监控当前计算的所有任务切片，当mapper完成任务后会直接将结果描述信息通过RPC汇报给MrAppMaster,而Reducer会不断的访问MrAppMaster获取Mapper输出结果的描述信息，根据描述信息找到输出结果的位置，再通过Http协议下载到本地并执行计算任务。

MR实现倒排序索引

Hadoop详解(四)——Shuffle原理，Partitioner分区原理，Combiner编程，常见的MR算法_第8张图片

要想知道当前读取的数据存在于哪个文件中，可以通过mapper的map()方法中的context对象获取输入的任务切片对象InputSplit 它是一个抽象类，要转成FIleSplit
FileSplit inputSplit = (FileSplit) context.getInputSplit();
注意：在使用字符串拼接时，如果涉及到多线程要使用StringBuffer，StringBuffer和StringBuilder都可做字符串的拼接，但是，StringBuffer是线程安全的速度相对较慢，StringBuilder是不是线程安全的，但是速度较快。
根据输入和输出的信息逆向推理：

Hadoop详解(四)——Shuffle原理，Partitioner分区原理，Combiner编程，常见的MR算法_第9张图片

推断的伪代码如下
Map阶段
<0,"hello tom">
....
context.write("hello->a.txt",1);
context.write("hello->a.txt",1);
context.write("hello->a.txt",1);
context.write("hello->b.txt",1);
context.write("hello->b.txt",1);
context.write("hello->c.txt",1);
context.write("hello->c.txt",1);
--------------------------------------------------------
combiner阶段
<"hello->a.txt",1>
<"hello->a.txt",1>
<"hello->a.txt",1>
<"hello->b.txt",1>
<"hello->b.txt",1>
<"hello->c.txt",1>
<"hello->c.txt",1>

context.write("hello","a.txt->3”);
context.write("hello","b.txt->2”);
context.write("hello”,”c.txt->2”);
--------------------------------------------------------
Reducer阶段
<"hello",{"a.txt->3”,”b.txt->2”,”c.txt->2”}>

context.write("hello","a.txt->3 b.txt->2 c.txt->2”);
-------------------------------------------------------
hello a.txt->3 b.txt->2 c.txt->2
.......

代码实现：

InverseIndex

package liuxun.hadoop.mr.ii;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**
 * 反向索引
 * 
 * @author liuxun
 *
 */
public class InverseIndex {
	public static class IndexMapper extends Mapper{
		private Text k = new Text();
		private Text v = new Text();
		@Override
		protected void map(LongWritable key, Text value,Context context)
				throws IOException, InterruptedException {
			String line = value.toString();
			String[] words = line.split(" ");
			// 可以从context中获取当前读取输入切片的信息
			FileSplit inputSplit = (FileSplit) context.getInputSplit();
			String path = inputSplit.getPath().toString();// 格式是:hdfs://hostName:9000/directory ../filename
			// 获取截取的部分 /directory.../filename
			for (String word : words) {
				k.set(word+"->"+path);
				v.set("1");
				context.write(k, v);
			}
			
		}
	}
	
	public static class IndexCombiner extends Reducer{
		private Text k = new Text();
		private Text v = new Text();
		@Override
		protected void reduce(Text key, Iterable values, Context context)
				throws IOException, InterruptedException {
			String[] wordAndPath = key.toString().split("->");
			String word = wordAndPath[0];
			String path = wordAndPath[1];
			int counter = 0;
			for (Text t : values) {
				counter += Integer.parseInt(t.toString());
			}
			k.set(word);
		    v.set(path+"->"+counter);	
			context.write(k,v);
		}
	}
	public static class IndexReducer extends Reducer{
		private Text v = new Text();
		@Override
		protected void reduce(Text key, Iterable values, Context context)
				throws IOException, InterruptedException {
			StringBuilder resultBuilder = new StringBuilder();
			for (Text t : values) {
				resultBuilder.append((t.toString()+"\t").toCharArray());
			}
			v.set(resultBuilder.toString());
			context.write(key,v );
		}
	}
	public static void main(String[] args) throws Exception {
		Configuration conf  = new Configuration();
		Job job  =Job.getInstance(conf);
		job.setJarByClass(InverseIndex.class);
		
		job.setMapperClass(IndexMapper.class);
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(Text.class);
		FileInputFormat.setInputPaths(job, new Path(args[0]));
		
		job.setCombinerClass(IndexCombiner.class);
		job.setReducerClass(IndexReducer.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(Text.class);
		FileOutputFormat.setOutputPath(job, new Path(args[1]));

		job.waitForCompletion(true);
	}
}

打包测试 OK

你可能感兴趣的:(Hadoop大数据)

分享一个基于Spark的招聘数据可视化与分析系统Hadoop大数据源码（源码、调试、LW、开题、PPT）计算机源码社大数据大数据 spark 毕业设计项目计算机毕业设计源码计算机毕设论文 hadoop 计算机课程设计
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|基
Hadoop大数据实战系列文章之Hive 测试帮日记
hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，Hive定义了简单的类SQL查询语言，称为HQL，它允许熟悉SQL的用户查询数据可以将sql语句转换为MapReduce任务进行运行，不必开发专门的MapReduce。毕竟会写SQL的人比写JAVA的人多，这样可以让一大批运营人员直接获取海量数据。在数据仓库建设中，HIVE灵活易用且
Hadoop 大数据技术原理与应用 kk8_ hadoop 大数据 hdfs
Hadoop大数据技术原理与应用大数据概述定义特征大量，多样，高速，价值研究意义应用场景医疗，金融，零售Hadoop概述历史优势扩容能力强，成本低，高效率，可靠性，高容错Hadoop生态分布式存储系统（HDFS）分布式计算框架（MapReduce）资源管理（YARN）数据迁移（Sqoop）数据挖掘算法库（Mahout）分布式数据库（HBase）分布式协调服务（Zookeeper）数据仓库（Hive
Hadoop大数据原理(3) - 分布式计算框架MapReduce 小爱玄策大数据技术 hadoop mapreduce big data
文章目录1.大数据的通用计算2MapReduce编程模型3.MapReduce计算框架3.1三类关键进程大数据应用进程JobTracker进程TaskTracker进程3.2作业启动和运行机制3.3数据合并与连接机制shuffle的过程1.大数据的通用计算 Hadoop出现前就已经有了分布式计算，那个时候的分布式计算是专用的系统，只能专门处理某一类计算，比如进行大规模数据的排序。这样的系统无法复
Hadoop大数据技术有什么市场价值？2019年Hadoop大数据技术7大应用领域金光闪闪耶
由于国家对大数据、AI等等技术的关注，在多次发展规划中都提高了大数据技术，因此大数据技术对于这个时代的发展来说至关重要，大数据也正处于发展期、巩固期，基于已有的技术去完善和不断的发展大数据技术产品，满足互联网不符按发在的需求，使国家的技术产业得到进步和发展。大数据已经成长为时代发展的标志，在各大行业机领域都拥有其应用，今天小编就带着大家一起了解一下，大数据技术到底带来了什么？大数据技术是如何发挥自
大数据平台的硬件规划、网络调优、架构设计、节点规划小枫@码大数据架构师大数据
1.大数据平台硬件选型要对Hadoop大数据平台进行硬件选型，首先需要了解Hadoop的运行架构以及每个角色的功能。在一个典型的Hadoop架构中，通常有5个角色，分别是NameNode、StandbyNameNode、ResourceManager、NodeManager、DataNode以及外围机。其中NameNode负责协调集群上的数据存储，StandbyNameNode属于NameNode
【项目实战】基于Hadoop大数据电商平台用户行为分析与可视化系统Hive、Spark计算机程序开发 Q2643365023 项目大数据 hadoop 大数据 hive
注意：该项目只展示部分功能，如需了解，评论区咨询即可。本文目录1设计背景2设计意义3系统展示3.1页面展示3.2视频展示4更多推荐5部分功能代码1设计背景在当今数字化时代，电商行业成为全球商业生态系统的关键组成部分，电商平台已经深入各行各业，影响了人们的购物方式和消费习惯。随着互联网技术的不断发展，电商平台产生了大量的用户数据，包括点击、购买、搜索、浏览历史等行为数据。这些数据蕴含着宝贵的商业洞察
HADOOP大数据之HDFS管理与运维奋斗的韭菜汪
一、HDFS数据迁移解决方案HDFS分布式拷贝工具DistCp数据迁移使用场景：冷热集群数据同步、分类存储集群数据整体搬迁数据的准实时同步数据迁移要素考量带宽性能是否支持增量同步4、数据迁移的同步性image.pngDistCp是Hadoop中的一种工具，在hadoop-tools工程下，作为独立子工程存在定位用于数据迁移，定期在集群之间和集群内部备份数据在备份过程中，每次运行DistCp都称为一
基于Hadoop的网上购物行为大数据分析及预测系统【flask+echarts+机器学习】前后端交互王小王-123 hadoop flask 网上购物行为分析 Hadoop大数据淘宝 Hadoop系统
有需要本项目或者部署的系统可以私信博主，提供远程部署和讲解本研究基于淘宝用户行为的开源数据展开大数据分析研究，通过Hadoop大数据分析平台对阿里天池公开的开源数据集进行多维度的用户行为分析，为电商销售提供可行性决策。首先我们将大数据集上传到Hadoop中的HDFS存储，之后利用Hadoop的Flume组件，配置好自动加载数据的环境，将数据加载到hive数据库中进行大数据分析。通过对常见的电商指标
【学习笔记】尚硅谷Hadoop大数据教程笔记棉花糖灬大数据大数据 hadoop MapReduce yarn hdfs
本文是尚硅谷Hadoop教程的学习笔记，由于个人的需要，只致力于搞清楚Hadoop是什么，它可以解决什么问题，以及它的原理是什么。至于具体怎么安装、使用和编写代码不在我考虑的范围内。一、Hadoop入门大数据的特点：Volume（大量）Velocity（高速）Variety（多样）Value（低价值密度）1.Hadoop概念是一个分布式系统基础架构2.Hadoop优势高可靠高扩展性高效性高容错性3
《Hadoop大数据技术原理与运用》知识点总结呆小黎大数据 hadoop 数据库分布式
Hadoop学习过程中的一些笔记参考书籍《Hadoop大数据技术原理与应用》清华大学出版社黑马程序员/编著1.什么是大数据？大数据的四个特征是什么？答：一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合具有海量数据规模、快速数据流转、多样数据类型一级价值密度四大特征。2.另外，在Hadoop架构里面，元数据的含义是什么？答：文件的大小、位置、权限3.本书里面使用
大数据开发个人简历范本（2024最新版-附模板） itLeeyw 简历怎么写大数据简历简历工具个人简历简历模板
大数据开发工程师个人简历范本>男22本科张三计算机科学与技术1234567890个人概述具备深入的Hadoop大数据运维工程师背景，熟悉相关技术和工具具备良好的团队合作能力，善于沟通和协作具有快速学习新知识和解决问题的能力对于数据科学和分析充满热情，喜欢研究和探索新技术专业技能大数据熟悉Hadoop、Spark、Hive等大数据技术栈，具有实际项目经验数据库熟悉MySQL、MongoDB等数据库系
Hadoop大数据生态系统及常用组件简介 669生活大数据编程语言人工智能大数据程序员编程语言 hadoop
经过多年信息化建设，我们已经进入一个神奇的“大数据”时代，无论是在通讯社交过程中使用的微信、QQ、电话、短信，还是吃喝玩乐时的用到的团购、电商、移动支付，都不断产生海量信息数据，数据和我们的工作生活密不可分、须臾难离。什么是大数据什么是大数据，多大算大，100G算大么?如果是用来存储1080P的高清电影，也就是几部影片的容量。但是如果100G都是文本数据，比如我们的后端kafka里的数据，抽取一条
【2023Hadoop大数据技术应用期末复习】填空题题型整理 Lacszer 大数据
大数据的4V特征包含（）（）（）（）答案：大量、多样、高速、价值Hadoop三大组件包含（）（）（）答案：HDFS、MapReduce、YarnHadoop2.x版本中的HDFS是由（）（）（）组成答案：NameNode、DataNode、SecondaryNameNodeHadoop发行版本分为答案：开源社区版、商业版目前Hadoop发布的版本主要有（）（）（）答案：Hadoop1.x、Hado
【2023Hadoop大数据技术应用期末复习】选择题题型整理 Lacszer 大数据
文章目录单选题多选题单选题创建虚拟机的过程中，网络类型建议选择？A.使用桥接网络B.使用网络地址转换（NAT）C.使用仅主机模式网路D.不适用网路连接答案：B使用什么命令对jdk压缩包解压？A.tar-zxvfjdk-8u141-linux-x64.tar.gzB.zip-zxvfjdk-8u141-linux-x64.tar.gzC.uzipjdk-8u141-linux-x64.tar.gzD
Hadoop大数据实战系列文章之HDFS文件系统测试帮日记
Hadoop附带了一个名为HDFS(Hadoop分布式文件系统)的分布式文件系统，专门存储超大数据文件，为整个Hadoop生态圈提供了基础的存储服务。本章内容：1)HDFS文件系统的特点，以及不适用的场景2)HDFS文件系统重点知识点：体系架构和数据读写流程3)关于操作HDFS文件系统的一些基本用户命令1.HDFS特点：HDFS专为解决大数据存储问题而产生的，其具备了以下特点：1)HDFS文件系统
基于Hadoop大数据的物资数据可视化分析系统晨曦编程 python实战项目大数据 hadoop 分布式 1024程序员节 spark 课程设计 python
大家可以帮忙点赞、收藏、关注、评论啦精彩专栏推荐订阅：在下方专栏JAVA实战项目文章目录JAVA实战项目一、项目介绍二、开发环境三、项目展示-基于Hadoop大数据的物资数据可视化分析系统四、代码展示五、项目总结大家点赞、收藏、关注、有问题都可留言交流一、项目介绍一、背景随着经济的快速发展，人类社会面临着诸多挑战，其中之一便是。这一问题的存在已经严重影响到社会各个领域的发展，因此，解决这一问题是当
hadoop大数据学习笔记驰宇爱吃鱼学习笔记大数据 hadoop 学习
一、Hadoop的作用本质来说hadoop的作用是在多计算机集群环境中营造一个统一而稳定的存储和计算环境，并能为其他分布式应用服务提供平台支持。或者说将多台计算机组织成了一台计算机，让他们做同一件事，在这其中HDFS就相当于这台计算机的硬盘，而MapReduce就是这台计算机的CPU控制器。二、Hadoop环境部署按着正常来说我们想要部署Hadoop集群需要把相同的软件部署到众多计算机上，实际学习
DKhadoop大数据平台基础框架方案概述 yoku酱
大数据作为当下最为热门的事件之一，其实已经不算是很新鲜的事情了。如果是三五年前在讨论大数据，那可能会给人一种很新鲜的感觉。大数据作为当下最为重要的一项战略资源，已经是越来越得到国家和企业的高度重视，我们从大数据被上升到国家战略层面就可窥见一二！现在关于大数据的知识分享可以说已经是铺天盖地了，作为新手入门想查询的信息基本都可以通过网络查询到一些。我对的大数据的了解其实也不是特别丰富，毕竟学习的时间也
Hadoop大数据集群搭建（超详细）小飞飞V5 大数据Hadoop hadoop
使用了几个学期的实验手册，应该没有啥大问题了，现在分享给大家，希望对你学习hadoop有用实验环境：Vmwareworkstation+CentOS7+Hadoop3.1.3目录第一步：安装虚拟机第二步：虚拟机克隆第三步：网络配置第四步：ssh服务配置第五步：安装JDK第六步：安装Hadoop第七步：Hadoop集群配置第八步：格式化文件系统第九步：启动和关闭hadoop集群第十步：通过UI界面查
大数据开发：Hbase集群安装配置入门成都加米谷大数据
作为Hadoop大数据生态的重要组件，Hbase的学习是非常重要的一块，Hbase作为Hadoop生态原生支持的数据库，基于列式存储，能够承载规模庞大的数据存储需求任务。今天的大数据开发学习分享，我们就主要来讲讲Hbase集群安装配置入门。一、搭建集群环境1、解压文件tar-zxvfhbase-1.3.1-bin.tar.gz2、配置环境变量vim/etc/profileexportHBASE_H
在centos7上搭建hadoop大数据平台船长灬普朗克大数据 hadoop 大数据 java
目录一、安装搭建java环境1、安装方法2、查看是否已安装3、卸载4、安装4.1检查yum中有没有java1.8包4.2开始安装5、验证二、Hadoop安装1、下载2、准备启动Hadoop集群2.1配置Hadoop守护进程的环境2.2配置系统环境变量2.3配置etc/hadoop/core-site.xml文件2.4配置etc/hadoop/hdfs-site.xml文件2.5配置etc/hado
Hadoop大数据开发__Spark on YARN模式分布式集群安装部署姚华军大数据大数据 hadoop spark Spark on YARN YARN
1、下载解压sparkcd/home/hadoop/apptar-zxvfspark-3.3.0-bin-hadoop3.tgzrmspark-3.3.0-bin-hadoop3.tgzln-sspark-3.3.0-bin-hadoop3spark2、修改spark-env.shcd/home/hadoop/app/spark/confvispark-env.sh#追加下面的路径HADOOP_C
HADOOP大数据之HDFS数据安全与隐私保护奋斗的韭菜汪
HDFSTrash垃圾桶功能概述HDFSTrash机制，叫做回收站或者垃圾桶。Trash就像Windows操作系统中的回收站一样。它的目的是防止你无意中删除某些东西。默认情况下是不开启的。启用ITrash功能后，从HDFS中删除某些内容时，文件或目录不会立即被清除，它们将被移动到回收站Current目录中(/user/$(username}/.Trash/current)。.Trash中的文件在用
cdh亲测2022/11/12 Tian.Mrs 大数据 hadoop spark
一、Hadoop大数据平台1、Hadoop发行版(1)完全开源的原生的ApacheHadoop(2)Cloudera与Hortonworks公司的CDH和HDP：在Cloudera和Hortonworks合并后，Cloudera公司推出了新一代的数据平台产品CDPDataCenter（以下简称为CDP），从2021年1月31日开始，所有Cloudera软件都需要有效的订阅，并且只能通过付费墙进行访
CDH6安装教程(亲自测试越坑版) inrgihc Hadoop big data hadoop spark
一、Hadoop大数据平台1、Hadoop发行版(1)完全开源的原生的ApacheHadoop(2)Cloudera与Hortonworks公司的CDH和HDP：在Cloudera和Hortonworks合并后，Cloudera公司推出了新一代的数据平台产品CDPDataCenter（以下简称为CDP），从2021年1月31日开始，所有Cloudera软件都需要有效的订阅，并且只能通过付费墙进行访
hadoop@bigdate-VirtualBox:/mnt/shared$ tar -xzvf hadoop-2.10.2.tar.gz tar (child): hadoop-2.10.2.tar 北辰Charih 大数据挖掘 hadoop 大数据分布式
在virtualbox的ubuntu虚拟机上使用共享文件夹安装hadoop大数据软件在在virtualbox的ubuntu虚拟机上设置共享文件夹步骤：1.设置共享文件夹自行设定共享文件夹路径以及名称，记得勾选自动挂载（A），运行虚拟机的时候才会自动加载该文件夹。小提示：我按和下面连接的教程差不多的步骤安装配置VM虚拟机Ubuntu系统https://blog.csdn.net/duchenlong
Hadoop大数据学习线路图-单篇 doers123 hadoop hadoop
入门知识对于我们新手入门学习hadoop的朋友来说，首先了解一下云计算和云计算技术是有必要的。下面先是介绍云计算和云计算技术的：云计算，是一种基于互联网的计算方式，通过这种方式，共享的软硬件资源和信息可以按需求提供给计算机和其他设备，主要是基于互联网的相关服务地增加、使用和交付模式，通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。过去在图中往往用云来表示电信
《大数据时代》读书笔记 Lucia夏天呀
其实是很久很久之前就应该看的一本书，放在“想读”中，最近终于花了几天时间看完。作者在文中的观点集中在五个方面：一、大数据带来公共卫生、商业、思维的变革，开启重大的时代转型，而预测是大数据的核心作者举了谷歌预测流感的快速有效性、机票价格趋势预测网站这两个例子。介绍了随之而来的hadoop大数据处理技术，同时通过各行业的例子说明了当今时代，数据增速超过以往任何一个时代，海量数据将会最终产生质变，改变这
毕设分享基于hadoop大数据教育可视化系统(源码+论文) 毕设算法家大数据 hadoop python 毕业设计数据分析
0简介今天学长向大家介绍一个机器视觉的毕设项目毕设分享基于hadoop大数据教育可视化系统(源码+论文)项目获取：https://gitee.com/sinonfin/algorithm-sharing基于hadoop和echarts的教育大数据可视化系统一、摘要在线教育平台现在是教育体系的重要组成部分，在当前大数据时代的背景下，促进教育机构建立统一平台、统一资源管理的数字化教学系统。如何评估系统
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方