ASN_forever

探索MapReduce过程及分组详解

一直对MapReduce的分区和分组理解的比较模糊和不确定。这次又遇到reduce输出结果跟自己预想的不一样的情况，因此决定深入进去操作一下各种情况的结果，争取理清楚分组、分区的关系。

以前的认识

我一直以来对MapReduce的分区和分组有一个自己的理解。

分区：如果不自定义分区类，而使用默认分区时，采取的是对键进行哈希操作，并与reducetask任务数取模，根据得到的值进行分区。由于默认的reducetask任务数设置为1，因此默认情况下只有1个分区。如果自己重新定义了一个分区类，则会按照自定义的方式进行分区。

分组：分组和分区类似，也是用来划分数据集的，只不过更加细粒度。如果不自定义分组类而使用默认分组的话，跟默认分区相同，也是通过比较键来进行分组。reduce()函数是按照组为操作对象进行统计的。

数据集

摩根士丹利MORGANSTANLEY,美国
工商银行INDUSTRIALCOMMERBANKOFCHINA,中国
TalanxTALANX,德国
华为投资控股HUAWEIINVESTMENTHOLDING,中国
天津物产TEWOOGROUP,中国
阿里巴巴ALIBABAGROUPHOLDING,中国
FomentoEconmicoMexicanoFOMENTOECONMICOMEXICANO,墨西哥
农业银行AGRICULTURALBANKOFCHINA,中国
戴尔科技DELLTECHNOLOGIES,美国
太平洋保险股份CHINAPACIFICINSURANCE,中国
浙江吉利控股ZHEJIANGGEELYHOLDINGGROUP,中国
建设银行CHINACONSTRUCTIONBANK,中国
电子信息产业CHINAELECTRONICS,中国
江苏沙钢JIANGSUSHAGANGGROUP,中国
上海汽车股份SAICMOTOR,中国
厦门建发XIAMENCD,中国
电信CHINATELECOMMUNICATIONS,中国
甲骨文ORACLE,美国
广州汽车工业GUANGZHOUAUTOMOBILEINDUSTRYGROUP,中国
山东能源SHANDONGENERGYGROUP,中国
联想LENOVOGROUP,中国
正威国际AMERINTERNATIONALGROUP,中国
移动通信CHINAMOBILECOMMUNICATIONS,中国
陕西延长石油责任SHAANXIYANCHANGPETROLEUM,中国
航天科工CHINAAEROSPACESCIENCEINDUSTRY,中国
富士通FUJITSU,日本
思科CISCOSYSTEMS,美国
微软MICROSOFT,美国
北京汽车BEIJINGAUTOMOTIVEGROUP,中国

测试一、使用默认分组

贴代码

public class HandleTopAttend {
	public static class CmpnyCutry implements WritableComparable {
		private String company;
		private String country;

		public void set(String first, String second) {
			this.company = first;
			this.country = second;
		}

		public String getCompany() {
			return this.company;
		}

		public String getCountry() {
			return this.country;
		}

		@Override
		public void readFields(DataInput in) throws IOException {
			// TODO Auto-generated method stub
			company = in.readUTF();
			country = in.readUTF();
		}

		@Override
		public void write(DataOutput out) throws IOException {
			// TODO Auto-generated method stub
			out.writeUTF(company);
			out.writeUTF(country);
		}

		@Override
		public int compareTo(CmpnyCutry o) {// 先按照公司比较，再按照所属国家比较
			// TODO Auto-generated method stub
			int i = 0;
			if (o instanceof CmpnyCutry) {
				CmpnyCutry cc = (CmpnyCutry) o;
				i = this.company.compareTo(cc.company);
				if (i == 0) {
					return this.country.compareTo(cc.country);
				}
			}
			return i;
		}

	}

	public static class Mapper1 extends Mapper {
		static int count = 0;
		static Map m;
		CmpnyCutry cmcu = new CmpnyCutry();

		public void setup(Context context) {
			m = new HashMap<>();
		}

		public void map(LongWritable index, Text line, Context context) throws IOException, InterruptedException {
			String[] cc = line.toString().split(",");
			m.put(cc[0], cc[1]);
			count++;//有多少行数据，最后count就为几，代表500强的公司数
		}

		public void cleanup(Context context) throws IOException, InterruptedException {
			Set s = m.entrySet();
			Iterator> it = s.iterator();
			while (it.hasNext()) {
				Entry en = it.next();
				cmcu.set(en.getKey(), en.getValue());
				context.write(cmcu, new IntWritable(count));//map输出的key：（公司名，国家）；value：500强公司数
			}
		}
	}

	public static class CountryPartitioner extends Partitioner {
		public int getPartition(CmpnyCutry key, IntWritable count, int numPartitions) {
			if(key.getCountry().equals("中国")){
				return 0;
			}else{
				return 1;
			}
		}
	}


	public static class Reducer1 extends Reducer {
		int groupCount = 0;//统计当前分区中有多少个分组
		public void reduce(CmpnyCutry cc, Iterable count, Context context)
				throws IOException, InterruptedException {
			int sum = 0;//统计当前分组的集合中有多少个元素
			IntWritable iw = new IntWritable();
			Iterator i = count.iterator();
			while (i.hasNext()) {
				iw = i.next();
				sum++;
			}
			//输出：国家，公司数，第几组，500强公司数
			context.write(new Text(cc.getCountry() + "," + sum+","+groupCount++), iw);
		}
	}

	public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
		Configuration conf = new Configuration();
		conf.set("mapred.textoutputformat.ignoreseparator","true");  
		conf.set("mapred.textoutputformat.separator",","); 
		String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
		if (otherArgs.length != 2) {
			System.err.println("Usage: wordcount  ");
			System.exit(2);
		}

		Job job = Job.getInstance(conf, "topAttend");
		job.setJarByClass(HandleTopAttend.class);
		FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
		FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
		job.setMapperClass(Mapper1.class);
		job.setMapOutputKeyClass(CmpnyCutry.class);
		job.setMapOutputValueClass(IntWritable.class);

		job.setPartitionerClass(CountryPartitioner.class);
		job.setNumReduceTasks(2);
		job.setReducerClass(Reducer1.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);
		System.exit(job.waitForCompletion(true) ? 0 : 1);

	}
}

查看输出日志

因为只有一个输入文件，且文件很小不足一个splits（分片），因此map tasks=1。同时由于设置了两个分区和两个reducetask，因此reduce tasks=2。关键是看reduce input groups的数量，可以看到groups数量为29，也就是原始数据集的记录数。因为自定义了组合键，每条记录的组合键都不相同，因此这个结果证明了分组是按照键进行的。

下面是输出的part-r-00000文件内容

这个结果，证明了reducer类和其中的reduce()函数各自的处理范围。reducer类处理整个分区的数据，其操作对象是区，一个区调用一次reducer类。而reduce()函数的操作对象是组，也就是分区中有几个分组就调用几次reduce()函数，reduce()函数对分组对应的集合进行处理。结合输出的第二个分区文件part-r-00001可以进一步佐证。

下面是输出的part-r-00001文件内容

测试二、使用自定义分组

现在想要实现的是，将相同国家的数据分到一个组中进行整合，也就是按照“国家”进行分组。因此要自定义分组类。

贴代码

public class HandleTopAttend {
	public static class CmpnyCutry implements WritableComparable {
		private String company;
		private String country;

		public void set(String first, String second) {
			this.company = first;
			this.country = second;
		}

		public String getCompany() {
			return this.company;
		}

		public String getCountry() {
			return this.country;
		}

		@Override
		public void readFields(DataInput in) throws IOException {
			// TODO Auto-generated method stub
			company = in.readUTF();
			country = in.readUTF();
		}

		@Override
		public void write(DataOutput out) throws IOException {
			// TODO Auto-generated method stub
			out.writeUTF(company);
			out.writeUTF(country);
		}

		@Override
		public int compareTo(CmpnyCutry o) {// 先按照公司比较，再按照所属国家比较
			// TODO Auto-generated method stub
			int i = 0;
			if (o instanceof CmpnyCutry) {
				CmpnyCutry cc = (CmpnyCutry) o;
				i = this.company.compareTo(cc.company);
				if (i == 0) {
					return this.country.compareTo(cc.country);
				}
			}
			return i;
		}

	}

	public static class Mapper1 extends Mapper {
		static int count = 0;
		static Map m;
		CmpnyCutry cmcu = new CmpnyCutry();

		public void setup(Context context) {
			m = new HashMap<>();
		}

		public void map(LongWritable index, Text line, Context context) throws IOException, InterruptedException {
			String[] cc = line.toString().split(",");
			m.put(cc[0], cc[1]);
			count++;//有多少行数据，最后count就为几，代表500强的公司数
		}

		public void cleanup(Context context) throws IOException, InterruptedException {
			Set s = m.entrySet();
			Iterator> it = s.iterator();
			while (it.hasNext()) {
				Entry en = it.next();
				cmcu.set(en.getKey(), en.getValue());
				context.write(cmcu, new IntWritable(count));//map输出的key：（公司名，国家）；value：500强公司数
			}
		}
	}

	public static class CountryPartitioner extends Partitioner {
		public int getPartition(CmpnyCutry key, IntWritable count, int numPartitions) {
			if(key.getCountry().equals("中国")){
				return 0;
			}else{
				return 1;
			}
		}
	}
//自定义分组类，重写compare()方法
	public static class GroupingComparator extends WritableComparator {
		protected GroupingComparator() {
			super(CmpnyCutry.class, true);
		}

		@SuppressWarnings("rawtypes")
		public int compare(WritableComparable cc1, WritableComparable cc2) {
			CmpnyCutry ip1 = (CmpnyCutry) cc1;
			CmpnyCutry ip2 = (CmpnyCutry) cc2;
			String l = ip1.getCountry();
			String r = ip2.getCountry();
			return l.compareTo(r);// 比较两个字符串的大小
		}
	}

	public static class Reducer1 extends Reducer {
		int groupCount = 0;//统计当前分区中有多少个分组
		public void reduce(CmpnyCutry cc, Iterable count, Context context)
				throws IOException, InterruptedException {
			int sum = 0;//统计当前分组的集合中有多少个元素
			IntWritable iw = new IntWritable();
			Iterator i = count.iterator();
			while (i.hasNext()) {
				iw = i.next();
				sum++;
			}
			//输出：国家，公司数，第几组，500强公司数
			context.write(new Text(cc.getCountry() + "," + sum+","+groupCount++), iw);
		}
	}

	public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
		Configuration conf = new Configuration();
		conf.set("mapred.textoutputformat.ignoreseparator","true");  
		conf.set("mapred.textoutputformat.separator",","); 
		String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
		if (otherArgs.length != 2) {
			System.err.println("Usage: wordcount  ");
			System.exit(2);
		}

		Job job = Job.getInstance(conf, "topAttend");
		job.setJarByClass(HandleTopAttend.class);
		FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
		FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
		job.setMapperClass(Mapper1.class);
		job.setMapOutputKeyClass(CmpnyCutry.class);
		job.setMapOutputValueClass(IntWritable.class);

		job.setPartitionerClass(CountryPartitioner.class);
		job.setGroupingComparatorClass(GroupingComparator.class);//为job配置自定义的分组类
		job.setNumReduceTasks(2);
		job.setReducerClass(Reducer1.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);
		System.exit(job.waitForCompletion(true) ? 0 : 1);

	}
}

查看输出的日志结果

可以看到groups数由之前的29变为了5，说明自定义分组其作用了。进一步分析，自定义分组规则是按照国家进行分组的。此处显示5，说明数据集中总共应该有5个国家，查看上面测试一输出的两个文件，发现果然总共有5个国家。进一步分析，第一个分区是“中国”，并且因为在这里设置了按国家分组，因此输出的part-r-00000文件应该只有一行记录，而part-r-00001应该有4条记录。

查看输出文件part-r-00000

查看输出文件part-r-00001

进一步分析每条记录的信息，可以更加佐证测试一的结论。也就是，关于reducer类和reduce()函数的作用范围的结论。

总结

很高兴的是，实际结果证明自己以前的认识基本是正确的！！！！！

reducer类的操作对象是分区，一个分区初始化一次reducer类。reduce()函数的操作对象是组，一个分区中有几个分组就调用几次reduce()函数。

分组默认采用通过比较键的方式来实现。当自定义组合键时，往往需要根据组合键中的某一个属性进行分组统计，此时就用到自定义分组类。通过重写其中的compare()方法定义分组规则。

不足

由于输出结果中没有将整个组合键输出，因此没有体现出排序的过程。实际上，排序应该是在map端执行溢写的时候进行的操作，操作的代码就是自定义组合键中的compareTo()方法。到达溢写条件时，先锁定要溢写的数据，然后对其进行分区，然后在分区内进行排序。如果设置了combiner类，还会在排序后执行combine操作。最后才将结果写出到临时文件中。

不知道有没有不对的地方，因为都是自己的认识，不是正规军。希望各位大佬指正！互相学习！

写博客不容易，转载请注明出处，谢谢！！！https://blog.csdn.net/ASN_forever/article/details/81778972

进一步补充

真的是刚做完上面的实验，就又发现问题了。。。。。

虽然上面通过自定义分组类之后，貌似数据集的输出结果确实是实现分组了。但当数据集换成下面这个时，情况就又变啦。。。

新数据集

华为投资控股HUAWEIINVESTMENTHOLDING,中国
天津物产TEWOOGROUP,中国
日本瑞穗金融MIZUHOFINANCIALGROUP,日本
阿里巴巴ALIBABAGROUPHOLDING,中国
英国葛兰素史克GLAXOSMITHKLINE,英国
戴尔科技DELLTECHNOLOGIES,美国
腾讯控股TENCENTHOLDINGS,中国
浙江吉利控股ZHEJIANGGEELYHOLDINGGROUP,中国
通用汽车GENERALMOTORS,美国
国家电网STATEGRID,中国
电子信息产业CHINAELECTRONICS,中国
美国银行BANKOFAMERICACORP,美国
江苏沙钢JIANGSUSHAGANGGROUP,中国
上海汽车股份SAICMOTOR,中国
厦门建发XIAMENCD,中国
电信CHINATELECOMMUNICATIONS,中国
OrangeORANGE,法国
广州汽车工业GUANGZHOUAUTOMOBILEINDUSTRYGROUP,中国
联合信贷UNICREDITGROUP,意大利
山东能源SHANDONGENERGYGROUP,中国
兴业银行INDUSTRIALBANK,中国
SAPSAP,德国
富士通FUJITSU,日本
微软MICROSOFT,美国
北京汽车BEIJINGAUTOMOTIVEGROUP,中国

问题

当用测试二中的代码处理这个新数据集时，得到的打印日志和输出文件信息分别如下：

打印日志

part-r-00000文件

part-r-00001文件

分析这些信息，首先是groups=10.新数据集中明明总共只有7个不同的国家，按道理来说，根据国家分组后应该得到groups=7才对。先不管，接着看输出的两个文件。第一个文件是中国区的统计数据，15表示这个分区中总共有15条记录，0表示这个分区中只有一个分组，都跟预计的结果一致。再看第二个文件，发现问题了！竟然没有将相同国家的聚合到相同分组中？？？虽然不知道哪里出了问题，但是也会发现一点猫腻。就是第一个美国分组中，显示有2条记录。而后接着就是日本分组了。因此做如下猜想：因为reduce端是先将所有map端对应的分区数据copy过来，然后合并成一个大文件。此后对这个大文件中的记录进行排序操作，而这个排序规则也是根据自定义键类中的compareTo()方法实现的，而这个比较规则是先比较公司后比较国家。也就是说，相同国家的公司中间很可能被其他国家的公司隔开了。而分组操作是从上往下一条一条记录进行比对来进行分组的。如果上下两条记录对应的组合键中的国家相同，则合并到一个组，如果不同，则上下各分一个组。这样就能解释part-r-00001的结果了。

为了进一步证明猜想，需要在输出中增加公司名，并且取消分组，看看输出结果跟猜想的符不符合。

下面是增加公司名，且取消分组时的输出文件part-r-00001：

完美有没有！！！完美证明了猜想的正确性！

再总结

分组详解：分组前先对合并后的分区文件中的记录进行排序，排序后再进行分组。分组是通过对排序后的记录从上往下遍历比对进行的。如果上下两个比对结果为0，则分到同一个组，否则各分一个组。后面的分组与前面的分组无关，只与紧挨着的上一条记录有关。也就是说，就算前面有一个“美国”分组，但是中间隔了一个“日本”分组，则后面再出现“美国”时也不会合并到前面的分组中！！！因此，如果想按照国家分组的话，应该将国家作为组合键的第一个属性，这样在reduce端排序后得到的就是相同的国家上下挨着了。

关于MapReduce的shuffle过程，请看这篇文章：https://mp.csdn.net/postedit/81233547

浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
月度总结 | 2022年03月 | 考研与就业的抉择 | 确定未来走大数据开发路线「已注销」个人总结 hadoop
一、时间线梳理3月3日，寻找到同专业的就业伙伴3月5日，着手准备Java八股文，决定先走Java后端路线3月8月，申请到了校图书馆的考研专座，决定暂时放弃就业，先准备考研，买了数学和408的资料书3月9日-3月13日，因疫情原因，宿舍区暂封，这段时间在准备考研，发现内容特别多3月13日-3月19日，大部分时间在刷Hadoop、Zookeeper、Kafka的视频，同时在准备实习的项目3月20日，退
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
Hadoop windows intelij 跑 MR WordCount piziyang12138
一、软件环境我使用的软件版本如下:IntellijIdea2017.1Maven3.3.9Hadoop分布式环境二、创建maven工程打开Idea,file->new->Project,左侧面板选择maven工程。(如果只跑MapReduce创建java工程即可，不用勾选Creatfromarchetype，如果想创建web工程或者使用骨架可以勾选)image.png设置GroupId和Artif
Hadoop学习第三课（HDFS架构--读、写流程）小小程序员呀~ 数据库 hadoop 架构 big data
1.块概念举例1：一桶水1000ml，瓶子的规格100ml=>需要10个瓶子装完一桶水1010ml，瓶子的规格100ml=>需要11个瓶子装完一桶水1010ml，瓶子的规格200ml=>需要6个瓶子装完块的大小规格，只要是需要存储，哪怕一点点，也是要占用一个块的块大小的参数：dfs.blocksize官方默认的大小为128M官网：https://hadoop.apache.org/docs/r3.
hadoop启动HDFS命令 m0_67401228 java 搜索引擎 linux 后端
启动命令：/hadoop/sbin/start-dfs.sh停止命令：/hadoop/sbin/stop-dfs.sh
【计算机毕设-大数据方向】基于Hadoop的电商交易数据分析可视化系统的设计与实现程序员-石头山大数据实战案例大数据 hadoop 毕业设计毕设
博主介绍：✌全平台粉丝5W+,高级大厂开发程序员，博客之星、掘金/知乎/华为云/阿里云等平台优质作者。【源码获取】关注并且私信我【联系方式】最下边感兴趣的可以先收藏起来，同学门有不懂的毕设选题，项目以及论文编写等相关问题都可以和学长沟通，希望帮助更多同学解决问题前言随着电子商务行业的迅猛发展，电商平台积累了海量的数据资源，这些数据不仅包括用户的基本信息、购物记录，还包括用户的浏览行为、评价反馈等多
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
spark常用命令我是浣熊的微笑 spark
查看报错日志：yarnlogsapplicationIDspark2-submit--masteryarn--classcom.hik.ReadHdfstest-1.0-SNAPSHOT.jar进入$SPARK_HOME目录，输入bin/spark-submit--help可以得到该命令的使用帮助。hadoop@wyy:/app/hadoop/spark100$bin/spark-submit--
spark启动命令学不会又听不懂 spark 大数据分布式
hadoop启动：cd/root/toolssstart-dfs.sh，只需在hadoop01上启动stop-dfs.sh日志查看：cat/root/toolss/hadoop/logs/hadoop-root-datanode-hadoop03.outzookeeper启动：cd/root/toolss/zookeeperbin/zkServer.shstart，三台都要启动bin/zkServ
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
Hadoop常见面试题整理及解答叶青舟 Linux hdfs 大数据 hadoop linux
Hadoop常见面试题整理及解答一、基础知识篇：1.把数据仓库从传统关系型数据库转到hadoop有什么优势？答：（1）关系型数据库成本高，且存储空间有限。而Hadoop使用较为廉价的机器存储数据，且Hadoop可以将大量机器构建成一个集群，并在集群中使用HDFS文件系统统一管理数据，极大的提高了数据的存储及处理能力。（2）关系型数据库仅支持标准结构化数据格式，Hadoop不仅支持标准结构化数据格式
2025毕业设计指南：如何用Hadoop构建超市进货推荐系统？大数据分析助力精准采购计算机编程指导师 Java实战集 Python实战集大数据实战集课程设计 hadoop 数据分析 spring boot java 进货 python
✍✍计算机编程指导师⭐⭐个人介绍：自己非常喜欢研究技术问题！专业做Java、Python、小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。⛽⛽实战项目：有源码或者技术上的问题欢迎在评论区一起讨论交流！⚡⚡Java实战|SpringBoot/SSMPython实战项目|Django微信小程序/安卓实战项目大数据实战项目⚡⚡文末获取源码文章目录⚡⚡文末获取源码基于hadoop的超市进货推荐系
Hadoop Common 之序列化机制小解猫君之上 #Apache Hadoop
1.JavaSerializable序列化该序列化通过ObjectInputStream的readObject实现序列化，ObjectOutputStream的writeObject实现反序列化。这不过此种序列化虽然跨病态兼容性强，但是因为存储过多的信息，但是传输效率比较低，所以hadoop弃用它。（序列化信息包括这个对象的类，类签名，类的所有静态，费静态成员的值，以及他们父类都要被写入）publ
深入理解hadoop(一)----Common的实现----Configuration maoxiao_jsd 深入理解----hadoop
属本人个人原创，转载请注明,希望对大家有帮助！！一,hadoop的配置管理a,hadoop通过独有的Configuration处理配置信息Configurationconf=newConfiguration();conf.addResource("core-default.xml");conf.addResource("core-site.xml");后者会覆盖前者中未final标记的相同配置项b
hadoop 0.22.0 部署笔记 weixin_33701564 大数据 java 运维
为什么80%的码农都做不了架构师？>>>因为需要使用hbase，所以开始对hbase进行学习。hbase是部署在hadoop平台上的NOSql数据库，因此在部署hbase之前需要先部署hadoop。环境：redhat5、hadoop-0.22.0.tar.gz、jdk-6u13-linux-i586.zipip192.168.1.128hostname：localhost.localdomain（
解决Windows环境下hadoop集群的运行_window运行hadoop,unknown hadoop01(4) 2401_84160087 大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！org.apache.hadoophadoop-com
解决Windows环境下hadoop集群的运行_window运行hadoop,unknown hadoop01(3) 2401_84160087 大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！xmlns:xsi="http://www.w3.or
深入解析HDFS：定义、架构、原理、应用场景及常用命令 CloudJourney hdfs 架构 hadoop
引言Hadoop分布式文件系统（HDFS，HadoopDistributedFileSystem）是Hadoop框架的核心组件之一，它提供了高可靠性、高可用性和高吞吐量的大规模数据存储和管理能力。本文将从HDFS的定义、架构、工作原理、应用场景以及常用命令等多个方面进行详细探讨，帮助读者全面深入地了解HDFS。1.HDFS的定义1.1什么是HDFSHDFS是Hadoop生态系统中的一个分布式文件系
Hadoop的搭建流程 lzhlizihang hadoop 大数据分布式
文章目录一、配置IP二、配置主机名三、配置主机映射四、关闭防火墙五、配置免密六、安装jdk1、第一步：2、第二步：3、第三步：4、第四步：5、第五步：七、安装hadoop1、上传2、解压3、重命名4、开始配置环境变量5、刷新配置文件6、验证hadoop命令是否可以识别八、全分布搭建7、修改配置文件core-site.xml8、修改配置文件hdfs-site.xml9、修改配置文件hadoop-en
hive搭建 -----内嵌模式和本地模式 lzhlizihang hive hadoop
文章目录一、内嵌模式（使用较少）1、上传、解压、重命名2、配置环境变量3、配置conf下的hive-env.sh4、修改conf下的hive-site.xml5、启动hadoop集群6、给hdfs创建文件夹7、修改hive-site.xml中的非法字符8、初始化元数据9、测试是否成功10、内嵌模式的缺点二、本地模式（最常用）1、检查mysql是否正常2、上传、解压、重命名3、配置环境变量4、修改c
Hadoop之mapreduce -- WrodCount案例以及各种概念 lzhlizihang hadoop mapreduce 大数据
文章目录一、MapReduce的优缺点二、MapReduce案例--WordCount1、导包2、Mapper方法3、Partitioner方法（自定义分区器）4、reducer方法5、driver（main方法）6、Writable（手机流量统计案例的实体类）三、关于片和块1、什么是片，什么是块？2、mapreduce启动多少个MapTask任务？四、MapReduce的原理五、Shuffle过
IAAS: IT公司去IOE-Alibaba系统构架解读 wishchin 心理学/职业 BigDataMini Spark PaaS
从Hadoop到自主研发，技术解读阿里去IOE后的系统架构原地址：......................云计算阿里飞天摘要：从IOE时代，到Hadoop与飞天并行，再到飞天单集群5000节点的实现，阿里一直摸索在技术衍变的前沿。这里，我们将从架构、性能、运维等多个方面深入了解阿里基础设施。【导读】互联网的普及，智能终端的增加，大数据时代悄然而至。在这个数据为王的时代，数十倍、数百倍的数据给各
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite