w_t_y_y

MapReduce阶段性总结实例一

一、

源数据：

13156578896 123 456
13156578896 123 456
13155555555 333 555
13726230503 2481 24681
13826544101 264 0
13926435656 132 1512 1644
18784965678 123 567
18845678909 67890 345
12345678999 908 888
13344445555 9999 7777
12345678999 908 888
13344445555 9999 7777
13145678901 678 456

从上面的数据中得到每个手机的上行流量、下行流量、总流量。

1.数据分析：

（1.）数据格式为：

手机号，上行流量，下行流量

（2.）想要得到的数据格式为：

[html] view plain copy

手机号上行流量下行流量总流量
13726230503 2481 24681 27162
13826544101 264 0 264
13926435656 132 1512 1644
... ... ...

2.思路分析：

由于源数据中每一个手机号可能存在多条上网记录，最后要得到的输出格式是一个手机号的所有上行流量、下行流量和总流量。所以可以考虑利用MapReduce框架的特性，将每个手机号作为map的输出key，该手机号上网信息作为map的输出value，经过shuffle，则在reduce端接收到一个，其中，key手机号，value-list为该手机号所对应的一些上网信息的集合。这里有一个问题，由于map和reduce输入输出都为key-value键值对形式，所以必须将手机的上网信息（上行流量、下行流量）封装成一个Bean类，将这个类作为value。由于数据需要在不同的节点间进行网络传输，所以Bean类必须实现序列化和反序列化，Hadoop提供了一套序列化机制（实现Writable接口）。

3.代码如下：

com.phone.Phone:

package com.phone;

import java.io.DataInput;  
import java.io.DataOutput;  
import java.io.IOException;  
 
import org.apache.hadoop.io.Writable;  
 
public class Phone  implements Writable {  
 
   private String phoneNB;  
   private long up_flow;  
   private long down_flow;  
   private long sum_flow;  
 
   // 在反序列化时，反射机制需要调用空参构造函数，所以显示定义了一个空参构造函数  
   public Phone() {  
   }  
 
   // 为了对象数据的初始化方便，加入一个带参的构造函数  
   public Phone(String phoneNB, long up_flow, long down_flow) {  
       this.phoneNB = phoneNB;  
       this.up_flow = up_flow;  
       this.down_flow = down_flow;  
       this.sum_flow = up_flow + down_flow;  
   }  
 
   // 将对象的数据序列化到流中  
   @Override  
   public void write(DataOutput out) throws IOException {  
       out.writeUTF(phoneNB);  
       out.writeLong(up_flow);  
       out.writeLong(down_flow);  
       out.writeLong(sum_flow);  
   }  
 
   // 从流中反序列化出对象的数据  
   // 从数据流中读出对象字段时，必须跟序列化时的顺序保持一致  
   @Override  
   public void readFields(DataInput in) throws IOException {  
       this.phoneNB = in.readUTF();  
       this.up_flow = in.readLong();  
       this.down_flow = in.readLong();  
       this.sum_flow = in.readLong();  
   }  
 
   public String getPhoneNB() {  
       return phoneNB;  
   }  
 
   public void setPhoneNB(String phoneNB) {  
       this.phoneNB = phoneNB;  
   }  
 
   public long getUp_flow() {  
       return up_flow;  
   }  
 
   public void setUp_flow(long up_flow) {  
       this.up_flow = up_flow;  
   }  
 
   public long getDown_flow() {  
       return down_flow;  
   }  
 
   public void setDown_flow(long down_flow) {  
       this.down_flow = down_flow;  
   }  
 
   public long getSum_flow() {  
       return sum_flow;  
   }  
 
   public void setSum_flow(long sum_flow) {  
       this.sum_flow = sum_flow;  
   }  
 
   @Override  
   public String toString() {  
       return "" + up_flow + "\t" + down_flow + "\t" + sum_flow;  
   }  
}

com.phone.PhoneOutPut:

package com.phone;
import org.apache.hadoop.mapreduce.Reducer;  
import java.io.IOException;  

import org.apache.commons.lang.StringUtils;  
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;  
import org.apache.hadoop.io.Text;  
import org.apache.hadoop.mapreduce.Mapper;  
import org.apache.hadoop.conf.Configuration;  
import org.apache.hadoop.conf.Configured;  
import org.apache.hadoop.fs.Path;  
import org.apache.hadoop.io.Text;  
import org.apache.hadoop.mapreduce.Job;  
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;  
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;  
import org.apache.hadoop.util.GenericOptionsParser;
import org.apache.hadoop.util.Tool;  
import org.apache.hadoop.util.ToolRunner; 

import com.zt.Sort;
import com.zt.Sort.Map;
import com.zt.Sort.Reduce;
import com.zt.WordCount.IntSumReducer;

public class PhoneOutPut {
	
	
	 public static class FlowSumMapper extends Mapper {  
	      
		      
		    public  void map(LongWritable k1, Text v1,  
		            Context context)  
		            throws IOException, InterruptedException {  
		        // 一行数据  
		        String line = v1.toString();  
		        // 切分数据  
		        /*String[] fields = StringUtils.split(line, "\t");  
		        // 得到想要的手机号、上行流量、下行流量  
		        String phoneNB = fields[1];  
		        long up_flow = Long.parseLong(fields[7]);  
		        long down_flow = Long.parseLong(fields[8]);  */
		    	
		        String fileds[]=line.split(" ");
		        String phoneNB=fileds[0];
		        long up_flow = Long.parseLong(fileds[1]);  
		        long down_flow = Long.parseLong(fileds[2]); 
		        
		        // 封装数据为kv并输出  
		       // System.out.println(phoneNB+"  流量一:"+up_flow+" 流量二:"+down_flow);
		        context.write(new Text(phoneNB), new Phone(phoneNB, up_flow,  
		                down_flow));  
		  //  System.out.println(new Phone(phoneNB, up_flow, down_flow));  
		  
		    }  
		}  
	 
	 
	 public  static class FlowSumReducer extends Reducer {  
		 
		  
		    // 框架每传递一组数据<1387788654,{Phone,Phone,Phone,Phone.....}>调用一次我们的reduce方法  
		    // reduce中的业务逻辑就是遍历values，然后进行累加求和再输出  
		     
		    public  void reduce(Text k2, Iterable v2s,  
		           Context context)  
		            throws IOException, InterruptedException {  
		    	 
		        long up_flow = 0;  
		        long down_flow = 0;  
		  
		        for (Phone v2 : v2s) {  
		            up_flow += v2.getUp_flow();  
		            down_flow += v2.getDown_flow();  
		        }  
		       context.write(k2, new Phone(k2.toString(), up_flow, down_flow));  //打印对象时调用toString方法
		        System.out.println(k2+" "+new Phone(k2.toString(), up_flow, down_flow));
		     /*   LongWritable l=new LongWritable(up_flow);
		        context.write(k2, l);*/
		    }  
		}  
	 
	 
	 
	 public static void main(String[] args) throws Exception {  
		 Configuration conf = new Configuration();


	     String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();

	     if (otherArgs.length != 2) {

	     System.err.println("Usage: Data Sort  ");

	         System.exit(2);

	     }

	     

	     Job job = new Job(conf, "phone1");

	     job.setJarByClass(PhoneOutPut.class);

	     

	     //设置Map和Reduce处理类

	     job.setMapperClass(FlowSumMapper.class);  
	     job.setCombinerClass(FlowSumReducer.class);  
	        job.setReducerClass(FlowSumReducer.class);  

	     

	     //设置输出类型

	        job.setOutputKeyClass(Text.class);  
	        job.setOutputValueClass(Phone.class);  

	     

	     //设置输入和输出目录

	     FileInputFormat.addInputPath(job, new Path(otherArgs[0]));

	     FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

	     System.exit(job.waitForCompletion(true) ? 0 : 1);

	     }

	}

context.write相当于java中的System.out.print()，而打印类的对象时会调用该类的toString()方法，所以这里用context.write()可以将覆写的toString()方法里面的内容输出到hdfs的文件夹中。

输出如下：

12345678999	1816	1776	3592
13145678901	678	456	1134
13155555555	333	555	888
13156578896	246	912	1158
13344445555	19998	15554	35552
13726230503	2481	24681	27162
13826544101	264	0	264
13926435656	132	1512	1644
18784965678	123	567	690
18845678909	67890	345	68235

二、引入hadoop自定义排序

从上面得到的结果可以看出来，hadoop默认将结果按照mapper的输出按照key来进行升序排序，如果我们想要自定义排序结果（比如按照总流量从高到低排序），该如何做呢？了解shuffle的都知道，shuffle过程中，会将map的输出结果按照key进行排序，所以只需要将Phone作为map输出的key值，前提是Phone实现了Comparable接口。在hadoop中既实现Writable接口，又实现Comparable接口，可以简写为实现了WritableComparable接口。

源数据：

13156578897 123 456
13156578896 123 456
13155555555 333 555
13726230503 2481 24681
13826544101 264 0
13926435656 132 1512 1644
18784965678 123 567
18845678909 67890 345
12345678999 908 888
13344445555 9999 7777
12345678999 908 888
13344445555 9999 7777
13145678901 678 456

com.zort.MyPhone：

package com.zort;

import java.io.DataInput;  
import java.io.DataOutput;  
import java.io.IOException;  
 
import org.apache.hadoop.io.WritableComparable;  
 
public class MyPhone implements WritableComparable {  
 
   private String phoneNB;  
   private long up_flow;  
   private long down_flow;  
   private long sum_flow;  
 
   // 在反序列化时，反射机制需要调用空参构造函数，所以显示定义了一个空参构造函数  
   public MyPhone() {  
   }  
 
   // 为了对象数据的初始化方便，加入一个带参的构造函数  
   public MyPhone(String phoneNB, long up_flow, long down_flow) {  
       this.phoneNB = phoneNB;  
       this.up_flow = up_flow;  
       this.down_flow = down_flow;  
       this.sum_flow = up_flow + down_flow;  
   }  
 
   // 将对象的数据序列化到流中  
   @Override  
   public void write(DataOutput out) throws IOException {  
       out.writeUTF(phoneNB);  
       out.writeLong(up_flow);  
       out.writeLong(down_flow);  
       out.writeLong(sum_flow);  
   }  
 
   // 从流中反序列化出对象的数据  
   // 从数据流中读出对象字段时，必须跟序列化时的顺序保持一致  
   @Override  
   public void readFields(DataInput in) throws IOException {  
       this.phoneNB = in.readUTF();  
       this.up_flow = in.readLong();  
       this.down_flow = in.readLong();  
       this.sum_flow = in.readLong();  
   }  
 
   public String getPhoneNB() {  
       return phoneNB;  
   }  
 
   public void setPhoneNB(String phoneNB) {  
       this.phoneNB = phoneNB;  
   }  
 
   public long getUp_flow() {  
       return up_flow;  
   }  
 
   public void setUp_flow(long up_flow) {  
       this.up_flow = up_flow;  
   }  
 
   public long getDown_flow() {  
       return down_flow;  
   }  
 
   public void setDown_flow(long down_flow) {  
       this.down_flow = down_flow;  
   }  
 
   public long getSum_flow() {  
       return sum_flow;  
   }  
 
   public void setSum_flow(long sum_flow) {  
       this.sum_flow = sum_flow;  
   }  
 
   @Override  
   public String toString() {  
       return "" + up_flow + "\t" + down_flow + "\t" + sum_flow;  
   }  
 
   // 实现Comparable接口，需要复写compareTo方法  
   @Override  
   public int compareTo(MyPhone o) {  
       return this.sum_flow > o.sum_flow ? -1 : 1;  
   }  
}

com.zort.PhoneSort:

package com.zort;

import java.io.IOException;  

import org.apache.commons.lang.StringUtils;  
import org.apache.hadoop.conf.Configuration;  
import org.apache.hadoop.fs.Path;  
import org.apache.hadoop.io.LongWritable;  
import org.apache.hadoop.io.NullWritable;  
import org.apache.hadoop.io.Text;  
import org.apache.hadoop.mapreduce.Job;  
import org.apache.hadoop.mapreduce.Mapper;  
import org.apache.hadoop.mapreduce.Reducer;  
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;  
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;  
 
public class PhoneSort {  
 
   public static class SortMapper extends  
           Mapper {  
       @Override  
       protected void map(  
               LongWritable k1,  
               Text v1,  
               Mapper.Context context)  
               throws IOException, InterruptedException {  
             
           String line = v1.toString();  
           String[] fields = line.split(" ");
 
           String phoneNB = fields[0];  
           long up_flow = Long.parseLong(fields[1]);  
           long down_flow = Long.parseLong(fields[2]);  
 
           context.write(new MyPhone(phoneNB, up_flow, down_flow),  
                   NullWritable.get());  
       }  
   }  
 
   public static class SortReducer extends  
           Reducer {  
       @Override  
       protected void reduce(MyPhone k2, Iterable v2s,  
               Reducer.Context context)  
               throws IOException, InterruptedException {  
           String phoneNB = k2.getPhoneNB();  
           context.write(new Text(phoneNB), k2);  
       }  
   }  
 
   public static void main(String[] args) throws IOException,  
           ClassNotFoundException, InterruptedException {  
 
       Configuration conf = new Configuration();  
       Job job = Job.getInstance(conf);  
 
       job.setJarByClass(PhoneSort.class);  
 
       job.setMapperClass(SortMapper.class);  
       job.setReducerClass(SortReducer.class);  
 
       job.setMapOutputKeyClass(MyPhone.class);  
       job.setMapOutputValueClass(NullWritable.class);  
 
       job.setOutputKeyClass(Text.class);  
       job.setOutputValueClass(MyPhone.class);  
 
       FileInputFormat.setInputPaths(job, new Path(args[0]));  
       FileOutputFormat.setOutputPath(job, new Path(args[1]));  
 
       System.exit(job.waitForCompletion(true) ? 0 : 1);  
   }  
}

输出如下：

18845678909	67890	345	68235
13726230503	2481	24681	27162
13344445555	9999	7777	17776
13344445555	9999	7777	17776
12345678999	908	888	1796
12345678999	908	888	1796
13926435656	132	1512	1644
13145678901	678	456	1134
13155555555	333	555	888
18784965678	123	567	690
13156578897	123	456	579
13156578896	123	456	579
13826544101	264	0	264

三、引入Hadoop分区功能

如果信息特别多，想要将最后的结果分别存放在不通过的文件中，该怎么办呢？可以使用Hadoop提供的Partitioner函数，hadoop默认使用HashPartitioner。可以查看下Hadoop源码：

    public class HashPartitioner extends Partitioner {  
      
      /** Use {@link Object#hashCode()} to partition. */  
      public int getPartition(K key, V value,  
                              int numReduceTasks) {  
        return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;  
      }  
      
    }

HashPartitioner是处理Mapper任务输出的，getPartition()方法有三个形参，key、value分别指的是Mapper任务的输出，numReduceTasks指的是设置的Reducer任务数量，默认值是1。那么任何整数与1相除的余数肯定是0。也就是说getPartition(…)方法的返回值总是0。也就是Mapper任务的输出总是送给一个Reducer任务，最终只能输出到一个文件中。据此分析，如果想要最终输出到多个文件中，在Mapper任务中对数据应该划分到多个区中。比如下面统计考试的总得分：

源数据：

小明 第一次考试 100 90 80
小李 第一次考试 60 61 64
小王 第一次考试 30 40 50
小明 第二次考试 89 90 80
小李 第二次考试 60 71 64
小王 第二次考试 31 40 50
小宋 第一次考试 30 20 40
小张 第一次考试 20 30 55
小明 第三次考试 78 90 80

序列化类：

package com.sum;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

import org.apache.hadoop.io.Writable;

public class Sum  implements Writable{
	private int chiness;
	private int math;
	private int english;
	private int sum;
	public Sum(){
		
	}
	
	public Sum(int chiness,int math,int english){
		this.chiness=chiness;
		this.math=math;
		this.english=english;
		this.sum=this.chiness+this.math+this.english;
	}
	
	public int getChiness(){
		return this.chiness;
	}
	public int getMath(){
		return this.math;
	}
	public int getEnglish(){
		return this.english;
	}
	public int getSum(){
		return this.sum;
	}
	public String toString(){
		return "语文:"+this.chiness+"数学："+this.math+"英语："+this.english+"总分："+this.sum;
	}

	@Override
	public void readFields(DataInput in) throws IOException {
		// TODO Auto-generated method stub
		this.chiness=in.readInt();
		this.math=in.readInt();
		this.english=in.readInt();
		this.sum=in.readInt();
		
	}

	@Override
	public void write(DataOutput out) throws IOException {
		// TODO Auto-generated method stub
		out.writeInt(chiness);
		out.writeInt(math);
		out.writeInt(english);
		out.writeInt(sum);
	}

}

分区类：

package com.sum;


import java.util.HashMap;  
import java.util.StringTokenizer;

import org.apache.hadoop.io.Text;  
import org.apache.hadoop.mapreduce.Partitioner;  
 
public class position extends Partitioner {  //输出
 
   private static HashMap areaMap = new HashMap<>();  
 
   static {  
       areaMap.put("小明", 0);  
       areaMap.put("小宋", 1);  
       areaMap.put("小张", 2);  
       areaMap.put("小王", 3);  
       
   }  
 
   @Override  
   public int getPartition(Text key, Sum value, int numPartitions) {  
       // 
	   String p=key.toString();
	   StringTokenizer p1=new StringTokenizer(p);
	   String id="";
	   while(p1.hasMoreElements()){
		   id=p1.nextToken();
	   }
       Integer areCoder = areaMap.get(id); 
       if (areCoder == null) {  
           areCoder = 4;  
       }  
       return areCoder;  
   }


}

MapReduce类：

package com.sum;

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.hdfs.server.namenode.Content;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

import com.phone.Phone;
import com.phone.PhoneOutPut;
import com.phone.PhoneOutPut.FlowSumMapper;
import com.phone.PhoneOutPut.FlowSumReducer;
import com.position.AreaPartitioner;

public class SumPosition{
	
	public static class Map extends Mapper{
		public void map(LongWritable key,Text value,Context context) throws IOException, InterruptedException{
			String p=value.toString();
			String name="";
			int chiness=0;
			int math=0;
			int english=0;
			/*String []text=p.split(" ");
			String name=text[0];
			int chiness=Integer.parseInt(text[2]);
			int math=Integer.parseInt(text[3]);
			int english=Integer.parseInt(text[4]);*/
			StringTokenizer token=new StringTokenizer(p);
			while(token.hasMoreElements()){
				name=token.nextToken();
				String count=token.nextToken();
				chiness=Integer.parseInt(token.nextToken());
			    math=Integer.parseInt(token.nextToken());
				english=Integer.parseInt(token.nextToken());
				
			}
			System.out.println(name+"  "+chiness+"  "+math+"  "+english);
			context.write(new Text(name), new Sum(chiness,math,english));
		}
		
	}
	
	public static class Reduce extends Reducer{
		public void reduce(Text key,Iterable value,Context context) throws IOException, InterruptedException{
			int chiness=0;
			int math=0;
			int english=0;
			for(Sum  v:value ){
				chiness+=v.getChiness();;
				math+=v.getMath();
				english+=v.getEnglish();
				
			}
			context.write(key, new Sum(chiness,math,english));
		}
	}
	
	public static void main(String args[]) throws IOException, ClassNotFoundException, InterruptedException{
		 Configuration conf = new Configuration();


	     String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();

	     if (otherArgs.length != 2) {

	     System.err.println("Usage: Data Sort  ");

	         System.exit(2);

	     }

	     

	     Job job = new Job(conf, "sum");

	     job.setJarByClass(SumOutPut.class);

	     

	     //设置Map和Reduce处理类

	     job.setMapperClass(Map.class);  
	     job.setCombinerClass(Reduce.class);  
	        job.setReducerClass(Reduce.class);  
	        // 定义分组逻辑类  
	        job.setPartitionerClass(position.class);  
	     

	     //设置输出类型

	        job.setOutputKeyClass(Text.class);  
	        job.setOutputValueClass(Sum.class);  

	        job.setNumReduceTasks(5);  
	        

	     //设置输入和输出目录

	     FileInputFormat.addInputPath(job, new Path(otherArgs[0]));

	     FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

	     System.exit(job.waitForCompletion(true) ? 0 : 1);

	     }



}

输出文件夹中一共生成了5个文件：

小明	语文:267数学：270英语：240总分：777

小宋	语文:30数学：20英语：40总分：90

小张	语文:20数学：30英语：55总分：105

小王	语文:61数学：80英语：100总分：241

小李	语文:120数学：132英语：128总分：380

Hadoop 集群规划与部署最佳实践 AI天才研究院 Python实战 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2009年2月2日，ApacheHadoop项目诞生。它是一个开源的分布式系统基础架构，用于存储、处理和分析海量的数据。Hadoop具有高容错性、可靠性、可扩展性、适应性等特征，因而广泛应用于数据仓库、日志分析、网络流量监测、推荐引擎、搜索引擎等领域。由于Hadoop采用“分而治之”的架构设计理念，因此可以轻松应对数据量、计算能力和存储成本的增长。2013年底，
MySQL 到 Hadoop：Sqoop 数据迁移 ETL Ice星空 ETL
文章目录ETL：Extract-Transform-Load数据迁移过程一、Extract数据抽取1.ODS：OperationalDataStore-可操作数据存储2.DW：DataWarehouse-数据仓库3.DM：DataMart-数据集市二、Transform数据清洗和转换1.数据清洗2.数据转换三、Load数据加载四、数据迁移方法1.Sqoop1.1MySQL->Hive1.1.1im
HBase安装 lianhedaxue Hadoop hbase
HBase安装本章将介绍如何安装HBase和初始配置。需要用Java和Hadoop来处理HBase，所以必须下载java和Hadoop并安装系统中。安装前设置安装Hadoop在Linux环境下之前，需要建立和使用LinuxSSH(安全Shell)。按照下面设立Linux环境提供的步骤。创建一个用户首先，建议从Unix创建一个单独的Hadoop用户，文件系统隔离Hadoop文件系统。按照下面给出创建
HBase的架构介绍，安装及简单操作 pk_xz123456 大数据 hbase 架构数据库
一、HBase安装1.环境准备Java环境：确保系统中已经安装了Java8或更高版本。可以通过在命令行中输入java-version来检查Java版本。Hadoop环境：HBase依赖于Hadoop，需要先安装并配置好Hadoop集群。确保Hadoop的相关服务（如HDFS、YARN等）已经正常启动。2.下载HBase从HBase官方网站（https://hbase.apache.org/）下载适
HDFS相关的面试题努力的搬砖人. java 面试 hdfs
以下是150道HDFS相关的面试题，涵盖了HDFS的基本概念、架构、操作、数据存储、高可用性、权限管理、性能优化、容错机制、与MapReduce的结合、安全性、数据压缩、监控与管理、与YARN的关系、数据一致性、数据备份与恢复等方面，希望对你有所帮助。HDFS基本概念1.HDFS是什么？它的设计目标是什么？•HDFS是Hadoop分布式文件系统，设计目标是实现对大规模数据的高吞吐量访问，适用于一次
hadoop3.x--搭建hadoop高可用集群（HA模式）运维小菜 hadoop hadoop hdfs
hadoop高可用集群（HA模式）一、安装前1.集群规划2.安装前配置3.安装jdk与hadoop4.克隆虚拟机与互信配置5.搭建zookeeper集群二、HDFS1.配置hdfs2.初始化启动hdfs集群三、MapReduce与Yarn1.配置MapReduce2.配置yarn3.启动yarn四、验证1.查看java进程2.hdfs与yarn前台页面一、安装前1.集群规划hostnameipNN
在虚拟机上安装Hadoop 杜清卿 hadoop
基本步骤与安装java一致:先用finalshell将hadoop-3.1.3.tar.gz导入到opt目录下面的software文件夹下面，然后解压,最后配置环境变量。1.使用finalshell上传。这里直接鼠标拖动操作即可。2.解压。进入到Hadoop安装包路径下，cd/opt/software/，再解压安装文件到/opt/module下，对应的命令是:tar-zxvfhadoop-.1.3
hadoop集群配置-scp拓展使用杜清卿 hadoop 服务器大数据
任务1：在hadoop102上，将hadoop101中/opt/module/hadoop-3.1.3目录拷贝到hadoop102上。分析：使用scp进行拉取操作：先登录到hadoop2使用命令：scp-rroot@hadoop101:/opt/module/hadoop-3.1.3/opt/module/任务2：在hadoop101上操作，将hadoop100中/opt/module目录下所有目
大数据学习（75）-大数据组件总结 viperrrrrrr 大数据 impala yarn hdfs hive CDH mapreduce
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
ssh命令满分对我强制爱 linux 服务器运维 spark
ssh命令无需密码也可登录要先关闭防火墙，命令如下：systemctlstopfirewalldsystemctldisablefirewalldsystemctlstatusfirewalldeg：目标：hadoop100通过ssh访问hadoop101,hadoop102时不需要密码，其他两台设备也类似。具体操作如下：1.在hadoop100中生成公钥和密码。ssh-keygen-trsa三次
Hive面试题御风行云天面试题大全 hive hadoop 数据仓库面试
Hive面试题1Hive基础概念1.1解释Hive是什么以及它的用途Hive的主要用途：1.2描述Hive架构和组件1.HiveCLI/Beeline和WebUI2.HiveQL3.HiveDriver（驱动）4.Metastore5.Compiler（编译器）6.Optimizer（优化器）7.Executor（执行器）8.HadoopCoreComponents（核心组件）9.HiveUDFs
#Hadoop全分布式安装 #mysql安装 #hive安装砸吧砸吧 hadoop hive yarn mysql
分布式（多台机器部署不同组件）与集群（多台机器部署相同组件）概念。Linux基础命令linux具有文件数：目录、文件，从根目录开始，路径具有唯一性。pwd：显示当前路径特殊符号：/：根目录.：隐藏文件，如果路径以.开始，表示当前目录下..：当前目录下的上一级~：当前目录的home目录--help：帮助命令使用linux常用操作命令tab键：自动补全ls：显示指定目录内容默认：当前路径-a：显示所有
Hadoop（在Linux中安装jdk）錠诗味 linux hadoop 运维
安装之前需准备：1.需要远程连接软件2.需要jdk3.需要准备两个文件夹01/export/software安装包02/export/servers解压文件夹现在正式开始安装1.将压缩包存放在/export/software目录下2.进入到software目录进行解压cd/export/software（切换目录）tar-zxvfjdk-8u202-linux-x64.tar.gz-C/expor
数据仓库和非结构化数据。 weixin_30631587 数据库
数据仓库包含标准化数据。还包含外部数据/非结构化数据如果外部数据量小可以保持数据库内部或者专用服务器。如果量大只能记住地址，在etl加载当然也有需求是实时数据比如股票汇率拿只能etl过程处理非结构化数据包含图片，视频音频如果是传统数据库db2oracle存在里面是不合适的。存储影响性能如果是hadoop无所谓影响不大，但是从使用者的角度非结构化数据只能转换关系使用建一张元数据表存储非结构化存储位置
CentOS 7系统中hadoop的安装和环境配置代码小张z centos hadoop linux
1.创建Hadoop安装解压路径：mkdir-p/usr/hadoop2.进入路径：cd/usr/hadoop3.下载安装包（我这里用的是阿里云镜像压缩包）：wgethttps://mirrors.aliyun.com/apache/hadoop/common/hadoop-3.3.5/hadoop-3.3.5.tar.gz4.解压安装包到hadoop文件路径：tar-zxvf/usr/hadoo
尚硅谷电商数仓6.0，hive on spark,spark启动不了新时代赚钱战士 hive spark hadoop
在datagrip执行分区插入语句时报错[42000][40000]Errorwhilecompilingstatement:FAILED:SemanticExceptionFailedtogetasparksession:org.apache.hadoop.hive.ql.metadata.HiveException:FailedtocreateSparkclientforSparksessio
数据中台（二）数据中台相关技术栈 Yuan_CSDF #数据中台
1.平台搭建1.1.Amabari+HDP1.2.CM+CDH2.相关的技术栈数据存储：HDFS，HBase，Kudu等数据计算：MapReduce,Spark,Flink交互式查询：Impala,Presto在线实时分析：ClickHouse，Kylin，Doris，Druid，Kudu等资源调度：YARN，Mesos，Kubernetes任务调度：Oozie，Azakaban，AirFlow，
Hadoop相关面试题努力的搬砖人. java 面试 hadoop
以下是150道Hadoop面试题及其详细回答，涵盖了Hadoop的基础知识、HDFS、MapReduce、YARN、HBase、Hive、Sqoop、Flume、ZooKeeper等多个方面，每道题目都尽量详细且简单易懂：Hadoop基础概念类1.什么是Hadoop？Hadoop是一个由Apache基金会开发的开源分布式计算框架，主要用于处理和存储大规模数据集。它提供了高容错性和高扩展性的分布式存
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
Apache storm 赵世炎 storm hadoop
Apachestorm是一个分布式的实时大数据处理系统。用于在容错和水平可拓展方法中处理大量数据。它是一个流数据框架，具有很高的摄取率，无状态。通过zk管理分布式环境和集群状态，并行地对实时数据执行各种操作。storm易于设置和操作，并且它保证每个消息将通过拓扑至少处理一次。基本上Hadoop和Storm框架用于分析大数据。两者互补，在某些方面有所不同。ApacheStorm执行除持久性之外的所有
什么是Apache Avro？ maozexijr apache
什么是ApacheAvro？ApacheAvro是一个开源的数据序列化框架，主要用于高效的数据交换和存储。它由ApacheHadoop项目开发，广泛应用于大数据生态系统中（如Hadoop、Kafka等）。Avro提供了一种紧凑、快速的二进制数据格式，同时支持丰富的数据结构和模式演化。核心特性跨语言支持Avro支持多种编程语言（如Java、Python、C++、Go等），使得不同语言之间的数据交换变
计算机毕业设计之基于Hadoop的热点新闻分析系统的设计与实现微信bishe69 课程设计 python django mysql
近些年来，随着科技的飞速发展，互联网的普及逐渐延伸到各行各业中，给人们生活带来了十分的便利，热点新闻分析系统利用计算机网络实现信息化管理，使整个热点新闻分析的发展和服务水平有显著提升。本文拟采用PyCharm开发工具，django框架、Python语言、Hadoop大数据处理技术进行开发，后台使用MySQL数据库进行信息管理，设计开发的热点新闻分析系统。通过调研和分析，系统拥有管理员和用户两个模块
Hadoop 实战笔记（二）-- HDFS 常用 shell 命令总结 dazhong2012 Hadoop hdfs hadoop
一、HDFS命令显示当前目录结构#显示当前目录结构hadoopfs-ls#递归显示当前目录结构hadoopfs-ls-R#显示根目录下内容hadoopfs-ls/创建目录#创建目录hadoopfs-mkdir#递归创建目录hadoopfs-mkdir-p删除操作#删除文件hadoopfs-rm#递归删除目录和文件hadoopfs-rm-R从本地加载文件到HDFS#二选一执行即可hadoopfs-p
How Spark Read Sftp Files from Hadoop SFTP FileSystem IT•轩辕 Cloudy Computation spark hadoop 大数据
GradleDependenciesimplementation('org.apache.spark:spark-sql_2.13:3.5.3'){excludegroup:"org.apache.logging.log4j",module:"log4j-slf4j2-impl"}implementation('org.apache.hadoop:hadoop-common:3.3.4'){exc
中电金信25/3/18面前笔试（需求分析岗+数据开发岗）苍曦需求分析前端 javascript
部分相同题目在第二次数据开发岗中不做解析，本次解析来源于豆包AI，正确与否有待商榷，本文只提供一个速查与知识点的补充。一、需求分析第1题，单选题,Hadoop的核心组件包括HDFS和以下哪个？MapReduceSparkStormFlink解析：Hadoop的核心组件是HDFS（分布式文件系统）和MapReduce（分布式计算框架）。Spark、Storm、Flink虽然也是大数据处理相关技术，但
Spark集群启动与关闭陈沐 spark spark hadoop big data
Hadoop集群和Spark的启动与关闭Hadoop集群开启三台虚拟机均启动ZookeeperzkServer.shstartMaster1上面执行启动HDFSstart-dfs.shslave1上面执行开启YARNstart-yarn.shslave2上面执行开启YARN的资源管理器yarn-daemon.shstartresourcemanager(如果nodeManager没有启动(正常情况
Hive函数大全：从核心内置函数到自定义UDF实战指南（附详细案例与总结）一个天蝎座白勺程序猿大数据开发从入门到实战合集 hive hadoop 数据仓库
目录背景‌一、Hive函数分类与核心函数表‌1.内置函数分类‌2.用户自定义函数（UDF）分类二、常用函数详解与实战案例‌1.数学函数‌2.字符串函数‌3.窗口函数‌4.自定义UDF实战‌三、总结与优化建议‌1.核心总结2.性能优化建议‌3.常问问题背景‌Hive作为Hadoop生态中最常用的数据仓库工具，其强大的函数库是高效处理和分析海量数据的核心能力之一。Hive函数分为‌内置函数‌和‌用户自
Hadoop MapReduce 词频统计（WordCount）代码解析教程我不是少爷. Java基础 hadoop mapreduce 大数据
一、概述这是一个基于HadoopMapReduce框架实现的经典词频统计程序。程序会统计输入文本中每个单词出现的次数，并将结果输出到HDFS文件系统。二、代码结构packagecom.bigdata.wc;//Hadoop核心类库导入importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;//数据类型定义
介绍 Apache Spark 的基本概念和在大数据分析中的应用佛渡红尘 apache
ApacheSpark是一个开源的集群计算框架，最初由加州大学伯克利分校的AMPLab开发，用于大规模数据处理和分析。相比于传统的MapReduce框架，Spark具有更快的数据处理速度和更强大的计算能力。ApacheSpark的基本概念包括：弹性分布式数据集（RDD）：是Spark中基本的数据抽象，是一个可并行操作的分区记录集合。RDD可以在集群中的节点间进行分布式计算。转换（Transform
knob UI插件使用换个号韩国红果果 JavaScript jsonp knob
图形是用canvas绘制的 js代码 var paras = { max:800, min:100, skin:'tron',//button type thickness:.3,//button width width:'200',//define canvas width.,canvas height displayInput:'tr
Android+Jquery Mobile学习系列(5)-SQLite数据库白糖_ JQuery Mobile
目录导航 SQLite是轻量级的、嵌入式的、关系型数据库，目前已经在iPhone、Android等手机系统中使用,SQLite可移植性好，很容易使用，很小，高效而且可靠。因为Android已经集成了SQLite，所以开发人员无需引入任何JAR包，而且Android也针对SQLite封装了专属的API，调用起来非常快捷方便。我也是第一次接触S
impala-2.1.2-CDH5.3.2 dayutianfei impala
最近在整理impala编译的东西，简单记录几个要点：根据官网的信息（https://github.com/cloudera/Impala/wiki/How-to-build-Impala）： 1. 首次编译impala，推荐使用命令： ${IMPALA_HOME}/buildall.sh -skiptests -build_shared_libs -format 2.仅编译BE ${I
求二进制数中1的个数周凡杨 java 算法二进制
解法一：对于一个正整数如果是偶数，该数的二进制数的最后一位是 0 ，反之若是奇数，则该数的二进制数的最后一位是 1 。因此，可以考虑利用位移、判断奇偶来实现。 public int bitCount(int x){ int count = 0; while(x!=0){ if(x%2!=0){ /
spring中hibernate及事务配置 g21121 Hibernate
hibernate的sessionFactory配置：  <bean id="sessionFactory" class="org.springframework.orm.hibernate3.LocalSessionFactoryBean"> <
log4j.properties 使用 510888780 log4j
log4j.properties 使用一.参数意义说明输出级别的种类 ERROR、WARN、INFO、DEBUG ERROR 为严重错误主要是程序的错误 WARN 为一般警告，比如session丢失 INFO 为一般要显示的信息，比如登录登出 DEBUG 为程序的调试信息配置日志信息输出目的地 log4j.appender.appenderName = fully.qua
Spring mvc-jfreeChart柱图（2）布衣凌宇 jfreechart
上一篇中生成的图是静态的，这篇将按条件进行搜索，并统计成图表，左面为统计图，右面显示搜索出的结果。第一步：导包第二步；配置web.xml(上一篇有代码) 建BarRenderer类用于柱子颜色 import java.awt.Color; import java.awt.Paint; import org.jfree.chart.renderer.category.BarR
我的spring学习笔记14-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。 PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java
maven 之 cobertura 简单使用 antlove maven test unit cobertura report
1. 创建一个maven项目 2. 创建com.CoberturaStart.java package com; public class CoberturaStart { public void helloEveryone(){ System.out.println("=================================================
程序的执行顺序百合不是茶 JAVA执行顺序
刚在看java核心技术时发现对java的执行顺序不是很明白了,百度一下也没有找到适合自己的资料,所以就简单的回顾一下吧代码如下; 经典的程序执行面试题 //关于程序执行的顺序 //例如： //定义一个基类 public class A(){ public A(
设置session失效的几种方法 bijian1013 web.xml session失效监听器
在系统登录后，都会设置一个当前session失效的时间，以确保在用户长时间不与服务器交互，自动退出登录，销毁session。具体设置很简单，方法有三种：（1）在主页面或者公共页面中加入：session.setMaxInactiveInterval(900);参数900单位是秒，即在没有活动15分钟后，session将失效。这里要注意这个session设置的时间是根据服务器来计算的，而不是客户端。所
java jvm常用命令工具 bijian1013 java jvm
一.概述程序运行中经常会遇到各种问题，定位问题时通常需要综合各种信息，如系统日志、堆dump文件、线程dump文件、GC日志等。通过虚拟机监控和诊断工具可以帮忙我们快速获取、分析需要的数据，进而提高问题解决速度。本文将介绍虚拟机常用监控和问题诊断命令工具的使用方法，主要包含以下工具: &nbs
【Spring框架一】Spring常用注解之Autowired和Resource注解 bit1129 Spring常用注解
Spring自从2.0引入注解的方式取代XML配置的方式来做IOC之后，对Spring一些常用注解的含义行为一直处于比较模糊的状态，写几篇总结下Spring常用的注解。本篇包含的注解有如下几个： Autowired Resource Component Service Controller Transactional 根据它们的功能、目的，可以分为三组，Autow
mysql 操作遇到safe update mode问题 bitray update
我并不知道出现这个问题的实际原理,只是通过其他朋友的博客,文章得知的一个解决方案,目前先记录一个解决方法,未来要是真了解以后,还会继续补全. 在mysql5中有一个safe update mode,这个模式让sql操作更加安全,据说要求有where条件,防止全表更新操作.如果必须要进行全表操作,我们可以执行 SET
nginx_perl试用 ronin47 nginx_perl试用
因为空闲时间比较多，所以在CPAN上乱翻，看到了nginx_perl这个项目(原名Nginx::Engine)，现在托管在github.com上。地址见：https://github.com/zzzcpan/nginx-perl 这个模块的目的，是在nginx内置官方perl模块的基础上，实现一系列异步非阻塞的api。用connector/writer/reader完成类似proxy的功能（这里
java-63-在字符串中删除特定的字符 bylijinnan java
public class DeleteSpecificChars { /** * Q 63 在字符串中删除特定的字符 * 输入两个字符串，从第一字符串中删除第二个字符串中所有的字符。 * 例如，输入”They are students.”和”aeiou”，则删除之后的第一个字符串变成”Thy r stdnts.” */ public static voi
EffectiveJava--创建和销毁对象 ccii 创建和销毁对象
本章内容： 1. 考虑用静态工厂方法代替构造器 2. 遇到多个构造器参数时要考虑用构建器（Builder模式） 3. 用私有构造器或者枚举类型强化Singleton属性 4. 通过私有构造器强化不可实例化的能力 5. 避免创建不必要的对象 6. 消除过期的对象引用 7. 避免使用终结方法 1. 考虑用静态工厂方法代替构造器类可以通过
[宇宙时代]四边形理论与光速飞行 comsci
从四边形理论来推论为什么光子飞船必须获得星光信号才能够进行光速飞行？一组星体组成星座向空间辐射一组由复杂星光信号组成的辐射频带，按照四边形-频率假说一组频率就代表一个时空的入口那么这种由星光信号组成的辐射频带就代表由这些星体所控制的时空通道，该时空通道在三维空间的投影是一
ubuntu server下python脚本迁移数据 cywhoyi python Kettle pymysql cx_Oracle ubuntu server
因为是在Ubuntu下，所以安装python、pip、pymysql等都极其方便，sudo apt-get install pymysql，但是在安装cx_Oracle（连接oracle的模块）出现许多问题，查阅相关资料，发现这边文章能够帮我解决，希望大家少走点弯路。http://www.tbdazhe.com/archives/602 1.安装python 2.安装pip、pymysql
Ajax正确但是请求不到值解决方案 dashuaifu Ajax async
Ajax正确但是请求不到值解决方案解决方案：1 . async: false , 2. 设置延时执行js里的ajax或者延时后台java方法！！！！！！！例如： $.ajax({ &
windows安装配置php+memcached dcj3sjt126com PHP Install memcache
Windows下Memcached的安装配置方法 1、将第一个包解压放某个盘下面，比如在c:\memcached。 2、在终端（也即cmd命令界面）下输入 'c:\memcached\memcached.exe -d install' 安装。 3、再输入： 'c:\memcached\memcached.exe -d start' 启动。（需要注意的: 以后memcached将作为windo
iOS开发学习路径的一些建议 dcj3sjt126com ios
iOS论坛里有朋友要求回答帖子，帖子的标题是：想学IOS开发高阶一点的东西，从何开始，然后我吧啦吧啦回答写了很多。既然敲了那么多字，我就把我写的回复也贴到博客里来分享，希望能对大家有帮助。欢迎大家也到帖子里讨论和分享，地址：http://bbs.csdn.net/topics/390920759 下面是我回复的内容：结合自己情况聊下iOS学习建议，
Javascript闭包概念 fanfanlovey JavaScript 闭包
1.参考资料 http://www.jb51.net/article/24101.htm http://blog.csdn.net/yn49782026/article/details/8549462 2.内容概述要理解闭包，首先需要理解变量作用域问题内部函数可以饮用外面全局变量 var n=999; 　　functio
yum安装mysql5.6 haisheng mysql
1、安装http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm 2、yum install mysql 3、yum install mysql-server 4、vi /etc/my.cnf 添加character_set_server=utf8
po/bo/vo/dao/pojo的详介 IT_zhlp80 java BO VO DAO POJO po
JAVA几种对象的解释 PO:persistant object持久对象,可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作. VO:value object值对象。通常用于业务层之间的数据传递，和PO一样也是仅仅包含数据而已。但应是抽象出的业务对象,可
java设计模式 kerryg java 设计模式
设计模式的分类：一、设计模式总体分为三大类： 1、创建型模式（5种）：工厂方法模式，抽象工厂模式，单例模式，建造者模式，原型模式。 2、结构型模式（7种）：适配器模式，装饰器模式，代理模式，外观模式，桥接模式，组合模式，享元模式。 3、行为型模式（11种）：策略模式，模版方法模式，观察者模式，迭代子模式，责任链模式，命令模式，备忘录模式，状态模式，访问者
[1]CXF3.1整合Spring开发webservice——helloworld篇木头.java spring webservice CXF
Spring 版本3.2.10 CXF 版本3.1.1 项目采用MAVEN组织依赖jar 我这里是有parent的pom，为了简洁明了，我直接把所有的依赖都列一起了，所以都没version，反正上面已经写了版本 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="ht
Google 工程师亲授：菜鸟开发者一定要投资的十大目标 qindongliang1922 工作感悟人生
身为软件开发者，有什么是一定得投资的？ Google 软件工程师 Emanuel Saringan 整理了十项他认为必要的投资，第一项就是身体健康，英文与数学也都是必备能力吗？来看看他怎么说。（以下文字以作者第一人称撰写））你的健康无疑地，软件开发者是世界上最久坐不动的职业之一。每天连坐八到十六小时，休息时间只有一点点，绝对会让你的鲔鱼肚肆无忌惮的生长。肥胖容易扩大罹患其他疾病的风险，
linux打开最大文件数量1,048,576 tianzhihehe c linux
File descriptors are represented by the C int type. Not using a special type is often considered odd, but is, historically, the Unix way. Each Linux process has a maximum number of files th
java语言中PO、VO、DAO、BO、POJO几种对象的解释衞酆夼 java VO BO POJO po
PO:persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作。 BO:business object业务对象封装业务逻辑的java对象

MapReduce阶段性总结实例一

你可能感兴趣的:(Hadoop,MapReduce)