DougLeaMrConcurrency

MapReduce第三天：MapTask、ReduceTask机制、OutputFormat数据输出、Join应用、MapReduce Join、计数器应用、数据清洗ETL、MapReduce开发总结

接上篇第3章的3.3.10MapReduce第二天：Hadoop序列化及Writable接口、InputFormat数据输入、自定义InputFormat、FileInputFormat切片
MapReduce代码要多写多练

本文目录
3.4MapTask工作机制

3.5 ReduceTask工作机制

3.6OutputFormat数据输出
3.6.1OutputFormat接口实现类
3.6.2自定义OutputFormat
3.6.3自定义OutputFormat案例实操

3.7 Join多种应用
3.7.1 Reduce Join
3.7.2Reduce Join案例实操
3.7.3 Map Join
3.7.4Map Join案例实操

3.8计数器应用

3.9数据清洗（ETL）
3.9.1数据清洗案例实操-简单解析版
3.9.2数据清洗案例实操-复杂解析版

3.10MapReduce开发总结

3.4 MapTask工作机制

MapTask工作机制如图4-12所示。
这张图要在脑海里能画出来

图4-12 MapTask工作机制

（1）Read阶段：MapTask通过用户编写的RecordReader，从输入InputSplit中解析出一个个key/value。

（2）Map阶段：该节点主要是将解析出的key/value交给用户编写map()函数处理，并产生一系列新的key/value。

（3）Collect收集阶段：在用户编写map()函数中，当数据处理完成后，一般会调用OutputCollector.collect()输出结果。在该函数内部，它会将生成的key/value分区（调用Partitioner），并写入一个环形内存缓冲区中。

（4）Spill阶段：即“溢写”，当环形缓冲区满后，MapReduce会将数据写到本地磁盘上，生成一个临时文件。需要注意的是，将数据写入本地磁盘之前，先要对数据进行一次本地排序，并在必要时对数据进行合并、压缩等操作。

溢写阶段详情：
步骤1：利用快速排序算法对缓存区内的数据进行排序，排序方式是，先按照分区编号Partition进行排序，然后按照key进行排序。这样，经过排序后，数据以分区为单位聚集在一起，且同一分区内所有数据按照key有序。

步骤2：按照分区编号由小到大依次将每个分区中的数据写入任务工作目录下的临时文件output/spillN.out（N表示当前溢写次数）中。如果用户设置了Combiner，则写入文件之前，对每个分区中的数据进行一次聚集操作。

步骤3：将分区数据的元信息写到内存索引数据结构SpillRecord中，其中每个分区的元信息包括在临时文件中的偏移量、压缩前数据大小和压缩后数据大小。如果当前内存索引大小超过1MB，则将内存索引写到文件output/spillN.out.index中。

（5）Combine阶段：当所有数据处理完成后，MapTask对所有临时文件进行一次合并，以确保最终只会生成一个数据文件。
当所有数据处理完后，MapTask会将所有临时文件合并成一个大文件，并保存到文件output/file.out中，同时生成相应的索引文件output/file.out.index。

在进行文件合并过程中，MapTask以分区为单位进行合并。对于某个分区，它将采用多轮递归合并的方式。每轮合并io.sort.factor（默认10）个文件，并将产生的文件重新加入待合并列表中，对文件排序后，重复以上过程，直到最终得到一个大文件。

让每个MapTask最终只生成一个数据文件，可避免同时打开大量文件和同时读取大量小文件产生的随机读取带来的开销。

3.5 ReduceTask工作机制

1．ReduceTask工作机制

ReduceTask工作机制，如图4-19所示。

图4-19 ReduceTask工作机制

（1）Copy阶段：ReduceTask从各个MapTask上远程拷贝一片数据，并针对某一片数据，如果其大小超过一定阈值，则写到磁盘上，否则直接放到内存中。

（2）Merge阶段：在远程拷贝数据的同时，ReduceTask启动了两个后台线程对内存和磁盘上的文件进行合并，以防止内存使用过多或磁盘上文件过多。

（3）Sort阶段：按照MapReduce语义，用户编写reduce()函数输入数据是按key进行聚集的一组数据。为了将key相同的数据聚在一起，Hadoop采用了基于排序的策略。由于各个MapTask已经实现对自己的处理结果进行了局部排序，因此，ReduceTask只需对所有数据进行一次归并排序即可。

（4）Reduce阶段：reduce()函数将计算结果写到HDFS上。

2．设置ReduceTask并行度（个数）

ReduceTask的并行度同样影响整个Job的执行并发度和执行效率，但与MapTask的并发数由切片数决定不同，ReduceTask数量的决定是可以直接手动设置：

// 默认值是1，手动设置为4
job.setNumReduceTasks(4);

3．实验：测试ReduceTask多少合适

（1）实验环境：1个Master节点，16个Slave节点：CPU:8GHZ，内存: 2G

（2）实验结论：

表4-3 改变ReduceTask （数据量为1GB）

MapTask =16
ReduceTask 1 5 10 15 16 20 25 30 45 60
总时间 892 146 110 92 88 100 128 101 145 104

4．注意事项

（1）ReduceTask=0，表示没有Reduce阶段，输出文件个数和Map个数一致。

（2）ReduceTask默认值就是1，所以输出文件个数为一个。

（3）如果数据分布不均匀，就有可能在Reduce阶段产生数据倾斜。

（4）ReduceTask数量并不是任意设置，还要考虑业务逻辑需求，有些情况下，需要计算全局汇总结果，就只能有1个ReduceTask。

（5）具体多少个ReduceTask，需要根据集群性能而定。

（6）如果分区数不是1，但是ReduceTask为1，是否执行分区过程。答案是：不执行分区过程。因为在MapTask的源码中，执行分区的前提是先判断ReducelNum个数是否大于1。不大于1肯定不执行。

3.6 OutputFormat数据输出

3.6.1 OutputFormat接口实现类

OutputFormat是Map Reduce出的基类，所有实现MapReduce输出都实现了OutputFormat接口。下面介绍几种常见的OutputFormat实现类。

1.文本输出TextOutputFormat默认的输出格式是TextOutputFormat，它把每条记录写为文本行。它的键和值可以是任意类型，因为TextOutputFormat周用toString0方法把它们转换为字符串。

2.SequenceFileOutputFormat将SequenceFileOutputFormat出作为后续MapReduce任务的输入，这便是一种好的输出格式，因为它的格式紧凑，很容易被压缩。

3.自定义OutputFormat根据用户需求，自定义实现输出。

3.6.2 自定义OutputFormat

1.使用场景

为了实现控制最终文件的输出路径和输出格式，可以自定义OutputFormat。

例如：要在一个MapReduce程序中根据数据的不同输出两类结果到不同目录，这类灵活的输出需求可以通过自定义OutputFormat来实现。

2.自定义OutputFormat步骤

（1）自定义一个类继承FileOutputFormat。
（2）改写RecordWriter，具体改写输出数据的方法wite0。

3.6.3 自定义OutputFormat案例实操

1．需求

过滤输入的log日志，包含atguigu的网站输出到e:/atguigu.log，不包含atguigu的网站输出到e:/other.log。

（1）输入数据

http://www.baidu.com
http://www.google.com
http://cn.bing.com
http://www.atguigu.com
http://www.sohu.com
http://www.sina.com
http://www.sin2a.com
http://www.sin2desa.com
http://www.sindsafa.com

（2）期望输出数据
atguigu.log

http://www.atguigu.com

other.log

http://cn.bing.com
http://www.baidu.com
http://www.google.com
http://www.sin2a.com
http://www.sin2desa.com
http://www.sina.com
http://www.sindsafa.com
http://www.sohu.com

2．需求分析

1、需求：过虑输入的log日志，包含gigu的网站输出到e:/atguigulog，不包含atguigu的网站输出到e:/other.log

2、输入数据

http://wwww.baidu.com
http://www.google.com
http://cn.bing.com
http://www.atguigu.com
http://www.sohu.com
http://www.sina.com
http://www.sin2a.com
http://www.sin2desa.com
http://www.sindsafa.com

3、输出数据
atguigu.log

http://www.atguigu.com

other.log

http://cn.bing.com
http://www.baidu.com
http://www.google.com
http://www.sin2a.com
http://www.sin2desa.com
http://www.sina.com
http://www.sindsafa.com
http://www.sohu.com

4、自定义一个OutputFormat类

（1）创建一个类FilterRecordWriter继承RecordWriter

（a）创两个文件的输出流：atgiguOt、otherOut
（b）如果输入数据包含gigu，输出到atgigOw流如果不包含atgig1，输出到otherOut流

5、驱动类Driver

//要好自定义的输出格式组件设置到job中
job.setO utputF ormatClass（FilterOutputF ormat.das）；

3．案例实操

（1）编写FilterMapper类

package com.atguigu.mapreduce.outputformat;
import java.io.IOException;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class FilterMapper extends Mapper{
	
@Override
protected void map(LongWritable key, Text value, Context context)	throws IOException, InterruptedException {

	// 写出
	context.write(value, NullWritable.get());
}
}

（2）编写FilterReducer类

package com.atguigu.mapreduce.outputformat;
import java.io.IOException;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class FilterReducer extends Reducer {

Text k = new Text();

@Override
protected void reduce(Text key, Iterable values, Context context)		throws IOException, InterruptedException {

   // 1 获取一行
	String line = key.toString();

   // 2 拼接
	line = line + "\r\n";

   // 3 设置key
   k.set(line);

   // 4 输出
	context.write(k, NullWritable.get());
}
}

（3）自定义一个OutputFormat类

package com.atguigu.mapreduce.outputformat;
import java.io.IOException;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.RecordWriter;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class FilterOutputFormat extends FileOutputFormat{

@Override
public RecordWriter getRecordWriter(TaskAttemptContext job)			throws IOException, InterruptedException {

	// 创建一个RecordWriter
	return new FilterRecordWriter(job);
}
}

（4）编写RecordWriter类

package com.atguigu.mapreduce.outputformat;
import java.io.IOException;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.RecordWriter;
import org.apache.hadoop.mapreduce.TaskAttemptContext;

public class FilterRecordWriter extends RecordWriter {

FSDataOutputStream atguiguOut = null;
FSDataOutputStream otherOut = null;

public FilterRecordWriter(TaskAttemptContext job) {

	// 1 获取文件系统
	FileSystem fs;

	try {
		fs = FileSystem.get(job.getConfiguration());

		// 2 创建输出文件路径
		Path atguiguPath = new Path("e:/atguigu.log");
		Path otherPath = new Path("e:/other.log");

		// 3 创建输出流
		atguiguOut = fs.create(atguiguPath);
		otherOut = fs.create(otherPath);
	} catch (IOException e) {
		e.printStackTrace();
	}
}

@Override
public void write(Text key, NullWritable value) throws IOException, InterruptedException {

	// 判断是否包含“atguigu”输出到不同文件
	if (key.toString().contains("atguigu")) {
		atguiguOut.write(key.toString().getBytes());
	} else {
		otherOut.write(key.toString().getBytes());
	}
}

@Override
public void close(TaskAttemptContext context) throws IOException, InterruptedException {

		// 关闭资源
IOUtils.closeStream(atguiguOut);
		IOUtils.closeStream(otherOut);	}
}

（5）编写FilterDriver类

package com.atguigu.mapreduce.outputformat;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class FilterDriver {

	public static void main(String[] args) throws Exception {

// 输入输出路径需要根据自己电脑上实际的输入输出路径设置
args = new String[] { “e:/input/inputoutputformat”, “e:/output2” };

	Configuration conf = new Configuration();
	Job job = Job.getInstance(conf);

	job.setJarByClass(FilterDriver.class);
	job.setMapperClass(FilterMapper.class);
	job.setReducerClass(FilterReducer.class);

	job.setMapOutputKeyClass(Text.class);
	job.setMapOutputValueClass(NullWritable.class);
	
	job.setOutputKeyClass(Text.class);
	job.setOutputValueClass(NullWritable.class);

	// 要将自定义的输出格式组件设置到job中
	job.setOutputFormatClass(FilterOutputFormat.class);

	FileInputFormat.setInputPaths(job, new Path(args[0]));

	// 虽然我们自定义了outputformat，但是因为我们的outputformat继承自fileoutputformat
	// 而fileoutputformat要输出一个_SUCCESS文件，所以，在这还得指定一个输出目录
	FileOutputFormat.setOutputPath(job, new Path(args[1]));

	boolean result = job.waitForCompletion(true);
	System.exit(result ? 0 : 1);
}
}

3.7 Join多种应用

3.7.1 Reduce Join

Map端的主要工作：为来自不同表或文件的key/value对，打标签以区别不同来源的记录。然后用连接字段作为key，其余部分和新加的标志作为value，最后进行输出。

Reduce端的主要工作：在Reduce端以连接字段作为key的分组已经完成，我们只需要在每一个分组当中将那些来源于不同文件的记录（在Map阶段已经打标志志分开，最后进行合并就ok了。

3.7.2 Reduce Join案例实操

1．需求

将商品信息表中数据根据商品pid合并到订单数据表中。

id	pname	amount
1001	小米	1
1004	小米	4
1002	华为	2
1005	华为	5
1003	格力	3
1006	格力	6

2．需求分析

通过将关联条件作为Map输出的key，将两表满足Join条件的数据并携带数据所来源的文件信息，发往同一个ReduceTask，在Reduce中进行数据的串联，如图4-20所示。

图4-20 Reduce端表合并

3．代码实现

1）创建商品和订合并后的Bean类

package com.atguigu.mapreduce.table;
import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;
import org.apache.hadoop.io.Writable;

public class TableBean implements Writable {

private String order_id; // 订单id
private String p_id;      // 产品id
private int amount;       // 产品数量
private String pname;     // 产品名称
private String flag;      // 表的标记

public TableBean() {
	super();
}

public TableBean(String order_id, String p_id, int amount, String pname, String flag) {

	super();

	this.order_id = order_id;
	this.p_id = p_id;
	this.amount = amount;
	this.pname = pname;
	this.flag = flag;
}

public String getFlag() {
	return flag;
}

public void setFlag(String flag) {
	this.flag = flag;
}

public String getOrder_id() {
	return order_id;
}

public void setOrder_id(String order_id) {
	this.order_id = order_id;
}

public String getP_id() {
	return p_id;
}

public void setP_id(String p_id) {
	this.p_id = p_id;
}

public int getAmount() {
	return amount;
}

public void setAmount(int amount) {
	this.amount = amount;
}

public String getPname() {
	return pname;
}

public void setPname(String pname) {
	this.pname = pname;
}

@Override
public void write(DataOutput out) throws IOException {
	out.writeUTF(order_id);
	out.writeUTF(p_id);
	out.writeInt(amount);
	out.writeUTF(pname);
	out.writeUTF(flag);
}

@Override
public void readFields(DataInput in) throws IOException {
	this.order_id = in.readUTF();
	this.p_id = in.readUTF();
	this.amount = in.readInt();
	this.pname = in.readUTF();
	this.flag = in.readUTF();
}

@Override
public String toString() {
	return order_id + "\t" + pname + "\t" + amount + "\t" ;
}
}

2）编写TableMapper类

package com.atguigu.mapreduce.table;
import java.io.IOException;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;

public class TableMapper extends Mapper{

String name;
	TableBean bean = new TableBean();
	Text k = new Text();
	
@Override
protected void setup(Context context) throws IOException, InterruptedException {

	// 1 获取输入文件切片
	FileSplit split = (FileSplit) context.getInputSplit();

	// 2 获取输入文件名称
	name = split.getPath().getName();
}

@Override
protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
	
	// 1 获取输入数据
	String line = value.toString();
	
	// 2 不同文件分别处理
	if (name.startsWith("order")) {// 订单表处理

		// 2.1 切割
		String[] fields = line.split("\t");
		
		// 2.2 封装bean对象
		bean.setOrder_id(fields[0]);
		bean.setP_id(fields[1]);
		bean.setAmount(Integer.parseInt(fields[2]));
		bean.setPname("");
		bean.setFlag("order");
		
		k.set(fields[1]);
	}else {// 产品表处理

		// 2.3 切割
		String[] fields = line.split("\t");
		
		// 2.4 封装bean对象
		bean.setP_id(fields[0]);
		bean.setPname(fields[1]);
		bean.setFlag("pd");
		bean.setAmount(0);
		bean.setOrder_id("");
		
		k.set(fields[0]);
	}

	// 3 写出
	context.write(k, bean);
}
}

3）编写TableReducer类

package com.atguigu.mapreduce.table;
import java.io.IOException;
import java.util.ArrayList;
import org.apache.commons.beanutils.BeanUtils;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class TableReducer extends Reducer {

	@Override
	protected void reduce(Text key, Iterable values, Context context)	throws IOException, InterruptedException {

	// 1准备存储订单的集合
	ArrayList orderBeans = new ArrayList<>();
	
// 2 准备bean对象
	TableBean pdBean = new TableBean();

	for (TableBean bean : values) {

		if ("order".equals(bean.getFlag())) {// 订单表

			// 拷贝传递过来的每条订单数据到集合中
			TableBean orderBean = new TableBean();

			try {
				BeanUtils.copyProperties(orderBean, bean);
			} catch (Exception e) {
				e.printStackTrace();
			}

			orderBeans.add(orderBean);
		} else {// 产品表

			try {
				// 拷贝传递过来的产品表到内存中
				BeanUtils.copyProperties(pdBean, bean);
			} catch (Exception e) {
				e.printStackTrace();
			}
		}
	}

	// 3 表的拼接
	for(TableBean bean:orderBeans){

		bean.setPname (pdBean.getPname());
		
		// 4 数据写出去
		context.write(bean, NullWritable.get());
	}
}
}

4）编写TableDriver类

package com.atguigu.mapreduce.table;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class TableDriver {

	public static void main(String[] args) throws Exception {
		
// 0 根据自己电脑路径重新配置
args = new String[]{"e:/input/inputtable","e:/output1"};

// 1 获取配置信息，或者job对象实例
	Configuration configuration = new Configuration();
	Job job = Job.getInstance(configuration);

	// 2 指定本程序的jar包所在的本地路径
	job.setJarByClass(TableDriver.class);

	// 3 指定本业务job要使用的Mapper/Reducer业务类
	job.setMapperClass(TableMapper.class);
	job.setReducerClass(TableReducer.class);

	// 4 指定Mapper输出数据的kv类型
	job.setMapOutputKeyClass(Text.class);
	job.setMapOutputValueClass(TableBean.class);

	// 5 指定最终输出的数据的kv类型
	job.setOutputKeyClass(TableBean.class);
	job.setOutputValueClass(NullWritable.class);

	// 6 指定job的输入原始文件所在目录
	FileInputFormat.setInputPaths(job, new Path(args[0]));
	FileOutputFormat.setOutputPath(job, new Path(args[1]));

	// 7 将job中配置的相关参数，以及job所用的java类所在的jar包， 提交给yarn去运行
	boolean result = job.waitForCompletion(true);
	System.exit(result ? 0 : 1);
}
}

4．测试

运行程序查看结果

5．总结

缺点：这种方式中，合并的操作是在Reduce阶段完成，Reduce端的处理压力太大，Map节点的运算负载则很低，资源利用率不高，且在Reduce阶段极易产生数据倾斜。

解决方案：Map端实现数据合并

3.7.3 Map Join

1．使用场景

Map Join适用于一张表十分小、一张表很大的场景。

2．优点

思考：在Reduce端处理过多的表，非常容易产生数据倾斜。怎么办？

在Map端缓存多张表，提前处理业务逻辑，这样增加Map端业务，减少Reduce端数据的压力，尽可能的减少数据倾斜。

3．具体办法：采用DistributedCache

（1）在Mapper的setup阶段，将文件读取到缓存集合中。
（2）在驱动函数中加载缓存。

// 缓存普通文件到Task运行节点。
job.addCacheFile(new URI("file://e:/cache/pd.txt"));

3.7.4 Map Join案例实操
1．需求

将商品信息表中数据根据商品pid合并到订单数据表中。

表4-6 最终数据形式

id	pname	amount
1001	小米	1
1004	小米	4
1002	华为	2
1005	华为	5
1003	格力	3
1006	格力	6

2．需求分析

MapJoin适用于关联表中有小表的情形。

1）DistributedCacheDriver 缓存文件

//1加载缓存数据
job.addCacheFile（new URI（"file://e:/cacdhe/pd.txt"））；
//2Map端join的逻辑不需要Reduce阶段，设置ReduceTak数量为0
job.setNunRecduce Tasks（0）；

2）读取缓存的文件数据

setup0方法中				map方法中
//1获取缓存的文件			//1获取一行
//2循环读取缓存文件一行	//2截取
//3切割					//3获取订单id
//4缓存数据到集合			//4获取商品名称
//5关流					//5拼接
						//6写出

图4-21 Map端表合并

3．实现代码

（1）先在驱动模块中添加缓存文件

package test;
import java.net.URI;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class DistributedCacheDriver {

public static void main(String[] args) throws Exception {
	
// 0 根据自己电脑路径重新配置
args = new String[]{"e:/input/inputtable2", "e:/output1"};

// 1 获取job信息
		Configuration configuration = new Configuration();
		Job job = Job.getInstance(configuration);

	// 2 设置加载jar包路径
	job.setJarByClass(DistributedCacheDriver.class);

	// 3 关联map
	job.setMapperClass(DistributedCacheMapper.class);
	
// 4 设置最终输出数据类型
	job.setOutputKeyClass(Text.class);
	job.setOutputValueClass(NullWritable.class);

	// 5 设置输入输出路径
	FileInputFormat.setInputPaths(job, new Path(args[0]));
	FileOutputFormat.setOutputPath(job, new Path(args[1]));

	// 6 加载缓存数据
	job.addCacheFile(new URI("file:///e:/input/inputcache/pd.txt"));
	
	// 7 Map端Join的逻辑不需要Reduce阶段，设置reduceTask数量为0
	job.setNumReduceTasks(0);

	// 8 提交
	boolean result = job.waitForCompletion(true);
	System.exit(result ? 0 : 1);
}
}

（2）读取缓存的文件数据

package test;
import java.io.BufferedReader;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.HashMap;
import java.util.Map;
import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class DistributedCacheMapper extends Mapper{

Map pdMap = new HashMap<>();

@Override
protected void setup(Mapper.Context context) throws IOException, InterruptedException {

	// 1 获取缓存的文件
	URI[] cacheFiles = context.getCacheFiles();
	String path = cacheFiles[0].getPath().toString();
	
	BufferedReader reader = new BufferedReader(new InputStreamReader(new FileInputStream(path), "UTF-8"));
	
	String line;
	while(StringUtils.isNotEmpty(line = reader.readLine())){

		// 2 切割
		String[] fields = line.split("\t");
		
		// 3 缓存数据到集合
		pdMap.put(fields[0], fields[1]);
	}
	
	// 4 关流
	reader.close();
}

Text k = new Text();

@Override
protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

	// 1 获取一行
	String line = value.toString();
	
	// 2 截取
	String[] fields = line.split("\t");
	
	// 3 获取产品id
	String pId = fields[1];
	
	// 4 获取商品名称
	String pdName = pdMap.get(pId);
	
	// 5 拼接
	k.set(line + "\t"+ pdName);
	
	// 6 写出
	context.write(k, NullWritable.get());
}
}

3.8 计数器应用

Hadoop为每个作业维护若干内置计数器，以描述多项指标。例如，某些计数晶记录已处理的字节数和记录数，使用户可监控已处理的输入数据量和已产生的输出数据量。

1.计数器API

（1）采用枚举的方式统计计数

enum MyCounter（MALFORORMED NORMAL）
//对年定义的自定义计数器加1
context.getCounter（MyCounter.MALFORORMED）.increment（1）；

（2）采用计数器组、计数器名称的方式统计

context.getCounter（"counterGroup"，"counter"）.increment（1）；

组名和计数器名称随便起，但最好有意义。

（3）计数结果在程序运行后的控利台上查看。

2.计数器案例实操详见下面的数据清洗案例。

3.9 数据清洗（ETL）

在运行核心业务MapReduce程序之前，往往要先对数据进行清洗，清理掉不符合用户要求的数据。清理的过程往往只需要运行Mapper程序，不需要运行Reduce程序。

3.9.1 数据清洗案例实操-简单解析版

1．需求

去除日志中字段长度小于等于11的日志。

（1）输入数据
web.log(部分)

194.237.142.21 - - [18/Sep/2013:06:49:18 +0000] "GET /wp-content/uploads/2013/07/rstudio-git3.png HTTP/1.1" 304 0 "-" "Mozilla/4.0 (compatible;)"
183.49.46.228 - - [18/Sep/2013:06:49:23 +0000] "-" 400 0 "-" "-"
163.177.71.12 - - [18/Sep/2013:06:49:33 +0000] "HEAD / HTTP/1.1" 200 20 "-" "DNSPod-Monitor/1.0"
163.177.71.12 - - [18/Sep/2013:06:49:36 +0000] "HEAD / HTTP/1.1" 200 20 "-" "DNSPod-Monitor/1.0"
101.226.68.137 - - [18/Sep/2013:06:49:42 +0000] "HEAD / HTTP/1.1" 200 20 "-" "DNSPod-Monitor/1.0"
101.226.68.137 - - [18/Sep/2013:06:49:45 +0000] "HEAD / HTTP/1.1" 200 20 "-" "DNSPod-Monitor/1.0"
60.208.6.156 - - [18/Sep/2013:06:49:48 +0000] "GET /wp-content/uploads/2013/07/rcassandra.png HTTP/1.0" 200 185524 "http://cos.name/category/software/packages/" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.66 Safari/537.36"
222.68.172.190 - - [18/Sep/2013:06:49:57 +0000] "GET /images/my.jpg HTTP/1.1" 200 19939 "http://www.angularjs.cn/A00n" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.66 Safari/537.36"
222.68.172.190 - - [18/Sep/2013:06:50:08 +0000] "-" 400 0 "-" "-"
183.195.232.138 - - [18/Sep/2013:06:50:16 +0000] "HEAD / HTTP/1.1" 200 20 "-" "DNSPod-Monitor/1.0"
183.195.232.138 - - [18/Sep/2013:06:50:16 +0000] "HEAD / HTTP/1.1" 200 20 "-" "DNSPod-Monitor/1.0"
66.249.66.84 - - [18/Sep/2013:06:50:28 +0000] "GET /page/6/ HTTP/1.1" 200 27777 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
221.130.41.168 - - [18/Sep/2013:06:50:37 +0000] "GET /feed/ HTTP/1.1" 304 0 "-" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.66 Safari/537.36"
157.55.35.40 - - [18/Sep/2013:06:51:13 +0000] "GET /robots.txt HTTP/1.1" 200 150 "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"
50.116.27.194 - - [18/Sep/2013:06:51:35 +0000] "POST /wp-cron.php?doing_wp_cron=1379487095.2510800361633300781250 HTTP/1.0" 200 0 "-" "WordPress/3.6; http://blog.fens.me"
58.215.204.118 - - [18/Sep/2013:06:51:35 +0000] "GET /nodejs-socketio-chat/ HTTP/1.1" 200 10818 "http://www.google.com/url?sa=t&rct=j&q=nodejs%20%E5%BC%82%E6%AD%A5%E5%B9%BF%E6%92%AD&source=web&cd=1&cad=rja&ved=0CCgQFjAA&url=%68%74%74%70%3a%2f%2f%62%6c%6f%67%2e%66%65%6e%73%2e%6d%65%2f%6e%6f%64%65%6a%73%2d%73%6f%63%6b%65%74%69%6f%2d%63%68%61%74%2f&ei=rko5UrylAefOiAe7_IGQBw&usg=AFQjCNG6YWoZsJ_bSj8kTnMHcH51hYQkAA&bvm=bv.52288139,d.aGc" "Mozilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101 Firefox/23.0"
58.215.204.118 - - [18/Sep/2013:06:51:36 +0000] "GET /wp-includes/js/jquery/jquery-migrate.min.js?ver=1.2.1 HTTP/1.1" 304 0 "http://blog.fens.me/nodejs-socketio-chat/" "Mozilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101 Firefox/23.0"
58.215.204.118 - - [18/Sep/2013:06:51:35 +0000] "GET /wp-includes/js/jquery/jquery.js?ver=1.10.2 HTTP/1.1" 304 0 "http://blog.fens.me/nodejs-socketio-chat/" "Mozilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101 Firefox/23.0"

（2）期望输出数据

每行字段长度都大于11。

2．需求分析

需要在Map阶段对输入的数据根据规则进行过滤清洗。

3．实现代码

（1）编写LogMapper类

package com.atguigu.mapreduce.weblog;
import java.io.IOException;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class LogMapper extends Mapper{
	
	Text k = new Text();
	
	@Override
	protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
		
	// 1 获取1行数据
	String line = value.toString();
	
	// 2 解析日志
	boolean result = parseLog(line,context);
	
	// 3 日志不合法退出
	if (!result) {
		return;
	}
	
	// 4 设置key
	k.set(line);
	
	// 5 写出数据
	context.write(k, NullWritable.get());
}

// 2 解析日志
private boolean parseLog(String line, Context context) {

	// 1 截取
	String[] fields = line.split(" ");
	
	// 2 日志长度大于11的为合法
	if (fields.length > 11) {

		// 系统计数器
		context.getCounter("map", "true").increment(1);
		return true;
	}else {
		context.getCounter("map", "false").increment(1);
		return false;
	}
}
}

（2）编写LogDriver类

package com.atguigu.mapreduce.weblog;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class LogDriver {

public static void main(String[] args) throws Exception {

// 输入输出路径需要根据自己电脑上实际的输入输出路径设置
    args = new String[] { "e:/input/inputlog", "e:/output1" };

	// 1 获取job信息
	Configuration conf = new Configuration();
	Job job = Job.getInstance(conf);

	// 2 加载jar包
	job.setJarByClass(LogDriver.class);

	// 3 关联map
	job.setMapperClass(LogMapper.class);

	// 4 设置最终输出类型
	job.setOutputKeyClass(Text.class);
	job.setOutputValueClass(NullWritable.class);

	// 设置reducetask个数为0
	job.setNumReduceTasks(0);

	// 5 设置输入和输出路径
	FileInputFormat.setInputPaths(job, new Path(args[0]));
	FileOutputFormat.setOutputPath(job, new Path(args[1]));

	// 6 提交
	job.waitForCompletion(true);
}
}

3.9.2 数据清洗案例实操-复杂解析版

1．需求

对Web访问日志中的各字段识别切分，去除日志中不合法的记录。根据清洗规则，输出过滤后的数据。

（1）输入数据

数据同上web.log

（2）期望输出数据

都是合法的数据

2．实现代码

（1）定义一个bean，用来记录日志数据中的各数据字段

package com.atguigu.mapreduce.log;

public class LogBean {
private String remote_addr;// 记录客户端的ip地址
private String remote_user;// 记录客户端用户名称,忽略属性"-"
private String time_local;// 记录访问时间与时区
private String request;// 记录请求的url与http协议
private String status;// 记录请求状态；成功是200
private String body_bytes_sent;// 记录发送给客户端文件主体内容大小
private String http_referer;// 用来记录从那个页面链接访问过来的
private String http_user_agent;// 记录客户浏览器的相关信息

private boolean valid = true;// 判断数据是否合法

public String getRemote_addr() {
	return remote_addr;
}

public void setRemote_addr(String remote_addr) {
	this.remote_addr = remote_addr;
}

public String getRemote_user() {
	return remote_user;
}

public void setRemote_user(String remote_user) {
	this.remote_user = remote_user;
}

public String getTime_local() {
	return time_local;
}

public void setTime_local(String time_local) {
	this.time_local = time_local;
}

public String getRequest() {
	return request;
}

public void setRequest(String request) {
	this.request = request;
}

public String getStatus() {
	return status;
}

public void setStatus(String status) {
	this.status = status;
}

public String getBody_bytes_sent() {
	return body_bytes_sent;
}

public void setBody_bytes_sent(String body_bytes_sent) {
	this.body_bytes_sent = body_bytes_sent;
}

public String getHttp_referer() {
	return http_referer;
}

public void setHttp_referer(String http_referer) {
	this.http_referer = http_referer;
}

public String getHttp_user_agent() {
	return http_user_agent;
}

public void setHttp_user_agent(String http_user_agent) {
	this.http_user_agent = http_user_agent;
}

public boolean isValid() {
	return valid;
}

public void setValid(boolean valid) {
	this.valid = valid;
}

@Override
public String toString() {

	StringBuilder sb = new StringBuilder();
	sb.append(this.valid);
	sb.append("\001").append(this.remote_addr);
	sb.append("\001").append(this.remote_user);
	sb.append("\001").append(this.time_local);
	sb.append("\001").append(this.request);
	sb.append("\001").append(this.status);
	sb.append("\001").append(this.body_bytes_sent);
	sb.append("\001").append(this.http_referer);
	sb.append("\001").append(this.http_user_agent);
	
	return sb.toString();
}
}

（2）编写LogMapper类

package com.atguigu.mapreduce.log;
import java.io.IOException;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class LogMapper extends Mapper{
Text k = new Text();

@Override
protected void map(LongWritable key, Text value, Context context)	throws IOException, InterruptedException {

	// 1 获取1行
	String line = value.toString();
	
	// 2 解析日志是否合法
	LogBean bean = parseLog(line);
	
	if (!bean.isValid()) {
		return;
	}
	
	k.set(bean.toString());
	
	// 3 输出
	context.write(k, NullWritable.get());
}

// 解析日志
private LogBean parseLog(String line) {

	LogBean logBean = new LogBean();
	
	// 1 截取
	String[] fields = line.split(" ");
	
	if (fields.length > 11) {

		// 2封装数据
		logBean.setRemote_addr(fields[0]);
		logBean.setRemote_user(fields[1]);
		logBean.setTime_local(fields[3].substring(1));
		logBean.setRequest(fields[6]);
		logBean.setStatus(fields[8]);
		logBean.setBody_bytes_sent(fields[9]);
		logBean.setHttp_referer(fields[10]);
		
		if (fields.length > 12) {
			logBean.setHttp_user_agent(fields[11] + " "+ fields[12]);
		}else {
			logBean.setHttp_user_agent(fields[11]);
		}
		
		// 大于400，HTTP错误
		if (Integer.parseInt(logBean.getStatus()) >= 400) {
			logBean.setValid(false);
		}
	}else {
		logBean.setValid(false);
	}
	
	return logBean;
}
}

（3）编写LogDriver类

package com.atguigu.mapreduce.log;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class LogDriver {
public static void main(String[] args) throws Exception {
	
// 1 获取job信息
	Configuration conf = new Configuration();
	Job job = Job.getInstance(conf);

	// 2 加载jar包
	job.setJarByClass(LogDriver.class);

	// 3 关联map
	job.setMapperClass(LogMapper.class);

	// 4 设置最终输出类型
	job.setOutputKeyClass(Text.class);
	job.setOutputValueClass(NullWritable.class);

	// 5 设置输入和输出路径
	FileInputFormat.setInputPaths(job, new Path(args[0]));
	FileOutputFormat.setOutputPath(job, new Path(args[1]));

	// 6 提交
	job.waitForCompletion(true);
}
}

3.10 MapReduce开发总结

在编写MapReduce程序时，需要考虑如下几个方面：

1.输入数据接口：InputFormat

（1）默认使用的实现类是：TextmputFormat
（2）TextmputFormat的功能逻辑是：一次读一行文本，然后将该行的起始偏移量作为key，行内容作为value返回。
（3）KeyValue TextInputFormat每一行均为一条记录，被分隔符分割为key，value。默认分隔符是tab（t）。
（4）NlinelInputFormat按照指定的行数N来划分切片。
（5）Combine TextlnputFormat可以把多个小文件合并成一个切片处理，提高处理效率。
（6）用户还可以自定义ImputFormat。

2.逻辑处理接口：

Mapper用户根据业务需求实现其中三个方法：map() setup() deanup()

3.Partitioner分区

（1）有默认实现HashPartitioner，逻辑是根据key的哈希值和numReduces来返回一个分区号；

keyhashCode0&Integer.MAXVALE%
numReduces

（2）如果业务上有特别的需求，可以自定义分区。

4.Comparable排序

（1）当我们用自定义的对象作为key来输出时，就必须要实现whitableComparable接口，重写其中的compareTo0方法。
（2）部分排序：对最终输出的每一个文件进行内部排序。
（3）全排序：对所有数据进行排序，通常只有一个Reduce。
（4）二次排序：排序的条件有两个。

5.Combiner合并

Combiner合并可以提高程序执行效率，减少I0传输。但是使用时必须不能影响原有的业务处理结果。

6.Reduce端分组

Groupingcomparator在Reduce端对key进行分组。
应用于：在接收的key为bean对象时，想让一个或几个字段相同（全部字段比较不相同）的key进入到同一个reduce方法时，可以采用分组排序。

7.逻辑处理接口

Reducer用户根据业务需求实现其中三个方法：reduce0seupO cdeanup0

8.输出数据接口：OutputFormat

（1）默认实现类是TextOtputFormat，功能逻辑是：将每一个KV对，向目标文本文件输出一行。
（2）将SecquenceFileOutputFormat输出作为后续MapReduce任务的输入，这便是一种好的输出格式，因为它的格式紧凑，很容易被压缩。
（3）用户还可以自定义OutputFomat。

MapReduce代码要多训练
MapReduce代码要多训练
MapReduce代码要多训练

你可能感兴趣的:(Hadoop生态体系,MapReduce,MapTask,OutFormat,Join,数据清洗ETL)

如何优雅解决缓存与数据库的数据一致性问题？亲爱的非洲野猪缓存 kafka 分布式 java lock
在高并发系统中，缓存是提升性能的“利器”，但随之而来的“缓存与数据库数据不一致”问题，却常常让开发者头疼。比如用户刚更新了资料，刷新页面却还是旧数据；或者订单状态明明已支付，缓存却显示未付款——这类问题不仅影响用户体验，严重时甚至会引发业务故障。今天就来聊聊如何从“更新策略”“异常处理”“实战方案”三个维度，搭建一套可靠的缓存一致性管控体系。一、核心更新策略：根据业务选对“姿势”缓存与数据库的同步
解锁Prompt+DevOps新姿势：终端系统重塑的三大核心策略
文章目录引言：Prompt驱动的DevOps范式迁移核心策略一：智能决策流水线构建横向架构对比纵向实现流程Python实现示例核心策略二：自适应终端部署体系TypeScript客户端实现YAML部署配置模板核心策略三：智能运维闭环构建安全审计实现方案性能对比分析技术前瞻性分析附录：完整技术图谱技术架构部署验证引言：Prompt驱动的DevOps范式迁移在云原生与AI工程化交汇的今天，Prompt技
【国内超大型智能算力中心建设白皮书 2024】 AI大模型 lose and dream 人工智能开源 git 开源软件 github gitlab 开放原子
文末有福利！智算中心建设通过领先的体系架构设计，以算力基建化为主体、以算法基建化为引领、以服务智件化为依托，以设施绿色化为支撑，从基建、硬件、软件、算法、服务等全环节开展关键技术落地与应用。一、体系架构（一）总体架构图8智算中心总体架构智能算力中心建设白皮书，重点围绕基础、支撑、功能和目标四大部分，创新性地提出了智算中心总体架构。其中，基础部分是支撑智算中心建设与应用的先进人工智能理论和计算架构；
八月文森林木
窗户吹进来的风有些凉朋友在家里住了一晚，早早就醒来赶往他拖家带口打拼的中山他从老家带来了龙眼和花生油“原生态的龙眼和正宗的花生油！”他说夜里我们去恒大影城看了一场电影关于那部电影我想说但不知道说什么深夜我们回来一起吃了饭但没有喝酒我们看《我的团长我的团》到凌晨此刻。对面别墅人工湖岸边有一位穿白色防晒衣老人在垂钓像一位大隐隐于市的白衣天使很多个早晨我都见他在那里多么凉爽的早晨多么宁静的湖面隔一墙之外
边缘计算物联网关如何优化数据处理流程-天拓四方职业影评人边缘计算物联网人工智能
在物联网技术日新月异的今天，数据的产生、传输与处理已成为推动行业智能化转型的关键。边缘计算物联网关，作为这一生态系统中的核心组件，正以其独特的优势，在数据处理效率、实时性、安全性及成本效益等方面展现出非凡的潜力。本文将聚焦于边缘计算物联网关如何优化数据处理流程，深入探讨其技术原理、应用优势及未来发展趋势。一、边缘计算物联网关概述边缘计算物联网关，简而言之，是位于物联网设备边缘，负责数据收集、初步处
Spring04：Spring MVC dfraetaem Spring spring mvc java 后端
一、SpringMVC核心解析SpringMVC是基于Java实现MVC模型的轻量级Web框架，其核心优势在于简化Web开发、灵活性强和与Spring生态无缝集成。通过分层设计，它将应用分为：Controller层：处理请求和响应Service层：业务逻辑处理Dao层：数据持久化操作分层架构示例（SpringBoot+MyBatis）1.Dao层（数据访问层）//UserDao.java（接口）@
锚定“好用”！诚迈科技重磅发布五大信创产品矩阵，共建自主共赢生态 CSDN资讯信创操作系统数据库人工智能
7月18日，CXC2025诚迈信创生态大会在南京盛大举行。本次大会以“信创大业自主共赢”为主题，主管单位、专家学者、行业领军企业、合作伙伴及媒体齐聚一堂，共同见证诚迈科技重磅发布五大信创产品矩阵，包括面向党政、企业、教育、医疗领域的信创产品以及鸿志操作系统系列产品。会上，诚迈科技携手行业伙伴发起成立信创共赢生态联盟，共同推动产业链协同创新和自主生态繁荣发展。中国电子工业标准化技术协会信息技术应用创
从 Spring Boot 2.x 到 Spring Boot 3.x：全面对比与快速上手指南超级小忍 SpringBoot spring boot 后端 java
一、前言SpringBoot自诞生以来，凭借其“约定优于配置”的理念、开箱即用的设计和强大的生态支持，迅速成为Java开发领域的主流框架。随着Java语言的持续演进和开发者需求的提升，SpringBoot也在不断升级。SpringBoot3.x是一次重大版本升级，不仅带来了对现代Java特性的全面支持，还对底层架构、依赖管理和性能进行了深度优化。本文将从以下几个方面，详细对比SpringBoot2
【农业模型】GPT地学领域应用、AquaCrop、R贝叶斯生态、Copula函数、DSSAT、APSIM、WOFOST、DNDC、CERRES、SWACRO、RZWQM、POTATO、SOLANUM weixin_贾遥感数据与作物模型地理遥感生态模型 ChatGPT4/DeepSeek gpt r语言无人机经验分享
农业模型依据研究对象分为农业生物模型、农业环境模型、农业技术模型、农业经济模型作物模型，即作物生长模拟模型(或称作物生长模型)，是从系统科学的角度，基于作物生理过程机制，将气候、土壤、作物品种和管理措施等对作物生长的影响因素作为一个整体系统的数值模拟系统。能够以特定时间步长对作物在单点尺度上生长发育的生物学参数以及作物产量进行动态模拟，定量化研究环境因子以及田间管理措施对作物生长发育的影响。通用型
python-程序编程-实例“温度转换”
实例：温度刻画的两种不同的体系。摄氏度、华氏度需求：将两种不同的摄氏度进行转换。问题分析：输入：输入一个华氏度的温度或者摄氏度的温度值处理：根据温度标志进行温度转换。输出：输出一个带华氏度或者摄氏度的温度值。(f代表华氏度，c代表是摄氏度)c=(f-32)/1.8f=c*1.8+32代码如下：temp=input("请输入有符号的温度值")iftemp[-1]in['f','F']:c=(eval
创客匠人：你做了那么多内容，为什么用户一来就走？老蒋新思维创始人IP 内容运营知识变现知识付费
上周看到一条新闻让我陷入沉思OpenAI联合微软和美国教师联盟，投资超过2亿美元，培训40万名老师如何使用AI做教学设计、内容评估、互动反馈。很多教育工作者因此实现了效率大幅提升，甚至可以在一周内设计出完整的教学路径。可你有没有发现，同样的“AI+内容”的浪潮，正在逼近我们这些做知识付费的人。你可能花了几个月时间搭建课程体系，录了几十个视频，也做了海报、社群、预热活动。你说：“我真的很努力了。”但
Python领域制造业的Python应用 Python编程之道 Python编程之道 python 开发语言 ai
Python在制造业中的应用：从自动化到智能制造关键词：Python、制造业、工业自动化、数据分析、机器学习、物联网、智能制造摘要：本文深入探讨Python编程语言在制造业中的广泛应用。从基础的自动化脚本到复杂的智能制造系统，Python凭借其丰富的库生态系统和易用性，正在重塑现代制造业。我们将分析Python在制造业中的核心应用场景，包括设备监控、质量控制、预测性维护和供应链优化等，并通过实际案
提升幸福感的10个小方法学灵性读书会
人生苦短，实属不易。幸福生活，触手可及。把握点滴，品味真谛。幸福密码，皆在于己。分享10个小方法，来提升幸福感吧~-01-这个世界是属于身体好的这个世界不属于你的，也不属于我的，而是属于身体好的。运动，是最好的保养品，是最好的美容药，是性价比最高的塑造自我的方式。正如作家周玲所说：“久坐不动的人，体内生态系统犹如一潭死水，毫无生机；而时常运动的人，体内生态系统则更像是一汪清泉，干净澄澈，不带一丝浊
现代人工智能综合分类：大模型时代的架构、模态与生态系统司南锤 economics 人工智能分类数据挖掘
目录引言：人工智能的第四次浪潮与新分类的必要性第一节：大型模型范式的基础支柱1.1规模化假说：算力、数据与算法的三位一体1.2“涌现能力”之谜：当“更多”变为“不同”1.3自监督学习（SSL）革命第二节：大型模型的技术分类学2.1Transformer：现代人工智能的架构基石2.2架构分化：一种功能性分类2.3提升效率与规模：专家混合模型（MoE）2.4超越Transformer：下一代架构的探索
Java 异常处理详解：从基础语法到最佳实践，打造健壮的 Java 应用大葱白菜 java合集开发语言 java 后端个人开发学习
作为一名Java开发工程师，你一定遇到过运行时错误、空指针异常、文件找不到等问题。Java提供了强大的异常处理机制，帮助我们优雅地捕获和处理这些错误。本文将带你全面掌握：Java异常体系结构try-catch-finally的使用throw与throws的区别自定义异常类的设计Java7+新特性（try-with-resources）常见异常类型及排查方法异常处理的最佳实践与注意事项并通过丰富的代
什么是网关？网关的作用是什么？肉胎凡体物联网网络服务器 tcp/ip
网关(Gateway)又称网间连接器、协议转换器。网关在传输层上以实现网络互连，是最复杂的网络互连设备，仅用于两个高层协议不同的网络互连。网关的结构也和路由器类似，不同的是互连层。网关既可以用于广域网互连，也可以用于局域网互连。网关是一种充当转换重任的计算机系统或设备。在使用不同的通信协议、数据格式或语言，甚至体系结构完全不同的两种系统之间，网关是一个翻译器。与网桥只是简单地传达信息不同，网关对收
什么是网关？网关有什么作用？红客597 智能路由器网络
1.网关1.1什么是网关？网关英文名称为Gateway，又称网间连接器、协议转换器。网关在网络层以上实现网络互连，是最复杂的网络互连设备，仅用于两个高层协议不同的网络互连。网关既可以用于广域网互连，也可以用于局域网互连。网关是一种充当转换重任的计算机系统或设备。使用在不同的通信协议、数据格式或语言，甚至体系结构完全不同的两种系统之间，网关是一个翻译器，与网桥只是简单地传达信息不同，网关对收
代码签名：保障软件安全与可信的关键防线 Arwen303 代码签名 SSL证书 ssl 网络协议网络
在当今数字化时代，软件应用广泛渗透于各个领域，其安全性与可信度至关重要。代码签名作为一项核心技术手段，犹如软件世界的“数字身份证”，为软件的合法身份与完整性保驾护航。一、代码签名介绍（一）定义与原理代码签名是一种通过数字证书对软件代码进行数字签名的技术。它利用公钥加密体系，开发者使用私钥对代码进行签名，而用户端则通过对应的公钥来验证签名的有效性。当软件被签署后，任何对代码的篡改都会导致签名验证失败
MySQL主从模式的数据一致性 mysia
MySQL单机的数据一致性MySQL作为一个可插拔的数据库系统，支持插件式的存储引擎，在设计上分为Server层和StorageEngine层。在Server层，MySQL以events的形式记录数据库各种操作的Binlog二进制日志，其基本核心作用有：复制和备份。除此之外，我们结合多样化的业务场景需求，基于Binlog的特性构建了强大的MySQL生态，如：DTS、单元化、异构系统之间实时同步等等
Java与机器学习的邂逅：Weka框架入门指南墨夶 Java学习资料1 java 机器学习数据挖掘
在这个数据驱动的时代，机器学习已经成为各行业创新和优化的关键技术。而Java，作为一门成熟且广泛应用的编程语言，在企业级应用开发中占据着重要地位。将二者结合起来，利用Java实现机器学习算法，不仅可以充分发挥其强大的生态系统优势，还能为开发者提供一个高效、稳定的开发环境。今天，我们将带您走进Java与机器学习的世界，探索如何使用Weka这一著名的机器学习库来开启您的智能之旅。Weka简介及其优势什
多云环境下的统一安全架构设计 TechVision大咖圈安全架构多云安全合规性统一架构零信任深度防御身份管理
关键词：多云安全、统一架构、零信任、深度防御、身份管理、威胁检测、SIEM、合规性文章目录引言：多云时代的安全挑战多云环境面临的安全挑战统一安全架构设计原则核心安全组件架构多层防护体系设计统一身份管理与访问控制安全监控与威胁检测实施策略与最佳实践总结与展望引言：多云时代的安全挑战在这个"云来云去"的时代，企业就像搬家一样，从单一的云服务商逐渐向多云架构迁移。就好比以前只在一家银行存钱，现在为了"不
数据并表技术全面指南：从基础JOIN到分布式数据融合熊猫钓鱼>_> 分布式
引言在现代数据处理和分析领域，数据并表（TableJoin）技术是连接不同数据源、整合分散信息的核心技术。随着企业数据规模的爆炸式增长和数据源的日益多样化，传统的数据并表方法面临着前所未有的挑战：性能瓶颈、内存限制、数据倾斜、一致性问题等。如何高效、准确地进行大规模数据并表，已成为数据工程师和架构师必须掌握的关键技能。数据并表不仅仅是简单的SQLJOIN操作，它涉及数据建模、算法优化、分布式计算、
Kotlin中let、run、with、apply及also的差别猿界新星蔡 Kotlin kotlin
在Kotlin中，let、run、with、apply和also是常用的作用域函数（scopefunctions）。它们的目的都是简化代码，使代码更加简洁，并且可以提供更好的可读性。每个函数在不同的场景下有不同的行为。下面是这5种作用域函数的简单示例代码，帮助理解它们的差异和用法。1.letlet函数接收一个对象作为参数，并返回一个值。它常用于对对象进行操作，然后返回操作的结果。示例：funmai
猎板分享：印制线路板制造工艺的创新与质量管控新策略猎板PCB黄浩人工智能
在电子制造行业快速发展的背景下，印制线路板（PCB）的制造工艺与质量管控水平直接决定下游产品性能。猎板PCB深耕行业技术创新，针对高密度、高频化、高可靠性的PCB需求，在制造工艺上持续突破，同时构建全流程质量管控新体系，为不同领域客户提供高品质PCB产品，在消费电子、工业控制、医疗设备等场景得到广泛验证。一、制造工艺的多维创新实践（一）高密度线路加工技术升级随着电子设备集成度提升，PCB线路密度要
【0304读书清单】修炼硬本领飞扬读书
今天分享的书是《人生效率手册》001学会自虐成功人士在获得成功之前，都有一段自虐的过程，严格要求自己提升技能，才能获得大成功。002学会“敢”，克服恐惧每个人内心都会有恐惧，尤其是面对未知的事情。要想修炼硬本领，就必须要克服恐惧。003学会判断，找平台①是否与目标相关②是否具备可持续发展的能力③平台的资源基础004调整自己学会挑战，学会坚持，学会反馈，及时调整自己以适应新的学习。005建立评价体系
035_ClaudeCode_MCP_介绍义薄云天us Claude Code菜鸟到高手专栏 Claude Code 机器学习深度学习 mcp
035_ClaudeCode_MCP_介绍摘要ModelContextProtocol（MCP）是一个开放的标准化协议，专为大型语言模型提供上下文数据而设计。作为ClaudeCode生态系统的重要组成部分，MCP如同"AI应用程序的USB-C端口"，提供了将AI模型连接到不同数据源和工具的标准化方式。本文全面介绍MCP的核心概念、架构设计和在ClaudeCode中的应用场景。目录什么是ModelC
腐烂国度2 送修改器（State of Decay 2: Juggernaut Edition）免安装中文版 2501_91797003 开发语言游戏程序
网盘链接：腐烂国度2送修改器名称：腐烂国度2送修改器（StateofDecay2:JuggernautEdition）免安装中文版描述：《腐烂国度2》是一款开放世界丧尸生存游戏，玩家将领导幸存者社区在末日浩劫中挣扎求生！游戏独创"人性生态系统"——不仅要对抗嗜血感染者，还要处理同伴的精神崩溃与派系冲突。当你在血疫之心巢穴引爆汽油弹时，身后那位刚失去女儿的医生可能因此永远拒绝为你疗伤。从改装越野车到
基于开源AI大模型、AI智能名片与S2B2C商城小程序源码的用户价值引导与核心用户沉淀策略研究
摘要：在数字化商业生态中，用户留存与核心用户培育是产品成功的关键。本文聚焦开源AI大模型、AI智能名片与S2B2C商城小程序源码的协同应用，探讨如何通过技术赋能实现用户价值引导与核心用户沉淀。研究结合工业品供应链、美妆品牌、健康食品行业等案例，提出“认知渗透-行为引导-价值沉淀”的三阶段策略，验证了技术组合在提升用户活跃度、延长生命周期、促进商业价值转化方面的有效性。关键词：开源AI大模型；AI智
关于学习的一点思考云烟
最近一直在考虑要不要继续做线上理财教育，在理财领域带了三年多的班，给我最大的感触是：大部分人是奔着找标准答案来的。在他们看来报个训练营、报个课，这样就有人手把手教，手把手应该很容易就入门了。但结果往往是开营三天掉队10%，开营一周掉队20%，结营时还剩50%。而这完成课程的50%中，营后能按照课程内容去实践的不超过两位数。这不超两位数中，又不断去学习、实践、调整最终形成一套属于自己体系的更少。不单
Linux教程（4）----[hive数据仓库工具] .房东的猫 Linux教程（完善中~~）linux
Hive基本概念Hive简介什么是HiveHive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。为什么使用Hive直接使用hadoop所面临的问题人员学习成本太高
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri