Doug Lea Mr concuren

MapReduce第二天：Hadoop序列化及Writable接口、InputFormat数据输入、自定义InputFormat、FileInputFormat切片

接上篇的第1章MapReduce第一天：MapReduce入门、MapReduce优缺点、MapReduce数据序列化类型、MapReduce编程、WordCount案例
本文目录

第2章 Hadoop序列化
2.1序列化概述
2.2自定义bean对象实现序列化接口（Writable）
2.3序列化案例实操

第3章 MapReduce框架原理
3.1InputFormat数据输入
3.1.1切片与MapTask并行度决定机制
3.1.2Job提交流程源码和切片源码详解
3.1.3 FilelnputFormat切片机制
3.1.4CombineTextlnputFormat切片机制
3.1.5Combine TextlnputFormat案例实操
3.1.6FilelnputFormat实现类
3.1.7 KeyValue TextlnputFormat使用案例
3.1.8 NLinelnputFormat使用案例
3.1.9自定义InputFormat
3.1.10自定义InputFormat案例实操

第2章 Hadoop序列化

2.1 序列化概述

2.1.1什么是序列化

序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储到磁盘（持久化）和网络传输。

反序列化就是将收到字节序列（或其他数据传输协议）或者是磁盘的持久化数据，转换成内存中的对象。

2.1.2为什么要序列化

一般来说，“活的“对象只生存在内存里，关机断电就没有了。而且“活的"对象只能由本地的进程使用，不能被发送到网络上的另外一台计算机。然而序列化可以存储“活的“对象，可以将“活的”对象发送到远程计算机。

2.1.3为什么不用Java的序列化
Java的序列化是一个重量级序列化框架（Serializable），一个对象被序列化后，会附带很多额外的信息（各种校验信息，Header，继承体系等），不便于在网络中高效传输。所以，Hadoop自己开发了一套序列化机制（Writable）。

Hadoop序列化特点：

（1）紧凑：高效使用存储空间。
（2）快速：读写数据的额外开销小。
（3）可扩展：随着通信协议的升级而可升级
（4）互操作：支持多语言的交互

2.2 自定义bean对象实现序列化接口（Writable）

在企业开发中往往常用的基本序列化类型不能满足所有需求，比如在Hadoop框架内部传递一个bean对象，那么该对象就需要实现序列化接口。

具体实现bean对象序列化步骤如下7步。

（1）必须实现Writable接口

（2）反序列化时，需要反射调用空参构造函数，所以必须有空参构造

public FlowBean() {
	super();
}

（3）重写序列化方法

@Override
public void write(DataOutput out) throws IOException {
	out.writeLong(upFlow);
	out.writeLong(downFlow);
	out.writeLong(sumFlow);
}

（4）重写反序列化方法

@Override
public void readFields(DataInput in) throws IOException {
	upFlow = in.readLong();
	downFlow = in.readLong();
	sumFlow = in.readLong();
}

（5）注意反序列化的顺序和序列化的顺序完全一致

（6）要想把结果显示在文件中，需要重写toString()，可用”\t”分开，方便后续用。

（7）如果需要将自定义的bean放在key中传输，则还需要实现Comparable接口，因为MapReduce框中的Shuffle过程要求对key必须能排序。详见后面排序案例。

@Override
public int compareTo(FlowBean o) {
	// 倒序排列，从大到小
	return this.sumFlow > o.getSumFlow() ? -1 : 1;
}

2.3 序列化案例实操

1.需求

统计每一个手机号耗费的总上行流量、下行流量、总流量

（1）输入数据

（2）输入数据格式：

7 	13560436666	120.196.100.99		1116		 954			200
id	手机号码		网络ip			上行流量  下行流量     网络状态码

（3）期望输出数据格式

13560436666 		1116		      954 			2070
手机号码		    上行流量        下行流量		总流量

2．需求分析

1、需求：统计每一个手机号耗费的总上行流量、下行流量、总流量
2、输入数据格式

7	13560436666	120.196.100.99	1116	954	200
Id	手机号码	网络ip	上行流量	下行流量	网络状志码

3、期里输出数据格式

13560436666	1116	954	2070
手机号码	上行流量	下行流量	总流量

4、Map阶段

（1）读取一行数据，切分字段

7	13560436666	120.196.100.99	1116	954	200

（2）抽取手机号、上行流量、下行流量

13560436666	1116	954
手机号码	上行流量	下行流量

（3）以手机号为key，bean对象为value输出，即cornt ext.write（手机号，bean）；
（4）bean对象要想能够传输，必须实现序列化接口

5、Reduce阶段

累加上行流量和下行流量得到总流量。

13560436666	1116	+	954	=	2070
手机号码	上行流量	下行流量	总流量

3．编写MapReduce程序

（1）编写流量统计的Bean对象

package com.atguigu.mapreduce.flowsum;
import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;
import org.apache.hadoop.io.Writable;

// 1 实现writable接口
public class FlowBean implements Writable{

private long upFlow;
private long downFlow;
private long sumFlow;

//2  反序列化时，需要反射调用空参构造函数，所以必须有
public FlowBean() {
	super();
}

public FlowBean(long upFlow, long downFlow) {
	super();
	this.upFlow = upFlow;
	this.downFlow = downFlow;
	this.sumFlow = upFlow + downFlow;
}

//3  写序列化方法
@Override
public void write(DataOutput out) throws IOException {
	out.writeLong(upFlow);
	out.writeLong(downFlow);
	out.writeLong(sumFlow);
}

//4 反序列化方法
//5 反序列化方法读顺序必须和写序列化方法的写顺序必须一致
@Override
public void readFields(DataInput in) throws IOException {
	this.upFlow  = in.readLong();
	this.downFlow = in.readLong();
	this.sumFlow = in.readLong();
}

// 6 编写toString方法，方便后续打印到文本
@Override
public String toString() {
	return upFlow + "\t" + downFlow + "\t" + sumFlow;
}

public long getUpFlow() {
	return upFlow;
}

public void setUpFlow(long upFlow) {
	this.upFlow = upFlow;
}

public long getDownFlow() {
	return downFlow;
}

public void setDownFlow(long downFlow) {
	this.downFlow = downFlow;
}

public long getSumFlow() {
	return sumFlow;
}

public void setSumFlow(long sumFlow) {
	this.sumFlow = sumFlow;
}
}

（2）编写Mapper类

package com.atguigu.mapreduce.flowsum;
import java.io.IOException;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class FlowCountMapper extends Mapper{

FlowBean v = new FlowBean();
Text k = new Text();

@Override
protected void map(LongWritable key, Text value, Context context)	throws IOException, InterruptedException {
	
	// 1 获取一行
	String line = value.toString();
	
	// 2 切割字段
	String[] fields = line.split("\t");
	
	// 3 封装对象
	// 取出手机号码
	String phoneNum = fields[1];

	// 取出上行流量和下行流量
	long upFlow = Long.parseLong(fields[fields.length - 3]);
	long downFlow = Long.parseLong(fields[fields.length - 2]);

	k.set(phoneNum);
	v.set(downFlow, upFlow);
	
	// 4 写出
	context.write(k, v);
}
}

（3）编写Reducer类

package com.atguigu.mapreduce.flowsum;
import java.io.IOException;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class FlowCountReducer extends Reducer {

	@Override
	protected void reduce(Text key, Iterable values, Context context)throws IOException, InterruptedException {

		long sum_upFlow = 0;
		long sum_downFlow = 0;

		// 1 遍历所用bean，将其中的上行流量，下行流量分别累加
		for (FlowBean flowBean : values) {
			sum_upFlow += flowBean.getUpFlow();
			sum_downFlow += flowBean.getDownFlow();
		}

		// 2 封装对象
		FlowBean resultBean = new FlowBean(sum_upFlow, sum_downFlow);
		
		// 3 写出
		context.write(key, resultBean);
	}
}

（4）编写Driver驱动类

package com.atguigu.mapreduce.flowsum;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class FlowsumDriver {

	public static void main(String[] args) throws IllegalArgumentException, IOException, ClassNotFoundException, InterruptedException {
		
// 输入输出路径需要根据自己电脑上实际的输入输出路径设置
args = new String[] { "e:/input/inputflow", "e:/output1" };

		// 1 获取配置信息，或者job对象实例
		Configuration configuration = new Configuration();
		Job job = Job.getInstance(configuration);

		// 6 指定本程序的jar包所在的本地路径
		job.setJarByClass(FlowsumDriver.class);

		// 2 指定本业务job要使用的mapper/Reducer业务类
		job.setMapperClass(FlowCountMapper.class);
		job.setReducerClass(FlowCountReducer.class);

		// 3 指定mapper输出数据的kv类型
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(FlowBean.class);

		// 4 指定最终输出的数据的kv类型
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(FlowBean.class);
		
		// 5 指定job的输入原始文件所在目录
		FileInputFormat.setInputPaths(job, new Path(args[0]));
		FileOutputFormat.setOutputPath(job, new Path(args[1]));

		// 7 将job中配置的相关参数，以及job所用的java类所在的jar包， 提交给yarn去运行
		boolean result = job.waitForCompletion(true);
		System.exit(result ? 0 : 1);
	}
}

个人代码笔记
FlowBean

package flow;

import org.apache.hadoop.io.Writable;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

/**
 * @author 黄佳豪
 * @create 2019-08-19-10:00
 */

/**
 * 实现Hadoop的序列化接口
 */
public class FlowBean implements Writable {
    private long upFlow;
    private long downFlow;
    private long sumFlow;

    public FlowBean() {
    }

    @Override
    public String toString() {
        return upFlow + "\t" + downFlow + "\t" + sumFlow;
    }

    public void set(long upFlow, long downFlow) {
        this.upFlow = upFlow;
        this.downFlow = downFlow;
        this.sumFlow = upFlow + downFlow;
    }

    public long getUpFlow() {
        return upFlow;
    }

    public long getDownFlow() {
        return downFlow;
    }

    /**
     * 序列化方法
     *
     * @param dataOutput 框架给我们提供数据出口
     * @throws IOException
     */
    public void write(DataOutput dataOutput) throws IOException {
        dataOutput.writeLong(upFlow);
        dataOutput.writeLong(downFlow);
        dataOutput.writeLong(sumFlow);
    }

    /**
     * 反序列化方法
     * 注意：反序列化顺序一定要跟序列化一致，否则运行结果不对
     *
     * @param dataInput 框架提供的数据来源
     * @throws IOException
     */
    public void readFields(DataInput dataInput) throws IOException {
        upFlow = dataInput.readLong();
        downFlow = dataInput.readLong();
        sumFlow = dataInput.readLong();
    }
}

FlowDriver

package flow;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

/**
 * @author 黄佳豪
 * @create 2019-08-19-9:59
 */
public class FlowMapper extends Mapper {
    private Text phone=new Text();
    private FlowBean flow=new FlowBean();

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String[] fields = value.toString().split("\t");
        phone.set(fields[1]);
        //选取倒数第三列
        long upFlow = Long.parseLong(fields[fields.length - 3]);
        long dowFlow = Long.parseLong(fields[fields.length - 2]);
        //累加
        flow.set(upFlow, dowFlow);
        context.write(phone,flow);
    }
}

FlowMapper

package flow;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/**
 * @author 黄佳豪
 * @create 2019-08-19-10:00
 */
public class FlowReducer extends Reducer {
    private FlowBean sumFlow =new FlowBean();
    @Override
    protected void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException {
        long sumUpFlow=0;
        long sumDownFlow=0;
        for (FlowBean value : values) {
            sumUpFlow+=value.getUpFlow();
            sumDownFlow+=value.getDownFlow();
        }
        sumFlow.set(sumUpFlow, sumDownFlow);
        context.write(key,sumFlow);
    }
}

FlowReducer

package flow;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

/**
 * @author 黄佳豪
 * @create 2019-08-19-10:00
 */
public class FlowDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        //获取Job实例
        Job job = Job.getInstance(new Configuration());
        //设置类路径
        job.setJarByClass(FlowDriver.class);
        job.setMapperClass(FlowMapper.class);
        job.setReducerClass(FlowReducer.class);
        //设置输入输出类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(FlowBean.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(FlowBean.class);
        //设置输入输出路径
        FileInputFormat.setInputPaths(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        //提交
        boolean b = job.waitForCompletion(true);
        System.exit(b ? 0 : 1);
    }
}

运行结果

13470253144	180	180	360
13509468723	7335	110349	117684
13560439638	918	4938	5856
13568436656	3597	25635	29232
13590439668	1116	954	2070
13630577991	6960	690	7650
13682846555	1938	2910	4848
13729199489	240	0	240
13736230513	2481	24681	27162
13768778790	120	120	240
13846544121	264	0	264
13956435636	132	1512	1644
13966251146	240	0	240
13975057813	11058	48243	59301
13992314666	3008	3720	6728
15043685818	3659	3538	7197
15910133277	3156	2936	6092
15959002129	1938	180	2118
18271575951	1527	2106	3633
18390173782	9531	2412	11943
84188413	4116	1432	5548

一句话总结：多敲代码，不要导错包。

第3章 MapReduce框架原理

3.1 InputFormat数据输入

3.1.1 切片与MapTask并行度决定机制

1．问题引出

MapTask的并行度决定Map阶段的任务处理并发度，进而影响到整个Job的处理速度。

思考：1G的数据，启动8个MapTask，可以提高集群的并发处理能力。那么1K的数据，也启动8个MapTask，会提高集群性能吗？MapTask并行任务是否越多越好呢？哪些因素影响了MapTask并行度？

2．MapTask并行度决定机制

数据块：Block是HDFS物理上把数据分成一块一块。
数据切片：数据切片只是在逻辑上对输入进行分片，并不会在磁盘上将其切分成片进行存储。

图4-11 MapTask并行度决定机制

3.1.2 Job提交流程源码和切片源码详解

1．Job提交流程源码详解，如图4-8所示

waitForCompletion()

submit();

// 1建立连接
	connect();	
		// 1）创建提交Job的代理
		new Cluster(getConfiguration());
			// （1）判断是本地yarn还是远程
			initialize(jobTrackAddr, conf); 

// 2 提交job
submitter.submitJobInternal(Job.this, cluster)
	// 1）创建给集群提交数据的Stag路径
	Path jobStagingArea = JobSubmissionFiles.getStagingDir(cluster, conf);

	// 2）获取jobid ，并创建Job路径
	JobID jobId = submitClient.getNewJobID();

	// 3）拷贝jar包到集群
copyAndConfigureFiles(job, submitJobDir);	
	rUploader.uploadFiles(job, jobSubmitDir);

// 4）计算切片，生成切片规划文件
writeSplits(job, submitJobDir);
		maps = writeNewSplits(job, jobSubmitDir);
		input.getSplits(job);

// 5）向Stag路径写XML配置文件
writeConf(conf, submitJobFile);
	conf.writeXml(out);

// 6）提交Job,返回提交状态
status = submitClient.submitJob(jobId, submitJobDir.toString(), job.getCredentials());

2．FileInputFormat切片源码解析(input.getSplits(job))

（1）程序先找到你数据存储的目录。

（2）开始历处理（规划切片）目录下的每一个文件

（3）遍历第一个文件ss.txt

a）获取文件大小fs.size0f（ss.txt）

b）计算切片大小

computeSplitSize（Math.max（minSize，Math.min（maxSize，blocksize）=blocksize=128M

c）默认情兄下，切片大小=blocksize

d）开始切，形成第1个切片：ss.txt-0：128M第2个切片ss.txt-128：256M第3个切片ss.txt-256M：300M
（每次切片时，都要判断切完剩下的部分是否大于块的1.1倍，不大于1.1倍就划分一块切片）

e）将切片信息写到一个切片规划文件中

f）整个切片的核心过程在getSplit0方法中完成

g）mputSplit只记录了切片的元数据信息，比如起始位置、长扇以及所在的节点列表等。

（4）提交切片规划文件到VARN上，YARN上的MrAppMaster就可以根据切片规划文件计遵开启MapTask个数。

3.1.3 FileInputFormat切片机制

1、切片机制

（1）简单地按照文件的内容长度进行切片（2）切片大小，默认等于Block大小（3）切片时不考虑数据集整体，而是逐个针对每一个文件单独切片

2、案例分析

（1）输入数据有两个文件：

filel.txt 320M
file2.tzt 10M

（2）经过FileInputFormat的切片机制运算后，形成的切片信息如下：

filel.txt.split1-- 0~128
filel.txt.split2-- 128～256
filel.txt.split3-- 256～320
file2.txt.splitl--0～ 10M

（1）源码中计算切片大小的公式

Math max（minSize，Math.min（maxsize，blocksize））；
mapreduce.input.fileinputformat.split minsize=1默认值为1
mapreduce.input.fileinputformat.split maxsize=Long.MAXValue 默认值Long.MAXValue
因此，默认情况下，切片大小=blocksize。

（2）切片大小设置

maxsize（切片最大值）：参数如果调得比blockSize小，则会让切片变小，而且就等于配置的这个参数的值。
minsize（切片最小值）：参数调的比blockSize大，则可以让切片变得比blockSize还大。

（3）获取切片信息API

//获取切片的文件名称
string name=inputsplit.getPath（）.getName（）；
//根据文件类型获取切片信息
Filesplit inputsplit=（Filesplit）context.getInputsplit（）；

3.1.4 CombineTextInputFormat切片机制

框架默认的TextInputFormat切片机制是对任务按文件规划切片，不管文件多小，都会是一个单独的切片，都会交给一个MapTask，这样如果有大量小文件，就会产生大量的MapTask，处理效率极其低下。

1、应用场景：

CombineTextInputFormat用于小文件过多的场景，它可以将多个小文件从逻辑上规划到一个切片中，这样，多个小文件就可以交给一个MapTask处理。

2、虚拟存储切片最大值设置

CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);// 4m

注意：虚拟存储切片最大值设置最好根据实际的小文件大小情况来设置具体的值。

3、切片机制

生成切片过程包括：虚拟存储过程和切片过程二部分。

setMaxlInputSplitSize值为4M

a.txt	1.7M
b.txt	5.1M
c.txt	3.4M
d.txt	6.8M

虚拟存储过程

1.7M<4M划分一块
5.1M>4M但是小于2*4M划分二块块1=2.55M；块2-2.55M
3.4M<4M划分一块
6.8M>4M但是小于2*4M划分二块块1=3.4M；块2=3.4M

最终存储的文件

1.7M
2.55M
2.55M
3.4M
3.4M
3.4M

切片过程

（a）判断虚拟存储的文件大小是否大于setlMaxlnputSplitSize值，大于等于则单独形成一个切片。

（b）如果不大于则跟下一个虚拟存储文件进行合并，共同形成一个切片。

最终会形成3个切片，大小分别为：

（1.7+2.55）M，（2.55+3.4）M，（34+3.4）M

（1）虚拟存储过程：

将输入目录下所有文件大小，依次和设置的setMaxInputSplitSize值比较，如果不大于设置的最大值，逻辑上划分一个块。如果输入文件大于设置的最大值且大于两倍，那么以最大值切割一块；当剩余数据大小超过设置的最大值且不大于最大值2倍，此时将文件均分成2个虚拟存储块（防止出现太小切片）。

例如setMaxInputSplitSize值为4M，输入文件大小为8.02M，则先逻辑上分成一个4M。剩余的大小为4.02M，如果按照4M逻辑划分，就会出现0.02M的小的虚拟存储文件，所以将剩余的4.02M文件切分成（2.01M和2.01M）两个文件。

（2）切片过程：

（a）判断虚拟存储的文件大小是否大于setMaxInputSplitSize值，大于等于则单独形成一个切片。
（b）如果不大于则跟下一个虚拟存储文件进行合并，共同形成一个切片。
（c）测试举例：有4个小文件大小分别为1.7M、5.1M、3.4M以及6.8M这四个小文件，则虚拟存储之后形成6个文件块，大小分别为：

1.7M，（2.55M、2.55M），3.4M以及（3.4M、3.4M）

最终会形成3个切片，大小分别为：

（1.7+2.55）M，（2.55+3.4）M，（3.4+3.4）M

3.1.5 CombineTextInputFormat案例实操

1．需求

将输入的大量小文件合并成一个切片统一处理。

（1）输入数据

准备4个小文件

（2）期望

期望一个切片处理4个文件

2．实现过程

（1）不做任何处理，运行1.6节的WordCount案例程序，观察切片个数为4。

（2）在WordcountDriver中增加如下代码，运行程序，并观察运行的切片个数为3。

（a）驱动类中添加代码如下：
// 如果不设置InputFormat，它默认用的是TextInputFormat.class
job.setInputFormatClass(CombineTextInputFormat.class);

//虚拟存储切片最大值设置4m
CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);

（b）运行如果为3个切片。

（3）在WordcountDriver中增加如下代码，运行程序，并观察运行的切片个数为1。

（a）驱动中添加代码如下：

// 如果不设置InputFormat，它默认用的是TextInputFormat.class
job.setInputFormatClass(CombineTextInputFormat.class);

//虚拟存储切片最大值设置20m
CombineTextInputFormat.setMaxInputSplitSize(job, 20971520);

（b）运行如果为1个切片。

3.1.6 FileInputFormat实现类

思考：在运行MapReduce程序时，输入的文件格式包括：基于行的日志文件、二进制格式文件、数据库表等。那么，针对不同的数据类型，MapReduce是如何读取这些数据的呢？

FileInputFormat 常见的接口实现类包括：TextinputFormat、KeyValue TextInputFormat、NLinelnputFormat、CombineTextInputFormat和自定义InputFormat等。

1.TextlnputFormat TextInputFormat是默认的FileInputFormat实现类。按行读取每条记录。键是存储该行在整个文件中的起始字节偏移量，LongWritable类型。值是这行的内容，不包括任何行终止符（换行符和回车符），Text类型。

以下是一个示例，比如，一个分片包含了如下4条文本记录。

Rich learning form Intelligent learning engine Learning more convenient From the real demand for more close to the enterprise

每条记录表示为以下键/值对：

（0，Rich learning form）
（19，Intelligent learning engine）
（47，Learning more convenient）
（72，From the real demand for more close to the enterprise）

2.KeValueTextlnputFormat每一行均为一条记录，被分隔符分割为key，value。可以通过在驱动类中设置
conf.set（Key ValueLineRecordReader.KEY_VALUE_SEPERATOR，“t”），来设定分隔符。默认分隔符是tab（t）。

以下是一个示例，输入是一个包合4条记录的分片。其中——表示一个（水平方向的）制表符。

linel—>Rich learning form line2—>Intelligent learning engine line3—>Learning more convenient line4—>From the real demand for more close to the enterprise每条记录表示为以下键值对：

（linel，Rich learning form）
（line2，Intelligent learning engine）
（line3，Learning more convenient）
（line4，From the real demand for more close to the enterprise）

此时的键是每行排在制表符之前的Text序列。

3.NLinelnputFormat如果使用NlinelnputFormat，代表每个map进程处理的InputSplit不再按Blok块去划分，而是按NlinelnputFormat指定的行数N来划分。即输入文件的总行数/N=切片数，如果不整除，切片数=商+1。

以下是一个示例，仍然以上面的4行输入为例。

Rich learning form Intelligent learning engine Learning more convenient From the real demand for more close to the enterprise

例如，如果N是2，则每个输入分片包含两行。开启2个MapTask。

（0，Rich learning form）
（19，Intelligent leaming engine）

另一个mapper则收到后两行：

（47，Learning more convenient）
（72，From the real demand for more close to the enterprise）

这里的键和值与TextinputFormat生成的一样。

3.1.7 KeyValueTextInputFormat使用案例

1．需求

统计输入文件中每一行的第一个单词相同的行数。

（1）输入数据

banzhang ni hao
xihuan hadoop banzhang
banzhang ni hao
xihuan hadoop banzhang

（2）期望结果数据

banzhang	2
xihuan	2

2．需求分析

1、需求：统计输入文件中每一行的第一个单词相同的行数。

2、输入数据

banzhang ni hao xihuan hadoop banzhang banzhang ni hao xihuan hadoop banzhang

3、期望输出数据

banzhang2
xihuan2

4、Map阶段

banzhang ni hao

（1）设置key和value

（2）写出

5、Reduce阶段

（1）汇总

（2）写出

6、Driver

//（1）设置切割符
conf.set（KeyValueLineRecordRea der.KEY_VALUE_SEPERATOR，""）；
//（2）设置输入格式
job.setInputForm atClass（Key Value Textinput Format.class）；

3．代码实现
（1）编写Mapper类

package com.atguigu.mapreduce.KeyValueTextInputFormat;
import java.io.IOException;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class KVTextMapper extends Mapper{
	
// 1 设置value
   LongWritable v = new LongWritable(1);  
    
	@Override
	protected void map(Text key, Text value, Context context)
			throws IOException, InterruptedException {

// banzhang ni hao
        
        // 2 写出
        context.write(key, v);  
	}
}

（2）编写Reducer类

package com.atguigu.mapreduce.KeyValueTextInputFormat;
import java.io.IOException;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class KVTextReducer extends Reducer{
	
    LongWritable v = new LongWritable();  
    
	@Override
	protected void reduce(Text key, Iterable values,	Context context) throws IOException, InterruptedException {
		
		 long sum = 0L;  

		 // 1 汇总统计
        for (LongWritable value : values) {  
            sum += value.get();  
        }
         
        v.set(sum);  
         
        // 2 输出
        context.write(key, v);  
	}
}

（3）编写Driver类

package com.atguigu.mapreduce.keyvaleTextInputFormat;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.KeyValueLineRecordReader;
import org.apache.hadoop.mapreduce.lib.input.KeyValueTextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class KVTextDriver {

	public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
		
		Configuration conf = new Configuration();
		// 设置切割符
	conf.set(KeyValueLineRecordReader.KEY_VALUE_SEPERATOR, " ");
		// 1 获取job对象
		Job job = Job.getInstance(conf);
		
		// 2 设置jar包位置，关联mapper和reducer
		job.setJarByClass(KVTextDriver.class);
		job.setMapperClass(KVTextMapper.class);
job.setReducerClass(KVTextReducer.class);
				
		// 3 设置map输出kv类型
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(LongWritable.class);

		// 4 设置最终输出kv类型
		job.setOutputKeyClass(Text.class);
job.setOutputValueClass(LongWritable.class);
		
		// 5 设置输入输出数据路径
		FileInputFormat.setInputPaths(job, new Path(args[0]));
		
		// 设置输入格式
	job.setInputFormatClass(KeyValueTextInputFormat.class);
		
		// 6 设置输出数据路径
		FileOutputFormat.setOutputPath(job, new Path(args[1]));
		
		// 7 提交job
		job.waitForCompletion(true);
	}
}

3.1.8 NLineInputFormat使用案例

1．需求

对每个单词进行个数统计，要求根据每个输入文件的行数来规定输出多少个切片。此案例要求每三行放入一个切片中。

（1）输入数据

banzhang ni hao
xihuan hadoop banzhang
banzhang ni hao
xihuan hadoop banzhang
banzhang ni hao
xihuan hadoop banzhang
banzhang ni hao
xihuan hadoop banzhang
banzhang ni hao
xihuan hadoop banzhang banzhang ni hao
xihuan hadoop banzhang

（2）期望输出数据

Number of splits:4

2．需求分析

3．代码实现

（1）编写Mapper类

package com.atguigu.mapreduce.nline;
import java.io.IOException;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class NLineMapper extends Mapper{
	
	private Text k = new Text();
	private LongWritable v = new LongWritable(1);
	
	@Override
	protected void map(LongWritable key, Text value, Context context)	throws IOException, InterruptedException {
		
		 // 1 获取一行
        String line = value.toString();
        
        // 2 切割
        String[] splited = line.split(" ");
        
        // 3 循环写出
        for (int i = 0; i < splited.length; i++) {
        	
        	k.set(splited[i]);
        	
           context.write(k, v);
        }
	}
}

（2）编写Reducer类

package com.atguigu.mapreduce.nline;
import java.io.IOException;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class NLineReducer extends Reducer{
	
LongWritable v = new LongWritable();

@Override
protected void reduce(Text key, Iterable values,	Context context) throws IOException, InterruptedException {
	
    long sum = 0l;

    // 1 汇总
    for (LongWritable value : values) {
        sum += value.get();
    }  
    
    v.set(sum);
    
    // 2 输出
    context.write(key, v);
}
}

（3）编写Driver类

package com.atguigu.mapreduce.nline;
import java.io.IOException;
import java.net.URISyntaxException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.NLineInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class NLineDriver {
	
	public static void main(String[] args) throws IOException, URISyntaxException, ClassNotFoundException, InterruptedException {
		
// 输入输出路径需要根据自己电脑上实际的输入输出路径设置
args = new String[] { "e:/input/inputword", "e:/output1" };

	 // 1 获取job对象
	 Configuration configuration = new Configuration();
    Job job = Job.getInstance(configuration);
    
    // 7设置每个切片InputSplit中划分三条记录
    NLineInputFormat.setNumLinesPerSplit(job, 3);
      
    // 8使用NLineInputFormat处理记录数  
    job.setInputFormatClass(NLineInputFormat.class);  
      
    // 2设置jar包位置，关联mapper和reducer
    job.setJarByClass(NLineDriver.class);  
    job.setMapperClass(NLineMapper.class);  
    job.setReducerClass(NLineReducer.class);  
    
    // 3设置map输出kv类型
    job.setMapOutputKeyClass(Text.class);  
    job.setMapOutputValueClass(LongWritable.class);  
    
    // 4设置最终输出kv类型
    job.setOutputKeyClass(Text.class);  
    job.setOutputValueClass(LongWritable.class);  
      
    // 5设置输入输出数据路径
    FileInputFormat.setInputPaths(job, new Path(args[0]));  
    FileOutputFormat.setOutputPath(job, new Path(args[1]));  
      
    // 6提交job
    job.waitForCompletion(true);  
}
}

4．测试

（1）输入数据

banzhang ni hao
xihuan hadoop banzhang
banzhang ni hao
xihuan hadoop banzhang
banzhang ni hao
xihuan hadoop banzhang
banzhang ni hao
xihuan hadoop banzhang
banzhang ni hao
xihuan hadoop banzhang banzhang ni hao
xihuan hadoop banzhang

（2）输出结果的切片数，如图4-10所示：

3.1.9 自定义InputFormat

在企业开发中，Hadoop框架自带的InputFormat类型不能满足所有应用场景，需要自定义InputFormat来解决实际问题。
自定义ImputFormat步骤如下：

（1）自定义一个类继承FilelnputFormat。

（2）改写RecordReader，实现一次读取一个完整文件封装为KV。

（3）在输出时使用SequenceFileOutPutFormat输出合并文件。

3.1.10 自定义InputFormat案例实操

无论HDFS还是MapReduce，在处理小文件时效率都非常低，但又难免面临处理大量小文件的场景，此时，就需要有相应解决方案。可以自定义InputFormat实现小文件的合并。

1．需求
将多个小文件合并成一个SequenceFile文件（SequenceFile文件是Hadoop用来存储二进制形式的key-value对的文件格式），SequenceFile里面存储着多个文件，存储的形式为文件路径+名称为key，文件内容为value。

（1）输入数据
one.txt

yongpeng weidong weinan
sanfeng luozong xiaoming

two.txt

longlong fanfan
mazong kailun yuhang yixin
longlong fanfan
mazong kailun yuhang yixin

thress.txt

shuaige changmo zhenqiang
dongli lingu xuanxuan

（2）期望输出文件格式

2．需求分析

1、自定义一个类继承FilelnputFonnat

（1）重写isSplitable（）方法，返回false不可切割
（2）重写createRecordReader（），创建自定义的RecordReader对象，并初始化

2、改写RecordReader，实现一次读取一个完整文件封装为KV

（1）采用IO流一次读取一个文件输出到value中，因为设置了不可切片，最终把所有文件都封装到了value中
（2）获取文件路径信息+名称，并设置key

3、设置Driver

//（1）设置输入的inputFormat 
job.setInputFormatClass（wholeFileInputformat.class）；
//（2）设置输出的outputFormat 
job.setoutputFormatClass（SequenceFileoutputFormat.class）；

3．程序实现

（1）自定义InputFromat

package com.atguigu.mapreduce.inputformat;
import java.io.IOException;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.BytesWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.JobContext;
import org.apache.hadoop.mapreduce.RecordReader;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

// 定义类继承FileInputFormat
public class WholeFileInputformat extends FileInputFormat{
	
@Override
protected boolean isSplitable(JobContext context, Path filename) {
	return false;
}

@Override
public RecordReader createRecordReader(InputSplit split, TaskAttemptContext context)	throws IOException, InterruptedException {
	
	WholeRecordReader recordReader = new WholeRecordReader();
	recordReader.initialize(split, context);
	
	return recordReader;
}
}

（2）自定义RecordReader类

package com.atguigu.mapreduce.inputformat;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.BytesWritable;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.RecordReader;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;

public class WholeRecordReader extends RecordReader{

	private Configuration configuration;
private FileSplit split;

private boolean isProgress= true;
private BytesWritable value = new BytesWritable();
private Text k = new Text();

@Override
public void initialize(InputSplit split, TaskAttemptContext context) throws IOException, InterruptedException {
	
	this.split = (FileSplit)split;
	configuration = context.getConfiguration();
}

@Override
public boolean nextKeyValue() throws IOException, InterruptedException {
	
	if (isProgress) {

		// 1 定义缓存区
		byte[] contents = new byte[(int)split.getLength()];
		
		FileSystem fs = null;
		FSDataInputStream fis = null;
		
		try {
			// 2 获取文件系统
			Path path = split.getPath();
			fs = path.getFileSystem(configuration);
			
			// 3 读取数据
			fis = fs.open(path);
			
			// 4 读取文件内容
			IOUtils.readFully(fis, contents, 0, contents.length);
			
			// 5 输出文件内容
			value.set(contents, 0, contents.length);

// 6 获取文件路径及名称
String name = split.getPath().toString();

// 7 设置输出的key值
k.set(name);

		} catch (Exception e) {
			
		}finally {
			IOUtils.closeStream(fis);
		}
		
		isProgress = false;
		
		return true;
	}
	
	return false;
}

@Override
public Text getCurrentKey() throws IOException, InterruptedException {
	return k;
}

@Override
public BytesWritable getCurrentValue() throws IOException, InterruptedException {
	return value;
}

@Override
public float getProgress() throws IOException, InterruptedException {
	return 0;
}

@Override
public void close() throws IOException {
}
}

（3）编写SequenceFileMapper类处理流程

package com.atguigu.mapreduce.inputformat;
import java.io.IOException;
import org.apache.hadoop.io.BytesWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;

public class SequenceFileMapper extends Mapper{
	
	@Override
	protected void map(Text key, BytesWritable value,			Context context)		throws IOException, InterruptedException {
		context.write(key, value);
	}
}

（4）编写SequenceFileReducer类处理流程

package com.atguigu.mapreduce.inputformat;
import java.io.IOException;
import org.apache.hadoop.io.BytesWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class SequenceFileReducer extends Reducer {

	@Override
	protected void reduce(Text key, Iterable values, Context context)		throws IOException, InterruptedException {

		context.write(key, values.iterator().next());
	}
}

（5）编写SequenceFileDriver类处理流程

package com.atguigu.mapreduce.inputformat;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.BytesWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat;

public class SequenceFileDriver {

	public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
		
       // 输入输出路径需要根据自己电脑上实际的输入输出路径设置
		args = new String[] { "e:/input/inputinputformat", "e:/output1" };

       // 1 获取job对象
		Configuration conf = new Configuration();
		Job job = Job.getInstance(conf);

       // 2 设置jar包存储位置、关联自定义的mapper和reducer
		job.setJarByClass(SequenceFileDriver.class);
		job.setMapperClass(SequenceFileMapper.class);
		job.setReducerClass(SequenceFileReducer.class);

       // 7设置输入的inputFormat
		job.setInputFormatClass(WholeFileInputformat.class);

       // 8设置输出的outputFormat
	 job.setOutputFormatClass(SequenceFileOutputFormat.class);
       
// 3 设置map输出端的kv类型
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(BytesWritable.class);
		
       // 4 设置最终输出端的kv类型
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(BytesWritable.class);

       // 5 设置输入输出路径
		FileInputFormat.setInputPaths(job, new Path(args[0]));
		FileOutputFormat.setOutputPath(job, new Path(args[1]));

       // 6 提交job
		boolean result = job.waitForCompletion(true);
		System.exit(result ? 0 : 1);
	}
}

运行结果

你可能感兴趣的:(Hadoop生态体系)

Spring 核心技术解析【纯干货版】- VIII：Spring 数据访问模块 Spring-Tx 模块精讲 m0_74824517 面试学习路线阿里巴巴 spring 数据库 java
在企业级开发中，事务管理是保障数据一致性和完整性的重要手段。Spring作为Java生态中广泛使用的框架，其事务管理模块（Spring-Tx）不仅提供了强大的功能，还极大地简化了开发者在不同技术栈中的事务处理工作。无论是编程式事务，还是声明式事务，Spring都以其灵活性和易用性满足了各种场景需求。本篇文章将从理论到实践，深入解析Spring-Tx模块的核心技术与使用方式，并通过代码示例帮助您更高
Elixir语言的软件工程十二日后包罗万象 golang 开发语言后端
Elixir语言的软件工程引言在当今的软件工程领域，选择编程语言和技术栈是一个至关重要的决策。随着分布式系统、实时应用和高并发场景的需求日益增加，Elixir语言应运而生。Elixir是一种基于Erlang虚拟机（BEAM）的编程语言，兼具了Erlang的并发特性和灵活性，同时增加了现代编程语言的一些优雅和简洁的特性。本文将深入探讨Elixir语言在软件工程中的应用，包括其核心特性、生态系统、最佳
PyTorch 基础数据集：从理论到实践的深度学习基石那年一路北 Pytorch理论+实践深度学习 pytorch 人工智能
一、引言深度学习作为当今人工智能领域的核心技术，在图像识别、自然语言处理、语音识别等众多领域取得了令人瞩目的成果。而在深度学习的体系中，数据扮演着举足轻重的角色，它是模型训练的基础，如同建筑的基石，决定了模型的性能和泛化能力。PyTorch作为当下最流行的深度学习框架之一，为开发者提供了丰富且强大的工具来处理数据集。本文将深入探讨PyTorch中的基础数据集，从深度学习中数据的重要性出发，详细介绍
【开源免费】kettle作业调度—自动化运维—数据挖掘—informatica-批量作业工具taskctl 加菲盐008 Kettle ETL作业调度工具 taskctl 运维数据库 linux 大数据数据挖掘
关注公众号"taskctl"，关键字回复"领取"即可获权产品简介taskctl是一款由成都塔斯克信息技术公司历经10年研发的etl作业集群调度工具，该产品概念新颖，体系完整、功能全面、使用简单、操作流畅，它不仅有完整的调度核心、灵活的扩展，同时具备完整的应用体系。目前已获得金融，政府，制造，零售，健康，互联网等领域1000多家头部客户认可。图片来自网络2020年疫情席卷全球，更是对整个市场经济造成
Hadoop 常用命令 ZenPower hadoop 大数据分布式
查看指定目录下的文件及文件夹hadoopfs-ls/user/hive/warehouse/查看指定目录下的文件及文件夹大小#文件大小（单位Byte）hadoopfs-du/user/hive/warehouse#文件大小（单位人性化）hadoopfs-du-h/user/hive/warehouse#文件大小（只显示汇总）hadoopfs-du-s/user/hive/warehouse删除指定
python转转商超书籍信息爬虫 Python数据分析与机器学习爬虫 python 网络爬虫爬虫
1基本理论1.1概念体系网络爬虫又称网络蜘蛛、网络蚂蚁、网络机器人等，可以按照我们设置的规则自动化爬取网络上的信息，这些规则被称为爬虫算法。是一种自动化程序，用于从互联网上抓取数据。爬虫通过模拟浏览器的行为，访问网页并提取信息。这些信息可以是结构化的数据（如表格数据），也可以是非结构化的文本。爬虫任务的执行流程通常包括发送HTTP请求、解析HTML文档、提取所需数据等步骤。1.2技术体系1请求库:
hadoop常用命令汇总 m0_67402026 java java 后端
1、查看目录下的文件列表：hadoopfs–ls[文件目录]hadoopfs-ls-h/lance2、将本机文件夹存储至hadoop上：hadoopfs–put[本机目录][hadoop目录]hadoopfs-putlance/3、在hadoop指定目录内创建新目录：hadoopfs–mkdir[目录]hadoopfs-mkdir/lance4、在hadoop指定目录下新建一个文件，使用touch
DolphinScheduler × Jiron：打造高效智能的数据调度新生态 jiron开源平台开发 flink 大数据 hadoop hive sqoop spring cloud sentinel
JironGitHub地址https://github.com/642933588/jiron-cloudhttps://gitee.com/642933588/jiron-cloudDolphinScheduler×Jiron：打造高效智能的数据调度新生态DolphinScheduler是一个开源的分布式任务调度平台，专为大数据场景下的工作流调度和数据治理而设计。将DolphinSchedule
hadoop常用命令我要用代码向我喜欢的女孩表白 hadoop npm 大数据
Yarn查看提交到资源调度器的任务（任何用yarn资源的都可以看，比如spark、tez、mapreduce）看正在运行的yarn任务yarnapplication-list杀死对应的yarn任务yarnapplication-kill{application_Id}（id可以通过-list看到）hdfs查看hdfs目录hdfsdfs-ls/（查看本集群的目录）hdfsdfs-lshdfs://i
Kubernetes架构原则和对象设计（二） grahamzhu 云原生学习专栏 kubernetes 架构容器集群搭建 API设计云计算 kubelet
云原生学习路线导航页（持续更新中）kubernetes学习系列快捷链接Kubernetes架构原则和对象设计（一）Kubernetes常见问题解答本文从云计算架构发展入手，详细分析了kubernetes的生态系统、设计理念、分层架构、API设计原则、架构设计原则等，并介绍了使用kubelet+staticPod拉起集群的过程1.云计算的传统分类云计算出现之前，对于任何企业，想要搭建自己的服务，需要
AWS VPC及其网络还是转转云原生 aws 网络云计算
目录：AWS概述EMRServerlessAWSVPC及其网络关于AWS网络架构的思考网络作为云服务的交付手段，同时也是云内部体系的支撑骨架，是一项不可或缺的基础设施，所以这个系列先从AWS上的网络环境开始讲起。VPC（VirtualPrivateCloud）VPC是AWS上的一项重要且常用服务，它提供逻辑上隔离的私有网络环境。所谓隔离，即为该VPC与Internet以及其它VPC相隔绝，限制其间
Python气象数据分析：风速预报订正、台风预报数据智能订正、机器学习预测风电场的风功率、浅水模型、预测ENSO等小艳加油大气科学 python 人工智能气象机器学习
目录专题一Python和科学计算基础专题二机器学习和深度学习基础理论和实操专题三气象领域中的机器学习应用实例专题四气象领域中的深度学习应用实例更多应用Python是功能强大、免费、开源，实现面向对象的编程语言，在数据处理、科学计算、数学建模、数据挖掘和数据可视化方面具备优异的性能，这些优势使得Python在气象、海洋、地理、气候、水文和生态等地学领域的科研和工程项目中得到广泛应用。可以预见未来Py
ChatGPT Canvas：开启AI编程新纪元——你的AI代码生成器来了！前端
OpenAI近日宣布ChatGPTCanvas全面开放，并带来了两项重磅更新：直接运行Python代码和整合GPTs生态系统。这意味着，即使你不是专业的程序员，也能轻松体验编程的乐趣，并利用AI的力量创造出更多可能性。这对于想要学习编程或提高工作效率的用户来说，无疑是一个巨大的福音。这篇文章将深入探讨这两项更新，并展望ChatGPTCanvas的未来发展。直接运行Python代码：降低编程门槛，释
webUI自动化之基本框架搭建（python + selenium + unittest）_python ui自动框架 2401_84140628 2024年程序员学习自动化 python selenium
先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年最新Python全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课
张丽霞：对地址转换（NAT）的回顾与反思 junecauzhang 软件综合 internet 互联网网络防火墙工作 transactions
张丽霞：对地址转换（NAT）的回顾与反思PostedonFebruary24,2009byDuanHaixin作者简介：张立霞，美国UCLA计算机系教授，互联网体系结构委员会（IAB）委员，IETFIRTFRoutingResearch工作组副主席（co-chair）,ACM会员（Fellow）,曾担任ACMSIGCOMM副主席(1999-2003),IEEECommunicationSociet
. 如何在 Vue 3 中使用组合式 API 进行代码的逻辑复用？ JJCTO袁龙 Vue vue.js javascript 前端
如何在Vue3中使用组合式API进行代码的逻辑复用？在Vue3的生态中，组合式API（CompositionAPI）引入了全新的方式来构建组件，使得逻辑复用变得更加简单和灵活。在传统的选项API中，逻辑复用通常依赖于混入（mixins）和高阶组件（HOCs），并且这两者在某种程度上可能导致代码的复杂性及可读性问题。而组合式API通过函数的方式，使得逻辑复用变得更加明确且易于管理。本文将通过示例，带
小红书成立应用算法部：平衡生态与变现的战略之举前端
小红书近期将商业化、社区、电商算法部门整合，成立了全新的“应用算法部”，这一举动引发了业界广泛关注。这不仅体现了小红书对算法驱动增长的高度重视，也标志着其在平衡内容生态和商业变现之间迈出了关键一步。本文将深入探讨小红书成立应用算法部的战略意义及其对未来发展的影响，并分析其扁平化管理模式在其中的作用。作为一款以内容创作和分享为核心的平台，小红书对高效的AI写代码工具的需求日益增长，而算法的优化则成为
大端模式和小端模式蝌蚪123456 java开发
转载自http://blog.csdn.net/hackbuteer1/article/details/7722667在各种计算机体系结构中，对于字节、字等的存储机制有所不同，因而引发了计算机通信领域中一个很重要的问题，即通信双方交流的信息单元（比特、字节、字、双字等等）应该以什么样的顺序进行传送。如果不达成一致的规则，通信双方将无法进行正确的编/译码从而导致通信失败。目前在各种体系的计算机中通常
BOE（京东方）"向新2025”年终媒体智享会落地深圳 "屏”实力赋能产业创新发展数据库
12月27日，BOE（京东方）“向新2025”年终媒体智享会的收官之站在创新之都深圳圆满举行，为这场为期两周、横跨三地的年度科技盛会画上了完美句号。活动期间，全面回顾了BOE（京东方）2024年在多个关键领域取得的卓越成绩，深入剖析其在六大维度构建的“向新”发展格局，精彩呈现了以“屏”为核心搭建起的技术引领、伙伴赋能以及绿色发展等平台，全方位赋能全球生态合作伙伴，充分彰显BOE（京东方）作为全球领
Pinterest联盟营销综合指南好运来__ 大数据网络人工智能服务器 ip
Pinterest不仅是社交媒体平台，还是一个优质的视觉搜索引擎，独特的交互方式和平台生态使得Pinterest依然很受欢迎，因此它也成为最适合进行联盟营销的平台之一。一、为什么要使用Pinterest联盟营销1.活跃用户多Pinterest活跃用户数超过5亿，庞大的用户基础在一定程度上意味着更高的购买潜力。2.用户质量高根据PAConsulting和Pinterest的数据，奢侈品牌最关注的消费
你喜欢用什么编辑器? dami_king 随笔编辑器
电脑工作者和程序员所使用的文本编辑器通常需要具备高效率、易用性以及对代码友好等特点，包括语法高亮、自动完成、多文件同时编辑、查找替换、版本控制集成等功能。以下是几个广受开发者欢迎且实用性较强的文本编辑器：VisualStudioCode（VSCode）：开源、免费，由微软开发，拥有强大的扩展生态系统，支持多种编程语言和框架，内建Git集成，实时错误检查和调试工具，非常适合现代Web和云端开发。Su
Docker Image 详细讲解陈辰学长 docker 容器运维
DockerImage详细讲解DockerImage是Docker生态系统中的核心概念之一，它作为容器运行的基础，封装了应用运行所需的环境和依赖。本文将详细讲解DockerImage的定义、构建、存储、管理以及使用，帮助读者全面理解DockerImage。一、DockerImage概述DockerImage是一个轻量级、可执行的独立软件包，包含了运行某个软件所需要的所有内容，包括代码、运行时、库、
Kylin入门教程 -龙川- 介绍学习笔记 kylin
引言ApacheKylin是一个开源的分布式分析引擎，提供Hadoop上的多维分析（OLAP）能力，使得超大规模数据集的实时查询和分析成为可能。它通过预计算数据立方体来加速查询，使得复杂查询可以在亚秒级响应。本文将详细介绍Kylin的基本概念、安装与配置、基本操作及高级功能，帮助你全面掌握这款强大的数据分析工具。第一部分：Kylin简介1.1什么是Kylin？Kylin是由eBay开发并捐赠给Ap
Pinterest联盟营销综合指南纯干苹果派人工智能网络物联网大数据服务器 ip
Pinterest不仅是社交媒体平台，还是一个优质的视觉搜索引擎，独特的交互方式和平台生态使得Pinterest依然很受欢迎，因此它也成为最适合进行联盟营销的平台之一。一、为什么要使用Pinterest联盟营销1.活跃用户多Pinterest活跃用户数超过5亿，庞大的用户基础在一定程度上意味着更高的购买潜力。2.用户质量高根据PAConsulting和Pinterest的数据，奢侈品牌最关注的消费
Ruby语言的数据库编程 Quantum&Coder 包罗万象 golang 开发语言后端
Ruby语言的数据库编程引言在现代软件开发中，数据库几乎是每个应用程序的重要组成部分。无论是简单的Web应用还是复杂的企业系统，数据存储和管理都是不可或缺的环节。Ruby是一种动态、面向对象的编程语言，因其优雅的语法和丰富的库支持而受到广泛欢迎。在Ruby的生态系统中，ActiveRecord是最常用的数据库编程工具，它源自RubyonRails框架，为开发者提供了简单而强大的数据库交互能力。本文
共筑BMC技术生态，OurBMC受邀参加第二届融通生态大会程序员
12月11-12日，第二届国家新一代自主安全计算系统产业集群融通生态大会（以下简称“融通生态大会”）在长沙成功召开。本次大会以“聚力自主安全领跑先进计算”为主题，邀请了众多政府领导、行业专家和精英学者参与，共话产业发展新路径，共绘集群融通新蓝图。OurBMC社区受邀参会，社区技术委员会主席李煜受邀在开源技术研讨分论坛发表主题演讲，多方面展示社区在BMC技术创新和产业发展方面的成果，共同推进BMC领
数据库服务体系结构旦沐已成舟数据库的日子数据库
1.数据库服务应用配置服务进行配置有什么作用？实现服务运行启动实现某些功能应用配置有三种方式？利用编译安装进行配置编写配置文件信息,.默认的配置文件:/etc/my.cnf利用启动命令参数配置信息，mysqld_safe--skip-grant-tables--skip-networking&#配置文件内容有[]的部分表示对客户端或者服务端的配置区域[mysqld]user=mysqlbasedi
洛谷P1127 词链怀念无所不能的你洛谷图论算法 dfs 图论 c++数据结构
题目链接：P1127词链-洛谷|计算机科学教育新生态题目描述：如果单词XX的末字母与单词Y的首字母相同，则X与Y可以相连成X.Y。（注意：X、Y之间英文的句号.）。例如，单词dog与单词gopher，则dog与gopher可以相连成dog.gopher。另外还有一些例子：dog.gophergopher.ratrat.tigeraloha.alohaarachnid.dog连接成的词可以与其他单词
flume系列之：flume落cos 快乐骑行^_^ 日常分享专栏 flume系列
flume系列之：flume落cos一、参考文章二、安装cosjar包三、添加hadoop-cos的相关配置四、flume环境添加hadoop类路径五、使用cos路径六、启动/重启flume一、参考文章Kafka数据通过Flume存储到HDFS或COSflumetocos使用指南二、安装cosjar包将对应hadoop版本的hadoop-cos的jar包(hadoop-cos-{hadoop.ve
REITs运营与资金流动关系图数据可视化
使用图形天下提供的关系数据可视化工具。我们清晰地看到REITs（房地产投资信托）如何与投资者、房地产资产、物业管理公司及租户紧密相连。REITs作为资金池，投资于房地产，通过物业管理公司维护运营，产生租金收入并分配给投资者。图形天下的可视化技术，让这一复杂的关系数据变得直观易懂，展现了REITs生态的全貌。 REITs运作机制概览图 REITs通过集合投资者
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &