Winyar Wen

深入学习hadoop框架MapReduce（案例代码分享）

MapReduce的细节

1.MR的默认分区机制

MR的默认分区机制，是通过K2的值基于Hash算法实现的，具体实现过程为： k2.hashCode()%rnum
决定了k2v2分配到哪个Reducer中，基于hash算法的散列的特性，保证了具有相同k2的数据可以
去往同一个Reducer中。

2.MR自定分区机制

a.自定义分区实现过程
在某些需求中，如果MR默认的分区机制无法完成功能，可以自定义分区规则实现过程：
i.写一个类继承Partitioner

ii.在job设置Partitioner

iii.通常还需要修改Reducer的数量

b.自定义分区案例
案例：改造如上统案例，根据不同地区分区存放数据

开发自定义分区

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;

public class Flow2Partitioner extends Partitioner {

@Override
public int getPartition(Text k2, FlowInfo v2, int rnum) {
    String addr = v2.getAddr();
    switch (addr) {
        case "bj":
            return 0;
        case "sh":
            return 1;
        case "sz":
            return 2;
    }
    return 3;
}
}

开发Mapper

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class Flow2Mapper extends Mapper {
    @Override
    protected void map(LongWritable k1, Text v1, Mapper.Context context)
            throws IOException, InterruptedException {
        //1.获取输入行
        String attrs[] = v1.toString().split(" ");
        //2.得到电话号
        String phone = attrs[0];
        //3.封装其他信息到bean
        FlowInfo fi = new FlowInfo(attrs[0], attrs[1], attrs[2], Long.parseLong(attrs[3]));
        //4.输出k2 v2
        context.write(new Text(phone), fi);
    }
}

开发Reducer

import java.io.IOException;

import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class Flow2Reducer extends Reducer {
    @Override
    protected void reduce(Text k3, Iterable v3s, Reducer.Context context) throws IOException, InterruptedException {

        //1.创建fix
        FlowInfo fix = new FlowInfo();
        //2.遍历v3s,将流量进行累加for(FlowInfo fi : v3s){
        fix.setPhone(fi.getPhone());
        fix.setName(fi.getName());
        fix.setAddr(fi.getAddr());
        fix.setFlow(fix.getFlow() + fi.getFlow());
        //3.输出k4 v4
        context.write(fix,NullWritable.get());
    }
}

开发Driver

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class Flow2Driver {
public static void main(String[] args) throws Exception {
    Configuration conf = new Configuration();
    Job job = Job.getInstance(conf, "flow2_job");
    job.setJarByClass(cn.tedu.mr.flow2.Flow2Driver.class);
    job.setMapperClass(cn.tedu.mr.flow2.Flow2Mapper.class);
    job.setReducerClass(cn.tedu.mr.flow2.Flow2Reducer.class);

    job.setMapOutputKeyClass(Text.class);
    job.setMapOutputValueClass(FlowInfo.class);

    job.setOutputKeyClass(FlowInfo.class);
    job.setOutputValueClass(NullWritable.class);

    //--设定reducer的数量，有几个reducer就产生几个文件job.setNumReduceTasks(4);
    //--设定当前job使用自定义Partitioner job.setPartitionerClass(Flow2Partitioner.class);

    FileInputFormat.setInputPaths(job, new Path("hdfs://hadoop01:9000/flow2data"));
    FileOutputFormat.setOutputPath(job, new Path("hdfs://hadoop01:9000/flow2result"));

    if (!job.waitForCompletion(true))
        return;
}

}

3.MR的排序

在MR执行的过程中，存在分组排序的过程，可以利用这个过程，只要合理的设置k2 k3就可以利用这个机制实现对海量数据的排序。
排序时比较的规则可以在bean的 ComparaTo方法中实现。
**如果某个业务比较复杂，一个MR搞不定，可以多个MR连续执行完成任务。

案例：计算利润，进行排序(文件：profit.txt) 计算利润的mr

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class ProfitMapper extends Mapper {
    @Override
    protected void map(LongWritable k1, Text v1, Mapper.Context context)
            throws IOException, InterruptedException {
        String[] attrs = v1.toString().split(" ");
        String name = attrs[1];
        long profit = Long.parseLong(attrs[2]) - Long.parseLong(attrs[3]);
        context.write(new Text(name), new LongWritable(profit));
    }
}

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class ProfitReducer extends Reducer {
    @Override
    protected void reduce(Text k3, Iterable v3s,
                          Reducer.Context context) throws IOException, InterruptedException {
        String name = k3.toString();
        long profit = 0;

        for (LongWritable v3 : v3s) {
            profit += v3.get();
        }
        context.write(new Text(name), new LongWritable(profit));
    }
}


import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class ProfitDriver {

public static void main(String[] args) throws Exception {
    Configuration conf = new Configuration();
    Job job = Job.getInstance(conf, "Profit_Job");
    job.setJarByClass(cn.tedu.mr.profit.ProfitDriver.class);
    job.setMapperClass(cn.tedu.mr.profit.ProfitMapper.class);
    job.setReducerClass(cn.tedu.mr.profit.ProfitReducer.class);

    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(LongWritable.class);

    FileInputFormat.setInputPaths(job, new Path("hdfs://hadoop01:9000/profit"));
    FileOutputFormat.setOutputPath(job, new Path("hdfs://hadoop01:9000/profitResult"));

    if (!job.waitForCompletion(true)) return;
}

}

排序的mr

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class ProfitSortMapper extends Mapper {

    @Override
    protected void map(LongWritable k1, Text v1,
                       Mapper.Context context)
            throws IOException, InterruptedException {
        String name = v1.toString().split("\t")[0];
        long profit = Long.parseLong(v1.toString().split("\t")[1]);
        ProfitSortInfo pfsi = new ProfitSortInfo();
        pfsi.setName(name);
        pfsi.setProfit(profit);
        context.write(pfsi, NullWritable.get());
    }
}

import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class ProfitSortReducer extends Reducer {

    public void reduce(ProfitSortInfo pfsi, Iterable v3s, Context context) throws IOException, InterruptedException {
        context.write(pfsi, NullWritable.get());
    }
}

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class ProfitSortDriver {

    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "Profit_Sort_Job");
        job.setJarByClass(cn.tedu.mr.profit.ProfitSortDriver.class);
        job.setMapperClass(cn.tedu.mr.profit.ProfitSortMapper.class);

        job.setOutputKeyClass(ProfitSortInfo.class);
        job.setOutputValueClass(NullWritable.class);

        FileInputFormat.setInputPaths(job, new Path("hdfs://hadoop01:9000/profitResult"));

        FileOutputFormat.setOutputPath(job, new Path("hdfs://hadoop01:9000/profitSortResult"));

        if (!job.waitForCompletion(true))
            return;
    }
}

4.Combiner合并

在MR执行的过程中，如果Map中产生的数据有大量键是重复的，则可以现在Map端对数据进行合并，从而减少数据量，减少shuffle过程中，网络中传输的数据量，磁盘中读写的数据了，从而提升效率。这样的机制就称之为MR中的Combiner机制。
合理的利用Combiner可以有效的提升程序的性能。但Combiner不是万能的，在使用Combiner的时候，一定要保证，无论是否有Combiner 以及无论Combiner执行多少次，都应该保证不影响最终的执行结果。

案例：
改造之前wc案例，加入combiner，提高效率

没有使用Combiner

File System Counters FILE: Number of bytes read=714 FILE: Number of
bytes written=542668 FILE: Number of read operations=0 FILE: Number of
large read operations=0 FILE: Number of write operations=0 HDFS:
Number of bytes read=180 HDFS: Number of bytes written=35 HDFS: Number
of read operations=13 HDFS: Number of large read operations=0 HDFS:
Number of write operations=4 Map-Reduce Framework Map input records=8
Map output records=16 Map output bytes=148 Map output materialized
bytes=186 Input split bytes=102 Combine input records=0 Combine output
records=0 Reduce input groups=5 Reduce shuffle bytes=186 Reduce input
records=16 Reduce output records=5 Spilled Records=32 Shuffled Maps =1
Failed Shuffles=0

Merged Map outputs=1 GC time elapsed (ms)=3 Total committed heap usage
(bytes)=610271232 Shuffle Errors BAD_ID=0 CONNECTION=0 IO_ERROR=0
WRONG_LENGTH=0 WRONG_MAP=0 WRONG_REDUCE=0 File Input Format Counters
Bytes Read=90 File Output Format Counters Bytes Written=35 使用Combiner后
FILE: Number of bytes read=464 FILE: Number of bytes written=543049
FILE: Number of read operations=0 FILE: Number of large read
operations=0 FILE: Number of write operations=0 HDFS: Number of bytes
read=180 HDFS: Number of bytes written=35 HDFS: Number of read
operations=13 HDFS: Number of large read operations=0 HDFS: Number of
write operations=4 Map-Reduce Framework Map input records=8 Map output
records=16 Map output bytes=148 Map output materialized bytes=61 Input
split bytes=102 Combine input records=16 Combine output records=5
Reduce input groups=5 Reduce shuffle bytes=61 Reduce input records=5
Reduce output records=5 Spilled Records=10 Shuffled Maps =1 Failed
Shuffles=0 Merged Map outputs=1 GC time elapsed (ms)=22 Total
committed heap usage (bytes)=489684992 Shuffle Errors BAD_ID=0
CONNECTION=0 IO_ERROR=0 WRONG_LENGTH=0 WRONG_MAP=0 WRONG_REDUCE=0 File
Input Format Counters Bytes Read=90

File Output Format Counters Bytes Written=35

5.MR中的Shuffle机制

在MR执行的过程中，Map和Reduce之间有一个称之为Shuffle的流程，是MR框架最核心的部分只有对Shuffle有深入的理解才可能开发出高效率的MR程序。

在Map阶段：
split input map buffer spill(partition sort combiner) merge(partition sort
*combiner[如果文件数量大于等于三会触发，否则不会])

**Buffer - 环形缓冲区，默认100MB，溢写比0.8，每当达到一个溢写比，就写出为一个文件，在写出的过程中，map并不会停止，理想的情况下，缓冲区快满时，如果溢写完成，则map可以继续写入覆盖之前数据即可，如果没有完成，缓冲区被填满，则Map线程被挂起，直到溢写流程完成，再继续执行。所以在mr开发中环形缓冲区配置的是否合理将直接影响MR的性能。
在Reduce阶段：
fetch merge group sort reduce out

6.Mapper的数量

Reducer的数量是可以通过代码来进行控制的，但Mapper的数量是无法简单的通过代码来控制的。
Mapper的数量取决于split的数量，而切split的规则默认和hdfs文件切块的规则是一致的，所以可以简单的认为，默认情况下，有多少block就有多少split，有多少split就产生多少个Mapper。

但是这种机制，在某些情况下会造成一定的危害。例如，存在大量的小文件，按照hdfs的原
理，每个小文件都是一个Block，在MR执行的过程中对应一个split，对应一个Mapper，则大量小文件需要开启大量Mapper处理，很可能大量Mapper同时创建，内存不足，MR崩溃。这样，总的数据量并不大，但MR无法处理。

此时，需要想办法，控制MR的数量。

要么自己来开发MR的输入流程，通过控制split 和 input的过程，减少Mapper的数量要么通过mapred.min.split.size 来限制每个split的最小的大小，从而缓解这个问题

MR扩展

1.MR中的输入控制 - InputFormat

a.InputFormat概述
MapReduce开始阶段阶段，InputFormat类用来产生InputSplit，并把基于RecordReader它切分成record，形成Mapper的输入。
b.MR内置的InputFormat
i.TextInputFormat
作为默认的文件输入格式，用于读取纯文本文件，文件被分为一系列以LF或者CR结束的行，key是每一行的位置偏移量，是LongWritable类型的，value是每一行的内容，为Text类型。
ii.KeyValueTextInputFormat
同样用于读取文本文件，如果行被分隔符（缺省是tab）分割为两部分，第一部分为
key，剩下的部分为value；如果没有分隔符，整行作为 key，value为空。
iii.SequenceFileInputFormat
用于读取sequence file。
sequence file是Hadoop用于存储数据自定义格式的binary文件。它有两个子类： SequenceFileAsBinaryInputFormat，将 key和value以BytesWritable的类型读出； SequenceFileAsTextInputFormat，将key和value以Text类型读出。
iv.SequenceFileInputFilter
根据filter从sequence文件中取得部分满足条件的数据，通过 setFilterClass指定Filter，内置了三种 Filter，RegexFilter取key值满足指定的正则表达式的记录；PercentFilter通过指定参数f，取记录行数%f0的记录；MD5Filter通过指定参数f，取MD5(key)%f0 的记录。
v.NLineInputFormat
0.18.x新加入，可以将文件以行为单位进行split，比如文件的每一行对应一个 mapper。得到的key是每一行的位置偏移量（LongWritable类型），value是每一行的内容，Text类型。
vi.CompositeInputFormat
用于多个数据源的join。
c.为MR设置指定的InputFormat

job.setInputFormatClass(XxxInputFormat.class);

d.自定义InputFormat
内置的输入格式化器可以应对大部分需求，但是如果有些需求下，内置输入格式化器无法满足要求，则可以开发自定义的输入格式化器。

所有InputFormat都要直接或间接的继承InputFormat抽象类。

InputFormat抽象类中主要定义了如下两个方法:

我们可以直接继承InputFormat，但更多的时候我们会选择继承他的一个实现子类，比如FileInputFormat – 此类是所有来源为文件的InputFormat的基类，默认的TextInputFormat就继承自它。
FileInputFormat实现了InputFormat接口，实现了getSplits方法，根据配置去逻辑切割文件，返回FileSplit的集合，并提供了isSplitable()方法，子类可以通过在这个方法中返回boolean类型的值表明是否要对文件进行逻辑切割，如果返回false则无论文件是否超过一个Block大小都不会进行切割，而将这个文件作为一个逻辑块返回。而对createRecordReader方法则没有提供实现，设置为了抽象方法，要求子类实现。
如果想要更精细的改变逻辑切块规则可以覆盖getSplits方法自己编写代码实现。而更多的时候，我们直接使用父类中的方法而将精力放置在createRecordReader上，决定如何将InputSplit转换为一个个的Recoder。

案例1：读取score1.txt文件，从中每4行读取成绩，其中第一行为姓名，后3行为单科成绩，计算总分，最终输出为姓名:总分格式的文件。

import java.io.IOException;

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.JobContext;
import org.apache.hadoop.mapreduce.RecordReader;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

public class ScoreInputFormat extends FileInputFormat {

	@Override
	protected boolean isSplitable(JobContext context, Path filename) {
		return false;
	}
	
	@Override
	public RecordReader createRecordReader(InputSplit split, TaskAttemptContext context)
			throws IOException, InterruptedException {
		return new ScoreRecordReader();
	}

}


import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;

import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.RecordReader;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;

public class ScoreRecordReader extends RecordReader {
	private BufferedReader breader = null;
	private Text key = null;
	private Text value = null;
	private float progress = 0f;
	/**
	 * 初始化方法
	 * split : 当前的切片
	 * context : 当前上下文
	 */
	@Override
	public void initialize(InputSplit split, TaskAttemptContext context) throws IOException, InterruptedException {
		FileSplit fis = (FileSplit) split;
		Path path = fis.getPath();
		FileSystem fsys = path.getFileSystem(context.getConfiguration());
		FSDataInputStream inputStream = fsys.open(path);
		breader = new BufferedReader(new InputStreamReader(inputStream,"utf-8"));
	}
/**
 * 读取下一个键值对 ，如果读取到返回true，如果没有读取到返回false
 */
@Override
public boolean nextKeyValue() throws IOException, InterruptedException {
	String line = breader.readLine();
	if(line != null){
		key = new Text(line);
		String line1 = breader.readLine();
		String line2 = breader.readLine();
		String line3 = breader.readLine();
		value = new Text(line1+"\r\n"+line2+"\r\n"+line3+"\r\n");
		return true;
	}
	progress = 1.0f;
	return false;
}

/**
 * 如果上面的方法返回true，则调用此方法获取当前的键
 */
@Override
public Text getCurrentKey() throws IOException, InterruptedException {
	return key;
}

/**
 * 如果上面的方法返回true，则调用此方法获取当前的值
 */
@Override
public Text getCurrentValue() throws IOException, InterruptedException {
	return value;
}

/**
 * 获取当前的进度
 */
@Override
public float getProgress() throws IOException, InterruptedException {
	return progress;
}

/**
 * RecordReader关闭前调用的方法，一般用来释放资源
 */
@Override
public void close() throws IOException {
	breader.close();
}

}

2.MR中的输入控制- MultipleInputs

a.MultipleInputs概述
MultipleInputs可以将多个输入组装成起来，同时为Mapper提供数据，当我们希望从多个来源读取数据时可以使用。甚至，在指定来源时可以为不同来源的数据指定不同的InputFormat和Mapper以应对不同格式的输入数据。

这个类上的方法：

b.案例2：改造案例1，同时从另一个文件score2.txt中读取数据统计成绩。score2.txt中的数据是一行为一个学生的成绩

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class Score2Mapper extends Mapper {

	@Override
	protected void map(LongWritable k1, Text v1, Mapper.Context context)
			throws IOException, InterruptedException {
		String attrs [] = v1.toString().split(" ");
		String name = attrs[0];
		int chinese = Integer.parseInt(attrs[1]);
		int math = Integer.parseInt(attrs[2]);
		int english = Integer.parseInt(attrs[3]);
		int sum = chinese + math + english;
		context.write(new Text(name), new IntWritable(sum));
	}
}


import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.MultipleInputs;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class ScoreDriver {

	public static void main(String[] args) throws Exception {
		Configuration conf = new Configuration();
		Job job = Job.getInstance(conf, "Score2_Job");

		job.setJarByClass(cn.tedu.mr.inputformat.score.ScoreDriver.class);

		//--设定多输入，不同的输入用不同的输入格式化器和mapper来处理
		MultipleInputs.addInputPath(job
				, new Path("hdfs://hadoop01:9000/scoreData/score1.txt")
				, Score1InputFormat.class,Score1Mapper.class);
		MultipleInputs.addInputPath(job
				, new Path("hdfs://hadoop01:9000/scoreData/score2.txt")
				, TextInputFormat.class,Score2Mapper.class);
		
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);
		FileOutputFormat.setOutputPath(job, new Path("hdfs://hadoop01:9000/scoreResult"));

		if (!job.waitForCompletion(true))
			return;
	}

}

3.MR中的输入控制- OutputFormat

a.OutputFormat概述
MapReduce结束阶段，OutputFormat类决定了Reducer如何产生输出。
b.MR内置的OutputFormat
i.TextOutputFormat
以行分隔、包含制表符定界的键值对的文本文件格式
ii.SequenceFileOutputFormat
二进制键值数据的压缩格式
iii.SequenceFileAsBinaryOutputFormat
原生二进制数据的压缩格式
iv.MapFileOutputFormat
一种使用部分索引键的格式
c.为MR设置指定的OutputFormat

d.自定义输出格式化器
内置的输出格式化器可以应对大部分需求，但是如果有些需求下，内置输出格式化器无法满足要求，则可以开发自定义的输出格式化器。

所有的OutputFormat都要直接或间接的继承OutputFormat抽象类
OutputFormat抽象类中定义了如下的抽象方法：

我们可以直接继承OutputFormat，但更多的时候我们会选择继承他的一个实现子类，比如FileOutputFormat – 此类是所有目的地为文件的OutputFormat的基类，例如默认的TextOutputFormat就继承自它。
FileOutputFormat实现了OutputFormat接口，默认实现了checkOutputSpecs和getOutputCommitter方法，并将getRecordWriter()设置为抽象方法要求我们去实现。如果想要更精细的改变逻辑可以自己去编写getOutputCommitter和checkOutputSpecs方法。
而更多的时候，我们直接使用父类中的方法而将精力放置在getRecordWriter上，决定如何产生输出。
e.案例3：编写wordcount案例，并将输出按照’#'进行分割，输出为一行

import java.io.DataOutputStream;
import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.RecordWriter;
import org.apache.hadoop.mapreduce.TaskAttemptContext;

public class WcRecordWriter extends RecordWriter {
	private DataOutputStream out = null;
	
	public WcRecordWriter(DataOutputStream out) {
		this.out = out;
	}
	
	@Override
	public void write(Text k4, IntWritable v4) throws IOException, InterruptedException {
		out.write((k4.toString()+"~"+v4.get()+"#").getBytes());
	}

	@Override
	public void close(TaskAttemptContext context) throws IOException, InterruptedException {
		out.close();
	}

}


import java.io.IOException;

import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.RecordWriter;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WcOutputFormat extends FileOutputFormat {

	@Override
	public RecordWriter getRecordWriter(TaskAttemptContext context)
			throws IOException, InterruptedException {
        Path path = getDefaultWorkFile(context, "");  
        FileSystem fs = path.getFileSystem(context.getConfiguration());
        FSDataOutputStream out = fs.create(path,false);
		return new WcRecordWriter(out);
	}
	
}


import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WcDriver {

	public static void main(String[] args) throws Exception {
		Configuration conf = new Configuration();
		Job job = Job.getInstance(conf, "Wc_Job");
		job.setJarByClass(cn.tedu.mr.outputformat.wc.WcDriver.class);
		job.setMapperClass(cn.tedu.mr.outputformat.wc.WcMapper.class);
		job.setReducerClass(cn.tedu.mr.outputformat.wc.WcReducer.class);

		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);

		job.setOutputFormatClass(WcOutputFormat.class);
		
		FileInputFormat.setInputPaths(job, new Path("hdfs://hadoop01:9000/wcdata"));
		FileOutputFormat.setOutputPath(job, new Path("hdfs://hadoop01:9000/wcresult"));

		if (!job.waitForCompletion(true))
			return;
	}

}

4.MR中的输入控制- MultipleOutputs

a.MultipleOutputs概述
MultipleOutputs可以令一个Reducer产生多个输出文件。
主要方法：

b.案例4：改造案例3，将首字母为a-j的输出到"small"中。其他输出到"big"中

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.output.MultipleOutputs;

public class Wc2Reducer extends Reducer {
	private MultipleOutputs mos = null;
	@Override
	protected void setup(Reducer.Context context)
			throws IOException, InterruptedException {
		 mos = new MultipleOutputs<>(context);
	}
	
	@Override
	protected void reduce(Text k3, Iterable v3s,
			Reducer.Context context) throws IOException, InterruptedException {
		int count = 0;
		for(IntWritable v3 : v3s){
			count += v3.get();
		}
			
		String word = k3.toString();
		if(word.matches("^[a-j].*$")){
			mos.write("small", new Text(word), new IntWritable(count));
		}else{
			mos.write("big", new Text(word), new IntWritable(count));
		}
	
	}
	
}


import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.MultipleOutputs;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

public class Wc2Driver {

	public static void main(String[] args) throws Exception {
		Configuration conf = new Configuration();
		Job job = Job.getInstance(conf, "Wc2_Job");
		job.setJarByClass(cn.tedu.mr.outputformat.wc2.Wc2Driver.class);
		job.setMapperClass(cn.tedu.mr.outputformat.wc2.Wc2Mapper.class);
		job.setReducerClass(cn.tedu.mr.outputformat.wc2.Wc2Reducer.class);

		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);
		
		FileInputFormat.setInputPaths(job, new Path("hdfs://hadoop01:9000/wcdata"));
		
		MultipleOutputs.addNamedOutput(job, "small", Wc2OutputFormat.class, Text.class, IntWritable.class);
		MultipleOutputs.addNamedOutput(job, "big", TextOutputFormat.class, Text.class, IntWritable.class);
		FileOutputFormat.setOutputPath(job, new Path("hdfs://hadoop01:9000/wcresult"));

		if (!job.waitForCompletion(true))
			return;
	}

}

5.GroupingComparator

在MR的shuffle过程中，包含sort group操作，其依据默认是k2 k3的comparaTo方法来实现，也可以额外的配置job.setGroupingComparatorClass(Wc3Comparator.class);额外的指定比较过程，则，此配置将会替代k2 k3的comparaTo方法，决定sort 和group的过程。利用这机制，可以在bean的comparaTo方法不符合mr时需要的sort group要求时，在不修改bean 的comparaTo方法的前提下，实现额外指定sort和group的过程的效果。

案例5：改造WordCount案例，实现统计a-h 和i-z开头的单词数量统计

package cn.tedu.mr.gc.wc3;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class Wc3Mapper extends Mapper {
	
	@Override
	protected void map(LongWritable k1, Text v1, Mapper.Context context)
			throws IOException, InterruptedException {
		String [] words = v1.toString().split(" ");
		for(String word : words){
			context.write(new Text(word), new IntWritable(1));
		}
	}
	
}


import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class Wc3Reducer extends Reducer {

	@Override
	protected void reduce(Text k3, Iterable v3s,
			Reducer.Context context) throws IOException, InterruptedException {
		int count = 0;
		for(IntWritable i : v3s){
			count += i.get();
		}
		if(k3.toString().matches("^[a-h].*$")){
			context.write(new Text("a-h"), new IntWritable(count));
		}else{
			context.write(new Text("i-z"), new IntWritable(count));
		}
	}

}


import java.io.ByteArrayInputStream;
import java.io.DataInput;
import java.io.DataInputStream;
import java.io.IOException;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.Text.Comparator;

public class Wc3Comparator extends Comparator {
	
	@Override
	public int compare(byte[] b1, int s1, int l1, byte[] b2, int s2, int l2) {
		try {
			DataInput in = new DataInputStream(new ByteArrayInputStream(b1,s1,l1));
			Text ta = new Text();
			ta.readFields(in);
			
			DataInput in2 = new DataInputStream(new ByteArrayInputStream(b2,s2,l2));
			Text tb = new Text();
			tb.readFields(in2);
			
			if(ta.toString().matches("^[a-h].*$") && tb.toString().matches("^[a-h].*$")){
				return 0;
			}else if(ta.toString().matches("^[i-z].*$") && tb.toString().matches("^[i-z].*$")){
				return 0;
			}else{
				return ta.compareTo(tb);
			}
		} catch (IOException e) {
			e.printStackTrace();
			throw new RuntimeException(e);
		}
	}
}


import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class Wc3Driver {

	public static void main(String[] args) throws Exception {
		Configuration conf = new Configuration();
		Job job = Job.getInstance(conf, "wc3_job");
		job.setJarByClass(cn.tedu.mr.gc.wc3.Wc3Driver.class);
		job.setMapperClass(cn.tedu.mr.gc.wc3.Wc3Mapper.class);
		job.setReducerClass(cn.tedu.mr.gc.wc3.Wc3Reducer.class);

		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);
		job.setGroupingComparatorClass(Wc3Comparator.class);
		
		FileInputFormat.setInputPaths(job, new Path("hdfs://hadoop01:9000/wcdata"));
		FileOutputFormat.setOutputPath(job, new Path("hdfs://hadoop01:9000/wcresult"));

		if (!job.waitForCompletion(true))
			return;
	}
}

6.常见面试题：通过MR实现二次排序

二次排序，即，输入中存在两列数据，有限按照第一列排序，第一列相同时按照第二列排序，且可能存在多条第一列和第二列都相同的数据，注意要都保留下来。

利用MR的排序机制，可以通过k2 k3实现排序，可以充分利用这个机制实现二次排序，难度在于要同时参考两列的值，此时可以将一行中的两列值，封装到bean中，在bean中设计comparaTo方法，指定比较规则，实现二次排序。

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

import org.apache.hadoop.io.WritableComparable;

public class NumBean implements WritableComparable{
	private int n1;
	private int n2;
	
	public NumBean() {
	}

	public NumBean(int n1, int n2) {
		this.n1 = n1;
		this.n2 = n2;
	}

	public int getN1() {
		return n1;
	}
	public void setN1(int n1) {
		this.n1 = n1;
	}
	public int getN2() {
		return n2;
	}
	public void setN2(int n2) {
		this.n2 = n2;
	}

	@Override
	public void write(DataOutput out) throws IOException {
		out.writeInt(n1);
		out.writeInt(n2);
	}

	@Override
	public void readFields(DataInput in) throws IOException {
		this.n1 = in.readInt();
		this.n2 = in.readInt();
	}

	@Override
	public int compareTo(NumBean o) {
		//--第一个数不同，比第一个数
		if(this.n1 != o.n1){
			return o.n1 - this.n1;
		}else{//--第一个数相同 比第二个数
			if(this.n2 != o.n2){
				return this.n2 - o.n2;
			}else{//--第一个数相同 第二个数 也相同，
				  //--此时不可以返回0 否则在reducer端 就被合成了一组了，所以返回一个非0的值
				return -1;
			}
		}
	}
}

7.小文件处理
Hadoop不擅长处理小文件，对于HDFS来说，大量的小文件需要大量的元数据，会大量消耗NameNode的存储控制(内存、磁盘)，对于MR来说，大量小文件，每个都是一个独立的Block，在MR中，默认对应大量Split，对应大量Mapper，则MR在启动时，一次创建大量Mapper，内存消耗巨大，可能崩溃。

8.小文件处理- HDFS
市面上针对这个问题，已经有了大量成熟的解决方案，方案各有特点，但基本的思路都是将多个小文件合并为一个大文件来存储，减少对NameNode的影响，之后需要小文件时，先找合并好的大文件，从中读取出小文件部分的数据。

a.民间解决方案 - 通过SequenceFile来合并存储大量小文件
SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。目前，也有不少人在该文件的基础之上提出了一些HDFS中小文件存储的解决方
案，他们的基本思路就是将小文件进行合并成一个大文件，同时对这些小文件的位置信息构建索引。

@Test
	/**
	 * SequenceFile 写操作
	 */
	public void SequenceWriter() throws Exception {
		final String INPUT_PATH = "hdfs://192.168.242.101:9000/big";
		final String OUTPUT_PATH = "hdfs://192.168.242.101:9000/big2";

		// 获取文件系统
		Configuration conf = new Configuration();
		conf.set("fs.defaultFS", "hdfs://192.168.242.101:9000");
		FileSystem fileSystem = FileSystem.get(new URI(INPUT_PATH), conf);

		// 创建seq的输出流
		Text key = new Text();
		Text value = new Text();
		SequenceFile.Writer writer = SequenceFile.createWriter(fileSystem, conf, new Path(OUTPUT_PATH), key.getClass(),
				value.getClass());

		// 写新的数据
		System.out.println(writer.getLength());
		key.set("small4.txt".getBytes());
		value.set("ddddddd".getBytes());
		writer.append(key, value);
		// 关闭流
		IOUtils.closeStream(writer);
	}

	@Test
	 /**
	* SequenceFile 读操作
		*/
	public void sequenceRead() throws Exception {
	final String INPUT_PATH= "hdfs://192.168.242.101:9000/big/big.seq";
	
	//获取文件系统
	Configuration conf = new Configuration();
	conf.set("fs.defaultFS", "hdfs://192.168.242.101:9000");
	FileSystem fileSystem = FileSystem.get(new URI(INPUT_PATH), conf); 42
	//准备读取seq的流
	Path path = new Path(INPUT_PATH);
	SequenceFile.Reader reader = new SequenceFile.Reader(fileSystem, path, conf);
	//通过seq流获得key和value准备承载数据
	Writable key = (Writable) ReflectionUtils.newInstance(reader.getKeyClass(), conf);
	Writable value = (Writable) ReflectionUtils.newInstance(reader.getValueClass(), conf);
	//循环从流中读取key和value
	long position = reader.getPosition();
	while(reader.next(key, value)){
	//打印当前key value
	System.out.println(key+":"+value);
	//移动游标指向下一个key value
	position=reader.getPosition(); 	
	}
	//关闭流
	IOUtils.closeStream(reader);
	}

	@Test
	 /**
	* 多个小文件合并成大seq文件
	* @throws Exception 67	*/
	public void small2Big() throws Exception{
	final String INPUT_PATH= "hdfs://192.168.242.101:9000/small";
	final String OUTPUT_PATH=  "hdfs://192.168.242.101:9000/big/big.seq";
	//获取文件系统
	Configuration conf = new Configuration();
		conf.set("fs.defaultFS", "hdfs://192.168.242.101:9000");
	FileSystem fs = FileSystem.get(conf);
	//通过文件系统获取所有要处理的文件
	FileStatus[] files = fs.listStatus(new Path(INPUT_PATH));
	//创建可以输出seq文件的输出流
	Text key = new Text();
	Text value = new Text();
	SequenceFile.Writer writer = SequenceFile.createWriter(fs, conf, new Path(OUTPUT_PATH),
	key.getClass(),value.getClass());
	//循环处理每个文件
	for (int i = 0; i < files.length; i++) {
	//key设置为文件名
	key.set(files[i].getPath().getName());
	//读取文件内容
	InputStream in = fs.open(files[i].getPath()); byte[] buffer = new byte[(int) files[i].getLen()];
	IOUtils.readFully(in, buffer, 0, buffer.length);
	//值设置为文件内容
	value.set(buffer);
	//关闭输入流
	IOUtils.closeStream(in);
	//将key文件名value文件内容写入seq流中
	writer.append(key, value);
	
	//关闭seq流
	IOUtils.closeStream(writer);

   }

b.官方解决方案 - Hadoop Archive
Hadoop Archive是Hadoop官方提供的小文件存储的处理方案，简单来说，可以将若干小文件合并成一个HAR文件，HAR文件在HDFS的NameNode中只占有一条元数据，而在HAR 文件的内部，将所有小文件合并为了一个大文件，并记录了索引信息，在未来读取数据过程中，只需要根据NameNode中的元数据读取到HAR文件的位置，再根据其中的索引信息，找到需要的小文件的数据在大文件中的位置，直接读取即可。所以HAR的优势在
于，可以不许编程，直接通过HDFS的原生API进行访问。

i.将文件打成HAR

默认路径是hdfs路径，如果需要指定为本地路径写上路径前缀file:///
ii.访问HAR中的数据
HAR包是Hadoop原生提供的机制，之前所学的访问HDFS中文件的命令，对HAR都有效，只不过是文件路径格式不一样，HAR的访问路径可以是以下两种格式：

1)列出HAR文件的所有文件
hadoop fs -ls har:///bbb/small.har
2)查看HAR文件中的小文件
hadoop fs -cat har:///bbb/small.har/words.txt
3)下载HAR文件中的小文件
hadoop fs -get har:///bbb/small.har/words.txt /home
iii.注意事项
1)对小文件进行存档后，原文件并不会自动被删除，需要用户自己删除；
2)创建HAR文件的过程实际上是在运行一个mapreduce作业，因而需要有一个hadoop集群运行此命令。
iv.HAR还有一些缺陷：
1)一旦创建，Archives便不可改变。要增加或移除里面的文件，必须重新创建归档文件。
2)要归档的文件名中不能有空格，否则会抛出异常，可以将空格用其他符号替换(使用- Dhar.space.replacement.enable=true 和-Dhar.space.replacement参数)。
9.小文件处理- MR
a.方案1：开发InputFormat，从多个小文件中读取数据作为一个Mapper的输入，可以自己开发也可以使用官方提供CompositeInputFormat

此类的原理在于，它本质上是一个InputFormat，在其中的getSplits方法中，将他能读到的所有的文件生成一个InputSplit
使用此类需要配合自定义的RecordReader，需要自己开发一个RecordReader指定如何从
InputSplit中读取数据。
b.方案2：可以通过配置mapred.min.split.size来控制split的size的最小值。

你可能感兴趣的:(大数据,MapReduce)

数据让农业更聪明——用大数据激活田间地头 Echo_Wish 大数据大数据
数据让农业更聪明——用大数据激活田间地头在农业领域，随着人口增长和气候变化的影响，如何提升生产力始终是个关键话题。大数据，这个曾经只属于科技领域的概念，如今已悄然进入田间地头。今天，我以Echo_Wish的视角，和大家聊聊大数据如何赋能农业生产力，帮农民在阳光下也能掌握“科技的钥匙”。认识农业中的大数据什么是农业中的“大数据”？简单来说，就是收集和分析有关土地、气候、作物、病虫害以及市场需求等方面
GraphCube、Spark和深度学习技术赋能快消行业关键运营环节 weixin_30777913 开发语言大数据深度学习人工智能 spark
在快消品（FMCG）行业，需求计划（DemandPlanning）、库存管理（InventoryManagement）和需求供应管理（DemandSupplyManagement）是影响企业整体效率和利润水平的关键运营环节。GraphCube图多维数据集技术、Spark大数据分析处理技术和深度学习技术的结合，为这些环节提供了智能化、动态化和实时化的解决方案，显著提升业务运营效率和企业利润。一、技术
从 0 到 1 构建 Python 分布式爬虫，实现搜索引擎全攻略七七知享 Python python 分布式爬虫搜索引擎算法程序人生网络爬虫
从0到1构建Python分布式爬虫，实现搜索引擎全攻略在大数据与信息爆炸的时代，搜索引擎已然成为人们获取信息的关键入口。你是否好奇，像百度、谷歌这般强大的搜索引擎，背后是如何精准且高效地抓取海量网页数据的？本文将带你一探究竟，以Python为工具，打造属于自己的分布式爬虫，进而搭建一个简易搜索引擎，完整呈现从底层代码编写到系统搭建的全过程。通过本文的实践，我们成功打造了Python分布式爬虫，并以
第三十篇维度建模：从理论到落地的企业级实践随缘而动，随遇而安数据库 sql 数据仓库大数据数据库架构
目录一、维度建模核心理论体系1.1Kimball方法论四大支柱1.2关键概念对比矩阵二、四步建模法全流程解析2.1选择业务过程（以电商为例）2.2声明原子粒度（订单案例）2.3维度设计规范时间维度（含财年逻辑）SCDType2完整实现（Hudi）2.4事实表类型与设计三、企业级建模实战：电商用户分析3.1业务矩阵分析3.2模型实现代码四、高级建模技巧4.1多星型模式关联4.2大数据场景优化五、性能
计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
深陷“大数据杀熟”漩涡的飞猪，庄卓然如何力挽狂澜？财经三剑客大数据
在线旅游市场（OTA）的蓬勃发展为消费者带来了诸多便利，然而，在这股数字化浪潮中，飞猪旅行却因其频繁陷入“大数据杀熟”的争议而备受瞩目。这一行为不仅损害了消费者的合法权益，更让飞猪的品牌形象蒙上了一层阴影。近年来，飞猪平台上关于价格乱象的投诉屡禁不止。在黑猫投诉平台上，与“飞猪”相关的投诉累计已超9万条，其中直接以“飞猪杀熟”为关键词的投诉便达数百条。消费者们纷纷反映，在飞猪平台上预订机票、酒店等
API item_get 在电商平台的核心作用以及如何测试 index_all 数据供应商京东api java 大数据开发语言
在电商行业蓬勃发展的今天，跨平台运营已成为众多商家的必然选择。然而，随之而来的数据孤岛问题却成为了制约电商企业进一步发展的瓶颈。为了解决这一问题，电商大数据平台应运而生，而item_getAPI作为获取商品详情的关键接口，在其中扮演着至关重要的角色。本文将深入探讨item_getAPI在跨平台电商数据整合中的应用与优势，为电商企业在数据驱动的道路上提供有力支持。一、跨平台电商数据整合的挑战在跨平台
“四预”驱动数字孪生水利：让智慧治水守护山河安澜 GeoSaaS 实景三维智慧城市人工智能 gis 大数据安全
近年来，从黄河秋汛到海河特大洪水，从珠江流域性洪灾到长江罕见骤旱，极端天气频发让水安全问题备受关注。如何实现“治水于未发”？数字孪生水利以“预报、预警、预演、预案”（四预）为核心，正在掀起一场水利治理的智慧革命。一、数字孪生水利：从物理世界到虚拟镜像的跃迁数字孪生水利并非简单的“数字建模”，而是通过高精度传感器、大数据、人工智能等技术，在虚拟空间构建与物理流域完全映射的“数字分身”，实现水情、工情
数智读书笔记系列021《大数据医疗》：探索医疗行业的智能变革 Allen_Lyb 数智读书笔记大数据健康医疗人工智能 python
一、书籍介绍《大数据医疗》由徐曼、沈江、余海燕合著，由机械工业出版社出版。徐曼是南开大学商学院副教授，在大数据驱动的智能决策研究领域颇有建树，尤其在大数据驱动的医疗与健康决策方面有着深入研究，曾获天津优秀博士论文、教育部博士研究生新人奖。沈江等作者也在相关学术和实践领域有着丰富的经验和深厚的专业知识。这本书系统且深入地探讨了大数据技术在医疗领域的应用与变革，对推动医疗行业的智能化发展具有重要的理论
OpenEuler kinit报错找不到文件的解决办法久违的太阳其他故障处理服务器运维
客户一套华为大数据集群平台,在一台arm平台openEuler服务器上面安装完集群客户端之后,使用kinit认证出现报错Nosuchfileordirectory:最终定位是操作系统/lib64缺少ld包导致,执行下面的命令恢复：ln-sv/lib/ld-linux-aarch64.so.1/lib64/ld-linux-aarch64.so.1
JAVA学习-练习试用Java实现“对大数据集中的网络日志进行解析和异常行为筛查” 守护者170 java学习 java 学习
问题：编写一个Spark程序，对大数据集中的网络日志进行解析和异常行为筛查。解答思路：下面是一个简单的Spark程序示例，用于解析网络日志并筛查异常行为。这个示例假设日志文件格式如下：timestamp,ip_address,user_id,action,event,extra_info2023-01-0112:00:00,192.168.1.1,123,login,success,none202
JAVA学习-练习试用Java实现“实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选” 守护者170 java学习 java 学习
问题：实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选。解答思路：要实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选，需要按照以下步骤进行：1.环境准备确保的环境中已经安装了ApacheSpark。可以从[ApacheSpark官网](https://spark.apache.org/downloads.html)下载并安装。2.创建Spark应用以下是
深度学习的颠覆性发展：从卷积神经网络到Transformer AI天才研究院 AI大模型应用入门实战与进阶 ChatGPT 大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh
知识管理系统：构建企业智慧大脑 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
第一部分：知识管理概述与重要性第1章：知识管理的定义与基本概念1.1.1知识管理的起源与发展知识管理（KnowledgeManagement，KM）起源于20世纪80年代，当时企业在市场竞争中逐渐意识到知识作为一种战略资源的重要性。早期的知识管理实践主要集中在知识的收集、存储和传播上。随着信息技术的发展，知识管理逐渐融入了更先进的技术手段，如数据挖掘、人工智能和大数据分析，使其成为一个跨学科、多领
基于协同过滤推荐算法的景点票务数据系统（python-计算机毕设）计算机程序设计(接毕设) 推荐算法机器学习毕业设计 python 人工智能
摘要IABSTRACTII第1章引言1研究背景及意义1研究背景1研究意义1国内外研究现状2智慧旅游3旅游大数据3研究内容4本章小结4第2章相关技术概述5基于内容的推荐算法5基于内容的推荐算法原理5基于内容的推荐算法实现5协同过滤推荐算法6协同过滤算法原理6协同过滤算法实现7SpringBoot框架9SpringBoot简介9SpringBoot特性10SpringBoot工作原理10Vue.js框
Elasticsearch 介绍：分布式搜索与分析引擎吱屋猪_ elasticsearch
在如今大数据时代，企业和开发者面临着前所未有的数据量和实时性要求。为了能够高效地处理、存储和查询这些数据，Elasticsearch作为一种强大的分布式搜索引擎，已经成为了很多组织和开发者的首选解决方案。1.什么是Elasticsearch？Elasticsearch是一个开源的、基于ApacheLucene构建的全文搜索引擎。它提供了高效的搜索功能，并且非常适合处理大量数据，尤其是在需要快速搜索
数仓建模—Data Warebase AI 时代数据平台应当的样子不二人生数仓建模人工智能数据仓库数仓建模
DataWarebaseAI时代数据平台应当的样子引言：在这个AI技术飞速发展的时代，我们有能力更深入地发掘数据潜在的价值，而数据处理不应当成为阻碍。云原生分布式DataWarebase将开启处理数据的新范式，它让数据的使用返璞归真，不论是存储还是查询，一个系统满足业务全方位数据需求。打破复杂数据架构的束缚，大大降低数据的使用门槛，释放数据潜能，让数据涌现智能。背景近二十年大数据发展史2002年我
Flink 通过 Chunjun Oracle LogMiner 实时读取 Oracle 变更日志并写入 Doris 的方案 roman_日积跬步-终至千里 #flink 实战 flink oracle 大数据
文章目录一、技术背景二、关键技术1、OracleLogMiner2、Chunjun的LogMiner关键流程3、修复ChunjunOracleLogMiner问题一、技术背景在大数据实时同步场景中，需要将Oracle数据库的变更数据（CDC）采集并写入ApacheDoris，以支持数据分析、BI报表、实时数据仓库等应用。本方案基于Flink+Chunjun，通过OracleLogMiner解析Re
【第11章】亿级电商平台订单系统-海量数据架构设计 cherry5230 架构系统架构架构分布式
1-1本章导学课程导学课程定位：大型系统架构设计核心难点解析核心项目：BToB电商平台订单系统（年交易额200亿级）本章知识体系1.核心概念辨析海量数据vs大数据本质区别解析常见认知误区说明2.方法论框架海量数据处理核心思想分布式计算原理数据分片策略弹性扩展机制3.数据库架构设计方法论体系读写分离模式分库分表策略数据分区方案缓存层设计4.数据处理体系海量数据处理之道批处理与流处理数据压缩技术异步处
NET Core 大数据处理 Gene Z .Net C#c#
在.NETCore里处理10万条以上的大数据时，可采用以下几种方式，同时也适用于不同的应用场景。1.批量处理方式借助批量操作一次性处理大量数据，从而减少与数据库或外部系统的交互次数，提高性能。例如，在向数据库插入大量数据时，可使用批量插入操作。应用场景适用于数据导入、数据迁移等场景。比如将CSV文件中的大量数据批量导入到数据库中。2.并行处理方式运用并行编程技术（像Parallel.ForEach
火山云与腾讯云的优势对比苹果企业签名分发腾讯云云计算
首先，我需要确定用户的需求是什么。可能他们是在选择云服务提供商，或者在做市场调研。用户可能是企业的IT决策者，或者是开发人员，需要了解哪个平台更适合他们的项目。接下来，我得收集火山云和腾讯云的基本信息。火山云是字节跳动旗下的，虽然进入市场较晚，但可能有字节的技术支持，比如大数据和AI方面的优势。腾讯云作为老牌厂商，生态完善，产品线全，尤其在游戏、社交等领域有优势。需要对比的方面包括：背景与市场地位
Flume与Couchbase集成原理与实例 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Flume与Couchbase集成原理与实例作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着大数据时代的到来，企业对数据存储和处理的效率要求越来越高。在数据采集、存储、处理和分析的各个环节，都需要高效、可靠的技术支持。Flume和Couchbase正是这样两种优秀的工具，前者擅长于数据采集和传输，后者擅长于键值存储和文
大数据最新大数据StarRocks(七)：数据表创建(2) 2401_84182271 程序员大数据
2.1表分为内部表和外部表默认未内部表，3.0版本开始集成外部数据建议使用catalog，外部表的建表方式将被弃用2.2列定义语法：col_namecol_type[agg_type][NULL|NOTNULL][DEFAULT"default\_value"][AUTO_INCREMENT][ASgeneration_expr]col_name：列名称注意，在一般情况下，不能直接创建以以__op
计算机专业毕业设计题目推荐（新颖选题）本科计算机科学专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计计算机网络毕设选题毕设系统毕设题目计算机科学专业
文章目录前言最新毕设选题（建议收藏起来）本科计算机科学专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能设计
智慧交通是什么，可以帮助我们解决什么问题? Guheyunyi 运维大数据人工智能信息可视化前端
智慧交通是什么？智慧交通（SmartTransportation）是指利用物联网（IoT）、大数据、人工智能（AI）、云计算、5G通信等先进技术，对交通系统进行智能化管理和优化，以提高交通效率、减少拥堵、降低事故率、提升出行体验，并实现交通资源的合理配置和可持续发展。智慧交通的核心是通过数据采集、分析和应用，实现交通系统的智能化、自动化和协同化，从而构建一个高效、安全、绿色、便捷的交通生态系统。智
《基于图神经网络的安卓应用检测系统设计与实现》开题报告大数据蟒行探索者毕业论文/研究报告神经网络 android 人工智能机器学习大数据深度学习 python
个人主页：@大数据蟒行探索者目录一、课题的研究目的和意义1.研究目的2.研究意义二、国内(外)研究现状及分析1.国内研究现状2.国外研究现状3.研究分析三、课题主要研究内容及可行性分析1.研究内容2.可行性分析四、研究方案和技术途径1.研究方案2.技术途径五、外部条件及解决办法1.开发环境2.解决办法六、主要参考文献一、课题的研究目的和意义1.研究目的随着智能手机的普及，安卓操作系统成为全球最为广
大数据和人工智能概念全面解析就犯得上方法
一、大数据和人工智能大数据是伴随着信息数据爆炸式增长和网络计算技术迅速发展而兴起的一个新型概念。根据麦肯锡全球研究所的定义，大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据能够帮助各行各业的企业从原本毫无价值的海量数据中挖掘出用户的需求，使数据能够从量变到质变，真正产生价值
数据中台（二）数据中台相关技术栈 Yuan_CSDF #数据中台
1.平台搭建1.1.Amabari+HDP1.2.CM+CDH2.相关的技术栈数据存储：HDFS，HBase，Kudu等数据计算：MapReduce,Spark,Flink交互式查询：Impala,Presto在线实时分析：ClickHouse，Kylin，Doris，Druid，Kudu等资源调度：YARN，Mesos，Kubernetes任务调度：Oozie，Azakaban，AirFlow，
一文搞懂大数据神器Spark，真的太牛了！ qq_23519469 大数据 spark 分布式
Spark是什么在如今这个大数据时代，数据量呈爆炸式增长，传统的数据处理方式已经难以满足需求。就拿电商平台来说，每天产生的交易数据、用户浏览数据、评论数据等，数量巨大且种类繁多。假如要对这些数据进行分析，比如分析用户的购买行为，找出最受欢迎的商品，预测未来的销售趋势等，用普通的单机处理方式，可能需要花费很长时间，甚至根本无法完成。这时，Spark就应运而生了。Spark是一个开源的、基于内存计算的
Hadoop相关面试题努力的搬砖人. java 面试 hadoop
以下是150道Hadoop面试题及其详细回答，涵盖了Hadoop的基础知识、HDFS、MapReduce、YARN、HBase、Hive、Sqoop、Flume、ZooKeeper等多个方面，每道题目都尽量详细且简单易懂：Hadoop基础概念类1.什么是Hadoop？Hadoop是一个由Apache基金会开发的开源分布式计算框架，主要用于处理和存储大规模数据集。它提供了高容错性和高扩展性的分布式存
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/