fazhi-bb

[Hadoop合并小文件的两种解决方案]

在Hadoop的运行环境中，什么文件是小文件？在Hadoop的世界中，小文件是指文件大小远远小于HDFS块大小的文件。Hadoop2.0中，HDFS默认的块大小是128MB，所以，比如2MB,7MB或9MB的文件就认为是小文件。在Hadoop的环境中，块大小是可以通过参数配置的，这个参数由一个名为dfs.block.size定义。如果一个应用要处理一个超大的文件，可以通过这个参数设置更大更大得到块文件，比如256MB或512MB。

Hadoop的应用中，Hadoop可以很好的处理大文件，不过当文件很多，并且文件很小时，Hadoop会把每一个小文件传递给map()函数，而Hadoop在调用map()函数时会创建一个映射器，这样就会创建了大量的映射器，应用的运行效率并不高。如果使用和存储小文件，通常就会创建很过的映射器。例如，如果有2000个文件，每一个文件的大小约为2-3MB，在处理这一批文件时，就需要2000个映射器，将每一个文件发送到一个映射器，效率会非常低的。所以，在Hadoop的环境环境中，要解决这个问题，就需要把多个文件合并为一个文件，然后在进行处理。如上面的例子中，可以把40-50个文件合并为衣蛾块大小的文件(接近块大小128MB)，通过合并这些小文件，最后就只需要40-50个映射器，这样效率就可以有较大提升了。Hadoop主要设计批处理大量数据的大文件，不是很多小文件。解决小文件问题的主要目的就是通过合并小文件为更大的文件来加快Hadoop的程序的执行，解决小文件问题可以减少map()函数的执行次数，相应地提高hadoop作业的整体性能。

本文中，将为小文件问题提供两个解决方法：

1、在客户端将小文件合并为大文件。

2、使用Hadoop的CombineFileInputFormat实现小文件的合并。

在客户端合并小文件

将小文件提交到MapReduce/Hadoop之前，需要先把这些小文件合并到大文件中，再把合并的大文件提交给MapReduce驱动器程序。

定义一个SmallFilesConsolidator类接受一组小文件，然后将这些小文件合并在一起，生成更大的Hadoop文件，这些文件的大小接近于HDFS块大小(dfs.block.size)，最优的解决方案便是尽可能创建少的文件。

定义一个BucketThread类，这个类把小文件合并为一个大小于或接近于HDFS块大小的大文件。BucketThread是一个实现了Runable接口的独立线程，通过提供copyMerge()方法，把小文件合并为一个大文件。由于BucketThread是一个线程，所有的BucketThread对象可以并发的合并小文件。copyMerge()是BucketThread类的核心方法，它会把一个桶中的所有小文件合并为为一个临时的HDFS文件。例如，如果一个同种包含小文件｛file1,file2,file3,file4，file5｝，那么合并得到的文件如下图所示：

SmallFilesConsolidator类的实现

/**
 * 为Hadoop作业驱动程序提供通用小文件进行合并功能。
 *
 */
public class SmallFilesConsolidator {

	private static Logger logger = Logger.getLogger(SmallFilesConsolidator.class);

	// 可配置的HDFS根目录
	private static String MERGED_HDFS_ROOT_DIR = "/tmp/";

	/**
	 * 获取Buckets的数量
	 * 
	 * @param totalFiles:总文件数
	 * 
	 * @param numberOfMapSlotsAvailable:
	 * 
	 * @param maxFilesPerBucket:每一个Bucket的最大文件数
	 * 
	 */
	public static int getNumberOfBuckets(int totalFiles, int numberOfMapSlotsAvailable, int maxFilesPerBucket) {
		if (totalFiles <= (maxFilesPerBucket * numberOfMapSlotsAvailable)) {
			return numberOfMapSlotsAvailable;
		} else {
			int numberOfBuckets = totalFiles / maxFilesPerBucket;
			int remainder = totalFiles % maxFilesPerBucket;
			if (remainder == 0) {
				return numberOfBuckets;
			} else {
				return numberOfBuckets + 1;
			}
		}
	}

	/**
	 * 为映射器创建Buckets
	 *
	 */
	public static BucketThread[] createBuckets(int totalFiles, int numberOfMapSlotsAvailable, int maxFilesPerBucket) {
		int numberOfBuckets = getNumberOfBuckets(totalFiles, numberOfMapSlotsAvailable, maxFilesPerBucket);
		BucketThread[] buckets = new BucketThread[numberOfBuckets];
		return buckets;
	}

	/**
	 * 填充Bucket
	 *
	 * @param buckets:所有Bucket列表
	 * 
	 * @param smallFiles:小文件数
	 * 
	 * @param job:Hadoop运行的作业
	 * 
	 * @param maxFilesPerBucket:每一个Bucket的最大文件数
	 */
	public static void fillBuckets(BucketThread[] buckets, List smallFiles, Job job, int maxFilesPerBucket)
			throws Exception {

		int numberOfBuckets = buckets.length;
		// 将所有的小文件分区并填充到bucket中
		int combinedSize = smallFiles.size();
		int biosetsPerBucket = combinedSize / numberOfBuckets;
		if (biosetsPerBucket < maxFilesPerBucket) {
			int remainder = combinedSize % numberOfBuckets;
			if (remainder != 0) {
				biosetsPerBucket++;
			}
		}

		String parentDir = getParentDir();
		// 使用Bucket的序号定义Bucket的Id(范围是从0到numberOfBuckets-1)
		int id = 0;
		int index = 0;
		boolean done = false;
		while ((!done) & (id < numberOfBuckets)) {
			// 创建一个Bucket对象
			buckets[id] = new BucketThread(parentDir, id, job.getConfiguration());
			// 使用小文件填充Bucket
			for (int b = 0; b < biosetsPerBucket; b++) {
				buckets[id].add(smallFiles.get(index));
				index++;
				if (index == combinedSize) {
					done = true;
					break;
				}
			}
			id++;
		}
	}

	/**
	 * 对于每一个Bucket启动一个线程，并合并小文件
	 *
	 */
	public static void mergeEachBucket(BucketThread[] buckets, Job job) throws Exception {
		if (buckets == null) {
			return;
		}

		int numberOfBuckets = buckets.length;
		if (numberOfBuckets < 1) {
			return;
		}

		for (int ID = 0; ID < numberOfBuckets; ID++) {
			if (buckets[ID] != null) {
				buckets[ID].start();
			}
		}

		// 等待所有线程完成
		for (int ID = 0; ID < numberOfBuckets; ID++) {
			if (buckets[ID] != null) {
				buckets[ID].join();
			}
		}

		for (int ID = 0; ID < numberOfBuckets; ID++) {
			if (buckets[ID] != null) {
				Path biosetPath = buckets[ID].getTargetDir();
				addInputPathWithoutCheck(job, biosetPath);
			}
		}
	}

	private static void addInputPathWithoutCheck(Job job, Path path) {
		try {
			FileInputFormat.addInputPath(job, path);
			logger.info("added path: " + path);
		} catch (Exception e) {
			logger.error("could not add path: " + path, e);
		}
	}

	private static String getParentDir() {
		String guid = UUID.randomUUID().toString();
		return MERGED_HDFS_ROOT_DIR + guid + "/";
	}

}

BucketThread类的实现

/**
 * 这个类提供了将小于块大小的文件合并为一个大于块大小的文件，这样将提交较少的map()作业，提高map的运行效率。
 *
 */
public class BucketThread implements Runnable {

	private static Logger theLogger = Logger.getLogger(BucketThread.class);
	private static final Path NULL_PATH = new Path("/tmp/null");

	private Thread runner = null;
	private List bucket = null;
	private Configuration conf = null;
	private FileSystem fs = null;
	private String parentDir = null;

	private String targetDir = null;
	private String targetFile = null;

	/**
	 * 创建一个新的Bucket线程对象
	 *
	 * @param parentDir:父目录
	 * @param id:
	 *            每一个Bucket都有一个唯一的ID
	 *
	 */
	public BucketThread(String parentDir, int id, Configuration conf) throws IOException {
		this.parentDir = parentDir;
		// 存储目标目录
		this.targetDir = parentDir + id;
		// 存储目标文件
		this.targetFile = targetDir + "/" + id;
		this.conf = conf;
		this.runner = new Thread(this);
		this.fs = FileSystem.get(this.conf);
		this.bucket = new ArrayList();
	}

	/**
	 * 启动线程
	 */
	public void start() {
		runner.start();
	}

	/**
	 * 连接并等待其他线程
	 */
	public void join() throws InterruptedException {
		runner.join();
	}

	/**
	 * 线程的核心执行
	 */
	public void run() {
		try {
			copyMerge();
		} catch (Exception e) {
			theLogger.error("run(): copyMerge() failed.", e);
		}
	}

	/**
	 * @param path
	 *            :添加一个文件到Bucket中
	 */
	public void add(String path) {
		if (path == null) {
			return;
		}

		Path hdfsPath = new Path(path);
		if (pathExists(hdfsPath)) {
			bucket.add(hdfsPath);
		}
	}

	public List getBucket() {
		return bucket;
	}

	public int size() {
		return bucket.size();
	}

	public Path getTargetDir() {
		if (size() == 0) {
			// 没有文件的空目录
			return NULL_PATH;
		} else if (size() == 1) {
			return bucket.get(0);
		} else {
			// bucket有两个或更多的文件，并且已经被合并
			return new Path(targetDir);
		}
	}

	/**
	 * 将多个目录中的所有文件复制到一个输出文件(合并)。
	 *
	 * 将bucket中的所有路径合并，并返回一个新的目录(targetDir)，该目录包含合并的路径。
	 */
	public void copyMerge() throws IOException {
		// 如果bucket中只有一个路径/dir，则不需要合并它
		if (size() < 2) {
			return;
		}

		Path hdfsTargetFile = new Path(targetFile);
		OutputStream out = fs.create(hdfsTargetFile);
		try {
			for (int i = 0; i < bucket.size(); i++) {
				FileStatus contents[] = fs.listStatus(bucket.get(i));
				for (int k = 0; k < contents.length; k++) {
					if (!contents[k].isDir()) {
						InputStream in = fs.open(contents[k].getPath());
						try {
							IOUtils.copyBytes(in, out, conf, false);
						} finally {
							InputOutputUtil.close(in);
						}
					}
				}

			}
		} finally {
			InputOutputUtil.close(out);
		}

	}

	public String getParentDir() {
		return parentDir;
	}

	/**
	 * HDFS目录存在，则返回true,否则返回false
	 */
	public boolean pathExists(Path path) {
		if (path == null) {
			return false;
		}

		try {
			return fs.exists(path);
		} catch (Exception e) {
			return false;
		}
	}

	public String toString() {
		return bucket.toString();
	}

}

Hadoop程序的实现

/**
 * 使用小文件合并的单词计数驱动程序
 *
 */
public class WordCountDriverWithConsolidator extends Configured implements Tool {

	private static final Logger logger = Logger.getLogger(WordCountDriverWithConsolidator.class);
	private static int NUMBER_OF_MAP_SLOTS_AVAILABLE = 8;
	// 每一个bucket的最大文件数
	private static int MAX_FILES_PER_BUCKET = 5;

	private String inputDir = null;
	private String outputDir = null;
	private Job job = null;

	public WordCountDriverWithConsolidator(String inputDir, String outputDir) {
		this.inputDir = inputDir;
		this.outputDir = outputDir;
	}

	public Job getJob() {
		return this.job;
	}

	/**
	 * 启动Job
	 */
	public int run(String[] args) throws Exception {
		this.job = new Job(getConf(), "WordCountDriverWithConsolidator");
		job.setJobName("WordCountDriverWithConsolidator");
		job.getConfiguration().setInt("word.count.ignored.length", 3);

		// 将所有jar文件添加到HDFS的分布式缓存中
		HadoopUtil.addJarsToDistributedCache(job, "/lib/");

		// 获取HDFS文件系统
		FileSystem fs = FileSystem.get(job.getConfiguration());
		List smallFiles = HadoopUtil.listDirectoryAsListOfString(inputDir, fs);
		int size = smallFiles.size();
		if (size <= NUMBER_OF_MAP_SLOTS_AVAILABLE) {
			for (String file : smallFiles) {
				logger.info("file=" + file);
				addInputPath(fs, job, file);
			}
		} else {
			// 创建文件Bucket,每一个Bucket将会添加小文件
			BucketThread[] buckets = SmallFilesConsolidator.createBuckets(size, NUMBER_OF_MAP_SLOTS_AVAILABLE,
					MAX_FILES_PER_BUCKET);
			SmallFilesConsolidator.fillBuckets(buckets, smallFiles, job, MAX_FILES_PER_BUCKET);
			SmallFilesConsolidator.mergeEachBucket(buckets, job);
		}

		// 输出路径
		FileOutputFormat.setOutputPath(job, new Path(outputDir));

		job.setInputFormatClass(TextInputFormat.class);
		job.setOutputFormatClass(TextOutputFormat.class);

		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);

		job.setMapperClass(WordCountMapper.class);
		job.setCombinerClass(WordCountReducer.class);
		job.setReducerClass(WordCountReducer.class);

		boolean status = job.waitForCompletion(true);
		logger.info("run(): status=" + status);
		return status ? 0 : 1;
	}

	/**
	 * 添加输入路径
	 */
	private void addInputPath(FileSystem fs, Job job, String pathAsString) {
		try {
			Path path = new Path(pathAsString);
			if (HadoopUtil.pathExists(path, fs)) {
				FileInputFormat.addInputPath(job, path);
			} else {
				logger.info("addInputPath(): path does not exist. ignored: " + pathAsString);
			}
		} catch (Exception e) {
			logger.error("addInputPath(): could not add path: " + pathAsString, e);
		}
	}

	/**
	 * 提交map/reduce作业
	 */
	public static int submitJob(String inputDir, String outputDir) throws Exception {
		WordCountDriverWithConsolidator driver = new WordCountDriverWithConsolidator(inputDir, outputDir);
		int status = ToolRunner.run(driver, null);
		logger.info("submitJob(): status=" + status);
		return status;
	}

	/**
	 * Wordcount的map/reduce程序的主驱动程序。调用此方法提交map/reduce作业。
	 * 
	 * @throws Exception:作业跟踪器通信问题时抛出异常。
	 * 
	 */
	public static void main(String[] args) throws Exception {
		// 确定有两个参数
		if (args.length != 2) {
			logger.warn("2 arguments. , ");
			throw new IllegalArgumentException("2 arguments. , ");
		}

		logger.info("inputDir=" + args[0]);
		logger.info("outputDir=" + args[1]);
		long startTime = System.currentTimeMillis();
		int returnStatus = submitJob(args[0], args[1]);
		long elapsedTime = System.currentTimeMillis() - startTime;
		logger.info("returnStatus=" + returnStatus);
		logger.info("Finished in milliseconds: " + elapsedTime);
		System.exit(returnStatus);
	}
}

/**
 * WordCount Mapper
 *
 */
public class WordCountMapper extends Mapper {


	private int ignoredLength = 3;
	private static final IntWritable one = new IntWritable(1);
	private Text reducerKey = new Text();


	@Override
	protected void setup(Context context) throws IOException, InterruptedException {
		this.ignoredLength = context.getConfiguration().getInt("word.count.ignored.length", 3);
	}


	@Override
	public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
		String line = value.toString().trim();
		if ((line == null) || (line.length() < ignoredLength)) {
			return;
		}


		String[] words = StringUtils.split(line);
		if (words == null) {
			return;
		}


		for (String word : words) {
			if (word.length() < this.ignoredLength) {
				continue;
			}
			if (word.matches(".*[,.;]$")) {
				word = word.substring(0, word.length() - 1);
			}
			reducerKey.set(word);
			context.write(reducerKey, one);
		}
	}


}

public class WordCountReducer extends Reducer {

	public void reduce(Text key, Iterable values, Context context)
			throws IOException, InterruptedException {
		int sum = 0;
		for (IntWritable count : values) {
			sum += count.get();
		}
		context.write(key, new IntWritable(sum));
	}

}

用CombineFileInputFormat解决小文件问题

使用Hadoop API(抽象类CombineFileInputFormat)来解决小文件的问题。抽象类CombineFileInputFormat的基本思想是通过使用一个定制的InputFormat允许将小文件合并到Hadoop的分片(split)或块(chunk)中。要使用抽象类CombineFileInputFormat，需要事项3个定制类。

1、 CustomCFIF要扩展CombineFileInputFormat，创建子类来支持定制格式的输入。

2、 PairOfStringLong是一个Writable类，会存储小文件名称及其偏移量(Long)。调用compareTo()方法：首先比较文件名，再比较便宜量。

3、 CustomRecordReader是一个定制RecordReader。

CustomCFIF自定义类的实现

/**
 * 自定义文件输入格式，将较小的文件合并到控制大小为MAX_SPLIT_SIZE_128MB的文件中
 */
public class CustomCFIF extends CombineFileInputFormat {
	final static long MAX_SPLIT_SIZE_128MB = 134217728; // 128 MB = 128*1024*1024


	public CustomCFIF() {
		super();
		setMaxSplitSize(MAX_SPLIT_SIZE_128MB);
	}


	public RecordReader createRecordReader(InputSplit split, TaskAttemptContext context)
			throws IOException {
		return new CombineFileRecordReader((CombineFileSplit) split, context,
				CustomRecordReader.class);
	}


	@Override
	protected boolean isSplitable(JobContext context, Path file) {
		return false;
	}
}

CustomRecordReader自定义类的实现

/**
 * 自定义记录文件读取类
 *
 */
public class CustomRecordReader extends RecordReader {
	private PairOfStringLong key;
	private Text value;

	// define pos and offsets
	private long startOffset;
	private long endOffset;
	private long pos;

	private FileSystem fs;
	private Path path;
	private FSDataInputStream fileIn;
	private LineReader reader;

	public CustomRecordReader(CombineFileSplit split, TaskAttemptContext context, Integer index) throws IOException {
		path = split.getPath(index);
		fs = path.getFileSystem(context.getConfiguration());
		startOffset = split.getOffset(index);
		endOffset = startOffset + split.getLength(index);
		fileIn = fs.open(path);
		reader = new LineReader(fileIn);
		pos = startOffset;
	}

	@Override
	public void initialize(InputSplit arg0, TaskAttemptContext arg1) throws IOException, InterruptedException {
		// This will not be called, use custom Constructor
	}

	@Override
	public void close() throws IOException {
	}

	@Override
	public float getProgress() throws IOException {
		if (startOffset == endOffset) {
			return 0;
		}
		return Math.min(1.0f, (pos - startOffset) / (float) (endOffset - startOffset));
	}

	@Override
	public PairOfStringLong getCurrentKey() throws IOException, InterruptedException {
		return key;
	}

	@Override
	public Text getCurrentValue() throws IOException, InterruptedException {
		return value;
	}

	@Override
	public boolean nextKeyValue() throws IOException {
		if (key == null) {
			// key.filename = path.getName()
			// key.offset = pos
			key = new PairOfStringLong(path.getName(), pos);
		}
		if (value == null) {
			value = new Text();
		}
		int newSize = 0;
		if (pos < endOffset) {
			newSize = reader.readLine(value);
			pos += newSize;
		}
		if (newSize == 0) {
			key = null;
			value = null;
			return false;
		} else {
			return true;
		}
	}
}

Hadoop程序的实现

/**
 * 将小文件合并到大文件的单词计数驱动程序类。
 *
 */
public class CombineSmallFilesDriver extends Configured implements Tool {

	public static void main(String[] args) throws Exception {
		long beginTime = System.currentTimeMillis();
		System.exit(ToolRunner.run(new Configuration(), new CombineSmallFilesDriver(), args));
		long elapsedTime = System.currentTimeMillis() - beginTime;
		System.out.println("elapsed time(millis): " + elapsedTime);
	}

	@Override
	public int run(String[] args) throws Exception {
		System.out.println("input path = " + args[0]);
		System.out.println("output path = " + args[1]);

		Configuration conf = getConf();
		Job job = new Job(conf);
		job.setJobName("CombineSmallFilesDriver");

		// 将所有jar文件添加到HDFS的分布式缓存中
		HadoopUtil.addJarsToDistributedCache(job, "/lib/");

		// 定义文件数据格式化
		job.setInputFormatClass(CustomCFIF.class);

		// 定义Output的Key和Value类型
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(IntWritable.class);

		// 定义map和reduce的函数类
		job.setMapperClass(WordCountMapper.class);
		job.setReducerClass(WordCountReducer.class);
		// job.setNumReduceTasks(13);

		// 定义输入/输出路径
		Path inputPath = new Path(args[0]);
		Path outputPath = new Path(args[1]);
		FileInputFormat.addInputPath(job, inputPath);
		FileOutputFormat.setOutputPath(job, outputPath);

		// 提交作业等待完成
		job.submit();
		job.waitForCompletion(true);
		return 0;
	}
}

/**
 * Wordcount Mapper
 */
public class WordCountMapper extends Mapper {

	final static IntWritable one = new IntWritable(1);
	private Text word = new Text();

	public void map(PairOfStringLong key, Text value, Context context) throws IOException, InterruptedException {
		String line = value.toString().trim();
		String[] tokens = StringUtils.split(line, " ");
		for (String tok : tokens) {
			word.set(tok);
			context.write(word, one);
		}
	}
}

/**
 * Wordcount Reduce
 */
public class WordCountReducer extends Reducer {

	public void reduce(Text key, Iterable values, Context context)
			throws IOException, InterruptedException {
		int sum = 0;
		for (IntWritable val : values) {
			sum += val.get();
		}
		context.write(key, new IntWritable(sum));
	}
}

总结

在客户端合并小文件及使用CombineFileInputFormat解决小文件问题，可以快速提高Hadoop程序的效率。

JavaScript基础-删除事件（解绑事件）難釋懷 javascript 前端开发语言
在现代Web开发中，动态地添加和移除事件处理器是构建交互式网页的关键技能之一。虽然添加事件处理器相对直观，但了解如何有效地移除或“解绑”这些处理器同样重要。这不仅有助于优化性能，还能防止潜在的内存泄漏问题。本文将介绍几种方法来删除JavaScript中的事件处理器，并探讨它们的应用场景及最佳实践。一、为什么需要删除事件？随着页面复杂度的增加，不恰当地管理事件处理器可能会导致性能下降或出现意外行为。
fastjosn注册自定义序列化器林发和开发语言 java
自定义序列化器： importcom.alibaba.fastjson.serializer.JSONSerializer; importcom.alibaba.fastjson.serializer.ObjectSerializer; importorg.springframework.boot.actuate.health.Status; importjava.io.IOExcepti
没想到枚举Enum类还能实现接口！教你玩转Java枚举Enum 林发和 Java 干货分享 java
枚举是什么？枚举是一种特殊的数据类型，预先定义一组常量（对象），并且必须为其赋值。Java枚举类型的基本想法非常简单：这些类通过共有的静态final域为每个枚举常量导出一个实例。枚举类型没有可以访问的构造器，所以它是真的final类。客户端不能创建枚举类型的实例，也不能对它进行扩展，因此不存实例，而只存在声明过程的枚举常量。也就是枚举类型是实例受控的。它们是单例（Singleton）的范型化，本质
SpringBoot 整合security 实现自定义Token和clientId登录及退出(二) .猫的树 spring boot spring java
接上一篇6.认证相关处理创建登录成功DemoAuthenticationSuccessHandler.java/***用户身份验证通过处理*/@Component@SuppressWarnings("all")publicclassDemoAuthenticationSuccessHandlerimplementsAuthenticationSuccessHandler{@Autowiredpri
Flink sql-clinet 查询报错 lhfmqc sql-clinet 运行问题查询报错 flink
Flinksql-clinet查询报错运行后进行select'helloworld’报以下错误，couldnotexecutesqlstatementjava.net.NoRouteToHostException:Noroutetohost在关闭防火墙之后仍无法解决这个时候你需要进入flinkconf配置中查看flink-conf.yaml文件，查看jobmanager.rpc.address该地
Python基于深度学习的动物图片识别技术的研究与实现 Java老徐 Python 毕业设计 python 深度学习开发语言深度学习的动物图片识别技术 Python动物图片识别技术
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《100套》Java微信小程序项目实战《100套》感兴趣的可以先收藏起来，还有大家
【Spark】查询优化中分区（Partitioning）和分桶（Bucketing）是什么关系？什么时候应当分区，什么时候应当分桶？ petrel2015 spark 大数据分布式数据库
在学习Spark的过程中，分区和分桶乍一看很像，都能为了计算加速，但是仔细一想，一查还是有些差异的，甚至说差异很大。那么具体有什么差异点，有什么相同点。我做出了如下的整理，供大家参考，欢迎指正。相同点分区（Partitioning）和分桶（Bucketing）在很多方面具有相似性，它们都是用于优化大数据查询性能的技术数据划分的目的：优化查询性能分区和分桶的核心目标是通过将数据分割成更小的逻辑单元来
Linux脚本实践1 一点多余. linux 运维服务器脚本
前言日常在Liunx中用到多个版本的java修改很麻烦，一个脚本搞定。1.准备两个jdk(如下图所示)2.准备脚本文件viswitch_jdk.sh#!/bin/bash#提示用户输入JDK路径read-p"请输入JDK的绝对路径（例如/usr/local/jdk/jdk-11.0.21）："jdk_path#检查输入的路径是否存在if[!-d"$jdk_path"];thenecho"错误：路径
Spring Bean 的生命周期：从创建到销毁的完整解析一点多余. java 开发语言
引言：为什么需要了解SpringBean的生命周期？在Spring框架中，Bean是应用程序的核心构建块，理解其生命周期对于开发高效、稳定的应用至关重要。根据2023年JetBrains开发者调查报告，超过75%的Java开发者使用Spring框架，而Bean的生命周期管理是Spring的核心特性之一。以下数据展示了Bean生命周期的重要性：90%的Spring性能问题与Bean的初始化或销毁不当
今日BUG— java.lang.NumberFormatException 水晶果冻1125 其它 bug int范围
今日照例巡检系统，打开系统的汇聚首页，发现数据都消失了，于是查看其他服务器上部署的版本也出现了同样的问题，而其他功能并未受影响，排除后台服务挂掉的可能，内心生出疑问一直运行稳定的程序怎么突然都查不出来内容了呢？赶紧查看系统运行日志，果然看见了报错信息java.lang.NumberFormatException:Forinputstring:"2315841207"于是赶紧确认了下int数据类型的
Java24的新特性 hello_ejb3 redis 数据库 java
Java语言特性系列Java5的新特性Java6的新特性Java7的新特性Java8的新特性Java9的新特性Java10的新特性Java11的新特性Java12的新特性Java13的新特性Java14的新特性Java15的新特性Java16的新特性Java17的新特性Java18的新特性Java19的新特性Java20的新特性Java21的新特性Java22的新特性Java23的新特性Java2
JavaScript 性能优化实战：优化循环结构提升效率 deying0865423 javascript 开发语言
目录一、理解循环的性能损耗二、减少循环迭代次数（一）缓存数组长度（二）提前终止循环三、优化循环内部操作（一）避免在循环内执行复杂计算（二）减少DOM操作四、选择合适的循环类型（一）for循环与while循环的选择（二）for...in与for...of的使用场景在JavaScript编程中，循环结构是实现重复执行任务的基础工具。然而，不当的循环使用常常会导致性能瓶颈，特别是在处理大量数据时，循环的
漫谈jvm 另一个绝影 JVM 漫谈jvm
背景介绍jvm已经是Java开发的必备技能了，jvm相当于Java的操作系统。JVM,javavirtualmachine,即Java虚拟机，是运行javaclass文件的程序。Java代码经过Java编译器编译，会编译成class文件，一种平台无关的代码格式，class文件按照jvm规范，包括了java代码运行的数据和代码等内容。jvm加载class文件后，就可以执行java代码了。JVM有不同
漫谈JVM weixin_34111790 运维 java python
2019独角兽企业重金招聘Python工程师标准>>>背景介绍创建了一个技术类公众号:一起源码分析，里面会分享最新的开源代码、源码解读、开发技巧等，欢迎大家关注。JVM已经是Java开发的必备技能了，JVM相当于Java的操作系统。JVM,javavirtualmachine,即Java虚拟机，是运行javaclass文件的程序。Java代码经过Java编译器编译，会编译成class文件，一种平台
流浪地球 - 华为OD机试真题(E卷、Java) 什码情况华为od java 数据结构算法面试机试
针对刷题难，效率慢，我们提供一对一算法辅导，针对个人情况定制化的提高计划（全称1V1效率更高）。有兴趣的同学可以扫码添加我们的微信（code5bug）了解，免费试课一下。题目描述流浪地球计划在赤道上均匀部署了N个转向发动机，按位置顺序编号为0~N。1).初始状态下所有的发动机都是未启动状态;2).发动机启动的方式分为”手动启动”和”关联启动”两种方式;3).如果在时刻1一个发动机被启动，下一个时刻
基于 MySQL 和 Spring Boot 的在线论坛管理系统设计与实现城南|阿洋-计算机从小白到大神 mysql spring boot 数据库
markdownCopy✌全网粉丝20W+,csdn特邀作者、博客专家、CSDN[新星计划]导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、pyhton、机器学习技术领域和毕业项目实战✌哈喽兄弟们，好久不见哦～最近整理了一下之前写过的一些小项目/毕业设计。发现还是有很多存货的，想一想既然放在电脑里面也吃灰，那么还不如分享出去，没准还可以帮助到
模板方法模式烟沙九洲设计模式模板方法模式 java
模板方法（TemplateMethod）模式属于行为型模式的一种。模板方法模式定义了一个操作中的算法骨架，并将一些步骤延迟到子类中实现。模板方法模式的核心思想是：父类定义骨架，子类实现某些细节。模板方法模式允许子类在不改变算法结构的情况下，重新定义算法中的某些特定步骤。Java标准库有很多模板方法模式的应用。比如集合类中的AbstractList、AbstractQueuedSynchronize
[开题报告]Springboot高校图书管理系统设计与实现lq627计算机毕业设计卓越计算机毕设课程设计
本项目包含程序+源码+数据库+LW+调试部署环境，文末可获取一份本项目的java源码和数据库参考。开题报告研究背景：随着高校图书馆的规模不断扩大和信息化程度的提高，传统的手工管理方式已经无法满足日益增长的图书馆资源管理需求。图书管理系统的设计与实现成为了解决这一问题的关键。通过引入计算机技术和信息管理系统，可以提高图书馆的管理效率和服务质量，为读者提供更便捷、高效的借阅体验。研究意义：图书管理系统
【重温设计模式】访问者模式及其Java示例万猫学社重温设计模式及其Java实现设计模式访问者模式 java
访问者模式的基本概念访问者模式，一种行为型设计模式，其基本定义是：允许一个或者多个操作应用到一组对象上，解耦操作和对象的具体类，使得操作的添加可以独立于对象的类结构变化。在面向对象编程中，访问者模式的重要性不言而喻。它将数据操作和数据结构分离，使得在不改变数据结构的前提下，可以添加新的操作，从而增强了系统的灵活性和可扩展性。在访问者模式中，数据结构是稳定的，而操作是易变的。这就像一座博物馆，展品（
【Linux 下的 bash 无法正常解析, Windows 的 CRLF 换行符问题导致的】待磨的钝刨 linux bash windows
文章目录报错原因：解决办法：方法一：用`dos2unix`修复方法二：手动转换换行符方法三：VSCode或其他编辑器手动改总结这个错误很常见，原因是你的wait_for_gpu.sh脚本文件格式不对，具体来说是Windows的CRLF换行符问题导致的，Linux下的bash无法正常解析。hadoop@hadoop:~/anaconda3$bashwait_for_gpu.sh:invalidopt
COMP 315: Cloud Computing for E-Commerce W_X_99515681 开发语言
Assignment1:JavascriptCOMP315:CloudComputingforE-CommerceFebruary20251IntroductionAcommontaskwhenbackendprogrammingisdatacleaning,whichistheprocessoftakinganinitialdatasetthatmaycontainerroneousorinco
编程内容简述！恶霸不委屈开发语言青少年编程汇编 java python
编程是指通过计算机语言来开发软件、程序和应用的过程，通常通过编写一系列的指令，来让计算机完成特定的任务。编程可以涉及多个领域和技术，以下是一些主要的编程内容：1.编程语言编程语言是程序员与计算机进行沟通的桥梁，不同的编程语言适用于不同的任务。常见的编程语言有：Python：简单易学，适用于数据分析、人工智能、网页开发等。JavaScript：网页开发中不可或缺的语言，用于动态网页和前端开发。Jav
【Docker系列四】Docker 网络 Kwan的解忧杂货铺@新空间代码工作室 s4 Docker系列 docker 网络容器
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术,jvm,并发编程redis,kafka,Spring,微服务等常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,Git,
大数据技术实战---项目中遇到的问题及项目经验一个“不专业”的阿凡大数据
问题导读：1、项目中遇到过哪些问题？2、Kafka消息数据积压，Kafka消费能力不足怎么处理？3、Sqoop数据导出一致性问题？4、整体项目框架如何设计？项目中遇到过哪些问题7.1Hadoop宕机（1）如果MR造成系统宕机。此时要控制Yarn同时运行的任务数，和每个任务申请的最大内存。调整参数：yarn.scheduler.maximum-allocation-mb（单个任务可申请的最多物理内存
Vue3前端开发：组件化设计与状态管理 caihuayuan4 面试题汇总与解析 spring sql java 大数据课程设计
Vue3前端开发：组件化设计与状态管理一、Vue3组件化设计组件基本概念与特点是一款流行的JavaScript框架，它支持组件化设计，这意味着我们可以将页面分解成多个独立的组件，每个组件负责一部分功能，通过组件的嵌套和复用，可以快速构建复杂的用户界面。组件化设计具有以下特点：组件示例组件选项在上面的代码示例中，我们通过Vue.component方法注册了一个名为my-component的组件，这是
AJAX（Asynchronous JavaScript and XML）详解与应用风亦辰739 javascript ajax xml
一、什么是AJAX？AJAX（AsynchronousJavaScriptandXML，异步JavaScript和XML）是一种用于创建异步Web应用程序的技术。它可以在不重新加载整个网页的情况下，与服务器进行数据交换，从而提供更好的用户体验。1.1AJAX的核心特点异步通信：数据请求不会阻塞页面，提升用户体验。减少服务器负担：只获取需要的数据，减少流量。提升用户体验：网页响应速度更快，减少页面刷
java选择语句 FAQEW java
Java选择结构深度解析一、if结构体系1.单条件判断//基础if结构intscore=85;if(score>=60){System.out.println("考试通过");}//判断空值（防御性编程）Stringtext=null;if(text!=null&&!text.isEmpty()){System.out.println(text.length());}执行流程：truefalse条
Unity 与 JavaScript 的通信交互：实现跨平台的双向通信 Front_Yue 3D技术实践指南 unity javascript 3d
前言在现代游戏开发和Web应用中，Unity和JavaScript的结合越来越常见。Unity是一个强大的跨平台游戏引擎，而JavaScript是Web开发的核心技术之一。通过Unity和JavaScript的通信交互，开发者可以实现从Unity到Web页面的功能扩展，或者从Web页面控制Unity的行为。这种双向通信的能力为开发者提供了更多的可能性，例如在Unity中嵌入Web视图，或者在Web
Java有哪些编程技巧？ java
Java编程技巧：提升效率与质量的实用指南在Java编程中，掌握一些高效的编程技巧不仅可以提高开发效率，还能提升代码的可读性、可维护性和性能。以下是一些实用的Java编程技巧，供开发者参考和应用。一、代码优化技巧（一）合理使用数据类型选择合适的数据类型：根据实际需求选择合适的数据类型。例如，如果只需要存储整数，且数值范围较小，可以使用int而不是long，以节省内存。使用包装类时需谨慎：Java的
Sa-Token v1.20.0 发布，新增临时Token认证
框架介绍Sa-Token是一个轻量级Java权限认证框架，主要解决：登录认证、权限认证、分布式Session会话、单点登录、OAuth2.0等一系列权限相关问题。框架针对踢人下线、自动续签、前后台分离、分布式会话……等常见业务进行N多适配，通过sa-token，你可以以一种极简的方式实现系统的权限认证部分Sa-Tokenv1.20.0版本更新包括以下内容：新增：新增Solon适配插件，感谢大佬@刘
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &

[Hadoop合并小文件的两种解决方案]

在客户端合并小文件

SmallFilesConsolidator类的实现

BucketThread类的实现

用CombineFileInputFormat解决小文件问题

CustomCFIF自定义类的实现

CustomRecordReader自定义类的实现

Hadoop程序的实现

总结

你可能感兴趣的:(Hadoop,Java,大数据,Hadoop大数据处理)