new个对象先

hbase批量入库遇到的坑

hbase批量入库的总结

最近这一段时间一直在研究hbase的批量入库，看似简单的问题其实埋着无数的坑......

接下来就把我遇到的一些问题和解决的办法分享给大家，希望能让那些新接触到的人不至于像我一样走这么多弯路。

hbase一般的插入过程都使用HTable对象，将数据封装在Put对象中，Put在new创建的时候需要传入rowkey，并将列族，列名，列值add进去。然后HTable调用put方法，通过rpc请求提交到Regionserver端。

写入的方式可以分为以下几种:

单条put
批量put
使用Mapreduce
bluckload

进行批量入库之前，首先要连接到正确的连接到hbase

static{
		conf=HBaseConfiguration.create();
		//可以连接hbase
		//zookeeper给客户端的端口
		conf.set("hbase.zookeeper.property.clientPort", "2181");
		

		conf.set("hbase.zookeeper.quorum", "192.168.137.138,192.168.137.139");
		conf.set("hbase.master", "192.168.10.138:60000");		
	}

然后开始建立我们的表结构:

	public static void createTable(String tableName){
		try {
			ha = new HBaseAdmin(conf);
			if(ha.tableExists(tableName)){
				ha.disableTable(tableName);
				ha.deleteTable(tableName);
			}
			//建立表结构
		
			HTableDescriptor hd =new HTableDescriptor(tableName);
			//添加列族
			hd.addFamily(new HColumnDescriptor("family1".getBytes()));
			hd.addFamily(new HColumnDescriptor("family2".getBytes()));
            ha.createTable(hd);
		} catch (Exception e) {
			System.out.println(e);
		}
	}

有了上面的基础后，可以正式开始进行数据的插入

单条put

// 插入内容，行键，列族，列名，值，插入的表名
	public static void insertData(String rowkey, String cf, 
	String clomun, String content, String tableName)
			throws IOException {
		htable = new HTable(conf, tableName);
		Put put = new Put(rowkey.getBytes());
		put.add(cf.getBytes(), clomun.getBytes(), content.getBytes());
		htable.put(put);
	}

这种方式是批量插入数据最慢的方式，它更合适的应用场景是一般是线上业务运行时，记录单条插入，如报文记录，处理记录，写入后htable对象即释放。每次提交就是一次rpc请求.

多条Put

也就是将每一个put对象,放入List集合里面,然后对这个List集合进行入库,相比于单条Put,这种方式在入库效率上明显会有所提升. 应用场景一般在数据量稍多的环境下，通过批量提交减少请求次数

public static void insertData(String rowkey, String cf, 
String clomun, String content, String tableName)
			throws IOException {
		htable = new HTable(conf, tableName);
		List list =new ArrayList(); 
		Put put = new Put(rowkey.getBytes());
		put.add(cf.getBytes(), clomun.getBytes(), content.getBytes());
               list.add(put);
		htable.put(list);
	}

在主方法里面调用该方法并且输入相关参数就可以实现用put方式对数据的批量插入了

public static void main(String[] args) throws IOException {

        createTable("insertTest");
        try {
            for (int i = 0; i < 10; i++) {
                String rowkey = UUID.randomUUID().toString();
                // 因为不能动态增加列簇,所以只能动态添加列
                for (int j = 0; j <= 10; j++) {

                    insertData(rowkey, "family1", "column",
                            new SimpleDateFormat("yyyy-MM-dd hh:mm:ss").
                            format(new Date()), "insertTest");
                    insertData(rowkey, "family2", "column",
                            new SimpleDateFormat("yyyy-MM-dd hh:mm:ss").
                            format(new Date()), "insertTest");
                }

            }
        } catch (Exception e) {
            e.printStackTrace();
        }

    }

以上的put插入数据,因为不适合处理大批量的数据,所以都是在自己搭建的集群上进行的测试,接下来介绍的两种方式用的是公司的集群.

使用mapReduce批量插入

因为hbase是寄托在hadoop集群上的分布式非关系型数据库,而Hadoop又是处理大规模数据的典范,所以使用MapReduce来实现hbase的批量入库自然是个不错的选择,废话不多说,直接贴代码

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.mapreduce.TableOutputFormat;
import org.apache.hadoop.hbase.mapreduce.TableReducer;
import org.apache.hadoop.hbase.util.Bytes;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

import java.io.IOException;
import java.text.SimpleDateFormat;
import java.util.Date;


public class Hbase_MapReduceTest {

	static class BatchMapper extends Mapper<LongWritable, Text, Text, Text> {
		SimpleDateFormat simpleDateFormat = new SimpleDateFormat("yyyyMMddHHmmssSS");
		Text text = new Text();

		protected void map(LongWritable key, Text value, Context context) {
			try {
				final String[] spliteds = value.toString().split("::");
				Date date = new Date();
				String dateFormat = simpleDateFormat.format(date);
				final String rowKey = spliteds[0] + "_" + dateFormat;
				text.set(rowKey);
				context.write(text, value);
			} catch (IOException e) {
				e.printStackTrace();
			} catch (InterruptedException e) {
				e.printStackTrace();
			}
		}

	}

	static class BatchReducer extends TableReducer<Text, Text, NullWritable> {

		protected void reduce(Text key, Iterable values, Context context) {

			for (Text tx : values) {
				try {
					final String[] arrays = tx.toString().split("::");
					Put put = new Put(key.getBytes());
					put.addColumn("info".getBytes(), "name".getBytes(),
					arrays[1].getBytes());
					
					context.write(NullWritable.get(), put);
				} catch (IOException e) {
					e.printStackTrace();
				} catch (InterruptedException e) {
					e.printStackTrace();
				}
			}
		}
	}

	public static void main(String[] args) throws Exception {

		final Configuration configuration = new Configuration();
		configuration.set("hbase.zookeeper.quorum", "master");
		configuration.set("hbase.zookeeper.property.clientPort", "4180");
		// 设置hbase表名称
		configuration.set(TableOutputFormat.OUTPUT_TABLE, "HBASE_INSERT");
		configuration.set("dfs.socket.timeout", "180000");

		final Job job = new Job(configuration, "HBaseBatchImport");
		// 设置reduce的个数
		job.setNumReduceTasks(3);
               job.setMapperClass(BatchMapper.class);
		job.setReducerClass(BatchReducer.class);
		// 设置map的输出，不设置reduce的输出类型
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(Text.class);

		job.setInputFormatClass(TextInputFormat.class);
		// 不再设置输出路径，而是设置输出格式类型
		job.setOutputFormatClass(TableOutputFormat.class);
		// 设置数据的输入路径
		FileInputFormat.setInputPaths(job, args[0]);
		// hdfs://master:9000/input
		System.exit(job.waitForCompletion(true) ? 0 : 1);
	}
}

这里和普通的MapReduce最大的区别就在于reduce过程的输出:不是常规的将reduce的结果输出到hdfs上面,而是直接输出到表里面,而且不用设置reduce的输出类型这里是最关键的两行代码:

//设置输出的hbase的表名 
configuration.set(TableOutputFormat.OUTPUT_TABLE, "HBASE_INSERT");
//设置数据的输出格式类型
job.setOutputFormatClass(TableOutputFormat.class);

这种方式最终会调用Tableoutputformat类，核心的原理还是使用htable的put方法，不过由于使用了mapreduce分布式提交到hbase，速度比单线程效率高出许多.

但是这种方式也不是万能的，put提交的速度太快时会给hbase造成比较大的压力，容易发生gc,造成节点挂掉，尤其是初始化表到hbase时，一般都会有很多的历史数据需要入库，容易造成比较大的压力，这种情况下建议使用下面的方式bulkload方式入库，减少给hbase压力。上面这种方式是直接在map中生成put然后交给TableOutputformat去提交的，因为这里几乎不需要逻辑处理，如果需要做逻辑处理，那么一般会在reduce端去生成put对象，在map端做业务逻辑处理，比如数据关联，汇总之类的.

采用bulkLoad方法批量入库

这是应用最广泛的,也是经过官方认证的最快捷使用的hbase 批量入库的方式, hbase官方文档对这一块的介绍如下(经过google翻译之后的文档...):

散货装载 bulkload

1. 概观 HBase包含几种将数据加载到表中的方法。
最直接的方法是使用TableOutputFormatMapReduce作业中的类，
或者使用普通的客户端API; 然而，这些并不总是最有效的方法。 
批量加载功能使用MapReduce作业以HBase内部数据格式输出表格数据，
然后直接将生成的StoreFiles加载到正在运行的集群中。
使用批量加载将比使用HBase API使用更少的CPU和网络资源。  
2.  大容量装载限制 当批量加载绕过写入路径时，WAL不会被写入作为过程的一部分。
复制通过读取WAL文件来工作，所以它不会看到批量加载的数据 - 
对于使用的编辑也是如此Put.setDurability(SKIP_WAL)。
处理该问题的一种方法是将原始文件或HFile发送到其他群集，并在那里进行其他处理。
 3. 批量加载架构 HBase批量加载过程包含两个主要步骤。 
    1. 通过MapReduce作业准备数据 
    批量加载的第一步是使用MapReduce作业生成HBase数据文件（StoreFiles）HFileOutputFormat2。
    这种输出格式将数据写入HBase的内部存储格式，以便以后可以非常高效地将其加载到群集中。
    为了高效工作，HFileOutputFormat2必须对每个输出HFile进行配置，使其适合单个区域。
    为了做到这一点，输出将被批量加载到HBase中的作业使用Hadoop的
    TotalOrderPartitioner类将映射输出分区到键空间的不相交范围，对应于表中区域的键范围。 
    HFileOutputFormat2包括一个便利功能，configureIncrementalLoad()它'
    TotalOrderPartitioner根据当前的表格区域边界自动设置一个。 
      2. 完成数据加载 在准备好数据导入之后，通过使用importtsv具有“importtsv.bulk.output”
      选项的工具或使用其他某个MapReduce作业HFileOutputFormat，
      该completebulkload工具可用于将数据导入到正在运行的集群中。
      这个命令行工具遍历准备好的数据文件，每个文件确定文件所属的区域。
      然后，它会联系采用HFile的相应RegionServer，
      将其移动到其存储目录中，并将数据提供给客户端。 
      如果在批量装载准备过程中，或者在准备和完成步骤之间区域边界发生了变化，
      completebulkload公用程序将自动将数据文件分割成对应于新边界的片段。
      这个过程并不是最佳的，所以用户应该小心地减少准备批量加载和导入到群集之间的延迟，
      尤其是当其他客户端同时通过其他方式加载数据时。 
      $ hadoop jar hbase-server-VERSION.jar completebulkload 
      [-c /path/to/hbase/config/hbase-site.xml] /user/todd/myoutput mytable 
      该-c config-file选项可用于指定包含相应hbase参数的文件（例如，hbase-site.xml）
      （如果CLASSPATH中尚未提供此参数）
      （另外，如果zookeeper不是，则CLASSPATH必须包含具有zookeeper配置文件的目录由HBase管理）。     
      如果目标表在HBase中不存在，该工具将自动创建表。 
4. 也可以看看 有关引用的实用程序的更多信息，请参阅ImportTsv和 CompleteBulkLoad。 
请参阅操作方法：使用HBase批量加载，以及为什么选择最近一次有关批量加载状态的博客。 
5. 高级用法 
尽管该importtsv工具在很多情况下都很有用，但是高级用户可能希望以编程方式生成数据
，或者从其他格式导入数据。
要开始这样做，挖掘ImportTsv.java并检查JavaDoc for HFileOutputFormat。 
批量加载的导入步骤也可以通过编程来完成。

我做测试的时候采用的是将wordcount的结果进行批量入库,测试的数据量是2个G的文本文件,wordcount的代码就不贴出来了,直接贴批量入库的代码

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;

import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.HColumnDescriptor;
import org.apache.hadoop.hbase.HTableDescriptor;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.Admin;
import org.apache.hadoop.hbase.client.ConnectionFactory;
import org.apache.hadoop.hbase.client.HTable;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.HFileOutputFormat;
import org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles;
import org.apache.hadoop.hbase.util.Bytes;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class WorldCount_Hbase {
	public static class ConvertWordCountOutToHFileMapper
			extends Mapper {

		@Override
		protected void map(LongWritable key, Text value, Context context) 
		throws IOException, InterruptedException {
			// 上一个WordCount的输出格式是:a 100 b 20这样的形式,
			// 按行读取后,行号作为key,每一行的内容作为value
			String wordCountStr = value.toString();
			String[] wordCountArray = wordCountStr.split("\t");
			String word = wordCountArray[0];
			int count = Integer.valueOf(wordCountArray[1]);

			// 创建HBase中的RowKey
			byte[] rowKey = Bytes.toBytes(word);
			ImmutableBytesWritable rowKeyWritable = new ImmutableBytesWritable(rowKey);
			byte[] family = Bytes.toBytes("cf");
			byte[] qualifier = Bytes.toBytes("count");
			byte[] hbaseValue = Bytes.toBytes(count);
			// Put 用于列簇下的多列提交，若只有一个列，则可以使用 KeyValue 格式
			// KeyValue keyValue = new KeyValue(rowKey, family, qualifier,
			// hbaseValue);
			Put put = new Put(rowKey);
			put.add(family, qualifier, hbaseValue);
			context.write(rowKeyWritable, put);

		}

	}

	public static void main(String[] args) throws Exception {

		Long starttime = System.currentTimeMillis();
		Configuration hadoopConfiguration = new Configuration();

		hadoopConfiguration.set("fs.defaultFS", "hdfs://192.168.1.31:9000");
		// hadoopConfiguration.set("mapreduce.map.memory.mb", "512");
		// hadoopConfiguration.set("mapreduce.reduce.memory.mb", "512");

		String[] dfsArgs = new GenericOptionsParser(hadoopConfiguration, args).
		getRemainingArgs();
		FileSystem fs = FileSystem.get(hadoopConfiguration);
		Path input = new Path("/tmp/xmr/hbase/test");
		Path output = new Path("/tmp/xmr/resultdata/test");
		// Path input = new Path(dfsArgs[0]);
		// Path output = new Path(dfsArgs[1]);

		Job convertWordCountJobOutputToHFileJob = new Job(hadoopConfiguration, "wordCount_bulkload");

		convertWordCountJobOutputToHFileJob.setJarByClass(
		WorldCount_Hbase.class);
		convertWordCountJobOutputToHFileJob.setMapperClass(
		ConvertWordCountOutToHFileMapper.class);

		convertWordCountJobOutputToHFileJob.setMapOutputKeyClass(
		ImmutableBytesWritable.class);
		convertWordCountJobOutputToHFileJob.setMapOutputValueClass(Put.class);
		if (fs.exists(output)) {
			fs.delete(output);
		}

		FileInputFormat.addInputPath(convertWordCountJobOutputToHFileJob, input);
		FileOutputFormat.setOutputPath(convertWordCountJobOutputToHFileJob, output);
		// 创建HBase的配置对象

		Configuration hbaseConfiguration = HBaseConfiguration.create();
		hbaseConfiguration.set("hbase.zookeeper.quorum", "master,node001,node002");
		hbaseConfiguration.set("hbase.zookeeper.property.clientPort", "4180");
		System.out.println(hbaseConfiguration.toString());
		// 创建目标表对象
		Admin admin = ConnectionFactory.createConnection(hbaseConfiguration).getAdmin();
		if (!admin.isTableAvailable(TableName.valueOf
		("wordcount"))) {
			HTableDescriptor hbaseTable = new HTableDescriptor(TableName.valueOf("word1count"));
			hbaseTable.addFamily(new HColumnDescriptor("cf"));
			admin.createTable(hbaseTable);
		}
		HTable wordCountTable = new HTable(hbaseConfiguration, "word1count");
		HFileOutputFormat.configureIncrementalLoad(
		convertWordCountJobOutputToHFileJob, wordCountTable);

		int convertWordCountJobOutputToHFileJobResult =
		convertWordCountJobOutputToHFileJob.waitForCompletion(true) ? 0
				: 1;

		// 调用BulkLoad方式来将MR结果批量入库
		LoadIncrementalHFiles loader = new LoadIncrementalHFiles(hbaseConfiguration);

		// 第一个参数为第二个Job的输出目录即保存HFile的目录，第二个参数为目标表
		loader.doBulkLoad(output, wordCountTable);

		Long endtime = System.currentTimeMillis();
		System.out.println("程序的执行时间为:" + (endtime - starttime));

		System.exit(convertWordCountJobOutputToHFileJobResult);

	}

}

这里面需要注意的地方:

map的输出格式必须为ImmutableBytesWritable, Put或者ImmutableBytesWritable, KeyValue 如果有多个列就选用Put,如果只有一个列可以选用KeyValue
不用自己写reduce过程,自然也不用写reduce的输入输出路径
使用BulkLoad方法将生成的Hfile进行批量入库 // 调用BulkLoad方式来将MR结果批量入库

LoadIncrementalHFiles loader = new LoadIncrementalHFiles(hbaseConfiguration);
// 第一个参数为第二个Job的输出目录即保存HFile的目录，第二个参数为目标表
loader.doBulkLoad(output, wordCountTable);

以上是对常用的几种批量入库方式进行的基本介绍,对于每一种方法,也用了几个G的数据进行过测试无误..

网上也能搜到一大堆雷同相似的代码,但是Hbase是用来存储海量数据的数据库,到了实际的应用中,面临很大数据量一大,也不会出问题么?

答案当然是NO,Hbase批量入库的坑才刚刚开始!!!我就被这些坑折腾的怀疑人生!!

那些奇奇怪怪的小问题在这里就不多赘述了,把使用BulkLoad进行批量入库遇到的最大的几个坑分享给大家!!!

首先就是reduce相关的问题:

在实际的应用中你就会发现,对于稍大一点的数据量,map过程的执行效率还是比较让人满意的,但是到了reduce阶段就会出现比较严重的卡顿,我的困惑就是?我的代码里明明没有reduce过程,为什么还会有reduce过程来影响我入库的效率呢?

于是,我尝试着在job里,设置reduce的数量,把它设置为0,可是重新执行的时候就会发现还是会有那个烦人的reduce过程, 既然设置它为0没有效果,那我把它的数量设置的多一点,提高它的并行度总能加快效率了吧于是我又修改了reduce的数量,执行的时候发现还是只有一个..... 后来我才知道, 在这种情况下,我们不用自己写reduce过程,但是会使用Hbase给我们提供的reduce,也就是说,无论你怎么设置reduce数量,都是无效的. 这样我也就释然了

效率严重低下的问题!!!

首先我用100M的数据量做测试,居然需要30s才能入库完毕!用几个G的数据量测试,效率也没有明显的提升! 也就是说平均每秒的插入速度还不到15000条.,这甚至比mysql的入库还要慢很多,这种效率在实际生产中是完全不能接受的说好的这是入库最快的方式呢?我不仅产生了怀疑.. 说到底,这种问题还是因为reduce数量只有一个这个蛋疼的问题所导致的,也就是说,不管你的集群有多牛,都值相当于单机版,这显然是不合适的...那么该如何解决这个问题呢????

就是在建表的时候进行合理的预分区!!!预分区的数目会决定你的reduce过程的数目!简单来说,在一定的范围内,进行合适预分区的话,reduce的数量增加多少,效率就提高多少倍!!!

有关于hbase的预分区,进行合适的预分区,实际上是一个很复杂的问题,也不是本篇文章讨论的重点. 感兴趣的话可以去看看这位大神写的东西,给了我很大的启发

大神的博客链接

我只简单介绍一下hbase建表时预分区的shell语句和执行的结果:

create 'XUE_BULKLOAD','info',{SPLITS => [ '1','2','3', '4','5','6','7','8','9']}

这样就成功的将表名为 'XUE_BULKLOAD',列簇名为'info'的表在建表时预分了10个分区

预分区结束之后进行测试:发现reduce的数量为预分区的数量+1,而且执行效率大大提高! 插入效率大致在10W/s~20W/s之间,已经勉强能达到实际工作的要求!

数据量超过某个范围就会导致插入数据库失败的问题!

经过各种各样的调试,效率已经可以接受! 然后开始调大数据量测试,发现哪怕几十个G的数据量,在执行完MapReduce过程之后都会报错,去表里面查看数据,一条记录都没有!!报错信息如下

Trying to load more than 32 hfiles to one family of one region
18/01/18 23:20:36 ERROR mapreduce.LoadIncrementalHFiles: Trying to load
more than 32 hfiles to family info of region with start key 

Exception in thread "main" java.io.IOException: Trying to load more than 
32 hfiles to one family of one region
	at org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles.doBulkLoad
	(LoadIncrementalHFiles.java:377)
	at hbase_Insert.Hbase_Insert.main(Hbase_Insert.java:241)
	at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
	at sun.reflect.NativeMethodAccessorImpl.invoke(
	NativeMethodAccessorImpl.java:57)
	at sun.reflect.DelegatingMethodAccessorImpl.invoke(
	DelegatingMethodAccessorImpl.java:43)
	at java.lang.reflect.Method.invoke(Method.java:606)
	at org.apache.hadoop.util.RunJar.run(RunJar.java:221)
	at org.apache.hadoop.util.RunJar.main(RunJar.java:136)

报错的大致意思就是试图将超过32个Hfile文件导入到hbase里面的一个region导致失败那这个问题该如何解决呢?实际上就是两个重要的参数限制的一个是:

hbase.hregion.max.filesize

单个ColumnFamily的region大小，若按照ConstantSizeRegionSplitPolicy策略，超过设置的该值则自动split 默认的大小是1G hbase.mapreduce.bulkload.max.hfiles.perRegion.perFamily

允许的hfile的最大个数,默认配置是32 也就是说:这两个参数的默认值决定了,每次批量入库的数据量不能超过1*32也就是32个G,超过这个数量就会导致入库失败

可以在代码里,或者在hbase安装路径下conf目录下的hbase-site.xml里面针对这两个参数进行设置为了一劳永逸,我选择在hbase-site.xml里面进行设置,设置结果如下:


hbase.hregion.max.filesize 
10737418240 
 
 
hbase.mapreduce.bulkload.max.hfiles.perRegion.perFamily 
3200

这样,每次能够批量入库的数据就达到了32个T,符合公司的数据量需要! 配置完毕后重启集群进行测试,不在报这个错误,执行结果如下:

18/01/20 12:17:31 INFO mapreduce.Job:  map 1% reduce 0%
18/01/20 12:17:35 INFO mapreduce.Job:  map 2% reduce 0%
18/01/20 12:17:42 INFO mapreduce.Job:  map 3% reduce 0%
18/01/20 12:17:45 INFO mapreduce.Job:  map 4% reduce 0%
18/01/20 12:17:51 INFO mapreduce.Job:  map 5% reduce 0%
18/01/20 12:17:55 INFO mapreduce.Job:  map 6% reduce 0%
18/01/20 12:17:59 INFO mapreduce.Job:  map 7% reduce 0%
18/01/20 12:18:03 INFO mapreduce.Job:  map 8% reduce 0%
18/01/20 12:18:06 INFO mapreduce.Job:  map 9% reduce 0%
18/01/20 12:18:11 INFO mapreduce.Job:  map 10% reduce 0%
18/01/20 12:18:16 INFO mapreduce.Job:  map 11% reduce 0%
18/01/20 12:18:20 INFO mapreduce.Job:  map 12% reduce 0%
18/01/20 12:18:27 INFO mapreduce.Job:  map 13% reduce 0%
18/01/20 12:18:32 INFO mapreduce.Job:  map 14% reduce 0%
18/01/20 12:18:37 INFO mapreduce.Job:  map 15% reduce 0%
18/01/20 12:18:42 INFO mapreduce.Job:  map 16% reduce 0%
18/01/20 12:18:47 INFO mapreduce.Job:  map 17% reduce 0%
18/01/20 12:18:53 INFO mapreduce.Job:  map 18% reduce 0%
18/01/20 12:18:58 INFO mapreduce.Job:  map 19% reduce 0%
18/01/20 12:19:03 INFO mapreduce.Job:  map 20% reduce 0%
18/01/20 12:19:08 INFO mapreduce.Job:  map 21% reduce 0%
18/01/20 12:19:14 INFO mapreduce.Job:  map 22% reduce 0%
18/01/20 12:19:18 INFO mapreduce.Job:  map 23% reduce 0%
18/01/20 12:19:23 INFO mapreduce.Job:  map 24% reduce 0%
18/01/20 12:19:29 INFO mapreduce.Job:  map 25% reduce 0%
18/01/20 12:19:33 INFO mapreduce.Job:  map 26% reduce 0%
18/01/20 12:19:38 INFO mapreduce.Job:  map 27% reduce 0%
18/01/20 12:19:43 INFO mapreduce.Job:  map 28% reduce 0%
18/01/20 12:19:48 INFO mapreduce.Job:  map 29% reduce 0%
18/01/20 12:19:53 INFO mapreduce.Job:  map 30% reduce 0%
18/01/20 12:19:58 INFO mapreduce.Job:  map 31% reduce 0%
18/01/20 12:20:04 INFO mapreduce.Job:  map 32% reduce 0%
18/01/20 12:20:08 INFO mapreduce.Job:  map 33% reduce 0%
18/01/20 12:20:13 INFO mapreduce.Job:  map 34% reduce 0%
18/01/20 12:20:17 INFO mapreduce.Job:  map 35% reduce 0%
18/01/20 12:20:21 INFO mapreduce.Job:  map 36% reduce 0%
18/01/20 12:20:25 INFO mapreduce.Job:  map 37% reduce 0%
18/01/20 12:20:29 INFO mapreduce.Job:  map 38% reduce 0%
18/01/20 12:20:33 INFO mapreduce.Job:  map 39% reduce 0%
18/01/20 12:20:37 INFO mapreduce.Job:  map 40% reduce 0%
18/01/20 12:20:41 INFO mapreduce.Job:  map 41% reduce 0%
18/01/20 12:20:45 INFO mapreduce.Job:  map 42% reduce 0%
18/01/20 12:20:50 INFO mapreduce.Job:  map 43% reduce 0%
18/01/20 12:20:54 INFO mapreduce.Job:  map 44% reduce 0%
18/01/20 12:20:58 INFO mapreduce.Job:  map 45% reduce 0%
18/01/20 12:21:02 INFO mapreduce.Job:  map 46% reduce 0%
18/01/20 12:21:06 INFO mapreduce.Job:  map 47% reduce 0%
18/01/20 12:21:10 INFO mapreduce.Job:  map 48% reduce 0%
18/01/20 12:21:14 INFO mapreduce.Job:  map 49% reduce 0%
18/01/20 12:21:18 INFO mapreduce.Job:  map 50% reduce 0%
18/01/20 12:21:22 INFO mapreduce.Job:  map 51% reduce 0%

........

18/01/20 12:29:12 INFO mapreduce.Job:  map 100% reduce 81%
18/01/20 12:29:24 INFO mapreduce.Job:  map 100% reduce 82%
18/01/20 12:29:36 INFO mapreduce.Job:  map 100% reduce 83%
18/01/20 12:29:48 INFO mapreduce.Job:  map 100% reduce 84%
18/01/20 12:30:00 INFO mapreduce.Job:  map 100% reduce 85%
18/01/20 12:30:12 INFO mapreduce.Job:  map 100% reduce 86%
18/01/20 12:30:23 INFO mapreduce.Job:  map 100% reduce 87%
18/01/20 12:30:33 INFO mapreduce.Job:  map 100% reduce 88%
18/01/20 12:30:45 INFO mapreduce.Job:  map 100% reduce 89%
18/01/20 12:30:59 INFO mapreduce.Job:  map 100% reduce 90%
18/01/20 12:31:11 INFO mapreduce.Job:  map 100% reduce 91%
18/01/20 12:31:21 INFO mapreduce.Job:  map 100% reduce 92%
18/01/20 12:31:33 INFO mapreduce.Job:  map 100% reduce 93%
18/01/20 12:31:45 INFO mapreduce.Job:  map 100% reduce 94%
18/01/20 12:31:57 INFO mapreduce.Job:  map 100% reduce 95%
18/01/20 12:32:10 INFO mapreduce.Job:  map 100% reduce 96%
18/01/20 12:32:28 INFO mapreduce.Job:  map 100% reduce 97%
18/01/20 12:32:57 INFO mapreduce.Job:  map 100% reduce 98%
18/01/20 12:33:28 INFO mapreduce.Job:  map 100% reduce 99%
18/01/20 12:34:43 INFO mapreduce.Job:  map 100% reduce 100%
18/01/20 12:38:02 INFO mapreduce.Job: Job job_1516347580021_0001 completed successfully
18/01/20 12:38:02 INFO mapreduce.Job: Counters: 52
	File System Counters
		FILE: Number of bytes read=87576726096
		FILE: Number of bytes written=142193600747
		FILE: Number of read operations=0
		FILE: Number of large read operations=0
		FILE: Number of write operations=0
		HDFS: Number of bytes read=83582905128
		HDFS: Number of bytes written=166475667426
		HDFS: Number of read operations=5468
		HDFS: Number of large read operations=0
		HDFS: Number of write operations=39
	Job Counters 
		Failed map tasks=6
		Launched map tasks=1086
		Launched reduce tasks=10
		Other local map tasks=6
		Data-local map tasks=465
		Rack-local map tasks=615
		Total time spent by all maps in occupied slots (ms)=82454392
		Total time spent by all reduces in occupied slots (ms)=47463944
		Total time spent by all map tasks (ms)=10306799
		Total time spent by all reduce tasks (ms)=5932993
		Total vcore-seconds taken by all map tasks=10306799
		Total vcore-seconds taken by all reduce tasks=5932993
		Total megabyte-seconds taken by all map tasks=84433297408
		Total megabyte-seconds taken by all reduce tasks=48603078656
	Map-Reduce Framework
		Map input records=568152966
		Map output records=568152966
		Map output bytes=228099087448
		Map output materialized bytes=54476960272
		Input split bytes=186120
		Combine input records=0
		Combine output records=0
		Reduce input groups=292435364
		Reduce shuffle bytes=54476960272
		Reduce input records=568152966
		Reduce output records=2339482912
		Spilled Records=1513624168
		Shuffled Maps =10800
		Failed Shuffles=0
		Merged Map outputs=10800
		GC time elapsed (ms)=794607
		CPU time spent (ms)=21363440
		Physical memory (bytes) snapshot=3038556569600
		Virtual memory (bytes) snapshot=9401710268416
		Total committed heap usage (bytes)=3512994889728
	Shuffle Errors
		BAD_ID=0
		CONNECTION=0
		IO_ERROR=0
		WRONG_LENGTH=0
		WRONG_MAP=0
		WRONG_REDUCE=0
	File Input Format Counters 
		Bytes Read=83582349648
	File Output Format Counters 
		Bytes Written=166475667426
18/01/20 12:38:02 INFO zookeeper.RecoverableZooKeeper: Process identifier=hconnection-0x71f30c76 connecting to ZooKeeper ensemble=node003:4180,node002:4180,node001:4180,master:4180,node009:4180,node008:4180,node007:4180,node010:4180,node006:4180,node005:4180,node004:4180
18/01/20 12:38:02 INFO zookeeper.ZooKeeper: Initiating client connection, connectString=node003:4180,node002:4180,node001:4180,master:4180,node009:4180,node008:4180,node007:4180,node010:4180,node006:4180,node005:4180,node004:4180 sessionTimeout=90000 watcher=hconnection-0x71f30c760x0, quorum=node003:4180,node002:4180,node001:4180,master:4180,node009:4180,node008:4180,node007:4180,node010:4180,node006:4180,node005:4180,node004:4180, baseZNode=/hbase
18/01/20 12:38:02 INFO zookeeper.ClientCnxn: Opening socket connection to server node004/192.168.1.38:4180. Will not attempt to authenticate using SASL (unknown error)
18/01/20 12:38:02 INFO zookeeper.ClientCnxn: Socket connection established to node004/192.168.1.38:4180, initiating session
18/01/20 12:38:02 INFO zookeeper.ClientCnxn: Session establishment complete on server node004/192.168.1.38:4180, sessionid = 0x26001af8d8190002, negotiated timeout = 40000
18/01/20 12:38:02 WARN mapreduce.LoadIncrementalHFiles: Skipping non-directory hdfs://192.168.1.31:9000/test_demo/result/test/_SUCCESS
18/01/20 12:38:02 WARN mapreduce.LoadIncrementalHFiles: Trying to bulk load hfile hdfs://192.168.1.31:9000/test_demo/result/test/info/28e47c53edaf4616a3dfc349d0f0e02a with size: 10931823633 bytes can be problematic as it may lead to oversplitting.
18/01/20 12:38:02 WARN mapreduce.LoadIncrementalHFiles: Trying to bulk load hfile hdfs://192.168.1.31:9000/test_demo/result/test/info/5e6501ccb7554b82a2e93024d61dbe0e with size: 10931820982 bytes can be problematic as it may lead to oversplitting.
18/01/20 12:38:02 WARN mapreduce.LoadIncrementalHFiles: Trying to bulk load hfile hdfs://192.168.1.31:9000/test_demo/result/test/info/6245730468534f85a428ef7fb7acd499 with size: 10931829083 bytes can be problematic as it may lead to oversplitting.
18/01/20 12:38:02 WARN mapreduce.LoadIncrementalHFiles: Trying to bulk load hfile hdfs://192.168.1.31:9000/test_demo/result/test/info/a3b7225320b24e838559d5a5772bdd87 with size: 10931823391 bytes can be problematic as it may lead to oversplitting.
18/01/20 12:38:02 WARN mapreduce.LoadIncrementalHFiles: Trying to bulk load hfile hdfs://192.168.1.31:9000/test_demo/result/test/info/a8306bc4ef3941f5bd131d47f0b1c2c3 with size: 10931822321 bytes can be problematic as it may lead to oversplitting.
18/01/20 12:38:02 WARN mapreduce.LoadIncrementalHFiles: Trying to bulk load hfile hdfs://192.168.1.31:9000/test_demo/result/test/info/c163c568b1c24d88ac0ed7599b81ecba with size: 10931824861 bytes can be problematic as it may lead to oversplitting.
18/01/20 12:38:02 WARN mapreduce.LoadIncrementalHFiles: Trying to bulk load hfile hdfs://192.168.1.31:9000/test_demo/result/test/info/d069683ce064411793640f2a0ec6ca98 with size: 10931822990 bytes can be problematic as it may lead to oversplitting.
18/01/20 12:38:02 WARN mapreduce.LoadIncrementalHFiles: Trying to bulk load hfile hdfs://192.168.1.31:9000/test_demo/result/test/info/e5df664e18c54da7b84370b72506923b with size: 10931821709 bytes can be problematic as it may lead to oversplitting.
18/01/20 12:38:02 WARN mapreduce.LoadIncrementalHFiles: Trying to bulk load hfile hdfs://192.168.1.31:9000/test_demo/result/test/info/fba38b4d0bd34f6782b844b288780e7b with size: 10931826385 bytes can be problematic as it may lead to oversplitting.
18/01/20 12:38:02 INFO hfile.CacheConfig: CacheConfig:disabled
18/01/20 12:38:02 INFO hfile.CacheConfig: CacheConfig:disabled
18/01/20 12:38:02 INFO hfile.CacheConfig: CacheConfig:disabled
18/01/20 12:38:02 INFO hfile.CacheConfig: CacheConfig:disabled
18/01/20 12:38:02 INFO hfile.CacheConfig: CacheConfig:disabled
18/01/20 12:38:02 INFO hfile.CacheConfig: CacheConfig:disabled
18/01/20 12:38:02 INFO hfile.CacheConfig: CacheConfig:disabled
18/01/20 12:38:02 INFO hfile.CacheConfig: CacheConfig:disabled
18/01/20 12:38:03 INFO mapreduce.LoadIncrementalHFiles: Trying to load
hfile=hdfs://192.168.1.31:9000/test_demo/result/test/info/11e458c2c1f0465
4ae1783ec4e6576e8 first=459096918168596876155 last=4999999888024945828
18/01/20 12:38:03 INFO mapreduce.LoadIncrementalHFiles: Trying to load h
file=hdfs://192.168.1.31:9000/test_demo/result/test/info/78067c90799149db
b4a423ef556a4272 first=559078464243536377945 last=5999999888024945828
18/01/20 12:38:03 INFO mapreduce.LoadIncrementalHFiles: Trying to load 
hfile=hdfs://192.168.1.31:9000/test_demo/result/test/info/0049f16fd57b482
aa2e68ebe21a0cb72 first=15907887724999982915 last=19999999217611496331
18/01/20 12:38:03 INFO mapreduce.LoadIncrementalHFiles: Trying to load 
hfile=hdfs://192.168.1.31:9000/test_demo/result/test/info/28e47c53edaf461
6a3dfc349d0f0e02a first=80100000359202982424 last=859088818898462383266

hfile=hdfs://192.168.1.31:9000/test_demo/result/test/info/6245730468534f8
5a428ef7fb7acd499 first=401000000531957283573 last=459096917941294955954
18/01/20 12:38:03 INFO mapreduce.LoadIncrementalHFiles: Trying to load 
hfile=hdfs://192.168.1.31:9000/test_demo/result/test/info/18068da4a3f5469a804eee9f6921617a first=959083192452571451003 last=99999998239977206078
18/01/20 12:38:03 INFO mapreduce.LoadIncrementalHFiles: Trying to load 
hfile=hdfs://192.168.1.31:9000/test_demo/result/test/info/5e6501ccb7554b8
2a2e93024d61dbe0e first=30100000359202982424 last=359081166786305137185
18/01/20 12:38:03 INFO mapreduce.LoadIncrementalHFiles: Trying to load 
hfile=hdfs://192.168.1.31:9000/test_demo/result/test/info/0cff66c092004d4
88db32c3bf549a1d1 first=0100000359202982424 last=0999998239977206078
18/01/20 12:38:03 INFO hfile.CacheConfig: CacheConfig:disabled
18/01/20 12:38:03 INFO hfile.CacheConfig: CacheConfig:disabled
18/01/20 12:38:03 INFO hfile.CacheConfig: CacheConfig:disabled
18/01/20 12:38:03 INFO hfile.CacheConfig: CacheConfig:disabled
18/01/20 12:38:03 INFO hfile.CacheConfig: CacheConfig:disabled
18/01/20 12:38:03 INFO hfile.CacheConfig: CacheConfig:disabled
18/01/20 12:38:03 INFO hfile.CacheConfig: CacheConfig:disabled
18/01/20 12:38:03 INFO hfile.CacheConfig: CacheConfig:disabled
18/01/20 12:38:03 INFO mapreduce.LoadIncrementalHFiles: Trying to load hfile=hdfs://192.168.1.31:9000/test_demo/result/test/info/c163c568b1c24d8
8ac0ed7599b81ecba first=10100000359202982424 last=15907887393454423668

18/01/20 12:38:03 INFO hfile.CacheConfig: CacheConfig:disabled
18/01/20 12:38:03 INFO mapreduce.LoadIncrementalHFiles: Trying to load hfile=hdfs://192.168.1.31:9000/test_demo/result/test/info/e5df664e18c54da7b84370b72506923b first=501000000531957283573 last=559078458337340744586
18/01/20 12:38:03 INFO hfile.CacheConfig: CacheConfig:disabled
18/01/20 12:38:03 INFO mapreduce.LoadIncrementalHFiles: Trying to load hfile=hdfs://192.168.1.31:9000/test_demo/result/test/info/88df957d66e84b758583c47c9e6aec95 first=25908421410455709356 last=29999998239977206078
18/01/20 12:38:03 INFO hfile.CacheConfig: CacheConfig:disabled
18/01/20 12:38:03 INFO mapreduce.LoadIncrementalHFiles: Trying to load hfile=hdfs://192.168.1.31:9000/test_demo/result/test/info/a8306bc4ef3941f5bd131d47f0b1c2c3 first=60100000359202982424 last=659079145929173333600
18/01/20 12:38:03 INFO mapreduce.LoadIncrementalHFiles: Trying to load hfile=hdfs://192.168.1.31:9000/test_demo/result/test/info/d28c5e918b784127a7faa8afee8b364d first=359081168652388606128 last=39999999217611496331
18/01/20 12:38:03 INFO mapreduce.LoadIncrementalHFiles: Trying to load hfile=hdfs://192.168.1.31:9000/test_demo/result/test/info/a3b7225320b24e838559d5a5772bdd87 first=701000000531957283573 last=759089489615157841144
18/01/20 12:38:03 INFO mapreduce.LoadIncrementalHFiles: Trying to load hfile=hdfs://192.168.1.31:9000/test_demo/result/test/info/d069683ce064411793640f2a0ec6ca98 first=20100000359202982424 last=25908421377193754247
18/01/20 12:38:03 INFO mapreduce.LoadIncrementalHFiles: Trying to load hfile=hdfs://192.168.1.31:9000/test_demo/result/test/info/7b148f47400d49d8aefd92b06a530dc5 first=659079146670017258500 last=69999999217611496331
18/01/20 12:38:03 INFO mapreduce.LoadIncrementalHFiles: Trying to load hfile=hdfs://192.168.1.31:9000/test_demo/result/test/info/e93f91b50972491d8c600a6bd115bab3 first=859088819882023983305 last=89999998239977206078
18/01/20 12:38:03 INFO mapreduce.LoadIncrementalHFiles: Trying to load hfile=hdfs://192.168.1.31:9000/test_demo/result/test/info/f73df3c94e9f4c659965dc11f66ddd7b first=759089490241357286269 last=7999999888024945828
18/01/20 12:38:03 INFO mapreduce.LoadIncrementalHFiles: Trying to load hfile=hdfs://192.168.1.31:9000/test_demo/result/test/info/fba38b4d0bd34f6782b844b288780e7b first=901000000531957283573 last=959083189020333412493
程序的执行时间为:1256053
18/01/20 12:38:03 INFO client.ConnectionManager$HConnectionImplementation: Closing zookeeper sessionid=0x38001af93e730001
18/01/20 12:38:03 INFO zookeeper.ZooKeeper: Session: 0x38001af93e730001 closed
18/01/20 12:38:03 INFO zookeeper.ClientCnxn: EventThread shut down

去hbase数据库里面查询数据:

Current count: 100983000, row: 405415804076494331733                                                                                                                                           
Current count: 100984000, row: 405418669611868961647                                                                                                                                           
Current count: 100985000, row: 40542152486397650152                                                                                                                                            
Current count: 100986000, row: 405424331577144238851                                                                                                                                           
Current count: 100987000, row: 405427092734454272384                                                                                                                                           
Current count: 100988000, row: 405429767351893163972                                                                                                                                           
Current count: 100989000, row: 40543249871570790691                                                                                                                                            
Current count: 100990000, row: 405435366049740236059

可以看到,不完全统计就已经有1亿条以上的数据.... 这样hbase的批量入库,无论从效率上,还是数据量上都能够慢足要求!

还有一些能够使效率增加的hbase的集群参数,以及更加合理的预分区和行键设置都要在实践中不断的调试..

总之,实践才是检验真理的唯一标准!!

你可能感兴趣的:(大数据开发)

C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
第八十九篇大数据开发中的数据算法：贪心策略 - 生活中的“精打细算”艺术
在资源有限的世界里，贪心算法教会我们：局部最优的累积，往往是通往全局最高效的捷径。本文通过3个生活化场景+原创图表，揭示大数据开发中最实用的优化策略。目录一、贪心算法核心思想：当下即最优二、三大核心应用场景详解（附原创图表）1.文件压缩优化：Huffman编码2.任务调度优化：SPT算法3.网络拓扑优化：Prim算法三、贪心算法适用性分析四、大数据工程最佳实践五、总结：贪心思维的艺术一、贪心算法核
大数据开发高频面试题：Spark与MapReduce解析
被招网约司机的盯上了好几天实习了六个月，到期被通知不能转正。外包裁员让我去友商我该去吗？offer比较华为状态码浏览器插件嵌入式项目推荐2019秋招总结+云从语音算法面经+银行群面面经科大讯飞语音算法面经语音算法美团一面已挂科大讯飞智能语音方向值得去吗？语音算法oc科大讯飞语音算法二面荣耀一面语音算法面经，已挂荣耀_语音算法工程一面科大讯飞语音一面凉经8.18携程机器学习（语音方向）一面【vivo
转行大模型之从大数据到AI：我为何选择投身大模型领域程序员辣条大数据人工智能产品经理大模型教程大模型入门大模型学习
作为一名经验丰富的大数据开发工程师，我最近决定扩展自己的职业方向，转向大模型应用开发。这个决定源于对技术趋势的观察、对个人发展的思考，以及对我们行业未来的预判。让我从一个大数据工程师的视角，逐步分析这个决定背后的逻辑。目录1.技术演进：从大数据到大模型1.1大数据技术的发展现状1.2AI与大数据的融合1.3大模型：AI与大数据的集大成者2.技能迁移：大数据到大模型的自然过渡2.1数据处理能力的价值
Spark on Docker：容器化大数据开发环境搭建指南 AI天才研究院 ChatGPT 实战 ChatGPT AI大模型应用入门实战与进阶大数据 spark docker ai
SparkonDocker：容器化大数据开发环境搭建指南关键词：Spark、Docker、容器化、大数据开发、分布式计算、开发环境搭建、容器编排摘要：本文系统讲解如何通过Docker实现Spark开发环境的容器化部署，涵盖从基础概念到实战部署的完整流程。首先分析Spark分布式计算框架与Docker容器技术的核心原理及融合优势，接着详细演示单节点开发环境和多节点集群环境的搭建步骤，包括Docker
【腾讯云】考个证...大数据开发工程师认证 runzhliu 腾讯云
作为一个大数据行业的从业者，考个腾讯云大数据开发工程师认证总比考个消防证easy吧…？关于考这个认证的意义其实主要在于全面复习一下大数据相关的知识点，另外有个腾讯云的认证，也许大概也会对你找工作有点帮助的吧？下面是报名的链接和考试大纲。https://cloud.tencent.com/edu/training/cert/detail?type=Big_Data既然是考试，大家肯定会比较关心考试资
第八十一篇大数据开发基础：队列数据结构详解与实战应用（附生活化案例）随缘而动，随遇而安大数据数据结构开发语言
在大数据开发的庞大体系中，队列（Queue）作为基础数据结构之一，其重要性不言而喻。它不仅是构建高效数据管道的核心组件，更是实现异步处理、流量削峰、任务调度的关键技术。本文将深入解析队列的原理，结合生活案例，并展示其在大数据架构中的具体实现。一、队列的核心原理：FIFO的秩序之美队列遵循“先进先出”(First-In-First-Out,FIFO)规则：入队(Enqueue)：数据从队尾（Rear
解锁阿里云DataWorks：大数据开发治理的神兵利器云资源服务商阿里云云计算大数据
阿里云DataWorks初相识在数字化浪潮汹涌澎湃的当下，大数据已然成为推动各行业发展的核心动力。身处这一时代洪流，企业对数据的处理与分析能力，直接关乎其竞争力的高低。从电商平台的用户行为分析，到金融机构的风险预测，再到制造业的供应链优化，各个行业对于数据处理的需求与日俱增，这使得一款强大的数据处理平台成为了企业不可或缺的工具。阿里云DataWorks，正是在这样的背景下应运而生，凭借强大的数据处
Hive SQL执行流程深度解析：从CLI入口到执行计划生成 Edingbrugh.南空 hive 大数据 hive sql hadoop
摘要本文系统剖析HiveSQL的执行内核，从HiveCLI的启动流程切入，详解CliDriver、ReExecDriver和Driver三大核心类的协作机制。通过解析词法语法分析、语义校验、逻辑计划生成及物理优化等关键阶段，揭示Hive将SQL转换为分布式任务的完整链路。适合大数据开发人员深入理解Hive执行原理，为定制化优化和问题诊断提供理论基础。一、HiveCLI执行入口：CliDriver的
2.java基本语法(变量) hutc_Alan java
回顾Java语言应用领域Javaweb开发：后台开发大数据开发Android应用程序开发：客户端开发Java语言的特点面向对象性：两个因素：类、对象三个特性：封装、继承、多态健壮性：①去除C语言中的指针②自动垃圾回收机制（仍会出现内存溢出，内存泄露）跨平台性：一次编译，多平台运行（归功于JVM）基本语法关键字与保留字关键字的定义和特点定义：被Java语言赋予了特殊含义，用作专门用途的字符串（单词）
大数据项目-大数据开发架构学习大纲 brightl09 软件开发大数据方向大数据
大数据项目-大数据开发架构学习大纲超详细的大数据学习路线图，从零基础到资深专家的全路径知识体系，分阶段明确核心知识点、技术栈、实战目标及能力要求，适合系统化学习和职业规划一、基础入门阶段1.目标掌握大数据开发基础工具与核心概念，能完成简单数据处理任务2.核心知识点编程基础：Python/Java语法、数据结构、文件操作、面向对象编程、SQL增删改查、聚合函数、窗口函数、多表关联Linux与Shel
【Hive 运维实战】一键管理 Hive 服务：Metastore 与 HiveServer2 控制脚本开发与实践线条1 hive 自动化 hadoop
一、引言在大数据开发中，Hive作为重要的数据仓库工具，其核心服务metastore（元数据服务）和hiveserver2（查询服务）的启停管理是日常运维的基础操作。手动执行命令启停服务不仅效率低下，还容易因操作遗漏导致服务状态不一致。本文将介绍一个自主开发的Hive服务控制脚本，实现对两大核心服务的一键启停、状态查询及日志管理，大幅提升运维效率。二、脚本核心功能与架构设计2.1核心功能多模式操作
大数据处理框架：从 Hadoop 到 Spark 的深度对比与实战数字魔方操控师 hadoop spark 大数据
一、引言在大数据时代，高效处理海量数据成为关键。Hadoop和Spark作为两个经典的大数据处理框架，各自有着独特的优势和应用场景。深入了解它们的差异，并通过实战掌握其使用方法，对于大数据开发者和分析师至关重要。二、架构对比（一）Hadoop架构Hadoop采用主从架构，核心组件为HDFS（分布式文件系统）和MapReduce计算模型。HDFS负责数据存储，将大文件分割成多个数据块存储在不同节点上
Spark面试问题总结大数据侠客 spark相关问题汇总及解决 spark 面试大数据
阿里面试：https://www.jianshu.com/p/11578fd6e272https://www.jianshu.com/p/c8a271448dcd大数据开发面试-MMMM：https://www.jianshu.com/p/fec32e92e06cOGGCDC读取oracle日志-Mhttps://blog.csdn.net/dkl12/article/details/804471
如何使用 DeepSeek 帮助自己的工作？风千叶大数据人工智能
一位技术专家的AI工具实践指南引言：AI工具是技术人的“瑞士军刀”作为一名拥有8年经验的技术专家，我的工作重心涵盖了大数据开发、系统架构设计、团队协作与技术文档管理。每天都要面对复杂代码逻辑、繁重的数据处理任务以及频繁更新的技术需求。在这样的高强度环境下，如何借助AI工具提升效率与质量，成为我近年来不断探索的重要课题。自从开始使用DeepSeek，我的工作方式发生了显著改变。它不仅是一个生成式AI
从零基础到精通：Scala大数据开发入门指南风之少女梦活动相关 scala 开发语言大数据
随着大数据技术的不断发展，对开发者的要求也日益增高。Scala作为一种结合了面向对象编程和函数式编程的强大语言，已经成为大数据领域的明星语言，尤其在Spark等流行框架中占据重要地位。本文将为你提供一份Scala大数据开发的入门指南，帮助你从零基础开始，逐步迈向精通。一、为什么选择Scala进行大数据开发？Scala具备许多适用于大数据开发的特性：简洁性：Scala语法简洁，易于上手，且兼容Jav
数据收集之DataX服务器端关于动态传参的示例佩可official 数据导入 sql json database hive 数据仓库大数据
前言我们在上一篇帖子详细介绍了如何利用datax将数据在服务器端从mysql导入linux中，但是对于每日更新的数据我们不可能每日自己手动去导入。这就涉及到了datax的另一个用法：动态传参，自动更新。在大数据开发环境下我们也是默认这样去进行的。在这里简单介绍下原理：在Linux服务器环境下，实现DataX从MySQL到Hive的动态传参+每日自动更新，核心是通过Shell脚本动态生成DataX任
数仓建模思想之星型模型、雪花模型、星座模型闻香识代码数仓大数据建模数据仓库数据建模星型雪花星座
数仓建模思想之星型模型、雪花模型、星座模型1.背景在大数据开发中，数据一般是分为事实表，维度表，实体表等表。事实表顾名思义就是记录实际发生的事情如订单表，优惠券使用表等等。维度表，顾名思义，就是一个信息有多个维度，记录这些维度值的表。如日期，产品类目等等。一般会有一个id，以及id对应的各种维度具体信息。注意，数仓建模主要就是将数据如何以数据库和表为单元，尽可能科学有效存储，方便后续的查询，分析，
Java 与大数据：Hadoop 和 Spark 的完美集成墨瑾轩一起学学Java【一】大数据 java hadoop
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣嘿，小伙伴们！今天我们要一起探索Java世界里的大数据处理技术，特别是Hadoop和Spark如何集成在一起。无论你是初学者还是有经验的大数据开发者，这篇充满趣味和知识的文章都会让你收获满满！前言嗨嗨嗨，各位小伙伴！今天咱们就来聊一聊如何使用Java在Hado
题解 | #获取三个数中的最大值（三元表达式实现）# huaxinjiayou java
题解|#明明的随机数##include#includeus题解|#密码游戏#///收获1：获取4位整数中各位的数值（更好的方法）1234first=a//1000secon题解|#判断是否为回文字符串#usingSystem;usingSystem.Collections.Generic;clas极限三选一本人是做大数据开发的，目前有三个offer，一个成都一个杭州一个上海，成都和上海都是大数据开
2024华为HCIP大数据考试总结&题库&提纲 KwCoding 华为大数据 HCIP big data
目录关于华为HCIP大数据HCIP大数据题库题库介绍关于题库更新购买方式HCIP大数据考试介绍考试形式考试题型考试内容祝：逢考必过关于华为HCIP大数据HCIP大数据，HCIP-BigDataDeveloper华为认证大数据开发高级工程师，考试代码H13-723因公司需要，最近这两年我从工程项目开发转为数据开发，负责数据仓库、数据中台的建设。在这期间参与了华为大数据培训，获赠了HCIP大数据考试券
Hadoop总结 Ajekseg 面试学习路线阿里巴巴 android 前端后端
目录大数据概述Hadoop大数据开发平台资源管理YARN分布式文件系统HDFS非关系型数据库NOSQL分布式数据库HBASE批处理和MapReduce数据仓库查询分析和Hive基于内存计算的Spark流计算和Flink图计算和PREGELHadoop常用命令总结大数据概述大数据的4V：大量化、快速化、多样化、价值密度低。大数据对思维方式的影响：颠覆了传统的思维方式——全样而非抽样、效率而非精确、相
DataWorks Copilot 集成 Qwen3-235B-A22B混合推理模型，AI 效能再升级！阿里云大数据AI技术 Qwen3 DataWorks Copilot MCP MoE
刚刚，阿里云一站式智能大数据开发治理平台DataWorks正式接入Qwen3模型，可支持235B最大尺寸。用户通过DataWorksCopilot智能助手即可调用该模型，通过自然语言交互完成多种代码操作，实现数据开发、数据分析的快速实现。Qwen3是Qwen系列最新一代的大语言模型，包含一系列混合专家（MoE）和稠密（Dense）模型。参数量覆盖从0.6B到235B不等，适应不同的应用场景需求。独
大数据开发教程——构建Hadoop开发环境比屋大数据大数据架构师源码零基础教程 hadoop big data mapreduce
什么是Hadoop？Hadoop是由Apache基金会开发和维护的一个开源的分布式计算和存储框架。Hadoop为庞大的计算机集群提供可靠的、可伸缩的应用层计算和存储支持，它允许使用简单的编程模型跨计算机群集分布式处理大型数据集，并且支持在单台计算机到几千台计算机之间进行扩展。Hadoop使用Java开发，所以可以在多种不同硬件平台的计算机上部署和使用。其核心部件包括分布式文件系统(HadoopDF
立马耀：通过阿里云 Serverless Spark 和 Milvus 构建高效向量检索系统，驱动个性化推荐业务阿里云大数据AI技术阿里云 serverless spark EMR 大数据
作者：厦门立马耀网络科技有限公司大数据开发工程师陈宏毅背景介绍行业蝉选是蝉妈妈出品的达人选品服务平台。蝉选秉持“陪伴达人赚到钱”的品牌使命，致力于洞悉达人变现需求和痛点，提供达人选高佣、稳变现、速响应的选品服务。业务特征个性化推荐：利用大数据和人工智能算法，根据用户的兴趣和行为提供定制化的产品推荐。数据驱动：通过分析用户和市场趋势，优化推荐策略，提升用户满意度。精准营销：帮助商家通过精准的用户画像
大数据开发核心技术难点：数据倾斜问题深度解析学习的锅大数据
一、数据倾斜现象的本质1.问题定义与特征典型表现：单个Task处理数据量是其他Task的10倍以上，出现"长尾效应"核心指标：StageDuration中Max/Median>3倍视为倾斜影响范围：Shuffle阶段（ReduceByKey/Join/GroupBy等操作）2.根本原因分析数据分布不均：业务数据天然倾斜（热门商品、头部用户）分区策略缺陷：Hash分区对特定Key聚集计算逻辑漏洞：空
大数据开发（牛客）面试被问频率最高的几道面试题_数据开发(牛客)面试被问频率最高的几道面试题(1) 2401_84185074 程序员大数据面试职场和发展
10）Reducer处理完数据，通过OutPutFormat往外写数据，形成对应文件。简洁版：面试可手写图片ZookeeperZookeeper的选举机制可灵活回答：1）Zookeeper的选举策略2）Zookeeper的选举过程3）Zookeeper的Leader选举是如何实现的问过的一些公司：阿里，字节x2，腾讯，贝壳，网易，去哪儿1）半数机制：集群中半数以上机器存活，集群可用。所以Zooke
大数据开发必备技能_第三阶段06_Hive JOIN优化数据小塔大数据开发必备技能大数据 hive hadoop 数据仓库面试
目录摘要描述JOIN优化方法2.1MAP-JOIN2.2BUCKETMAPJOIN2.3SORTMERGEBUCKETMAPJOINJOIN类型对比总结练习与实战常见面试题附录：Hive配置参数1.摘要描述本文详细讲解Hive中JOIN操作的优化方法，包括MAP-JOIN、BUCKETMAPJOIN和SORTMERGEBUCKETMAPJOIN，分析其原理、适用场景及优缺点。通过对比不同JOIN类
探索新能源的未来：2023“SEED”江苏大数据开发与应用大赛新能源赛道数据集推荐... 邴卉露Robust
探索新能源的未来：2023“SEED”江苏大数据开发与应用大赛新能源赛道数据集推荐data.zip_0_1项目地址:https://gitcode.com/open-source-toolkit/62801项目介绍在2023年“SEED”第四届江苏大数据开发与应用大赛中，新能源赛道无疑是最具挑战性和前瞻性的领域之一。为了助力参赛者在这一领域取得优异成绩，我们特别推出了新能源赛道数据集。该数据集不仅
大数据开发-数据仓库介绍海星？海欣！ #大数据-数据仓库数据仓库大数据数据库
目录标题1、数据仓库1.1数仓为何而来？1.2数据仓库的主要特性1.3数据仓库与数据库的区别1.4数据仓库三层架构1.5实战-美团酒旅数仓建设1.6ETL、ELT1.6.1ETL1.6.2ELT1、数据仓库数据仓库DataWarehouse简称DH，数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支持数据仓库不产生数据–数据来自数据库、日志、爬虫等数据仓库不消费数据–分析结果给外部的报
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交