fansy1990

hbase0.96数据导入以及Kettle操作hbase问题

版本：

cdh5.0.0+hadoop2.3.0+hbase0.96.1.1+Spoon5.0.1

一、HBase数据导入

HBase数据导入使用org.apache.hadoop.hbase.mapreduce.ImportTsv 的两种方式，一种是直接导入，一种是转换为HFile，然后再次导入。

1. HDFS数据为（部分）：

[root@node33 data]# hadoop fs -ls /input
Found 1 items
-rwxrwxrwx   1 hdfs supergroup   13245467 2014-05-01 17:09 /input/hbase-data.csv
[root@node33 data]# hadoop fs -cat /input/* | head -n 3
1,1.52101,13.64,4.49,1.1,71.78,0.06,8.75,0,0,1
2,1.51761,13.89,3.6,1.36,72.73,0.48,7.83,0,0,1
3,1.51618,13.53,3.55,1.54,72.99,0.39,7.78,0,0,1

2. 使用直接导入的方式

a. 建立hbase-employees-1表，使用hbase shell，进入shell模式，使用命令：create 'hbase-employees-1','col' ，建立表；

b. 进入hbase安装目录，如果使用cdh默认安装，一般在目录/usr/lib/hbase/bin中，运行：

./hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator="," -Dimporttsv.columns=HBASE_ROW_KEY,col:x1,col:x2,col:x3,col:x4,col:x5,col:x6,col:x7,col:x8,col:x9,col:y hbase-employees-1 hdfs://node33:8020/input/hbase-data.csv

日志如下：

2014-05-02 13:15:07,716 INFO  [main] mapreduce.JobSubmitter: Submitting tokens for job: job_1398958404577_0018
2014-05-02 13:15:08,674 INFO  [main] impl.YarnClientImpl: Submitted application application_1398958404577_0018
2014-05-02 13:15:09,101 INFO  [main] mapreduce.Job: The url to track the job: http://node33:8088/proxy/application_1398958404577_0018/
2014-05-02 13:15:09,103 INFO  [main] mapreduce.Job: Running job: job_1398958404577_0018
2014-05-02 13:15:34,169 INFO  [main] mapreduce.Job: Job job_1398958404577_0018 running in uber mode : false
2014-05-02 13:15:34,207 INFO  [main] mapreduce.Job:  map 0% reduce 0%
2014-05-02 13:16:32,789 INFO  [main] mapreduce.Job:  map 1% reduce 0%
2014-05-02 13:16:53,477 INFO  [main] mapreduce.Job:  map 5% reduce 0%
2014-05-02 13:16:56,701 INFO  [main] mapreduce.Job:  map 9% reduce 0%
2014-05-02 13:16:59,928 INFO  [main] mapreduce.Job:  map 13% reduce 0%
2014-05-02 13:17:02,970 INFO  [main] mapreduce.Job:  map 16% reduce 0%
2014-05-02 13:17:07,260 INFO  [main] mapreduce.Job:  map 22% reduce 0%
2014-05-02 13:17:10,472 INFO  [main] mapreduce.Job:  map 29% reduce 0%
2014-05-02 13:17:12,879 INFO  [main] mapreduce.Job:  map 36% reduce 0%
2014-05-02 13:17:16,555 INFO  [main] mapreduce.Job:  map 45% reduce 0%
2014-05-02 13:17:43,452 INFO  [main] mapreduce.Job:  map 48% reduce 0%
2014-05-02 13:17:45,629 INFO  [main] mapreduce.Job:  map 63% reduce 0%
2014-05-02 13:17:52,845 INFO  [main] mapreduce.Job:  map 79% reduce 0%
2014-05-02 13:17:55,862 INFO  [main] mapreduce.Job:  map 91% reduce 0%
2014-05-02 13:18:01,000 INFO  [main] mapreduce.Job:  map 100% reduce 0%
2014-05-02 13:18:14,644 INFO  [main] mapreduce.Job: Job job_1398958404577_0018 completed successfully
2014-05-02 13:18:17,123 INFO  [main] mapreduce.Job: Counters: 31
	File System Counters
		FILE: Number of bytes read=0
		FILE: Number of bytes written=115531
		FILE: Number of read operations=0
		FILE: Number of large read operations=0
		FILE: Number of write operations=0
		HDFS: Number of bytes read=13245571
		HDFS: Number of bytes written=0
		HDFS: Number of read operations=2
		HDFS: Number of large read operations=0
		HDFS: Number of write operations=0
	Job Counters 
		Launched map tasks=1
		Data-local map tasks=1
		Total time spent by all maps in occupied slots (ms)=146367
		Total time spent by all reduces in occupied slots (ms)=0
		Total time spent by all map tasks (ms)=146367
		Total vcore-seconds taken by all map tasks=146367
		Total megabyte-seconds taken by all map tasks=149879808
	Map-Reduce Framework
		Map input records=203500
		Map output records=203500
		Input split bytes=104
		Spilled Records=0
		Failed Shuffles=0
		Merged Map outputs=0
		GC time elapsed (ms)=8595
		CPU time spent (ms)=11290
		Physical memory (bytes) snapshot=99639296
		Virtual memory (bytes) snapshot=647782400
		Total committed heap usage (bytes)=26517504
	ImportTsv
		Bad Lines=0
	File Input Format Counters 
		Bytes Read=13245467
	File Output Format Counters 
		Bytes Written=0

查看hbase表数据大小：

bash-4.1$ hadoop fs -count /hbase/data/default/hbase-employees-1
           6            4           60100796 /hbase/data/default/hbase-employees-1

大约57.3M数据，原始数据是12.3M的。耗时方面：从任务提交到任务结束耗时3分6秒。

3. 使用HFile方式：

a. 转换为HFile并新建hbase-employee表：

./hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator="," -Dimporttsv.bulk.output=hdfs://node33:8020/output/hbase_bulk -Dimporttsv.columns=HBASE_ROW_KEY,col:x1,col:x2,col:x3,col:x4,col:x5,col:x6,col:x7,col:x8,col:x9,col:y hbase-employees hdfs://node33:8020/input/hbase-data.csv

这样运行后，可以查看HFile的大小：

hadoop fs -count /output/hbase_bulk

同时数据库中已经新建了hbase-employees表，但是表中没有数据。

b. 插入数据到表中

这里也有两种方式，但是这两种方式操作前都需要把相应目录的权限放开。简单来说可以这样：

bash-4.1$ hadoop fs -chmod -R 777 /output
bash-4.1$ hadoop fs -chmod -R 777 /hbase

（1）使用hbase的命令：

/hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles hdfs://node33:8020/output/hbase_bulk hbase-employees

ps：这个我没有试，官网说可以这样。
（2）使用hadoop jar方式：

hadoop jar /usr/lib/hbase/lib/hbase-server-0.96.1.1-cdh5.0.0.jar completebulkload hdfs://node33:8020/output/hbase_bulk hbase-employees

不过做这个前需要把hbase的相关包拷贝到hadoop的lib目录下，可以拷贝到/usr/lib/hadoop-mapreduce目录下，jar包如下：

-rw-r--r--. 1 root root  818519 May  2 10:35 hbase-client.jar
-rw-r--r--. 1 root root  360422 May  2 10:36 hbase-common.jar
-rw-r--r--. 1 root root   66898 May  2 10:36 hbase-hadoop2-compat.jar
-rw-r--r--. 1 root root    4071 May  2 10:36 hbase-it.jar
-rw-r--r--. 1 root root   87533 May  2 10:36 hbase-prefix-tree.jar
-rw-r--r--. 1 root root 3142247 May  2 10:36 hbase-protocol.jar
-rw-r--r--. 1 root root 3110607 May  2 10:36 hbase-server.jar
-rw-r--r--. 1 root root    4499 May  2 10:37 hbase-shell-0.96.1.1-cdh5.0.0.jar
-rw-r--r--. 1 root root 2270053 May  2 10:37 hbase-thrift-0.96.1.1-cdh5.0.0.jar

这种方式的log，如下：

2014-05-02 13:39:27,916 INFO  [main] mapreduce.JobSubmitter: Submitting tokens for job: job_1398958404577_0020
2014-05-02 13:39:28,408 INFO  [main] impl.YarnClientImpl: Submitted application application_1398958404577_0020
2014-05-02 13:39:28,552 INFO  [main] mapreduce.Job: The url to track the job: http://node33:8088/proxy/application_1398958404577_0020/
2014-05-02 13:39:28,553 INFO  [main] mapreduce.Job: Running job: job_1398958404577_0020
2014-05-02 13:39:44,376 INFO  [main] mapreduce.Job: Job job_1398958404577_0020 running in uber mode : false
2014-05-02 13:39:44,402 INFO  [main] mapreduce.Job:  map 0% reduce 0%
2014-05-02 13:40:24,580 INFO  [main] mapreduce.Job:  map 67% reduce 0%
2014-05-02 13:40:38,125 INFO  [main] mapreduce.Job:  map 100% reduce 0%
2014-05-02 13:41:09,295 INFO  [main] mapreduce.Job:  map 100% reduce 67%
2014-05-02 13:41:17,905 INFO  [main] mapreduce.Job:  map 100% reduce 77%
2014-05-02 13:41:20,928 INFO  [main] mapreduce.Job:  map 100% reduce 90%
2014-05-02 13:41:23,948 INFO  [main] mapreduce.Job:  map 100% reduce 100%
2014-05-02 13:41:29,514 INFO  [main] mapreduce.Job: Job job_1398958404577_0020 completed successfully
2014-05-02 13:41:31,530 INFO  [main] mapreduce.Job: Counters: 50
	File System Counters
		FILE: Number of bytes read=48950370
		FILE: Number of bytes written=98519119
		FILE: Number of read operations=0
		FILE: Number of large read operations=0
		FILE: Number of write operations=0
		HDFS: Number of bytes read=13245571
		HDFS: Number of bytes written=73861410
		HDFS: Number of read operations=8
		HDFS: Number of large read operations=0
		HDFS: Number of write operations=3
	Job Counters 
		Launched map tasks=1
		Launched reduce tasks=1
		Data-local map tasks=1
		Total time spent by all maps in occupied slots (ms)=51857
		Total time spent by all reduces in occupied slots (ms)=42035
		Total time spent by all map tasks (ms)=51857
		Total time spent by all reduce tasks (ms)=42035
		Total vcore-seconds taken by all map tasks=51857
		Total vcore-seconds taken by all reduce tasks=42035
		Total megabyte-seconds taken by all map tasks=53101568
		Total megabyte-seconds taken by all reduce tasks=43043840
	Map-Reduce Framework
		Map input records=203500
		Map output records=203500
		Map output bytes=48339864
		Map output materialized bytes=48950370
		Input split bytes=104
		Combine input records=203500
		Combine output records=203500
		Reduce input groups=203500
		Reduce shuffle bytes=48950370
		Reduce input records=203500
		Reduce output records=2035000
		Spilled Records=407000
		Shuffled Maps =1
		Failed Shuffles=0
		Merged Map outputs=1
		GC time elapsed (ms)=1573
		CPU time spent (ms)=26250
		Physical memory (bytes) snapshot=341180416
		Virtual memory (bytes) snapshot=1296404480
		Total committed heap usage (bytes)=152965120
	ImportTsv
		Bad Lines=0
	Shuffle Errors
		BAD_ID=0
		CONNECTION=0
		IO_ERROR=0
		WRONG_LENGTH=0
		WRONG_MAP=0
		WRONG_REDUCE=0
	File Input Format Counters 
		Bytes Read=13245467
	File Output Format Counters 
		Bytes Written=73861410

这个是转为HFile的job，插入数据到HBase表中2秒不到就完成了。

查看HBase中数据大小：

bash-4.1$ hadoop fs -count /hbase/data/default/hbase-employees
           5            3           73861752 /hbase/data/default/hbase-employees

一共大概70.4M数据，原始数据是12.3M，耗时为：2分2秒。

总结：HBase的数据导入都会把数据扩大，一般大概为5倍左右，同时使用HFile的方式，在时间上会有优势，但是数据会比较大。ps：这个仅仅是一次测试总结而已，实际情况可能不同。（为什么HBase的数据被扩大了？参考前篇，Hive的数据如果是直接导入，一般是不会扩大数据占用空间的，而且使用orc方式的时候还可以达到很好的压缩比，但是HBase却是扩大的，这是为什么？）

二、Kettle操作Hbase0.96

1. HBase Output组件，可以参考 http://wiki.pentaho.com/display/BAD/Loading+Data+into+HBase 。

2. HBase Input组件，可以参考 http://wiki.pentaho.com/display/BAD/Extracting+Data+from+HBase+to+Load+an+RDBMS。

参考这两个操作步骤，都是可以得到正确结果的。这里只是说说遇到的问题。

（1）zookeeper和hbase-site.xml文件两者选择一个配置即可，配置两个可能有问题。

（2）mapping配置的是HBase表中Family的名称。

（3）如果遇到下面的问题：

java.lang.IllegalArgumentException: offset (0) + length (8) exceed the capacity of the array: 1
	at org.apache.hadoop.hbase.util.Bytes.explainWrongLengthOrOffset(Bytes.java:602)
	at org.apache.hadoop.hbase.util.Bytes.toLong(Bytes.java:580)
	at org.apache.hadoop.hbase.util.Bytes.toLong(Bytes.java:553)
	at org.pentaho.hbase.shim.common.CommonHBaseBytesUtil.toLong(CommonHBaseBytesUtil.java:87)
	at org.pentaho.hbase.shim.api.HBaseValueMeta.decodeKeyValue(HBaseValueMeta.java:567)
	at org.pentaho.di.trans.steps.hbaseinput.HBaseInputData.getOutputRow(HBaseInputData.java:464)
	at org.pentaho.di.trans.steps.hbaseinput.HBaseInput.processRow(HBaseInput.java:281)
	at org.pentaho.di.trans.step.RunThread.run(RunThread.java:60)
	at java.lang.Thread.run(Thread.java:724)

或者

Unknown type for column

	at org.pentaho.hbase.shim.api.HBaseValueMeta.decodeColumnValue(HBaseValueMeta.java:769)
	at org.pentaho.di.trans.steps.hbaseinput.HBaseInputData.getOutputRow(HBaseInputData.java:495)
	at org.pentaho.di.trans.steps.hbaseinput.HBaseInput.processRow(HBaseInput.java:281)
	at org.pentaho.di.trans.step.RunThread.run(RunThread.java:60)
	at java.lang.Thread.run(Thread.java:724)

或者

org.pentaho.di.core.exception.KettleException: 
Length of integer column value is not equal to the defined length of a short, int or long

	at org.pentaho.hbase.shim.api.HBaseValueMeta.decodeColumnValue(HBaseValueMeta.java:711)
	at org.pentaho.di.trans.steps.hbaseinput.HBaseInputData.getOutputRow(HBaseInputData.java:495)
	at org.pentaho.di.trans.steps.hbaseinput.HBaseInput.processRow(HBaseInput.java:281)
	at org.pentaho.di.trans.step.RunThread.run(RunThread.java:60)
	at java.lang.Thread.run(Thread.java:724)

则把Mapping的时候的数据格式全部设置为String就可以了，这个是因为，如果HBase表中的数据是以其他方式导入的话，那么其存储是以String格式存储的（但是如果使用kettle的HBase output组件导入数据，那么数据格式可以调整），所以使用其他的数据格式就会报上面的错误。

分享，成长，快乐

转载请注明blog地址： http://blog.csdn.net/fansy1990

作者：fansy1990 发表于2014-5-8 17:04:12 原文链接

阅读：67 评论：0 查看评论

接口自动化测试（Python+pytest+PyMySQL+Jenkins）万能程序员-传康Kk python pytest jenkins
接口自动化测试一个完整的企业级接口自动化测试解决方案目录项目介绍技术架构功能特性项目结构环境要求安装部署使用方法测试用例说明预期结果报告系统配置说明数据库设计Jenkins集成常见问题项目亮点扩展指南联系方式项目介绍项目背景接口自动化测试作为现代软件开发流程的核心环节，已成为保障系统质量、提升交付效率的关键手段。本项目基于Python技术栈，构建了一套完整的接口自动化测试解决方案，旨在为开发团队提
健康医院门诊在线挂号系统学长代码V spring boot 后端
基于SSM框架与MySQL数据库实现的健康医院门诊在线挂号系统在当今数字化时代，健康医院门诊在线挂号系统的开发对于提升医院运营效率和患者就医体验至关重要。本文将介绍一个基于SSM框架与MySQL数据库实现的健康医院门诊在线挂号系统，探讨其技术路线和主要功能，并分享相关资源。技术路线该健康医院门诊在线挂号系统采用成熟的SSM（Spring+SpringMVC+MyBatis）框架进行开发。SSM框架
Delphi编程深度详解教程 Paula-柒月拾
本文还有配套的精品资源，点击获取简介：《Delphi详细教程》是一个全面介绍Delphi编程的资源包，涵盖了Delphi开发环境和ObjectPascal编程语言的深入学习。教程内容包括Delphi体系结构、核心类库、集合与RTTI、接口、抽象类、定制组件开发、界面设计、数据控件使用、SQL程序设计以及创建WindowsNT服务等关键知识点，旨在帮助学习者深入理解和掌握Delphi编程，并应用于实
弹幕系统开发实战：QT框架与VS2015源码解析 Paula-柒月拾
本文还有配套的精品资源，点击获取简介：本源码项目融合了三个关键技术领域：弹幕系统设计、Qt框架开发和VisualStudio2015集成。它详细阐述了弹幕系统的核心功能实现，包括弹幕数据结构、渲染、碰撞检测和用户交互。同时，本项目介绍了如何利用Qt5的信号与槽机制、GUI组件和绘图系统来开发弹幕效果，并展示了如何在VisualStudio2015中进行项目管理、编辑、调试和构建。此项目提供了全面的
使用POI导入Excel文件数据处理生活压力大 Java开发 poi java excel
前言最近项目中做了一个Excel模板导入功能，需要将文件中的数据获取后保存，优于Excel文件中表头多行，数据比较凌乱所以采用了POI进行导入。引入jar包我的是maven项目，所以直接在pom文件中引入相关依赖即可，我使用的jar包为3.16：org.apache.poipoi3.16org.apache
【入门第1课】Splunk安装配置和基础运维我只会Traceroute SIEM SIEM Splunk 安全分析
前言Splunk社区，包括白皮书，各类手册，资源下载，社区问答等入门：Splunk入门指南|Splunk手册：Splunk®Enterprise-SplunkDocumentation资源下载:数据可视化工具SplunkEnterprise免费下载|Splunk中文版手册下载：简体中文版手册-SplunkDocumentation1、安装indexer#1rpm安装rpm-isplunk-9.0.
基于C#开发的，支持多平台二维图表开源编辑器编程乐趣 c#编辑器开发语言
推荐一个基于C#开发的，支持多平台的二维图表开源编辑器。01项目简介Core2D是一个支持跨平台、多平台的应用程序，内置wyswig矢量图形编辑器，可用于数据驱动生成二维图。**1、wyswig矢量图形编辑器：**内置了一个强大的图形编辑器，它允许用户将数据绑定到形状，这使得图表制作变得非常灵活和易于操作。**2、跨文档数据共享：**支持在多个文档之间共享数据，这使得用户可以轻松地在不同的图表之间
phpexcel 读取数据
http://extjs.org.cn/fatjames/archives/379require_once'/home/PHPExcel_1.8.0/PHPExcel/IOFactory.php';$reader=PHPExcel_IOFactory::createReader('Excel2007');//设置以Excel5格式(Excel97-2003工作簿)$PHPExcel=$reader
Java 数组的创建、取值、赋值 Y1_again_0_again Java java 开发语言
一、一维数组1.1什么是一维数组一维数组是指仅包含一个维度的数据集合，类似于Excel表格中的单行数据，例如{1,2,3}。1.2在元素已知的情况下创建一维数组语法格式：数据类型[]数组名={值1,值2,值3,...};元素访问：通过数组下标获取元素，格式为数组名[数组下标]。需要注意的是，数组下标从0开始计数，即a[0]表示数组a的第一个元素，依此类推。示例1：创建一个整型一维数组，并输出其第1
七、SPringCloud中间件 @平常心～～～ spring cloud 中间件 spring
1.Nacos(配置数据库)注册中心配置中心注册中心：服务治理:引入注册中心(将服务注册到注册中心)1.注册中心:存的是服务提供者的服务,和可以被推送的服务2.服务消费者:从注册中心订阅服务,既可以拉取服务,也可以推送变更3.服务提供者:向注册中心提供服务的端口号,IP等,心跳续约:隔一段时间会向注册中心推送新的服务注册中心挂断,不会立即断开连接,除非服务提供者改变IP,有缓存用户如何挑选实例(服
基于YOLOv5的监控摄像头遮挡检测系统：从数据集到UI界面的完整实现芯作者 D2:YOLO YOLO 神经网络
实时守护监控设备安全，智能识别遮挡攻击的AI解决方案一、问题背景与系统价值在安防监控领域，摄像头遮挡是常见的恶意攻击手段——统计显示35%的安防失效源于摄像头被遮挡。传统方案依赖人工巡查，效率低下且响应延迟。本文将带你构建完整的AI遮挡检测系统，核心创新点：双模检测机制：YOLOv5目标检测+背景建模异常分析轻量化部署：模型量化压缩至1.8MB动态学习：运行时自动更新异常样本库二、系统架构设计[视
Collection的子接口之【List】丶小鱼丶 Java集合框架 list 数据结构
目录List自身提供了和index相关的方法List的特点List的常见实现类ArrayList底层数据结构是数组懒加载的体现最大容量为int类型的最大值扩容机制使用equals方法来判断是否包含某个元素随机增删元素效率较低，需要移动元素，时间复杂度为O(n)LinkedList底层数据结构是双向链表add(Ee)和remove()方法获取元素需要遍历节点，效率较低，时间复杂度为O(n)随机增删元
RDMA简介8之AXI 总线协议分析1 tiantianuser RDMA RDMA verilog 高速传输 Vivado
AXI总线是一种高速片内互连总线，其定义于由ARM公司推出的AMBA协议中，主要用于高性能、高带宽、低延迟、易集成的片内互连需求。AXI4总线是第四代AXI总线，其定义了三种总线接口，分别为：AXI4、AXI4-Lite和AXI4-Stream接口。其中AXI4也称为AXI4-Full是一种基于地址的高性能传输接口，其支持乱序传输、突发传输等传输方式，同时通过独立的地址总线，实现高性能的数据地址映
分布式训练架构解析
一、分布式训练的问题根源与需求驱动在深度学习领域，模型与数据规模呈指数级增长趋势，传统单机训练模式已难以满足日益复杂的业务需求，分布式训练技术应运而生，其核心驱动力源于以下三大关键困境：1.1算力瓶颈与训练效率危机单GPU设备的计算能力存在物理上限。以NVIDIAA100为例，其单卡FP32算力约为19.5TFLOPS，面对GPT-4这样拥有1.8万亿参数的超大型模型，若采用单机单卡训练，仅完成一
Docker-compose部署nacos集群及nginx实现负载均衡超级无敌约翰大王 nacos docker-compose docker 容器运维
目录一、环境二、部署过程1.docker和docker-compose部署2.拉取镜像3.创建网络4.创建目录5.启动数据库并导入sql6.启动7.配置nginx代理总结一、环境主机：centos7.9docker版本：24.0.6docker-compose版本：2.23.1nacos镜像版本：2.1.1数据库镜像版本：Mariadb10.5.16nginx镜像版本：1.24.0二、部署过程1.
ZooKeeper的使用和基于Curator的JavaAPI操作 Ruined_ofJoker java-zookeeper zookeeper 数据库
Docker下使用ZooKeeper在/usr/local/zookeeper目录下保存ZooKeeper数据与数据卷卷cd/usr/local&&mkdirzookeeper&&cdzookeepermkdirdata开始部署部署命令dockerrun-d-eTZ="Asia/Shanghai"-p2181:2181-v$PWD/data:/data--namezookeeper--restar
AI教学应用作业多元化和教师批改多样化蹦跑的蜗牛 AI 人工智能 ai
AI教学应用作业多元化和教师批改多样化目标是解决「作业形式多样化+教师批改压力大+教学反馈个性化不足」的问题一、需求大学生的作业和高中完全不一样，比如：作业类型多：可能是论文/实验报告（文字类）、Python代码（编程类）、电路仿真图（图片类）、小组调研视频（视频类）、甚至社会调查的问卷数据（表格类）。教师批改难：比如一篇5000字的论文，老师要检查逻辑、查重、给修改建议；一份代码作业要跑通测试、
Spring Cloud 微服务阿乾之铭 Spring Cloud 微服务 spring cloud 微服务 spring
什么是微服务？微服务是一种将应用划分为多个独立服务的架构风格，服务通过轻量级通信协议互相协作，每个服务负责单一功能，可独立开发、部署和运行。微服务架构的优缺点优点：独立部署，技术选型灵活；容错性强，支持快速迭代；高扩展性，更易于维护。缺点：系统复杂度高；数据一致性和分布式事务管理难；运维成本和性能开销增加。单体架构向微服务架构的演进单体架构缺点：扩展性差、维护困难、更新风险高，无法满足复杂业务需求
非法指针引用的‘连环杀手’：C语言程序员的必修生存课（2万字长文）大模型大数据攻城狮 c语言面试智能指针野指针函数指针内存泄露 C++面经
1.指针的本质：内存的“遥控器”要搞懂指针的安全性，先得明白指针到底是个啥。简单来说，指针是个变量，但它存的不是普通数据，而是内存地址。你可以把它想象成一个遥控器，指向内存里的某个位置，告诉你：“嘿，数据在这儿！”通过指针，你可以直接读写那块内存的数据。但问题来了：如果这个“遥控器”指向的地方压根儿没数据，或者指向了不该碰的地方（比如系统内存），那程序可就炸了。这就是非法指针引用的根源。
Docker 从入门到精通：运维工程师的容器化生存指南大模型大数据攻城狮运维 docker 容器 k8s 运维面试 dockerfile 虚拟化
目录第1章：Docker是什么？为什么它能改变运维的游戏规则？第2章：Docker安装与环境准备第3章：Docker常用命令入门第4章：Dockerfile的初探第5章：Docker网络的那些事儿第6章：数据持久化：让容器数据不“失忆”第7章：DockerCompose：多容器的“交响乐指挥家”第8章：进阶命令与运维技巧第9章：Docker与CI/CD：让部署快如闪电第10章：容器监控：让你的Do
互联网大厂Java面试实战：严肃面试官与搞笑谢飞机的三轮提问 Fu Dun Yao Java场景面试宝典 Java 面试 JUC JVM 多线程线程池 HashMap
互联网大厂Java面试实战：严肃面试官与搞笑谢飞机的三轮提问本文通过一个面试故事，展示了互联网大厂Java求职者与严肃面试官的对话。面试官就Java核心技术、JUC、JVM、多线程、线程池、HashMap、ArrayList、Spring及相关框架、分布式技术、消息队列、中间件、数据库、Linux、Docker、设计模式及DDD等多个技术点，分三轮提问。求职者谢飞机偶尔能准确回答简单问题获得认可，
【数据挖掘】分类算法学习—ID3 会的全对٩(ˊᗜˋ*)و 数据挖掘数据挖掘分类学习经验分享 ID3
分类算法学习—ID3ID3（IterativeDichotomiser3）是一种经典的决策树学习算法，由RossQuinlan于1986年提出，主要用于处理离散特征的分类问题。其核心思想是通过信息增益选择最优特征进行节点分裂，递归构建决策树。要求：理解并掌握ID3算法，理解算法的原理，能够实现算法，并对给定的数据集进行分类，分析个人参股的情况代码实现：importpandasaspdimportn
三七互娱GO面经及参考答案大模型大数据攻城狮 golang epoll B树原理幻读 go面试 go面经 mysql性能
MySQL有哪些存储引擎？MyISAM如何存储数字类型数据？MySQL拥有多种存储引擎，每种都有其独特的特性和适用场景。常见的存储引擎包括InnoDB、MyISAM、Memory、CSV、Archive、Federated等。InnoDB是MySQL5.5版本之后的默认存储引擎，它支持事务、外键、行级锁和崩溃恢复功能，适合处理高并发事务型应用。MyISAM是早期MySQL的默认存储引擎，不支持事务
理解不同层的表示（layer representations）科学禅道高维表示人工智能深度学习
在机器学习和深度学习领域，特别是在处理音频和自然语言处理（NLP）任务时，"层的表示"（layerrepresentations）通常是指神经网络不同层在处理输入数据时生成的特征或嵌入。这些表示捕获了输入数据的不同层次的信息。1.层的表示（layerrepresentations）为了更好地理解这一概念，我们可以从以下几个方面进行解释：1.深度神经网络结构深度神经网络（DNN）通常由多个层组成，每
基于机器学习的人形机器人电池健康状态预测方法 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据机器学习机器人人工智能 ai
基于机器学习的人形机器人电池健康状态预测方法：从理论到实践的系统解析关键词电池健康状态（SOH）、剩余使用寿命（RUL）、人形机器人、机器学习、时序数据建模、多模态特征融合、边缘计算部署摘要本报告系统解析基于机器学习的人形机器人电池健康状态预测方法，覆盖从理论框架到工程实现的全链路。首先界定人形机器人场景下电池健康状态的核心指标（SOH/RUL/RC），梳理从电化学模型到数据驱动方法的技术演进；其
软件测试进阶：Python 高级特性与数据库优化（第二阶段 Day6） study软测数据库 python sql
在掌握SQL复杂查询和Python数据库基础操作后，第六天将深入探索Python高级编程特性与数据库性能优化。通过掌握Python的模块与包管理、装饰器等高级语法，结合数据库索引优化、慢查询分析等技术，提升测试工具开发与数据处理效率。一、Python高级编程：模块、包与装饰器1.模块与包的使用模块导入：将代码拆分到不同.py文件中，通过import实现复用#自定义模块my_module.pydef
安卓App中调用升级接口并实现版本检查和升级功能的完整方案胡子洲 Android android
以下是安卓App中调用升级接口并实现版本检查和升级功能的完整方案，包含网络请求、版本解析、下载安装等核心逻辑：一、定义数据实体类（解析接口返回）//CheckUpgradeResponse.javapublicclassCheckUpgradeResponse{privateintcode;privateStringmsg;privateUpgradeDatadata;privateMapmap;
Open3D 进阶（31）渐进三角网(PTD)地面滤波点云侠点云进阶线性代数算法计算机视觉 python
目录一、算法原理1、PTD算法2、实现流程二、代码实现三、参数指南四、结果展示。一、算法原理1、PTD算法渐进三角网地面滤波算法（ProgressiveTINDensification,PTD）是一种广泛应用于机载LiDAR点云数据处理的滤波方法，旨在从复杂场景中精确分离地面点，以生成数字高程模型（DEM）。2、实现流程 PTD的核心思想是迭代加密三角网，逐步逼近真实地形：实现流程主要包括以
制造业EDI软件实施流程及盟接之桥在项目实施中的几点建议盟接之桥数据库人工智能大数据服务器制造
1.需求分析与规划目标：明确企业EDI的目标、交易类型、合作伙伴要求、数据来源等。盟接之桥建议：组织内部访谈，识别关键业务系统（如ERP、MES、WMS等）和需要集成的数据流。提供行业标准模板（如ANSIX12、EDIFACT、VDA等），帮助企业选择合适的EDI格式。协助评估与贸易伙伴之间的EDI对接复杂度。2.选型与方案设计目标：选择适合企业的EDI解决方案（本地部署/云服务/API集成等）。
C++入门笔记4 Bool类型的定义及使用做自己就好. c++从0到1 c++笔记开发语言
定义：bool是一种数据类型取值为false或者true定义：boolisFind=true;内存大小占一个字节使用bool的一些使用举例#includeusingnamespacestd;boolfun(inta,intb){returna+b>=10;}intmain(){boola=true;cout<
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1

hbase0.96数据导入以及Kettle操作hbase问题

你可能感兴趣的:(数据,Kettle,hbase0.96)