fansy1990

hbase0.96数据导入以及Kettle操作hbase问题

版本：

cdh5.0.0+hadoop2.3.0+hbase0.96.1.1+Spoon5.0.1

一、HBase数据导入

HBase数据导入使用org.apache.hadoop.hbase.mapreduce.ImportTsv 的两种方式，一种是直接导入，一种是转换为HFile，然后再次导入。

1. HDFS数据为（部分）：

[[email protected] data]# hadoop fs -ls /input
Found 1 items
-rwxrwxrwx   1 hdfs supergroup   13245467 2014-05-01 17:09 /input/hbase-data.csv
[[email protected] data]# hadoop fs -cat /input/* | head -n 3
1,1.52101,13.64,4.49,1.1,71.78,0.06,8.75,0,0,1
2,1.51761,13.89,3.6,1.36,72.73,0.48,7.83,0,0,1
3,1.51618,13.53,3.55,1.54,72.99,0.39,7.78,0,0,1

2. 使用直接导入的方式

a. 建立hbase-employees-1表，使用hbase shell，进入shell模式，使用命令：create 'hbase-employees-1','col' ，建立表；

b. 进入hbase安装目录，如果使用cdh默认安装，一般在目录/usr/lib/hbase/bin中，运行：

./hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator="," -Dimporttsv.columns=HBASE_ROW_KEY,col:x1,col:x2,col:x3,col:x4,col:x5,col:x6,col:x7,col:x8,col:x9,col:y hbase-employees-1 hdfs://node33:8020/input/hbase-data.csv

日志如下：

2014-05-02 13:15:07,716 INFO  [main] mapreduce.JobSubmitter: Submitting tokens for job: job_1398958404577_0018
2014-05-02 13:15:08,674 INFO  [main] impl.YarnClientImpl: Submitted application application_1398958404577_0018
2014-05-02 13:15:09,101 INFO  [main] mapreduce.Job: The url to track the job: http://node33:8088/proxy/application_1398958404577_0018/
2014-05-02 13:15:09,103 INFO  [main] mapreduce.Job: Running job: job_1398958404577_0018
2014-05-02 13:15:34,169 INFO  [main] mapreduce.Job: Job job_1398958404577_0018 running in uber mode : false
2014-05-02 13:15:34,207 INFO  [main] mapreduce.Job:  map 0% reduce 0%
2014-05-02 13:16:32,789 INFO  [main] mapreduce.Job:  map 1% reduce 0%
2014-05-02 13:16:53,477 INFO  [main] mapreduce.Job:  map 5% reduce 0%
2014-05-02 13:16:56,701 INFO  [main] mapreduce.Job:  map 9% reduce 0%
2014-05-02 13:16:59,928 INFO  [main] mapreduce.Job:  map 13% reduce 0%
2014-05-02 13:17:02,970 INFO  [main] mapreduce.Job:  map 16% reduce 0%
2014-05-02 13:17:07,260 INFO  [main] mapreduce.Job:  map 22% reduce 0%
2014-05-02 13:17:10,472 INFO  [main] mapreduce.Job:  map 29% reduce 0%
2014-05-02 13:17:12,879 INFO  [main] mapreduce.Job:  map 36% reduce 0%
2014-05-02 13:17:16,555 INFO  [main] mapreduce.Job:  map 45% reduce 0%
2014-05-02 13:17:43,452 INFO  [main] mapreduce.Job:  map 48% reduce 0%
2014-05-02 13:17:45,629 INFO  [main] mapreduce.Job:  map 63% reduce 0%
2014-05-02 13:17:52,845 INFO  [main] mapreduce.Job:  map 79% reduce 0%
2014-05-02 13:17:55,862 INFO  [main] mapreduce.Job:  map 91% reduce 0%
2014-05-02 13:18:01,000 INFO  [main] mapreduce.Job:  map 100% reduce 0%
2014-05-02 13:18:14,644 INFO  [main] mapreduce.Job: Job job_1398958404577_0018 completed successfully
2014-05-02 13:18:17,123 INFO  [main] mapreduce.Job: Counters: 31
	File System Counters
		FILE: Number of bytes read=0
		FILE: Number of bytes written=115531
		FILE: Number of read operations=0
		FILE: Number of large read operations=0
		FILE: Number of write operations=0
		HDFS: Number of bytes read=13245571
		HDFS: Number of bytes written=0
		HDFS: Number of read operations=2
		HDFS: Number of large read operations=0
		HDFS: Number of write operations=0
	Job Counters 
		Launched map tasks=1
		Data-local map tasks=1
		Total time spent by all maps in occupied slots (ms)=146367
		Total time spent by all reduces in occupied slots (ms)=0
		Total time spent by all map tasks (ms)=146367
		Total vcore-seconds taken by all map tasks=146367
		Total megabyte-seconds taken by all map tasks=149879808
	Map-Reduce Framework
		Map input records=203500
		Map output records=203500
		Input split bytes=104
		Spilled Records=0
		Failed Shuffles=0
		Merged Map outputs=0
		GC time elapsed (ms)=8595
		CPU time spent (ms)=11290
		Physical memory (bytes) snapshot=99639296
		Virtual memory (bytes) snapshot=647782400
		Total committed heap usage (bytes)=26517504
	ImportTsv
		Bad Lines=0
	File Input Format Counters 
		Bytes Read=13245467
	File Output Format Counters 
		Bytes Written=0

查看hbase表数据大小：

bash-4.1$ hadoop fs -count /hbase/data/default/hbase-employees-1
           6            4           60100796 /hbase/data/default/hbase-employees-1

大约57.3M数据，原始数据是12.3M的。耗时方面：从任务提交到任务结束耗时3分6秒。

3. 使用HFile方式：

a. 转换为HFile并新建hbase-employee表：

./hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator="," -Dimporttsv.bulk.output=hdfs://node33:8020/output/hbase_bulk -Dimporttsv.columns=HBASE_ROW_KEY,col:x1,col:x2,col:x3,col:x4,col:x5,col:x6,col:x7,col:x8,col:x9,col:y hbase-employees hdfs://node33:8020/input/hbase-data.csv

这样运行后，可以查看HFile的大小：

hadoop fs -count /output/hbase_bulk

同时数据库中已经新建了hbase-employees表，但是表中没有数据。

b. 插入数据到表中

这里也有两种方式，但是这两种方式操作前都需要把相应目录的权限放开。简单来说可以这样：

bash-4.1$ hadoop fs -chmod -R 777 /output
bash-4.1$ hadoop fs -chmod -R 777 /hbase

（1）使用hbase的命令：

/hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles hdfs://node33:8020/output/hbase_bulk hbase-employees

ps：这个我没有试，官网说可以这样。
（2）使用hadoop jar方式：

hadoop jar /usr/lib/hbase/lib/hbase-server-0.96.1.1-cdh5.0.0.jar completebulkload hdfs://node33:8020/output/hbase_bulk hbase-employees

不过做这个前需要把hbase的相关包拷贝到hadoop的lib目录下，可以拷贝到/usr/lib/hadoop-mapreduce目录下，jar包如下：

-rw-r--r--. 1 root root  818519 May  2 10:35 hbase-client.jar
-rw-r--r--. 1 root root  360422 May  2 10:36 hbase-common.jar
-rw-r--r--. 1 root root   66898 May  2 10:36 hbase-hadoop2-compat.jar
-rw-r--r--. 1 root root    4071 May  2 10:36 hbase-it.jar
-rw-r--r--. 1 root root   87533 May  2 10:36 hbase-prefix-tree.jar
-rw-r--r--. 1 root root 3142247 May  2 10:36 hbase-protocol.jar
-rw-r--r--. 1 root root 3110607 May  2 10:36 hbase-server.jar
-rw-r--r--. 1 root root    4499 May  2 10:37 hbase-shell-0.96.1.1-cdh5.0.0.jar
-rw-r--r--. 1 root root 2270053 May  2 10:37 hbase-thrift-0.96.1.1-cdh5.0.0.jar

这种方式的log，如下：

2014-05-02 13:39:27,916 INFO  [main] mapreduce.JobSubmitter: Submitting tokens for job: job_1398958404577_0020
2014-05-02 13:39:28,408 INFO  [main] impl.YarnClientImpl: Submitted application application_1398958404577_0020
2014-05-02 13:39:28,552 INFO  [main] mapreduce.Job: The url to track the job: http://node33:8088/proxy/application_1398958404577_0020/
2014-05-02 13:39:28,553 INFO  [main] mapreduce.Job: Running job: job_1398958404577_0020
2014-05-02 13:39:44,376 INFO  [main] mapreduce.Job: Job job_1398958404577_0020 running in uber mode : false
2014-05-02 13:39:44,402 INFO  [main] mapreduce.Job:  map 0% reduce 0%
2014-05-02 13:40:24,580 INFO  [main] mapreduce.Job:  map 67% reduce 0%
2014-05-02 13:40:38,125 INFO  [main] mapreduce.Job:  map 100% reduce 0%
2014-05-02 13:41:09,295 INFO  [main] mapreduce.Job:  map 100% reduce 67%
2014-05-02 13:41:17,905 INFO  [main] mapreduce.Job:  map 100% reduce 77%
2014-05-02 13:41:20,928 INFO  [main] mapreduce.Job:  map 100% reduce 90%
2014-05-02 13:41:23,948 INFO  [main] mapreduce.Job:  map 100% reduce 100%
2014-05-02 13:41:29,514 INFO  [main] mapreduce.Job: Job job_1398958404577_0020 completed successfully
2014-05-02 13:41:31,530 INFO  [main] mapreduce.Job: Counters: 50
	File System Counters
		FILE: Number of bytes read=48950370
		FILE: Number of bytes written=98519119
		FILE: Number of read operations=0
		FILE: Number of large read operations=0
		FILE: Number of write operations=0
		HDFS: Number of bytes read=13245571
		HDFS: Number of bytes written=73861410
		HDFS: Number of read operations=8
		HDFS: Number of large read operations=0
		HDFS: Number of write operations=3
	Job Counters 
		Launched map tasks=1
		Launched reduce tasks=1
		Data-local map tasks=1
		Total time spent by all maps in occupied slots (ms)=51857
		Total time spent by all reduces in occupied slots (ms)=42035
		Total time spent by all map tasks (ms)=51857
		Total time spent by all reduce tasks (ms)=42035
		Total vcore-seconds taken by all map tasks=51857
		Total vcore-seconds taken by all reduce tasks=42035
		Total megabyte-seconds taken by all map tasks=53101568
		Total megabyte-seconds taken by all reduce tasks=43043840
	Map-Reduce Framework
		Map input records=203500
		Map output records=203500
		Map output bytes=48339864
		Map output materialized bytes=48950370
		Input split bytes=104
		Combine input records=203500
		Combine output records=203500
		Reduce input groups=203500
		Reduce shuffle bytes=48950370
		Reduce input records=203500
		Reduce output records=2035000
		Spilled Records=407000
		Shuffled Maps =1
		Failed Shuffles=0
		Merged Map outputs=1
		GC time elapsed (ms)=1573
		CPU time spent (ms)=26250
		Physical memory (bytes) snapshot=341180416
		Virtual memory (bytes) snapshot=1296404480
		Total committed heap usage (bytes)=152965120
	ImportTsv
		Bad Lines=0
	Shuffle Errors
		BAD_ID=0
		CONNECTION=0
		IO_ERROR=0
		WRONG_LENGTH=0
		WRONG_MAP=0
		WRONG_REDUCE=0
	File Input Format Counters 
		Bytes Read=13245467
	File Output Format Counters 
		Bytes Written=73861410

这个是转为HFile的job，插入数据到HBase表中2秒不到就完成了。

查看HBase中数据大小：

bash-4.1$ hadoop fs -count /hbase/data/default/hbase-employees
           5            3           73861752 /hbase/data/default/hbase-employees

一共大概70.4M数据，原始数据是12.3M，耗时为：2分2秒。

总结：HBase的数据导入都会把数据扩大，一般大概为5倍左右，同时使用HFile的方式，在时间上会有优势，但是数据会比较大。ps：这个仅仅是一次测试总结而已，实际情况可能不同。（为什么HBase的数据被扩大了？参考前篇，Hive的数据如果是直接导入，一般是不会扩大数据占用空间的，而且使用orc方式的时候还可以达到很好的压缩比，但是HBase却是扩大的，这是为什么？）

二、Kettle操作Hbase0.96

1. HBase Output组件，可以参考 http://wiki.pentaho.com/display/BAD/Loading+Data+into+HBase 。

2. HBase Input组件，可以参考 http://wiki.pentaho.com/display/BAD/Extracting+Data+from+HBase+to+Load+an+RDBMS。

参考这两个操作步骤，都是可以得到正确结果的。这里只是说说遇到的问题。

（1）zookeeper和hbase-site.xml文件两者选择一个配置即可，配置两个可能有问题。

（2）mapping配置的是HBase表中Family的名称。

（3）如果遇到下面的问题：

java.lang.IllegalArgumentException: offset (0) + length (8) exceed the capacity of the array: 1
	at org.apache.hadoop.hbase.util.Bytes.explainWrongLengthOrOffset(Bytes.java:602)
	at org.apache.hadoop.hbase.util.Bytes.toLong(Bytes.java:580)
	at org.apache.hadoop.hbase.util.Bytes.toLong(Bytes.java:553)
	at org.pentaho.hbase.shim.common.CommonHBaseBytesUtil.toLong(CommonHBaseBytesUtil.java:87)
	at org.pentaho.hbase.shim.api.HBaseValueMeta.decodeKeyValue(HBaseValueMeta.java:567)
	at org.pentaho.di.trans.steps.hbaseinput.HBaseInputData.getOutputRow(HBaseInputData.java:464)
	at org.pentaho.di.trans.steps.hbaseinput.HBaseInput.processRow(HBaseInput.java:281)
	at org.pentaho.di.trans.step.RunThread.run(RunThread.java:60)
	at java.lang.Thread.run(Thread.java:724)

或者

Unknown type for column

	at org.pentaho.hbase.shim.api.HBaseValueMeta.decodeColumnValue(HBaseValueMeta.java:769)
	at org.pentaho.di.trans.steps.hbaseinput.HBaseInputData.getOutputRow(HBaseInputData.java:495)
	at org.pentaho.di.trans.steps.hbaseinput.HBaseInput.processRow(HBaseInput.java:281)
	at org.pentaho.di.trans.step.RunThread.run(RunThread.java:60)
	at java.lang.Thread.run(Thread.java:724)

或者

org.pentaho.di.core.exception.KettleException: 
Length of integer column value is not equal to the defined length of a short, int or long

	at org.pentaho.hbase.shim.api.HBaseValueMeta.decodeColumnValue(HBaseValueMeta.java:711)
	at org.pentaho.di.trans.steps.hbaseinput.HBaseInputData.getOutputRow(HBaseInputData.java:495)
	at org.pentaho.di.trans.steps.hbaseinput.HBaseInput.processRow(HBaseInput.java:281)
	at org.pentaho.di.trans.step.RunThread.run(RunThread.java:60)
	at java.lang.Thread.run(Thread.java:724)

则把Mapping的时候的数据格式全部设置为String就可以了，这个是因为，如果HBase表中的数据是以其他方式导入的话，那么其存储是以String格式存储的（但是如果使用kettle的HBase output组件导入数据，那么数据格式可以调整），所以使用其他的数据格式就会报上面的错误。

分享，成长，快乐

转载请注明blog地址： http://blog.csdn.net/fansy1990

作者：fansy1990 发表于2014-5-8 17:04:12 原文链接

阅读：67 评论：0 查看评论

自定义数据集使用pytorch框架实现逻辑回归并保存模型，然后保存模型后再加载模型进行预测知识鱼丸 machine learning 逻辑回归算法机器学习
1.数据准备首先，我们需要一些示例数据。在这个例子中，我们将生成一些简单的二维数据点，并为其分配标签。2.定义逻辑回归模型接下来，我们定义一个简单的逻辑回归模型。3.训练模型定义损失函数和优化器，然后进行模型训练。4.保存模型训练完成后，我们可以保存模型的状态字典。5.加载模型并进行预测加载保存的模型，并进行预测。importtorchimporttorch.nnasnnimporttorch.o
构建响应式管理后台系统（Python + Django + Bootstrap）后端架构魔术骑士 python django bootstrap Python
在本文中，我们将使用Python编程语言结合Django和Bootstrap框架来构建一个响应式管理后台系统。我们将使用Django作为后端框架，处理数据和业务逻辑，并使用Bootstrap作为前端框架，实现用户界面的设计和布局。环境设置和项目创建首先，确保你已经安装了Python和Django。在命令行中运行以下命令来创建一个新的Django项目：$django-adminstartprojec
约瑟夫问题（信息学奥赛一本通-2037） Doopny@ 信息学奥赛一本通算法
【题目描述】N个人围成一圈，从第一个人开始报数，数到M的人出圈；再由下一个人开始报数，数到M的人出圈；…输出依次出圈的人的编号。【输入】输入N和M。【输出】输出一行，依次出圈的人的编号。【输入样例】85【输出样例】52871463【提示】【数据范围】对于所有数据，2≤N,M≤1000。【题解代码】#includeusingnamespacestd;constintN=5e3+10;intnums[
使用numpy自定义数据集使用tensorflow框架实现逻辑回归并保存模型，然后保存模型后再加载模型进行预辞落山 numpy tensorflow 逻辑回归
1.引言逻辑回归（LogisticRegression）是一种常见的分类算法，广泛应用于二分类问题。在本篇博客中，我们将使用numpy生成一个简单的自定义数据集，并使用TensorFlow框架构建和训练逻辑回归模型。训练完成后，我们会保存模型，并演示如何加载保存的模型进行预测。2.创建自定义数据集首先，我们使用numpy生成一个简单的二分类数据集，包含两个特征和对应的标签。标签0表示负类，标签1表
protobuf学习和使用(Python) 呀儿呦丶 Python 学习 python 开发语言
Protobuf学习文章目录Protobuf学习简介安装example数据类型映射关系proto2和proto3的区别案例example1_定义基本的消息类型example2_使用repeated字段example3_定义枚举类型example4_使用oneofexample5_字段编号与保留简介ProtocolBuffers(Protobuf)是一种由Google开发的高效、跨平台的序列化协议。
python从字符串中提取数字并转换为相应数据类型_python数据类型的强制转换高考语文大仙儿
数据类型的强制转换如果要将一个数据转换成另一个数据类型，只需要将其放入相应类型的函数中去。Number类型的数据转换强制转换为int可以转换的数据类型int整型float浮点型bool布尔型str字符串(整型)数据转换#整型(整型转换是原封不动的)print(int(10))#浮点型(浮点型转成整型按照退一法)print(int(10.999))#布尔型(布尔型只有两种值，转换成为整型也只有两种，
计算ERA-5数据的相对湿度（RH）与饱和水汽压差（VPD） Vicissitudes_Aura 气象数据处理 python 图像处理
计算ERA-5数据的相对湿度（RH）与饱和水汽压差（VPD）目录计算ERA-5数据的相对湿度（RH）与饱和水汽压差（VPD）前言一、所使用的函数包以及操作系统二、具体操作及代码1.数据2.计算RH与VPD前言由于需要用到饱和水汽压差数据而ERA5中并没有饱和时气压差数据，故根据公式进行计算。一、所使用的函数包以及操作系统函数包：cdo操作系统：Windows10中的WSL二、具体操作及代码1.数据
【GEE】全球气象数据ERA5空气湿度—波段处理及下载 xtigao GEE gis google earth arcgis
相对湿度均值用气温（temperature_2m）和露点温度（dewpoint_temperature_2m）这两个波段结合Magnus-Tetens近似公式计算。以下代码预计计算era5中的每年每8天的均值并输出。varnmg=**********;functionsaturationVaporPressure(T_image){//Magnus-Tetens公式vares=ee.Image(6
全面掌握 Java 排序算法：从原理到代码实现中國移动丶移不动排序算法 java 算法
全面掌握Java排序算法：从原理到代码实现一、基本概念排序算法用于将一组数据按指定顺序排列（通常是升序或降序）。在评估排序算法时，通常需要考虑以下几个方面：1.1什么是排序算法排序算法是一种对数据集合按照某种特定顺序进行重新排列的过程，主要应用在数据处理、查找优化等场景。1.2排序算法的评估标准时间复杂度：算法处理n个元素时所需的时间，例如O(n2)O(n^2)O(n2)表示随着输入量增长，处理时
中国大气湿度指数数据集（2003-2020）地球资源数据云服务器大数据数据库
该数据集收录了2003-2020年中国大气湿度指数数据集，其中主要包括常用的5个大气湿度指数：真是水汽压（AVP）、水汽压亏缺（VPD）、露点温度（DPT）、混合比（MR）以及比湿（SH）。为便于存储，数据都存储为整数类型（Int16），使用时需除以100将AVP、VPD、DPT、MR以及SH的数值单位分别转化为hPa、hPa、℃、g/kg以及g/kg。数据集主要以tiff的格式存储，时间分辨率为
.NET MAUI与ASP.NET的无缝数据传输 t0_54coder 编程问题解决手册 .net asp.net 后端个人开发
在移动应用开发中，数据的传输与处理是一个关键的环节，尤其是当涉及到跨平台的应用程序时。今天，我们将探讨如何在.NETMAUI应用中通过HTTPPost请求将数据发送到ASP.NET服务器，并确保数据的准确性和完整性。背景假设你正在开发一个电子商务应用，其中包括一个产品查看功能。用户在移动端查看产品详情后，你需要将这个查看记录发送到服务器端，以便进行统计和分析。客户端：.NETMAUI首先，我们在.
SAP GR/IR在系统AP中收货和校验对会计业务的影响（详细） trassion SAP-FI SAP GRIR 采购
转自：http://www.studa.net/kuaiji/100405/14523268.html【摘要】正确理解和掌握SAP系统采购收货和发票校验的集成性对会计业务的影响,可以为物料数据分析和成本数据分析提供有力工具,保证数据真实、完整、实时和丰富,为企业管理者提供决策支持。【关键词】SAP;采购收货;发票校验;集成;影响mySAPERP系统是一种可以实现跨地区、跨部门、甚至跨公司整合实时信
企业级SOA的信息安全保证 Juishl soa 网络 xml 加密 security 通讯
毋庸讳言，“安全”是当前信息技术应用领域热门话题之一，无论是操作系统，还是应用软件，安全总是作为一项重要考量，特别是在商业应用领域，信息安全是业务运作的基本要求之一。企业级SOA在提供价值链上企业之间信息共享和业务流程自动化的同时，也对信息安全提出新的挑战。基于企业级SOA更加容易实现跨越企业边界的业务系统自动化和信息共享，开放的数据访问和网络服务调用给商业运作带来便利，同时也更加容易受到攻击，如
梯度提升用于高效的分类与回归纠结哥_Shrek 分类回归数据挖掘
使用决策树（DecisionTree）实现梯度提升（GradientBoosting）主要是模拟GBDT（GradientBoostingDecisionTrees）的原理，即：第一棵树拟合原始数据计算残差（负梯度方向）用新的树去拟合残差累加所有树的预测值重复步骤2-4，直至达到指定轮数下面是一个纯Python+PyTorch实现GBDT（梯度提升决策树）的代码示例。1.纯Python实现梯度提升
Python——基于ERA5数据的饱和水汽压差（VPD）批量计算（Clausius-Clapeyron 克劳修斯-克拉伯龙关系）雨宫芳树算法 python arcgis 数据分析开发语言
一、前言之前我发布过基于CRU数据和Goff-Gratch公式计算VPD的博客，见下方：基于CRU数据计算VPD的博客但是，CRU数据的分辨率还是较为粗糙（0.5°×0.5°），而ERA5land数据集分辨率能很好地满足我的需求（0.1°×0.1°）。但是，ERA5land数据集并不提供水汽压和湿度变量供于下载，这导致利用Goff-Gratch公式很难进行计算。结合近期文献阅读和整理，这里提供另一
python 多个数组内数据之间的组合 AGMTI python 组合数据算法
如图，最近想实现一个小功能：多个数组中，数据之间的组合。绞尽脑汁，无论多少个数组，想用一个函数来解决这个问题。a=[1,2,3,4,6]b=[12,13,14,15,16]c=[22,23,24,25,26]A=[a,b,c]defgetPlans(lis,jude=True):ifjude:lis=[[[i]foriinlis[0]]]+lis[1:]iflen(lis)>2:foriinlis
【Pandas】pandas Series describe liuweidong0802 Pandas Series pandas
Pandas2.2SeriesComputationsdescriptivestats方法描述Series.abs()用于计算Series中每个元素的绝对值Series.all()用于检查Series中的所有元素是否都为True或非零值（对于数值型数据）Series.any()用于检查Series中是否至少有一个元素为True或非零值（对于数值型数据）Series.autocorr()用于计算Se
mysql 单进程多线程_关于单线程数据库与多线程数据库性能兰德水 mysql 单进程多线程
这是我的意见：通常,DB系统的瓶颈(或最慢的部分)是磁盘.CPU仅在算术运算,处理或CPU执行的任何其他任务期间出现峰值.通过适当的体系结构,多线程可以帮助将查询的负载抵消到CPU上,而不是进行慢速磁盘读/写操作.在某些情况下,使用CPU周期计算值更快,而不是创建计算列(之前已保存到磁盘)并从磁盘读取此列.在某些RDBMS中,有一个临时DB(tempdb),该实例上的所有DB都使用它来进行排序,散
AI DMP 数据基建：数据可视化与报表 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
《AIDMP数据基建：数据可视化与报表》关键词：AIDMP，数据可视化，报表分析，数据处理技术，数据治理，企业应用，项目实战，未来发展趋势。摘要：本文旨在深入探讨AI驱动的数据管理平台（DMP）的数据基建，重点关注数据可视化与报表分析。通过详细解析数据可视化的基础、报表分析的方法，以及AIDMP的核心技术，本文将展示如何构建一个高效的数据基础设施，并探讨其在企业中的应用和未来发展趋势。《AIDMP
【mysql】mysql多线程绝世好阿狸 mysql mysql 线程数据库内存
mysql是一个单进程多线程的数据库，在innodb中大概有一下几种线程：（1）MasterThread：这是主线程，非常核心，其用途主要是做一些周期性的任务，在不同的innodb版本其功能不同，这里就看最早期的版本。早起的innodbMaster线程会有两种频率的任务，一种是每1秒一次的，还有每10秒一次的。每1秒的工作：1.刷新日志；2.刷新至多100个脏页3.合并插入缓冲；4.如果空闲切为b
开源邮箱套件介绍系列1：SOGo 小胡子大魔王邮件系统开源软件 SOGo
项目网站：SOGo|FreeOpenSourceWebmail提示：如下内容大部分来自官方网站，通过AI智能翻译而来。1.SOGo功能概述SOGo提供了多种访问日历和消息数据的方式。您的用户可以使用网页浏览器、MicrosoftOutlook、MozillaThunderbird、AppleiCal或移动设备来访问相同的信息。由于SOGo采用并推广开放标准，因此它是一个高度互操作性的解决方案。其中
什么是零拷贝（Zero Copy）技术？它如何减少在数据传输过程中的性能开销？ fajianchen IT架构如何进行系统设计 linux 服务器高性能
零拷贝（ZeroCopy）技术是一种在计算机系统中优化数据传输的方法。传统上，在数据从一个地方传输到另一个地方时，需要多次的内存拷贝操作，这会导致性能开销。零拷贝技术的目标就是减少或避免这些不必要的内存拷贝，从而提高数据传输的效率。传统的数据传输过程中，例如从磁盘读取数据到应用程序的内存，通常会经历以下步骤：从磁盘读取数据到内核空间的缓冲区。将数据从内核空间的缓冲区复制到用户空间的应用程序缓冲区。
【Julia】在Julia中优雅地配置Artifacts x66ccff julia julia 开发语言
引言在Julia包开发中，我们经常需要处理外部依赖和数据文件。Julia的Artifacts系统提供了一个优雅的解决方案，让我们可以轻松管理这些依赖。本文将介绍如何在Julia项目中正确配置和使用Artifacts。什么是Artifacts？Artifacts是Julia包管理系统的一个特性，它允许我们：管理二进制依赖处理数据文件自动下载和缓存资源⬇️跨项目共享资源步骤指南1.创建Artifact
Python教程：Python中如何优雅的合并两个字典！很酷的站长 Python python 开发语言
在Python的世界里，字典作为一种强大的数据结构，扮演着举足轻重的角色。而合并字典，则是我们经常遇到的操作。Python为我们提供了多种合并字典的方式，每种方式都有其独特的应用场景。今天，我们就来一起探索Python中合并两个字典的七种方法，找到最适合你的那一款！1.简单粗暴：update()方法update()方法就像一把利刃，直接将一个字典的内容更新到另一个字典中。如果存在相同的键，则更新后
第十一届蓝桥杯——字串排序（DP） Dripping. 蓝桥杯练习题/试题算法
评论上有博友说这道题我的答案在蓝桥杯上只能通过7个数据点，我自己去测试了一下确实是这样的，根据一些博友在评论里提供的正确答案，我发现确实是我答案有问题，只能计算出最短长度，但字典序最小好像有些地方没有考虑完全，但是最近又很忙实在是抽不出时间来重新思考这道题，等过段时间我会重新来整理的。当然，如果你有正确的思路也希望你能够在评论里留下你的思路，万分感谢！问题描述小蓝最近学习了一些排序算法，其中冒泡排
如何寻找好用的GPTs模型？小宝哥Code ChatGPT与AIGC 人工智能
要有效地寻找和使用好用的GPT模型，可以按照以下步骤来选择和应用最合适的模型，尤其是在科研或工作中需要完成特定任务时：1.明确需求和任务在寻找适合的GPT模型之前，首先需要明确你要解决的任务或需求。不同的GPT模型在处理各种任务时表现不一样。常见的任务包括：文本生成：创作文章、生成报告、写作论文等。问答系统：快速解答科研问题、技术问题等。翻译和润色：翻译论文、改进文章语言质量等。数据分析和图表生成
Java Stream API中的状态性操作与陷阱 2501_90323865 java python 开发语言个人开发
在Java编程中，StreamAPI为我们提供了一种高效且简洁的方式来处理集合数据。然而，在使用StreamAPI时，开发者常常会遇到状态性（stateful）操作和行为参数的问题。这些问题如果不加以注意，可能会导致代码的非确定性结果，甚至引发线程安全问题。本文将详细介绍状态性操作的原理、潜在问题以及如何避免这些问题，同时结合实例进行说明。一、状态性操作与无状态操作在StreamAPI中，操作可以
Kafka 压缩算法详细介绍王多鱼的梦想～ kafka 分布式运维 apache
文章目录一、Kafka压缩算法概述二、Kafka压缩的作用2.1降低网络带宽消耗2.2提高Kafka生产者和消费者吞吐量2.3减少Kafka磁盘存储占用2.4减少KafkaBroker负载2.5降低跨数据中心同步成本三、Kafka压缩的原理3.1Kafka压缩的基本原理3.2.Kafka压缩的工作流程3.3Kafka压缩的数据存储格式四、Kafka压缩方式配置4.1Kafka生产者（Produce
logstash（自动拉取，过滤，推送日志的应用，也是elk架构中的l）长东737 elk 架构
elk是指elasticsearch，logstash，kibana三款软件搭配组成的架构logstash是一个数据采集加工处理以及传输的工具logstash类似于流水线，有三个模块，分辨是input>filter>output，input模块负责收集数据，filter负责处理数据，output负责输出数据logstash需要先保证web集群和ela集群运行正常才能搭建，运行logstash需要先
Django ORM解决Oracle表多主键的问题 zZeal django python 后端 oracle
现状以Django3.2为例DjangoORM设计为默认使用单一主键（通常是自增的id字段），这一选择主要基于以下核心原因：简化ORM设计与操作统一访问方式外键关联简化避免歧义冲突主键语义明确防止隐式依赖性能与数据库兼容索引效率优化跨数据库兼容替代方案成熟unique_together约束Oracle现状原始业务表，很多都使用多主键。使用Django映射现有Oracle数据库无法处理多主键问题。O
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S

hbase0.96数据导入以及Kettle操作hbase问题

你可能感兴趣的:(hbase0,数据,kettle)