codemosi

性能测试：SequoiaDB vs. MongoDB vs. Cassandra vs. HBase

在本篇测试报告中，我们使用Yahoo!发布的标准YCSB测试规则，对MongoDB、SequoiaDB、Cassandra、HBase进行对比，并尝试给出每种不同产品所适用的应用场景。在测试配置中，我们尽可能对全部产品做到高可用配置，而在一致性级别上则使用最终一致性。

在测试中我们会对两种类型的NoSQL数据库做横向对比，包括Document-Oriented文档类数据库、以及Big-Table宽表类数据库。由于每种类型的数据库具有很多自己独特的特性，我们不能将每种特性一一表现在该测评结果中。本测试主要针对数据库在不同任务类型下的性能指标进行，且仅依赖YCSB所提供的标准测试流程。

本测试将详细列出测试的物理环境以及配置信息，以便于读者能够使用自己的环境独立验证结果。

测试概要

1.测试产品

本测试主要对比两种类型的NoSQL数据库，包括四款不同的产品：

MongoDB（文档类，V2.6.1）
SequoiaDB（文档类，V1.8）
HBase（宽表类，V0.94.6-CDH 4.5.0）
Cassandra（宽表类，V1.1.12）

其中MongoDB作为当前市场占有率最高的数据库，可能是众多读者所关心的产品，提供丰富的数据库功能，号称是最接近关系型数据库的NoSQL产品；而SequoiaDB由前IBM DB2团队的研发人员创建，据称在性能和功能上能够与MongoDB做正面抗衡，同样提供很多MongoDB所提供的功能（例如分片、多索引等特性）。

HBase则是Hadoop框架的一员，也已经被广大企业和互联网用户所接受，我们使用的版本0.94.6是跟随CDH 4.5.0安装包的版本；而Cassandra则是与HBase类似的产品，由Facebook研发并进行开源，同样拥有广大的用户市场。

我们的测试使用由Yahoo!研究院发布的Yahoo Cloud Serving Benchmark （YCSB）基准测试，并将接口对各自产品的最新版进行了修改和适配。我们在正文后的附录中也提供了SequoiaDB的YCSB测试接口。

需要重新强调的是，每种不同的产品都有各自的应用场景。YCSB测试尽管是Yahoo!研究院提供的测试框架，但是在很多场景下并不能完全发挥出每个产品各自的特点。在本测试中，我们尝试使用YCSB框架给出最为客观的评估结果。如果对于该测试结果或配置存在疑问，我们欢迎广大读者根据自身需要重新调整，并将结果开放以供参考。

2. 测试场景

YCSB测试框架提供了丰富的场景配置机制，允许用户根据需要选择需要导入的数据量和增删改查之间相应的比例。在本测试中，我们导入一亿条数据，并对如下场景进行对比。

场景编号	场景分类	描述
1	单条记录导入	单条记录导入
2	批量记录导入	批量记录导入
3	单纯查询	100%查询
4	查询导入平衡	50%导入，50%查询
5	更新为主	95%更新，5%查询
6	查询为主	95%查询，5%更新
7	查询最新	95%查询，5%导入

对于数据导入的场景，我们对单条记录插入和批量插入两个场景进行了区分。对于一些数据库来说，默认配置会在客户端将一批记录打包并统一发送给服务器，对于这类产品，尽管其接口为单条记录操作，我们依然将其归类为批量记录导入模式。

写入和查询的数据模拟典型日志记录的长度，具有以下特性：

特性	描述
字段数	10字段
字段名长度	6字节
记录总大小	100Bytes
全部字段类型	字符串
主键长度	23字节
总记录数	1亿条
总裸数据量	大约100GB
数据副本份数	3

其中，SequoiaDB与MongoDB的分片均配置为一主两从；HBase所在的HDFS设置复制份数为3；Cassandra建表时使用参数replication_factor=2。

一致性级别上，我们使用最弱的最终一致性，读写的write concern均设置为1。

3. 测试环境

本测试中，测试环境总共包含4台Dell R520物理机作为数据存储。生成数据的YCSB程序与数据库运行在同一物理环境。

注：如使用独立服务器进行YCSB的数据生成，会导致千兆网瓶颈。

整个集群的拓扑结构如图1所示：

图1：测试集群拓扑

服务器环境。本测试数据库服务器使用4台Dell R520物理机环境，每台物理机配置如下：

类型	参数
CPU	Intel(R)Xeon®CPUE5-24201.9GHZ(6core)
内存	DDR348GB
磁盘	6块内置SATA硬盘，2TB/块
网络	千兆以太网
操作系统	RedHatEnterpriseLinuxServerrelease6.4 kernel-release:2.6.32-358.e16.x86_64
JDK	OracleJDK1.6

4. 测试方法

本测试使用YCSB标准，基于四台物理机执行。对于每种不同产品的测试流程如下：

安装软件
基于四节点部署集群，配置时尽可能基于以下准则：

高可用配置
最终一致性
功能与单节点环境保持一致
充分利用硬件资源

在四台物理机中部署YCSB集群，向本地集群写入读取数据
进行数据操作时通过YCSB产生记录的统计数量
根据结果生成Excel文件
针对其他场景重复以上步骤

并发性方面则基于以下规则：

单条记录插入每服务器24条线程
批量记录插入每服务器8条线程
其他所有操作每服务器36条线程

测试结果

一、场景1：单条记录导入

图2：单条记录导入场景

在单条记录导入场景中，SequoiaDB与MongoDB使用insert方法，writeConcern设置为Normal；HBase则设置客户端缓冲区为2KB。而在错误检验方式上，由于是单条记录插入，所以MongoDB必须在每次操作后检测返回值是否成功，因此不可以使用异步插入方式。

在图2的结果中可以看到，单条记录导入操作SequoiaDB最高，总吞吐量可以达到每秒钟近7万。而HBase与Cassandra则比较接近，在5-6万之间。MongoDB在该场景中表现较差，总吞吐量不到每秒1万。

在该场景中，YCSB在4台服务器上各启动24条线程，总共并发量为96线程。

二、场景2：批量记录导入

图3：批量记录导入场景

批量记录导入场景的结果见图3。在该场景中，SequoiaDB与MongoDB使用各自提供的bulk insert方法；HBase则设置client buffer为4MB；Cassandra不提供批量数据导入方式。

在该测试中，批量导入数据为每批次3000条记录，每节点启动8条线程，总数32线程。

测试结果显示，SequoiaDB可以达到每秒钟近19万的导入速度，而MongoDB则与单线程导入的性能接近（1万左右），HBase也没有本质提升。

三、场景3：单纯查询

图4：单纯查询场景

图4显示单纯随机查询的场景。在该场景中MongoDB表现最为突出，整体吞吐量达到每秒钟8万以上。SequoiaDB和Cassandra类似，大约为MongoDB的一半，在4万至5万之间徘徊。而HBase表现最差，未达到每秒1万的指标。

该场景每台物理服务器使用36条客户端线程，总数144条线程。

四、场景4：查询导入平衡

图5：查询导入平衡场景

该场景主要模拟50%的插入和50%的查询业务（图5）。其中插入业务使用单条记录插入。

最终的结果显示，SequoiaDB的整体表现最优，平均达到每秒钟超过14000TPS，而MongoDB/HBase/Cassandra则比较接近，各自不到10000TPS。

五、场景5：更新为主

图6：更新为主场景

如图6所示，更新为主场景模拟95%更新与5%查询的场景。该场景中，SequoiaDB表现最优，结果介于5万到6万之间每秒。

而MongoDB表现相对较弱，大约在5千每秒左右的数量级。

六、场景6：查询为主

图7：查询为主场景

在查询为主的场景中，模拟95%查询+5%更新。在该测试中，SequoiaDB与Cassandra的性能接近单纯查询的场景，而更新操作对MongoDB的损耗相对较大，使其性能仅不到3万每秒。

HBase在随机读为主的场景下相对较慢。

七、场景7：查询最新

图8：查询最新场景

查询最新场景为95%读+5%插入，并且读取的数据尽可能是刚刚写入的数据。

从图8中可以看出，SequoiaDB对于刚刚写入至内存中便读取的场景性能最佳，达到近4万每秒。

而MongoDB和Cassandra则相比场景6有明显下降，HBase依然性能较低。

结论

从第三部分的各个场景对比中可以看出，SequoiaDB数据库在数据插入场景中表现最为突出，甚至超过本身以插入性能著称的Cassandra，混合读写场景下性能也可圈可点。而业界普及率最高的MongoDB则在单纯读取性能上最为抢眼，远超其他。

HBase与Cassandra虽然在写入性能上远高于MongoDB，但是和SequoiaDB相比仍然逊色一筹；而在主键随机读操作方面，Cassandra的新版本和之前的版本比起来性能大幅度上升，基本做到和MongoDB处于同一水平线，而HBase则远不能和其他产品相比。

当然，这些比较也仅仅局限于YCSB所做的测试，而文档类数据库能够提供的二级索引等机制并非是YCSB所测试的。因此，文档类数据库能够提供比宽表类数据库更多的应用场景。

如此看来，对于宽表类数据库来说，如果在其最有优势的主场都败给了文档类数据库，这是否意味着，HBase和Cassandra最大的优势已经不再，文档类数据库会在各个领域的性能表现超越宽表呢？

附录A：配置信息

1. MongoDB

MongoDB的分片分布如图9，不同颜色代表不同的分片，我们采用的是多个副本的分片

MongoDB的部署脚本如下(deploy.sh)：

[xml]view plaincopy

#!/bin/bash
sshperftest-1"mongod--configsvr--logpath/data/disk1/mongodb-cfg/configsvr.log--dbpath/data/disk1/mongodb-cfg/--port37019--journal--fork"
sshperftest-2"mongod--configsvr--logpath/data/disk1/mongodb-cfg/configsvr.log--dbpath/data/disk1/mongodb-cfg/--port37019--journal--fork"
sshperftest-3"mongod--configsvr--logpath/data/disk1/mongodb-cfg/configsvr.log--dbpath/data/disk1/mongodb-cfg/--port37019--journal--fork"
sshperftest-1"mongos--configdbperftest-0:37019,perftest-1:37019,perftest-2:37019--logpath/data/disk1/mongodb-data/mongos.log--fork"
sshperftest-2"mongos--configdbperftest-0:37019,perftest-1:37019,perftest-2:37019--logpath/data/disk1/mongodb-data/mongos.log--fork"
sshperftest-3"mongos--configdbperftest-0:37019,perftest-1:37019,perftest-2:37019--logpath/data/disk1/mongodb-data/mongos.log--fork"
sshperftest-4"mongos--configdbperftest-0:37019,perftest-1:37019,perftest-2:37019--logpath/data/disk1/mongodb-data/mongos.log--fork"
hostno=0
hosts=("perftest-1""perftest-2""perftest-3""perftest-4")
disknos=(1111)
port=37017
for((i=0;i<8;++i))
do
for((j=0;j<3;++j))
do
ssh${hosts[$hostno]}"mongod--replSetdg$i--logpath/data/disk${disknos[$hostno]}/mongodb-data/mongd.log--dbpath/data/disk${disknos[$hostno]}/mongodb-data/--logappend--quiet--port$port--fork"
letdisknos[$hostno]=${disknos[$hostno]}+1
lethostno=hostno+1
if[$hostno-eq${#hosts[@]}];then
lethostno=0
fi
done
letport=port+10
done

MongoDB的分片添加脚本如下(addshard.js)：

[java]view plaincopy

varport=37017
varhosts=["perftest-1","perftest-2","perftest-3","perftest-4"];
varhostid=0;
for(i=0;i<8;++i)
{
varconf=newObject();
conf._id='dg'+i;
conf.members=newArray();
for(j=0;j<3;++j)
{
varmember=newObject();
member._id=j;
member.host=hosts[hostid]+":"+port;
conf.members[j]=member;
hostid=hostid+1;
if(hostid==hosts.length)
{
hostid=0;
}
}
vardb=connect(conf.members[0].host+"/test");
rs.initiate(conf);
rs.conf();
port=port+10
vardb2=connect(conf.members[0].host+'/test');
sh.addShard('dg'+i+'/'+conf.members[0].host)
}

MongoDB的集合创建脚本如下(createcl.sh)：

[js]view plaincopy

mongo<
sh.stopBalancer();
useycsb;
db.dropDatabase();
useadmin;
db.runCommand({enableSharding:"ycsb"});
useadmin;
db.runCommand({shardcollection:"ycsb.usertable",key:{_id:'hashed'},numInitialChunks:4096});
exit
EOF

所有的writeConcern都为normal。

2. SequoiaDB

SequoiaDB的数据组分布情况如图10，其中不同颜色代表不同的分片。

SequoiaDB的部署脚本如下(deploy.js)：

[java]view plaincopy

try
{
vardb=newSdb();
db.createCataRG('perftest-1',11820,'/opt/sequoiadb/database/cata/11820');
db.getRG(1).createNode('perftest-2',11820,'/opt/sequoiadb/database/cata/11820');
db.getRG(1).createNode('perftest-3',11820,'/opt/sequoiadb/database/cata/11820');
db.getRG(1).getNode('perftest-2',11820).start();
db.getRG(1).getNode('perftest-3',11820).start();
//groupnumberis8
varport=11830;
varhostid=0;
vardiskno=1;
vardiskids=[1,1,1,1];
for(i=0;i<8;++i)
{
db.createRG('dg'+i);
//3nodesofpergroup
for(j=0;j<3;++j)
{
db.getRG('dg'+i).createNode('perftest-'+(hostid+1),port,'/data/disk'+diskids[hostid]+'/sequoiadb/database/data'+port);
diskids[hostid]+=1;
hostid+=1;
if(hostid>3)
{
hostid=0;
}
}
db.getRG('dg'+i).start();
port+=10;
}
}catch(e)
{
throwe;
}

创建分区集合的脚本如下(createcl.js)：

[js]view plaincopy

try
{
vardb=newSdb()
db.dropCS('ycsb')
}catch(e)
{
if(e!=-34)
{
throw"dropcsfailure"+e;
}
}
try
{
db.createCS('ycsb')
db.ycsb.createCL('usertable',{ShardingType:'hash',ShardingKey:{_id:1},EnsureShardingIndex:false})
varsnapshot8=db.snapshot(8,{Name:'ycsb.usertable'}).toArray();
varobj=eval("("+snapshot8[0]+")");
varsrcgroup=obj["CataInfo"][0]["GroupName"];
varpartition=obj["Partition"];
vargroupnames=newArray()
vargroups=db.list(7).toArray();
for(i=0;i
{
vargroup=eval("("+groups[i]+")");
if(group["GroupName"]=="SYSCatalogGroup")
{
continue;
}
groupnames.push(group["GroupName"]);
}
varremainderpart=partition%groupnames.length;
varpart=(partition-remainderpart)/groupnames.length
for(i=0;i
{
if(groupnames[i]==srcgroup)
{
continue;
}
println("splitingfrom"+srcgroup+"to"+groupnames[i]+"........");
db.ycsb.usertable.split(srcgroup,groupnames[i],{Partition:(i*part)},{Partition:(i+1)*part});
if(remainderpart>1)
{
db.ycsb.usertable.split(srcgroup,groupnames[i],{Partition:endpart},{Partition:(endpart+1)})
endpart+=1;
remainderpart-=1;
}
}
}catch(e)
{
throwe;
}

3. HBase

HBase的数据分布情况如图11：

图11：HBase部署架构图

创始表语句使用：

create 'usertable', 'cf', {SPLITS => ['user1', 'user2', 'user3', 'user4', 'user5', 'user6', 'user7', 'user8', 'user9' ]}

5.4Cassandra

图12是一个Cassandra四节点集群。我们采用使用二十四块硬盘同时处理数据和提交日志。

图12：Cassandra部署架构图

与测试的其他数据库不同，Cassandra 在配置中使用环形拓扑，节点需要被明确地视为“种子”节点（这有助于它们加入到环中）。在配置时，必须指定哪些令牌将映射到哪些实例。

我们使用了https://raw.github.com/riptano/ComboAMI/2.2/tokentoolv2.py提供的令牌生成工具来创建节点配置。

[js]view plaincopy

$./tokentoolv2.py4
{
"0":{
"0":0,
"1":42535295865117307932921825928971026432,
"2":85070591730234615865843651857942052864,
"3":127605887595351923798765477786913079296
}
}

Cassandra 的一致性级别可以调节。每次读取和写入都可以明确地说明该操作需要什么级别的数据库一致性。由于这是一个基准测试项目，因此我们使用了最弱和最快的一致性级别（ONE）来进行读取和写入。

对于所有数据库，我们使用的复制因子都是 2。其他主要设置为：

内容	值
分区工具	RandomPartitioner
初始令牌空间	2^127/4
内存表空间	4GB
并发读取	48
并发写入	48
压缩	SnappyCompressor
提交日志同步	10000ms

以下内容为 conf/cassandra.yaml 的设置：

[js]view plaincopy

cluster_name:'Test'
initial_token:0
hinted_handoff_enabled:true
max_hint_window_in_ms:3600000#onehour
hinted_handoff_throttle_delay_in_ms:1
authenticator:org.apache.cassandra.auth.AllowAllAuthenticator
authority:org.apache.cassandra.auth.AllowAllAuthority
partitioner:org.apache.cassandra.dht.RandomPartitioner
data_file_directories:
-/data/disk1/cassandra-data
-/data/disk2/cassandra-data
-/data/disk3/cassandra-data
-/data/disk4/cassandra-data
-/data/disk5/cassandra-data
-/data/disk6/cassandra-data
commitlog_directory:
/data/disk1/cassandra-log/,/data/disk2/cassandra-log/,/data/disk3/cassandra-log/,/data/disk4/cassandra-log/
,/data/disk5/cassandra-log/,/data/disk6/cassandra-log/
saved_caches_directory:/data/disk1/apache-cassandra/saved_caches
commitlog_sync:periodic
commitlog_sync_period_in_ms:10000
seed_provider:
-class_name:org.apache.cassandra.locator.SimpleSeedProvider
parameters:
-seeds:"192.168.30.62,192.168.30.64,192.168.30.65,192.168.30.67"
flush_largest_memtables_at:0.75
reduce_cache_sizes_at:0.85
reduce_cache_capacity_to:0.6
concurrent_reads:48
concurrent_writes:48
memtable_flush_queue_size:4
sliced_buffer_size_in_kb:64
storage_port:7000
ssl_storage_port:7001
listen_address:192.168.30.62
rpc_address:0.0.0.0
rpc_port:9160
rpc_keepalive:true
rpc_server_type:sync
thrift_framed_transport_size_in_mb:15
thrift_max_message_length_in_mb:16
incremental_backups:false
snapshot_before_compaction:false
column_index_size_in_kb:64
in_memory_compaction_limit_in_mb:64
multithreaded_compaction:false
compaction_throughput_mb_per_sec:16
compaction_preheat_key_cache:true
rpc_timeout_in_ms:10000
endpoint_snitch:org.apache.cassandra.locator.SimpleSnitch
dynamic_snitch_update_interval_in_ms:100
dynamic_snitch_reset_interval_in_ms:600000
dynamic_snitch_badness_threshold:0.1
request_scheduler:org.apache.cassandra.scheduler.NoScheduler
index_interval:128
encryption_options:
internode_encryption:none
keystore:conf/.keystore
keystore_password:cassandra
truststore:conf/.truststore
truststore_password:cassandra

使用以下命令对数据库进行初始化：

[js]view plaincopy

CREATEKEYSPACEusertable
WITHplacement_strategy='org.apache.cassandra.locator.SimpleStrategy'ANDstrategy_options={replication_factor:2};
useusertable;
CREATECOLUMNFAMILYdataWITHcomparator=UTF8Type
ANDkey_validation_class=UTF8Type

附录B：YCSB调整

一、驱动调整

1. MongoDB

默认没有采用连接池的形式实现，调整为连接池形式
默认不支持批量插入，增加支持批量插入
默认不支持选择查询接口，增加支持选择查询接口
默认不支持选择readpreference,增加支持选择readpreference
为适应2.12.1版本的driver作了些调整

详细调整如下:

[js]view plaincopy

voidinit()
{
...
Propertiesprops=getProperties();
Stringurl=props.getProperty("mongodb.url",
"mongodb://localhost:27017");
database=props.getProperty("mongodb.database","ycsb");
StringwriteConcernType=props.getProperty("mongodb.writeConcern",
"safe").toLowerCase();
//finalStringmaxConnections=props.getProperty(
//"mongodb.maxconnections","100");
insertmode=props.getProperty("mongodb.insertmode","single");
readpreference=props.getProperty("mongodb.readpreference",
"primary");
bulknumber=Integer.parseInt(props.getProperty("mongodb.bulknumber",
"5000"));
finalStringfind=props.getProperty("mongodb.usefindinterface",
"false");
if(replWriteNum!=1){
writeConcern=newWriteConcern(replWriteNum);
}
try{
//stripoutprefixsinceJavadriverdoesn'tcurrentlysupport
//standardconnectionformatURLyet
//http://www.mongodb.org/display/DOCS/Connections
/*if(url.startsWith("mongodb://")){
url=url.substring(10);
}*/
//needtoappenddbtourl.
url+="/"+database;
System.out.println("newdatabaseurl="+url);
MongoClientURIuri=newMongoClientURI(url);
mongo=newMongoClient(uri);
mongo.setReadPreference(ReadPreference.valueOf(readpreference));
mongo.setWriteConcern(writeConcern);
System.out.println("mongoconnectioncreatedwith"+url);
}
catch(Exceptione1){
System.err
.println("CouldnotinitializeMongoDBconnectionpoolforLoader:"
+e1.toString());
e1.printStackTrace();
return;
}
}
publicintinsert(Stringtable,Stringkey,
HashMapvalues){
com.mongodb.DBdb=null;
try{
db=mongo.getDB(database);
if(!outputclientflag){
CommandResultcommandResult=db.command("buildInfo");
if(commandResult.containsField("tokumxVersion")){
System.out.println("tokumx");
}
else{
System.out.println("mongodb");
}
outputclientflag=true;
}
db.requestStart();
DBCollectioncollection=db.getCollection(table);
DBObjectr=newBasicDBObject().append("_id",key);
for(Stringk:values.keySet()){
r.put(k,values.get(k).toArray());
}
//WriteResultres=null;
if(insertmode.equals("bulk")){
objs.add(r);
//bulkwrite.insert(r);
if(objs.size()==bulknumber){
//res=
collection.insert(objs);
objs.clear();
//return0;
}
}else{
//res=
collection.insert(r);
}
//returnres.getN()==replWriteNum?0:1;
return0;
}
catch(Exceptione){
e.printStackTrace();
return1;
}
finally{
if(db!=null){
db.requestDone();
}
}
}
publicintread(Stringtable,Stringkey,Setfields,
HashMapresult){
com.mongodb.DBdb=null;
DBCursorcursor=null;
try{
db=mongo.getDB(database);
db.requestStart();
//getCollection(table);
DBCollectioncollection=db.getCollection(table);
DBObjectq=newBasicDBObject().append("_id",key);
DBObjectfieldsToReturn=newBasicDBObject();
DBObjectqueryResult=null;
//DBCursorcursor=null;
if(fields!=null){
Iteratoriter=fields.iterator();
while(iter.hasNext()){
fieldsToReturn.put(iter.next(),INCLUDE);
}
if(findone){
queryResult=collection.findOne(q,fieldsToReturn);
}
else{
cursor=collection.find(q,fieldsToReturn);
}
}
else{
if(findone){
queryResult=collection.findOne(q);
}
else{
cursor=collection.find(q).setReadPreference(ReadPreference.secondaryPreferred());
}
}
if(cursor!=null&&cursor.hasNext()){
queryResult=cursor.next();
}
if(queryResult!=null){
result.putAll(queryResult.toMap());
}
returnqueryResult!=null?0:1;
}
catch(Exceptione){
System.err.println(e.toString());
return1;
}
finally{
if(db!=null){
db.requestDone();
}
if(cursor!=null){
cursor.close();
}
}
}

2. HBase

支持通过参数控制WriteBufferSize
适应驱动做微调

详细如下：

[java]view plaincopy

publicvoidinit()throwsDBException
{
if((getProperties().getProperty("debug")!=null)&&
(getProperties().getProperty("debug").compareTo("true")==0))
{
_debug=true;
}
_columnFamily=getProperties().getProperty("columnfamily");
if(_columnFamily==null)
{
System.err.println("Error,mustspecifyacolumnfamilyforHBasetable");
thrownewDBException("Nocolumnfamilyspecified");
}
_columnFamilyBytes=Bytes.toBytes(_columnFamily);
clientbufsize=Integer.parseInt(getProperties().getProperty("clientbuffersize"));
}
publicvoidgetHTable(Stringtable)throwsIOException
{
synchronized(tableLock){
_hTable=newHTable(config,table);
//2suggestionsfromhttp://ryantwopointoh.blogspot.com/2009/01/performance-of-hbase-importing.html
_hTable.setAutoFlush(false);
_hTable.setWriteBufferSize(clientbufsize*1024);
//returnhTable;
}
}

二、统计数据收集

从原有的Measurements派生出ExcelMeasurementsExporter用于将生成的统计数据导出到excel文件中，ExcelMeasurementsExporter调用jxl.jar开源库实现。

统计数据由Overalloperresult、Overallresult,Periodresult这几个类存储，为了保存统计数据原来的Measurements，StatusThread都相应作了些调整。

三、预热

增加如下xml配置文件

[xml]view plaincopy

我们增加了如下python脚本用于连续运行：

[py]view plaincopy

#!/usr/bin/python
#!/bin/envpython
importos
importsys
importsubprocess
fromxml.etreeimportElementTree
importycsb
fromycsbimport(DATABASES,COMMANDS,BASE_URL,
get_ycsb_home,find_jars)
defgetloadtrans(workloadpath,root):
load=[]
lst_node=root.find("load")
fornodeinlst_node:
load.append(workloadpath+node.attrib['name'])
returnload
defgetruntrans(workloadpath,root):
run=[]
lst_node=root.find("run")
fornodeinlst_node:
run.append(workloadpath+node.attrib['name'])
returnrun
defushelp():
print"Usage:%sdatabase"%sys.argv[0]
print"nDatabases:"
fordbinsorted(DATABASES.keys()):
print"%s%s"%(db.ljust(13),BASE_URL+db.split("-")[0])
sys.exit(1)
defrunscene(trans,cmd,db_classname,pervscene):
curscene=""
foritemintrans:
curscene=os.path.basename(item)
command=COMMANDS[cmd]["command"]
options=["-s","-P",item]
ycsb_command=["java","-cp",":".join(find_jars(ycsb_home,database)),
COMMANDS[cmd]["main"],"-db",db_classname]+options
ifcommand:
ycsb_command.append(command)
#print"".join(ycsb_command)
subprocess.call(ycsb_command)
pervscene=curscene
returnpervscene
iflen(sys.argv)<2:
ushelp()
ifsys.argv[1]notinDATABASES:
print"ERROR:Database'%s'notfound"%sys.argv[1]
ushelp()
os.chdir('..')
conffile=os.getcwd()+"/conf/workload.xml"
resultfile=os.getcwd()+"/result/report_output.xls"
resultdir=os.getcwd()+"/result/"
workloadsdir=os.getcwd()+"/workloads/"
ifFalse==os.path.exists(conffile):
printconffile+"notexist";
sys.exit(1)
root=ElementTree.parse(conffile)
loadtrans=getloadtrans(workloadsdir,root)
runtrans=getruntrans(workloadsdir,root)
os.chdir('bin')
ycsb_home=get_ycsb_home()
database=sys.argv[1]
db_classname=DATABASES[database]
runscene(loadtrans,"load",db_classname,pervscene)
runscene(runtrans,"run",db_classname,pervscene)
importtime
curtime=time.strftime("%Y-%m-%d_%H_%M_%S",time.localtime(time.time()))
newreportfile=resultdir+"report_"+curtime+".xls"
os.rename(resultfile,newreportfile)

为尽量保证后续的查询、更新操作是基于前续的load操作，以保证缓存的高命中率。

四、数据类型

本次测试的数据皆为字符串类型：

fieldcount=10
fieldlength=10
key字段由单词"user"后面加上64位的Fowler-Noll-Vo哈希值构成
key大小为23字节
所有字段的值采用zipfian算法生成

附录C：SequoiaDB接口

[java]view plaincopy

packagecom.yahoo.ycsb.db;
importcom.yahoo.ycsb.ByteArrayByteIterator;
importcom.yahoo.ycsb.ByteIterator;
importcom.yahoo.ycsb.DB;
importcom.yahoo.ycsb.DBException;
importjava.util.ArrayList;
importjava.util.HashMap;
importjava.util.Iterator;
importjava.util.Map;
importjava.util.Properties;
importjava.util.Set;
importjava.util.Vector;
importjava.util.List;
importjava.util.concurrent.atomic.AtomicInteger;
importorg.bson.BSONObject;
importorg.bson.BasicBSONObject;
importorg.bson.types.BasicBSONList;
importcom.sequoiadb.base.SequoiadbOption;
importcom.sequoiadb.base.SequoiadbDatasource;
importcom.sequoiadb.base.CollectionSpace;
importcom.sequoiadb.base.DBCollection;
importcom.sequoiadb.base.DBCursor;
importcom.sequoiadb.base.Sequoiadb;
publicclassSequoiaDBClientextendsDB{
/**Usedtoincludeafieldinaresponse.*/
protectedstaticfinalIntegerINCLUDE=Integer.valueOf(1);
/**Thekeyfieldname*/
//privatestaticfinalStringKEY_FILED="key";
privatestaticfinalStringKEY_FILED="_id";
privatestaticfinalStringDEFAULT_INSERTMODE="single";
/**
*Countthenumberoftimesinitializedtoteardownonthelast
*{@link#cleanup()}.
*/
privatestaticfinalAtomicIntegerinitCount=newAtomicInteger(0);
privatestaticintbulknum=0;
/**Sequoiadbinstance.*/
privatestaticSequoiadbDatasourcesdbpools=null;
privateSequoiadbsdb=null;
/**CollectionSpaceinstance.*/
privateCollectionSpacecs=null;
privateDBCollectioncl=null;
privatestaticStringkeyfield=null;
privatestaticStringinsertmode=null;
privateListobjs=newArrayList();
//privateintcallnumber=0;
privatestaticStringspacename="ycsb";
//privateDBCollectioncollection=null;
/**
*InitializeanystateforthisDB.CalledonceperDBinstance;thereis
*oneDBinstanceperclientthread.
*/
publicvoidinit()throwsDBException{
initCount.incrementAndGet();
synchronized(INCLUDE){
if(sdb!=null){
return;
}
try{
if(sdbpools!=null){
sdb=sdbpools.getConnection();
cs=sdb.getCollectionSpace(spacename);
return;
}
}catch(Exceptione){
e.printStackTrace();
return;
}
//initializesequoiadbdriver
Propertiesprops=getProperties();
Stringhost=props.getProperty("sequoiadb.host","localhost");
Stringport=props.getProperty("sequoiadb.port","11810");
keyfield=props.getProperty("sequoiadb.keyfield","_id");
intmaxConnectionnum=Integer.parseInt(props.getProperty("sequoiadb.maxConnectionnum","100"));
intmaxidleconnnum=Integer.parseInt(props.getProperty("sequoiadb.maxConnectionnum","10"));
intperiod=Integer.parseInt(props.getProperty("sequoiadb.maxConnectionnum","300"));
//String
spacename=props.getProperty("sequoiadb.space",spacename);
insertmode=props.getProperty("sequoiadb.insertmode",DEFAULT_INSERTMODE);
bulknum=Integer.parseInt(props.getProperty("sequoiadb.bulknumber","5000"));
try{
SequoiadbOptionsdbOption=newSequoiadbOption();
sdbOption.setMaxConnectionNum(maxConnectionnum);
sdbOption.setMaxIdeNum(maxidleconnnum);
sdbOption.setRecheckCyclePeriod(period*1000);
sdbpools=newSequoiadbDatasource(host+":"+port,"","",sdbOption);
//needtoappenddbtourl.
//sdb=newSequoiadb(host,Integer.parseInt(port),"","");
sdb=sdbpools.getConnection();
if(!sdb.isCollectionSpaceExist(spacename)){
cs=sdb.createCollectionSpace(spacename);
}else{
cs=sdb.getCollectionSpace(spacename);
}
System.out.println("sequoiadbconnectioncreatedwith"+host
+":"+port);
}catch(Exceptione1){
System.err
.println("CouldnotinitializeSequoiadbconnectionpoolforLoader:"
+e1.toString());
e1.printStackTrace();
thrownewDBException(e1.toString());
}
}
}
/**
*CleanupanystateforthisDB.CalledonceperDBinstance;thereisone
*DBinstanceperclientthread.
*/
publicvoidcleanup()throwsDBException{
initCount.decrementAndGet();
try{
if(0!=objs.size()){
cl.bulkInsert(objs,DBCollection.FLG_INSERT_CONTONDUP);
}
sdbpools.close(sdb);
}catch(Exceptione1){
System.err.println("CouldnotcloseSequoiadbconnectionpool:"
+e1.toString());
e1.printStackTrace();
return;
}
}
privateListgetAllDataGroup(){
//获取数据组的数量
Listgroups=newArrayList();
DBCursorcursor=sdb.getList(Sequoiadb.SDB_LIST_GROUPS,null,null,null);
while(cursor.hasNext()){
BSONObjectobj=cursor.getNext();
Stringgroupname=(String)obj.get("GroupName");
if(!groupname.equals("SYSCatalogGroup")){
groups.add(groupname);
}
}
returngroups;
}
privateintgetPartition(Stringspacename,Stringtablename){
//获取源数据组
BSONObjectcondition=newBasicBSONObject();
condition.put("Name",spacename+"."+tablename);
DBCursorcr=sdb.getSnapshot(Sequoiadb.SDB_SNAP_CATALOG,condition,null,null);
intPartition=0;
while(cr.hasNext()){
BSONObjectobj=cr.getNext();
Partition=((Integer)obj.get("Partition")).intValue();
}
returnPartition;
}
privateStringgetSrcDataGroup(Stringspacename,Stringtablename){
//获取源数据组
BSONObjectcondition=newBasicBSONObject();
condition.put("Name",spacename+"."+tablename);
DBCursorcr=sdb.getSnapshot(Sequoiadb.SDB_SNAP_CATALOG,condition,null,null);
Stringsrcgroup="";
while(cr.hasNext()){
BSONObjectobj=cr.getNext();
BasicBSONListcatainfo=(BasicBSONList)obj.get("CataInfo");
srcgroup=(String)((BSONObject)catainfo.get(0)).get("GroupName");
}
returnsrcgroup;
}
privatevoidsplitCollection(DBCollectioncl,Stringspacename,Stringtablename){
//获取数据组的数量
Listgroups=getAllDataGroup();
intPartition=getPartition(spacename,tablename);
Stringsrcgroup=getSrcDataGroup(spacename,tablename);
intpart=Partition/groups.size();
intremainder=Partition%groups.size();
intstartpart=Partition-remainder;
for(inti=0;i
//切分
BSONObjectstart=newBasicBSONObject();
start.put("Partition",i*part);
BSONObjectend=newBasicBSONObject();
end.put("Partition",(i+1)*part);
if(!groups.get(i).equals(srcgroup)){
cl.split(srcgroup,groups.get(i),start,end);
if(0!=remainder){
BSONObjectremainderstart=newBasicBSONObject();
remainderstart.put("Partition",startpart);
BSONObjectremainderend=newBasicBSONObject();
remainderend.put("Partition",startpart+1);
cl.split(srcgroup,groups.get(i),remainderstart,remainderend);
--remainder;
}
}
}
}
privatevoidcreateCollection(Stringtable)throwsDBException{
BSONObjectoptions=newBasicBSONObject();
BSONObjectsubobj=newBasicBSONObject();
subobj.put(KEY_FILED,1);
options.put("ShardingKey",subobj);
options.put("ShardingType","hash");
options.put("EnsureShardingIndex",false);
cl=cs.createCollection(table,options);
splitCollection(cl,spacename,table);
if(0!=keyfield.compareTo("_id")){
cl.createIndex("index",
"{"+keyfield+":1}",true,true);
}
}
privateDBCollectiongetCollection(Stringtable){
if(sdb==null){
try{
sdb=sdbpools.getConnection();
}catch(Exceptione)
{
e.printStackTrace();
returnnull;
}
}
if(cs==null){
try{
cs=sdb.getCollectionSpace(spacename);
}catch(Exceptione)
{
e.printStackTrace();
returnnull;
}
}
if(cl==null){
try{
booleanbExist=cs.isCollectionExist(table);
if(!bExist){
synchronized(INCLUDE){
if(cs.isCollectionExist(table)){
cl=cs.getCollection(table);
}else{
createCollection(table);
}
}
}else{
cl=cs.getCollection(table);
}
}catch(Exceptione)
{
e.printStackTrace();
cl=null;
sdbpools.close(sdb);
sdb=null;
returngetCollection(table);
}
}
returncl;
}
@Override
publicintread(Stringtable,Stringkey,Setfields,
HashMapresult){
DBCursorcursor=null;
DBCollectioncollection=null;
try{
collection=getCollection(table);
if(collection==null){
System.out.println("Failedtogetcollection"+table);
}
BSONObjectquery=newBasicBSONObject().append(keyfield,key);
BSONObjectfieldsToReturn=null;
if(fields!=null){
fieldsToReturn=newBasicBSONObject();
Iteratoriter=fields.iterator();
while(iter.hasNext()){
fieldsToReturn.put(iter.next(),"");
}
}
cursor=collection.query(query,fieldsToReturn,null,null);
if(cursor!=null&&cursor.hasNext()){
HashMapresultMap=newHashMap();
fillMap(resultMap,cursor.getNext());
result.putAll(resultMap);
return0;
}else{
return1;
}
}catch(Exceptione){
System.err.println(e.toString());
e.printStackTrace();
return1;
}finally{
if(cursor!=null){
cursor.close();
}
}
}
/**
*TODO-Finish
*
*@paramresultMap
*@paramobj
*/
@SuppressWarnings("unchecked")
protectedvoidfillMap(HashMapresultMap,
BSONObjectobj){
MapobjMap=obj.toMap();
for(Map.Entryentry:objMap.entrySet()){
if(entry.getValue()instanceofbyte[]){
resultMap.put(entry.getKey(),newByteArrayByteIterator(
(byte[])entry.getValue()));
}
}
}
@Override
publicintscan(Stringtable,Stringstartkey,intrecordcount,
Setfields,Vector>result){
DBCursorcursor=null;
try{
DBCollectioncollection=getCollection(table);
BSONObjectscanRange=newBasicBSONObject().append("$gte",
startkey);
BSONObjectquery=newBasicBSONObject().append(keyfield,
scanRange);
BSONObjectfieldsToReturn=null;
if(fields!=null){
fieldsToReturn=newBasicBSONObject();
Iteratoriter=fields.iterator();
while(iter.hasNext()){
fieldsToReturn.put(iter.next(),"");
}
}
cursor=collection.query(query,fieldsToReturn,null,null,0,
recordcount);
while(cursor.hasNext()){
//toMap()returnsaMap,butresult.add()expectsa
//Map.Hence,thesuppresswarnings.
HashMapresultMap=newHashMap();
BSONObjectobj=cursor.getNext();
fillMap(resultMap,obj);
result.add(resultMap);
}
return0;
}catch(Exceptione){
System.err.println(e.toString());
e.printStackTrace();
return1;
}finally{
if(cursor!=null){
cursor.close();
}
}
}
@Override
publicintupdate(Stringtable,Stringkey,
HashMapvalues){
try{
DBCollectioncollection=getCollection(table);
if(collection==null){
System.out.println("Failedtogetcollection"+table);
return-1;
}
BSONObjectquery=newBasicBSONObject().append(keyfield,key);
BSONObjectupdate=newBasicBSONObject();
BSONObjectfieldsToSet=newBasicBSONObject();
Iteratorkeys=values.keySet().iterator();
while(keys.hasNext()){
StringtmpKey=keys.next();
fieldsToSet.put(tmpKey,values.get(tmpKey).toArray());
}
update.put("$set",fieldsToSet);
collection.update(query,update,null);
return0;
}catch(Exceptione){
System.err.println(e.toString());
e.printStackTrace();
return1;
}
}
@Override
publicintinsert(Stringtable,Stringkey,
HashMapvalues){
try{
DBCollectioncollection=getCollection(table);
BSONObjectrecord=newBasicBSONObject().append(keyfield,key);
for(Stringk:values.keySet()){
record.put(k,values.get(k).toArray());
}
if(insertmode.equals(DEFAULT_INSERTMODE)){
collection.insert(record);
}
else{
if(objs.size()!=bulknum){
objs.add(record);
}
if(objs.size()==bulknum){
collection.bulkInsert(objs,DBCollection.FLG_INSERT_CONTONDUP);
objs.clear();
}
}
return0;
}catch(Exceptione){
System.err.println(e.toString());
e.printStackTrace();
return1;
}
}
@Override
publicintdelete(Stringtable,Stringkey){
try{
DBCollectioncollection=getCollection(table);
BSONObjectrecord=newBasicBSONObject().append(keyfield,key);
collection.delete(record);
return0;
}catch(Exceptione){
System.err.println(e.toString());
e.printStackTrace();
return1;
}
}
publicstaticvoidmain(String[]args){
Propertiesprops=newProperties();
props.setProperty("sequoiadb.host","192.168.30.63");
props.setProperty("sequoiadb.port","11810");
props.setProperty("sequoiadb.space","test");
SequoiaDBClientclient=newSequoiaDBClient();
client.setProperties(props);
try{
client.init();
client.getCollection("usertable");
}catch(DBExceptione){
e.printStackTrace();
}
}
}

你可能感兴趣的:(hbase)

hbase:meta 表解析有数的编程笔记 HBase
hbase:meta表中存储了Hbase集群中全部表的所有的region信息，在Hbase2.x之后新增了表的状态信息。hbase:meta表的结构非常简单，在Hbase2.x之前整个表只有一个名为info的ColumnFamily。在Hbase2.x新增表状态信息后，增加了名为table的ColumnFamily。HBase保证hbase:meta表始终只有一个Region，这是为了确保meta
Hadoop等大数据处理框架的Java API 扬子鳄008 Java hadoop java 大数据
Hadoop是一个非常流行的大数据处理框架，主要用于存储和处理大规模数据集。Hadoop主要有两个核心组件：HDFS（HadoopDistributedFileSystem）和MapReduce。此外，还有许多其他组件，如YARN（YetAnotherResourceNegotiator）、HBase、Hive等。下面详细介绍Hadoop及其相关组件的JavaAPI及其使用方法。HadoopHad
手把手教你玩转 Sqoop：从数据库到大数据的「数据搬运工」 AAA建材批发王师傅数据库 sqoop 大数据 hive hdfs
一、Sqoop是什么？——数据界的「超级搬运工」兄弟们，今天咱们聊个大数据圈的「搬运小能手」——Sqoop！可能有人会问：这玩意儿跟Flume啥区别？简单来说：Flume是专门搬日志数据的「快递员」而Sqoop是搬数据库数据的「搬家公司」它的名字咋来的？SQL+Hadoop，直接告诉你核心技能：在关系型数据库（比如MySQL）和Hadoop家族（HDFS、Hive、HBase）之间疯狂倒腾数据！核
【请关注】hBase要用的顺畅的思路 DoWeixin6 数据相关数据库
玩楞一下HBase，要让这玩意儿在大数据量下跑得顺，索引和优化可都是实打实的硬活。先说索引这块。HBase就认RowKey这个主索引，所有数据都按它排得明明白白。平时查数据，只要RowKey设计得好，直接就能定位到对应的Region，速度快得很。但RowKey要是拍脑袋瞎写，比如全按时间戳排序，那准得出大问题——数据全往一个Region挤，妥妥的热点，集群直接卡住。所以设计RowKey时，我一般会
【赵渝强老师】HBase的体系架构赵渝强老师 NoSQL数据库 hbase 架构数据库大数据 hadoop hdfs nosql
HBase是大表（BigTable）思想的一个具体实现。它是一个列式存储的NoSQL数据库，适合执行数据的分析和处理。简单来说，就是适合执行查询操作。从体系架构的角度看，HBase是一种主从架构，包含：HBaseHMaster、RegionServer和ZooKeeper，下图展示了这一架构。其中：HBaseHMaster负责Region的分配及数据库的创建和删除等操作。Regionserver负
大数据学习（141）-分布式数据库 viperrrrrrr 大数据学习分布式 clickhouse hdfs hbase
在分布式数据库中主要有hdfs、hbase、clickhouse三种。HDFS（HadoopDistributedFileSystem）、HBase和ClickHouse都是处理大数据的分布式系统，但它们的设计目标、架构和适用场景有所不同。一、HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生态系统的一部分，是一个高度容错的系统，适合存储大量数据。它被设计为
TiDB 替换 HBase 全场景实践指南 ——从架构革新到业务赋能 TiDB 社区干货传送门 tidb hbase 架构数据库大数据
作者：数据源的TiDB学习之路原文来源：https://tidb.net/blog/c687d474第一章：HBase的历史使命与技术瓶颈1.1HBase的核心价值与经典场景作为Hadoop生态的核心组件，HBase凭借LSM-Tree存储引擎和Region分片机制，在2010年代成为海量数据存储的标杆。其典型场景包括：日志流处理：支持Kafka每日TB级数据持久化，写入吞吐达百万级QPS（如某头
【Ambari3.0.0 部署】Step3—安装JDK17与JDK1.8-适用于el8 TTBIGDATA ambari bigtop hdp hidataplus edp 大数据 el8
如果有其他系统部署需求可以参考原文https://doc.janettr.com/install/manual/Step3—安装JDK17与JDK1.8Ambari3.0及部分Bigtop/Hadoop新组件强制要求JDK17，而HBase/Hive/Spark生态仍有组件长期依赖JDK1.8。因此推荐双版本共存方案，让集群灵活兼容各种大数据组件，满足未来升级和遗留需求。JDK17与JDK1.8可
时序数据管理的新维度：解析IoTDB与HBase的技术边界时序数据说 iotdb hbase 数据库时序数据库分布式开源
在物联网与工业大数据场景中，数据的时序特性对存储与计算提出了独特挑战。面对海量设备生成的高频时序数据，如何在有限的资源内实现高效写入、灵活查询与实时分析，成为企业技术选型的核心考量。本文将从架构设计、数据建模、性能表现及场景适配等角度，对比分析IoTDB与HBase的技术差异，探索时序数据库的演进方向。一、设计哲学的分野：专用时序与通用存储HBase作为经典的NoSQL数据库，以宽表模型和LSM-
大数据领域HBase的数据压缩技术应用 AI天才研究院 AI大模型企业级应用开发实战 AI Agent 应用开发大数据 hbase 数据库 ai
大数据领域HBase的数据压缩技术应用关键词：大数据、HBase、数据压缩技术、压缩算法、性能优化摘要：本文深入探讨了大数据领域中HBase的数据压缩技术应用。首先介绍了HBase的背景以及数据压缩技术在其中的重要性，详细阐述了常见的压缩算法原理，包括LZO、Snappy、Gzip等。通过数学模型和公式分析了不同压缩算法的性能指标，如压缩比和压缩速度。给出了在HBase中应用数据压缩技术的项目实战
大数据、数据挖掘技术收集（Vivo互联网技术） XiaoQiong.Zhang 数据挖掘大数据
Hudi在vivo湖仓一体的落地实践用户行为分析模型实践（四）——留存分析模型用户行为分析模型实践（三）——H5通用分析模型用户行为分析模型实践（二）——漏斗分析模型用户行为分析模型实践（一）——路径分析模型AB实验遇到用户不均匀怎么办？——vivo游戏中心业务实践经验分享HBaseCompaction原理与线上调优实践vivo游戏黑产反作弊实践Kafka实时数据即席查询应用与实践Hive和Spa
Python 100个常用函数全面解析东皇太星 python 开发语言
Python100个常用函数全面解析1.类型转换函数1.1int()将字符串或数字转换为整数。#基本用法int('123')#123int(3.14)#3#指定进制转换int('1010',2)#10(二进制转十进制)int('FF',16)#255(十六进制转十进制)#临界值处理int('')#ValueError:invalidliteralforint()withbase10:''int(N
HBase安装与基本操作指南 weixin_47233946 大数据 hbase 数据库大数据
##1.安装准备首先确保您的系统已经安装了以下组件：-JavaJDK8或更高版本-Hadoop（HBase可以运行在独立模式下，但建议配合Hadoop使用）##2.下载与安装HBase```bash#下载HBase（以2.4.12版本为例）wgethttps://downloads.apache.org/hbase/2.4.12/hbase-2.4.12-bin.tar.gz#解压文件tar-xz
HBase实战：大数据存储技术——学习HBase数据库的应用场景和使用技巧 AI天才研究院 Python实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.简介1.1HBase介绍ApacheHBase是一个分布式、可扩展、高性能的NoSQL数据库。它是一个列族数据库，由Apache基金会所开发。它支持稀疏和密集存储，提供了一个高度可伸缩的系统，并能够在线地进行横向扩展。HBase提供了一个高效率的数据访问接口，可以使用SQL或JavaAPI访问HBase数据库。HBase采用了Google的BigTable设计理念，
HBase MOB简介以及使用 qq_35254726 学习总结 HBase 大数据 hbase
背景视图数据现在发展都比较快，数据量也越来越多，数据价值也越来越大，通过数据挖掘分析，可以产生越来越多的价值。所以这种大对象的存储需求也越来越多，HBase2.0发布了很多新的特性，其中一个非常值得关注的是中等对象存储的特性，即HBaseMOB（MediumObjectStorage）特性。HBase2.0MOB的引入（由HBASE-11339这个issue引入），扩宽了HBase在人工智能、物联
HBase安装配置和使用的实验报告椰奶茸茸 hbase 数据库大数据
代码来源和对照来自：HBase2.2.2安装和编程实践指南_厦大数据库实验室博客实验目的1.学会如何安装和使用HBase。2.熟练使用HBase操作常用的Shell命令。3.熟悉HBase操作常用的JavaAPI。4.了解HBase的运行模式，包括单机模式、伪分布式模式。5.熟悉eclipse的使用。实验环境操作系统：Linux环境版本：ubuntu-18.04.6Hadoop版本：hadoop3
HDFS异构存储机制风筝Lee 大数据专栏 hadoop hdfs 异构存储
目录：1.异构存储介绍2.存储介质3.HDFS存储策略（异构存储）4.HDFS异构存储原理5.HDFS异构存储的使用一，异构存储介绍异构存储是Hadoop在2.6.0版本中引入了一个新特性，HBase也从1.1.0开始支持WAL的异构存储策略。异构存储可以根据各个存储介质读写特性的不同发挥各自的优势.一个很适用的场景就是冷热数据的存储.针对冷数据,采用容量大的,读写性能不高的存储介质存储,比如最普
Hbase集群部署（三个节点）河西帝王蟹 hbase zookeeper hadoop
概述HBASE–HBase–HadoopDatabase，是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库–利用HadoopHDFS作为其文件存储系统,利用HadoopMapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务–主要用来存储非结构化和半结构化的松散数据（列存NoSQL数据库）Hbase的架构图如下所示1、Client包含访问HBase的
HBase学习：通俗易懂的实例解析 BigData_001_Lz 笔记 hbase 学习数据库
1.数据模型：Excel表格类比HBase的数据结构就像一个无限扩展的Excel表格：行键(RowKey)：相当于Excel第一列的序号（如A001，A002），是唯一标识列族(ColumnFamily)：相当于Excel的工作表标签（如"基本信息"、"交易记录"）列限定符(ColumnQualifier)：相当于每个工作表中的具体列（如"姓名"、"年龄"）版本(Version)：相当于Excel
HBase深度解析：从部署到深度原理北漂老男人 HBase hbase 数据库大数据学习方法
HBase深度解析：从部署到深度原理一、架构与设计思想1.1HBase整体架构HBase架构采用主从分布式设计模式，主要组件有：HMaster（主节点）：负责RegionServer的管理、元数据维护、负载均衡和Region分裂迁移。HRegionServer（从节点）：负责存储和管理实际数据，处理客户端的读写请求。ZooKeeper：分布式协调服务，负责选主、故障转移、元数据一致性等，采用观察者
HBase 架构与数据模型深度解析北漂老男人 HBase hbase 架构数据库学习方法
HBase架构与数据模型深度解析一、前言在大数据时代，HBase以其高扩展性和实时读写能力，成为电商、金融、物联网等行业的核心NoSQL数据库。本文将系统梳理HBase的架构、数据模型、底层原理与最佳实践，助你“知其然，亦知其所以然”。二、HBase架构全景图+-------------------++----------------------+|Client||REST/Thrift|+---
六、Sqoop 导出 IvanCodes Sqoop教程 sqoop hadoop 大数据
作者：IvanCodes日期：2025年6月7日专栏：Sqoop教程ApacheSqoop不仅擅长从关系型数据库(RDBMS)向Hadoop(HDFS,Hive,HBase)导入数据，同样也强大地支持反向操作——将存储在Hadoop中的数据导出(Export)回关系型数据库。这在数据分析结果回写、数据仓库ETL、业务系统数据填充等场景中非常有用。一、Sqoop导出基础核心目标：将HDFS上的文件数
ELK高级搜索七Spring boot 接入Elasticsearch yangyanping20108 搜索 elk spring boot elasticsearch 分布式微服务
目录Javaapi实现文档管理一、maven依赖二、使用步骤创建索引ESAPI的操作步骤查询文档测试异步查询文档测试分页查询文档信息创建文档测试异步创建文档编辑文档删除文档创建索引异步创建索引索引是否存在删除索引Javaapi实现文档管理es技术比较特殊，不像其他分布式、大数据课程，haddop、spark、hbase。es代码层面很好写，难的是概念的理解。最重要的是他的restapi。跨语言的。
Spring Boot 2.x ：通过 spring-boot-starter-hbase 集成 HBase weixin_43770982 java Spring 职场 Spring Boot java java程序员
本文内容HBase简介和应用场景spring-boot-starter-hbase开源简介集成HBase实战小结一、HBase简介和应用场景1.1HBase是什么？HBase是什么？HBase是在Hadoop分布式文件系统（简称：HDFS）之上的分布式面向列的数据库。而且是2007最初原型，历史悠久。那追根究底，Hadoop是什么？Hadoop是一个分布式环境存储并处理大数据。Hadoop使用Ma
记一次·Spark读Hbase
记一次·Spark读Hbase一、背景过年回来，数仓发现hive的一个表丢数据了，需要想办法补数据。这个表是flume消费kafka写hive。但是kafka里只保存最近7天数据，有部分数据kafka里已经没有了。不过这份数据会同时被消费到HBase内存储一份，并且HBase内的数据是正常的。所以这次任务是读HBase数据写Hive表。HBase表内，只有一个列族info，列族内只有一个列valu
企业项目实战hadoop篇---HBase高可用集群部署（四）张一不二 hadoop linux学习 hadoop 大数据分布式 hbase java
HBase高可用集群部署一.Hbase分布式部署二.故障切换一.Hbase分布式部署hbase配置解压hbase压缩包tarzxfhbase-1.2.4-bin.tar.gz配置hbase环境变量，加入java、hadoop路径vimhbase-env.sh由于已经配置好zk集群，因此不采用hbase提供的zk，设置为false配置regionservers文件，加入集群节点[hadoop@ser
面试专区|【68道Hbase高频题整理(附答案背诵版)】尺小闹面试专区面试 hbase 职场和发展
简述什么是Hbase数据库？Hbase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，它利用HBase技术在HDFS上提供了类似于Bigtable的能力。换句话说，Hbase是ApacheHadoop生态系统中的一部分，可以为大数据应用提供快速的随机读写访问。为了更好地理解，我们可以将Hbase想象成一个巨大的表格，这个表格可以存储数十亿行和数百万列的数据。但与传统的关系型数据库不同，Hb
头歌 HBase高级特性：过滤器（一）敲代码的苦13 头歌 hbase 数据库大数据
头歌HBase高级特性：过滤器（一）第1关：使用过滤器查询指定行的数据编程要求请补全函数query(StringtName)，需要你查询的数据如下，表名会作为方法的参数传入：1、查询basic_info列族gender列，且行键为2018的值；2、查询school_info列族college列，且行键大于2018的值；3、查询basic_info列族name列，且行键小于等于2020的值。代码行：
Hbase 蓝色的猴子 hbase 数据库大数据
HBASEhbase是一个分布式的基于列式存储Nosql数据库，基于Hadoop的hdfs存储，zookeeper进行管理；适合存储半结构化或者非结构话数据，1.hbase的原理？hbase主要是通过LSM－tree算法，是将一个大树拆封为多个小树，在内存中将一个个小树进行合并，当小树进行合并，当到达一定数量，就会刷新到磁盘中，磁盘中数据合并到一定程度就会变成Hfile。2.hbase的写过程？H
【赵渝强老师】HBase的逻辑存储结构
HBase的逻辑存储结构主要包括：命名空间（NameSpace）、表（Table）和列族（ColumnFamily）。视频讲解如下：https://www.bilibili.com/video/BV1T3BrYcE8a/?aid=113529894410...下面分别进行介绍。一、命名空间（NameSpace）HBase的命名空间相当于Oracle和MySQL中的数据库，它是对表的逻辑划分。不同的
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置