hua840812

HBase写入性能分析及改造—multi-thread flush and compaction(约能提高两到三倍吞吐量，带压缩测试)

转自：http://blog.csdn.net/kalaamong/article/details/7275242

首先描述一下现象

最近对HDFS底层做了许多优化，包括硬件压缩卡，内存盘及SSD。

在出测试报告时发现老问题，HBase写入速度不稳定，这个大家都习以为常了吧，就是压测时，只要row size稍小一点，不管你怎么压，HBase的RegionServer总是不愠不火特淡定。有些人就怀疑是磁盘到瓶颈了？还有些人怀疑是不是GC拖累了？

总之网上大部分测试都是黑盒测试嘛，大家也就乱猜呗。

下面我仔细来分析下原因，并解决掉问题，详细的测试数据在http://blog.csdn.net/kalaamong/article/details/7290192，对数据感兴趣的同学可以直接跳过下面的内容。

大概全套问题都解决之后写入通量提高两到三倍。

在压测时HRegionServer的Handler很多情况下都被卡在reclaimMemStoreMemory()

ps:这个方法在region数目过多时淘宝庄庄说过这个问题，会影响put速度。

因为他每次都会调这一段代码，当有几千上万个region时。。。。。每次put都检查自然有问题，不过这个相对于后面的事情是小问题了，先放这。

[java]  view plain copy 
      
     
 public long getGlobalMemStoreSize() {  
     long total = 0;  
     for (HRegion region : onlineRegions.values()) {  
       total += region.memstoreSize.get();  
     }  
     return total;  
   }  

下面这段展示了这个方法。

[java]  view plain copy 
      
     
 public synchronized void reclaimMemStoreMemory() {  
     if (isAboveHighWaterMark()) {  
       lock.lock();  
       try {  
         while (isAboveHighWaterMark() && !server.isStopped()) {  
           wakeupFlushThread();  
           try {  
             // we should be able to wait forever, but we've seen a bug where  
             // we miss a notify, so put a 5 second bound on it at least.  
             flushOccurred.await(5, TimeUnit.SECONDS);  
           } catch (InterruptedException ie) {  
             Thread.currentThread().interrupt();  
           }  
         }  
       } finally {  
         lock.unlock();  
       }  
     } else if (isAboveLowWaterMark()) {  
       wakeupFlushThread();  
     }  
   }  

其中flushOccurred.await(5, TimeUnit.SECONDS);这一部分将所有写入线程都block了，但这也不完全怪flush做得慢，我们实际压测时，flush还是很快的，只是compact不及时，flush就会被阻塞。

参这篇jira的内容

https://issues.apache.org/jira/browse/HBASE-2646

https://issues.apache.org/jira/browse/HBASE-2981

https://issues.apache.org/jira/browse/HBASE-2832

run YCSB写入压测时，HBase有明显的停顿，写入性能有跳变。在EMC一篇关于hypertable和HBase的测试中，提到HBase的性能被GC所累，我觉得他们有可能错误地把

flush和compaction中的停顿当作JAVA gc了。因为在给RegionServer分配24GB内存时，GC的时间很短（毫秒级）。

第一步：为flush添加线程池

HBase flush memorystore时是由一个线程顺序将数据

hbase.hstore.blockingStoreFiles （）同时flush时会获取Region writeLock的writeLock().来做snapshot,而所有的修改包括mult,put,delete都要获取readlock，

所以写入操作与flush大部分代码都只能串行执行，并不能像流水号线一样边写入边flush。所以压测时就会一顿一顿的。

当然这是其中一个原因，我们先来解决这个原因，将flush变成多线程并行flush再来探讨另一个导致flush无法并行执行的原因。

https://issues.apache.org/jira/browse/HBASE-2832

于是我仿照Jonathan的patch在90.4上实现了muti thread memstore flush，Jonathan的实现目前用于trunk，且只针对上面我提到的原因做了改进。

实际测试时并不能达到并行flush的效果。

这一段的主要修改是在MemStoreFlusher 中添加了如下代码，同时每处flush都调用performFlush(HRegion)。

FlushRegionHandler的代码比较多，详细见patch，我会贴到git上https://github.com/ICT-Ope，也可以到微博上@我。

[java]  view plain copy 
      
     
   ExecutorService executor;  
   public void performFlush(HRegion r) {  
     executor.submit(new FlushRegionHandler(this.server, r,this));  
   }  
 

第二步：修改HLog 获取sequenceId时的锁类型

这样做之后，遇到阻碍并行flush的第二个问题，HLog。但测试时发现一次flush的region并没有增加，依然没有效果。

我怀疑HLog中每次flush部分的检查可能还是限制了并发。并在regionserver.wal.HLog.startCacheFlush()中的一段代码找出了问题。
PS：即使用户在每次put时设定不写HLog，HLog也是要在每次flush之后检查有效log的位置，并roll log等操作也不会因此关闭。（测试中每次put时设定不写HLog）

在regionserver.wal.HLog中有如下代码：

[java]  view plain copy 
      
     
 /** 
  * By acquiring a log sequence ID, we can allow log messages to continue while 
  * we flush the cache. 
  * 
  * Acquire a lock so that we do not roll the log between the start and 
  * completion of a cache-flush. Otherwise the log-seq-id for the flush will 
  * not appear in the correct logfile. 
  * 
  * @return sequence ID to pass {@link #completeCacheFlush(byte[], byte[], long, boolean)} 
  * (byte[], byte[], long)} 
  * @see #completeCacheFlush(byte[], byte[], long, boolean) 
  * @see #abortCacheFlush() 
  */  
 public long startCacheFlush() {  
   this.cacheFlushLock.lock();  
   return obtainSeqNum();  
 }  

这部分被HRegion的internalFlushcache调用，用以得到当前HLog的sequenceId，不得不说这个lock加得太大了，一个RegionServer共用一个HLog啊。。。

此处无非是得到log sequence 然后在store internalFlushcache时写到文件里，hlog roll时从而得知哪段已经写到磁盘了。

所以此处的cacheFlushLock 应当改为ReentrantReadWriteLock，并在此处只加readLock。rolllog时加writeLog。

[java]  view plain copy 
      
     
    this.updatesLock.writeLock().lock();//此处已经将本Region所有修改操作lock了。  
     final long currentMemStoreSize = this.memstoreSize.get();  
     List storeFlushers = new ArrayList(stores.size());  
     boolean compactionRequested = false;     
 try {  
 sequenceId = (wal == null)? myseqid: wal.startCacheFlush();//在这，上面那个方法又加了个RegionServer级的锁，且还不是RW锁。  
       completeSequenceId = this.getCompleteCacheFlushSequenceId(sequenceId);  
   
       for (Store s : stores.values()) {  
         storeFlushers.add(s.getStoreFlusher(completeSequenceId));  
       }  
   
       // prepare flush (take a snapshot)  
       for (StoreFlusher flusher : storeFlushers) {  
         flusher.prepare();  
       }  

做以上修改之后HBase多线程flush没有问题了。下面是第三步：

第三步：为compact添加线程池，顺便注释掉split部分。

不过随之而来的另外一个问题就是当flush频繁之后系统吞吐量显著提高，但生成的小文件数量变多，compaction的负担就大了。

由于下面这段代码，compact忙不过来时，flush也是会被阻塞的，如此写入也就被阻塞了。

[java]  view plain copy 
      
     
 private boolean flushRegion(final FlushRegionEntry fqe) {  
     HRegion region = fqe.region;  
     if (!fqe.region.getRegionInfo().isMetaRegion() &&  
         isTooManyStoreFiles(region)) {  
       if (fqe.isMaximumWait(this.blockingWaitTime)) {  
         LOG.info("Waited " + (System.currentTimeMillis() - fqe.createTime) +  
           "ms on a compaction to clean up 'too many store files'; waited " +  
           "long enough... proceeding with flush of " +  
           region.getRegionNameAsString());  
       } else {  

当StoreFile数到7（默认），flush就要等compact把StoreFile压到一个文件里。如此单线程的compact又成为瓶颈阻碍HBase的写入吞吐量了。所以最后又把compact也改成了线程池，同时顺便把split的代码给注释掉了。然后把blockflush的storefile数目从7改到两千，这样写入流水基本顺畅了。最后的效果是HBase压测时cpu一直利用充分。HBase中 multi flush compact的流水线基本并行化了。整个系统的吞吐量大幅度提升。此时当打开gz软件压缩（no native，用native压时，压缩是单线程的）时，系统的cpu利用率才充分一些。

HBase写入性能分析及改造—multi-thread flush and compaction(约能提高两到三倍吞吐量，带压缩测试)_第1张图片

第四步：为HBaseClient添加到RegoinServer的连接池。

但即使如此，cpu也没有用到100%啊，既然是压测那一定要达到某个硬件瓶颈才算压出效果吧。此时突然意识到HBaseClient端的一个问题：所有线程共用一个socket连接与RS交换数据，so果端修改了HBaseClient的代码使用了连接池。（线上系统如非某应用独占，最好不要改这个地方）。改完之后用70个线程压测时总算达到了我要的效果，RS 16核2.4GHz的CPU满载(no compression,multi-thread flush and compact)。更详细的测试报告我将会在后续的博文中放出，测试的效果大概是写入吞吐量有两到三倍提升。

接上文啊：

测试机性能
CPU	16* Intel(R) Xeon(R) CPU E5620 @ 2.40GHz
MEMORY	48GB
DISK	12*SATA 2TB
NET	4*1Gb Ethernet

测试数据:

类型	国内某视频网站近半年用户访问日志
结构	一行九列，包括用户访问页，关键词及其它用户信息。对应HBase一个family下9个column，一行120到180字节
数据量	每次测试写入10亿条数据，原始数据约110GB，写到HBase中一张不加压缩的表里HDFS中单副本约480GB （dus结果）

集群结构

RegionServer	1个 hostname: data2
DataNode	5个hostname: data12~data16

这样设设计的集群结构，主要目的就是要压测Region Server。以下所有测试客户端put关HLog，服务端不split。

第一组：（原始情况）

这是最初HBase的情况，没有对服务端代码做修改，在配置参数上稍稍改动了类似于MemStore up water level,low water level,以及handler数目和HFile的最大Size值。可以看出虽然是压测，HBase所有地方都很闲，内部的情况是就Multi写入数据了之后MemStore大了等flush，flush的store file多了就等compact。各种等也就各种闲。

最后写入10亿行数据用时6小时48分。整个表在HDFS dus出的大小约440GB。

HBase写入性能分析及改造—multi-thread flush and compaction(约能提高两到三倍吞吐量，带压缩测试)_第3张图片

第二组：（配置项修改）

下面的图是继上面情况之后修改了

hbase.hstore.blockingStoreFiles

2000

把block flush的storefile数从默认的7改到了2000，已经不让split了，还不许storefile数多一点，太没人性了。此时前段时间写入的性能有些改善，但毕竟还是单线程的flush和compact治标不治本。

最后写入10亿行数据用时5小时54分，比上一组实验缩短了1个小时。整个表在HDFS dus出的大小约480GB，原因应当是flush被阻塞的次数减少，flush得更频繁了，写入流量也稍增，但没来得及compact的store file更多，所以整个表大了40G( 约9%)。

HBase写入性能分析及改造—multi-thread flush and compaction(约能提高两到三倍吞吐量，带压缩测试)_第5张图片

第三组：（代码修改）

最后来治标治本吧。后面的实验中配置参数与上一组相同，同时服务端修改代码，为flush和compact添加了线程池。并新加入两个配置项：

26 hbase.hstore.flush.thread

27 20

30 hbase.hstore.compaction.thread

31 15

再看压测情况CPU基本满载。唉这才是压测啊！！

如此这般下来写入10亿行数据用时2小时58分，不到第一组一半的时间。表大小约410GB

由于compact做得及时，表大小比第一组小30GB，比第二组小70GB。

HBase写入性能分析及改造—multi-thread flush and compaction(约能提高两到三倍吞吐量，带压缩测试)_第7张图片

第四组：（代码修改加压缩）

接着按第三组的情况加上GZ的软压缩（为什么挑GZ请参第五组测试），这组估计CPU都要冒烟了。

写入10亿行数据耗时3小时5分，比上一组多了7分钟。但表的size为71GB !差不多是上一组的六分之一，尽然压缩到了原数据的17%大小。

HBase写入性能分析及改造—multi-thread flush and compaction(约能提高两到三倍吞吐量，带压缩测试)_第9张图片

第五组：（第五组大家自己研究吧）

这一组最强悍，采用了一些特殊的硬件改了改HDFS，HBase的修改与上两组相同。

写入10亿行数据耗时2小时24分钟。差不多是第一组时间的1/3。文件size为111GB，压到了第一组的1/4。且CPU也没到冒烟的状态，应当还能加压。关于这个组今后还将有更详细的测试结果放出。现在先不详细介绍了。

HBase写入性能分析及改造—multi-thread flush and compaction(约能提高两到三倍吞吐量，带压缩测试)_第11张图片

ftp文件服务器有连接数限制,查看ftp服务器连接数命令赵承铭 ftp文件服务器有连接数限制
查看ftp服务器连接数命令内容精选换一换本章节适用于MRS3.x之前版本。Loader支持以下多种连接，每种连接的配置介绍可根据本章节内容了解。obs-connectorgeneric-jdbc-connectorftp-connector或sftp-connectorhbase-connector、hdfs-connector或hive-connectorOBS连接是Loa“数据导入”章节适用于
HBase总结
HBase1.HBase核心概念HBase的作用HBase主要用于存储和管理超大规模的结构化或半结构化数据（如PB级），特点包括：高扩展性：通过分布式架构横向扩展，支持数千台服务器高吞吐量：适合实时随机读写（如用户行为日志、实时分析）强一致性：保证同一行数据的原子性操作灵活的数据模型：支持动态列和稀疏存储典型应用场景：互联网公司的用户行为日志存储（如点击流数据）社交媒体的实时消息存储物联网设备时序
Hadoop核心组件最全介绍 Cachel wood 大数据开发 hadoop 大数据分布式 spark 数据库计算机网络
文章目录一、Hadoop核心组件1.HDFS(HadoopDistributedFileSystem)2.YARN(YetAnotherResourceNegotiator)3.MapReduce二、数据存储与管理1.HBase2.Hive3.HCatalog4.Phoenix三、数据处理与计算1.Spark2.Flink3.Tez4.Storm5.Presto6.Impala四、资源调度与集群管
HBase 开发：使用Java操作HBase 睡觉的时候我不困 hbase java python
第1关：创建表任务描述相关知识如何使用Java连接HBase数据库HBaseConfigurationConnectionFactory创建表HBase2.X创建表编程要求测试说明任务描述本关任务：使用Java代码在HBase中创建表。相关知识为了完成本关任务，你需要掌握：1.如何使用Java连接HBase数据库，2.如何使用Java代码在HBase中创建表。如何使用Java连接HBase数据库J
头歌作业-HBase 开发：使用Java操作HBase http_lizi hbase java python
第一关packagestep1;importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.apache.hadoop.hbase.HColumnDescriptor;importorg.apache.h
PostgreSql、Hbase的安装月光一族吖 postgresql hbase 数据库
在CentOS8中安装PostgreSQL和HBase，以下是详细步骤，包括使用sudo权限的命令：安装PostgreSQL更新系统包在两台CentOS8上运行以下命令，确保系统是最新的：sudodnfupdate-y安装PostgreSQLCentOS8默认仓库提供PostgreSQL。你可以直接安装所需版本的PostgreSQL：sudodnfinstall-ypostgresql-serve
HDFS与HBase有什么关系？ lucky_syq hdfs hbase hadoop
1、HDFS文件存储系统和HBase分布式数据库HDFS是Hadoop分布式文件系统。HBase的数据通常存储在HDFS上。HDFS为HBase提供了高可靠性的底层存储支持。Hbase是Hadoopdatabase，即Hadoop数据库。它是一个适合于非结构化数据存储的数据库，HBase基于列的而不是基于行的模式。
Hbase和关系型数据库、HDFS、Hive的区别别这么骄傲 hive hbase 数据库
目录1.Hbase和关系型数据库的区别2.Hbase和HDFS的区别3.Hbase和Hive的区别1.Hbase和关系型数据库的区别关系型数据库Hbase存储适合结构化数据，单机存储适合结构化和半结构数据的松散数据，分布式存储功能（1）支持ACID（2）支持join（3）使用主键PK（4）数据类型：int、varchar等（1）仅支持单行事务（2）不支持join，把数据糅合到一张大表（3）行键ro
大数据基础知识-Hadoop、HBase、Hive一篇搞定原来是猪猪呀 hadoop 大数据分布式
HadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构，其核心设计包括分布式文件系统（HDFS）和MapReduce编程模型；Hadoop是一个开源的分布式计算框架，旨在帮助用户在不了解分布式底层细节的情况下，开发分布式程序。它通过利用集群的力量，提供高速运算和存储能力，特别适合处理超大数据集的应用程序。Hadoop生态圈Hadoop生态圈是一个由多个基于Hadoop开发的相
Hadoop、HDFS、Hive、Hbase区别及联系静心观复大数据 hadoop hdfs hive
Hadoop、HDFS、Hive和HBase是大数据生态系统中的关键组件，它们都是由Apache软件基金会管理的开源项目。下面将深入解析它们之间的区别和联系。HadoopHadoop是一个开源的分布式计算框架，它允许用户在普通硬件上构建可靠、可伸缩的分布式系统。Hadoop通常指的是整个生态系统，包括HadoopCommon（共享库和工具）、HadoopDistributedFileSystem(
大数据(1)-hdfs&hbase viperrrrrrr 大数据 hdfs hbase
hbase&hdfs一、体系结构HDFS是一个标准的主从(Master/Slave)体系结构的分布式系统；HDFS集群包含一个或多个NameNode(NameNodeHA会有多个NameNode)和多个DataNode(根据节点情况规划),用户可以通过HDFS客户端同NameNode和DataNode进行交互以访问文件系统。HDFS公开文件系统名称空间，并允许将用户数据存储在文件中。在内部，一个文
HBase 开发：使用Java操作HBase 第1关：创建表是草莓熊吖 hbase 大数据 Educoder hbase hadoop 大数据
为了完成本关任务，你需要掌握：1.如何使用Java连接HBase数据库，2.如何使用Java代码在HBase中创建表。如何使用Java连接HBase数据库Java连接HBase需要两个类：HBaseConfigurationConnectionFactoryHBaseConfiguration要连接HBase我们首先需要创建Configuration对象，这个对象我们需要通过HBaseConfig
Hbase-表操作红笺Code Hbase hbase 大数据数据分析非关系型数据库 zookeeper
目录一、创建表:1.创建表时指定列族的属性2.创建表时不指定列族的属性多学一招：克隆表二、查看表信息三、查看表四、停用和启用表1.停用表2.启用表多学一招：停用或启用多个表五、判断表1.exists命令2.is_enabled命令3.is_disabled命令六、修改表1.修改表属性（1）添加属性（2）删除属性2.修改列族（1）修改列族属性（2）添加列族（3）删除列族七、删除表drop命令多学一招
头歌当HBase遇上MapReduce 敲代码的苦13 头歌 hbase mapreduce 数据库
头歌当HBase遇上MapReduce第1关：HBase的MapReduce快速入门代码行：packagecom.processdata;importjava.io.IOException;importjava.util.List;importjava.util.Scanner;importorg.apache.hadoop.conf.Configuration;importorg.apache.
大数据集群架构hadoop集群、Hbase集群、zookeeper、kafka、spark、flink、doris、dataeas(二) 争取不加班！ hadoop hbase zookeeper 大数据运维
zookeeper单节点部署wget-chttps://dlcdn.apache.org/zookeeper/zookeeper-3.8.4/apache-zookeeper-3.8.4-bin.tar.gz下载地址tarxfapache-zookeeper-3.8.4-bin.tar.gz-C/data/&&mv/data/apache-zookeeper-3.8.4-bin//data/zoo
JT808教程：设置/查询终端参数
REDISANT提供互联网与物联网开发测试套件#互联网与中间件：RedisAssistantZooKeeperAssistantKafkaAssistantRocketMQAssistantRabbitMQAssistantPulsarAssistantHBaseAssistantNoSqlAssistantEtcdAssistantGarnetAssistant工业与物联网：MQTTAssist
Squirrel：通用SQL、NoSQL客户端 antui1957
安装配置数据库配置驱动配置连接如果你的工作中，需要使用到多个数据库，又不想在多种客户端之间切换来切换去。那么就需要找一款支持多数据库的客户端工具了。如果你要连接多个关系型数据库，你就可以使用NavicatPremium。但是如果你有使用到NOSQL（譬如HBase、MongoDB等），还是建议使用SquirrelSQLClient。1、安装下载地址：http://squirrel-sql.sour
使用datax进行mysql的表恢复是桃萌萌鸭~ mysql 数据库
DataXDataX是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括MySQL、SQLServer、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS等各种异构数据源之间高效的数据同步功能。FeaturesDataX本身作为数据同步框架，将不同数据源的同步抽象为从源头数据源读取数据的Reader插件，以及向目标端写入数据的Writer插件，理论上Dat
hbase:meta 表解析有数的编程笔记 HBase
hbase:meta表中存储了Hbase集群中全部表的所有的region信息，在Hbase2.x之后新增了表的状态信息。hbase:meta表的结构非常简单，在Hbase2.x之前整个表只有一个名为info的ColumnFamily。在Hbase2.x新增表状态信息后，增加了名为table的ColumnFamily。HBase保证hbase:meta表始终只有一个Region，这是为了确保meta
Hadoop等大数据处理框架的Java API 扬子鳄008 Java hadoop java 大数据
Hadoop是一个非常流行的大数据处理框架，主要用于存储和处理大规模数据集。Hadoop主要有两个核心组件：HDFS（HadoopDistributedFileSystem）和MapReduce。此外，还有许多其他组件，如YARN（YetAnotherResourceNegotiator）、HBase、Hive等。下面详细介绍Hadoop及其相关组件的JavaAPI及其使用方法。HadoopHad
手把手教你玩转 Sqoop：从数据库到大数据的「数据搬运工」 AAA建材批发王师傅数据库 sqoop 大数据 hive hdfs
一、Sqoop是什么？——数据界的「超级搬运工」兄弟们，今天咱们聊个大数据圈的「搬运小能手」——Sqoop！可能有人会问：这玩意儿跟Flume啥区别？简单来说：Flume是专门搬日志数据的「快递员」而Sqoop是搬数据库数据的「搬家公司」它的名字咋来的？SQL+Hadoop，直接告诉你核心技能：在关系型数据库（比如MySQL）和Hadoop家族（HDFS、Hive、HBase）之间疯狂倒腾数据！核
【请关注】hBase要用的顺畅的思路 DoWeixin6 数据相关数据库
玩楞一下HBase，要让这玩意儿在大数据量下跑得顺，索引和优化可都是实打实的硬活。先说索引这块。HBase就认RowKey这个主索引，所有数据都按它排得明明白白。平时查数据，只要RowKey设计得好，直接就能定位到对应的Region，速度快得很。但RowKey要是拍脑袋瞎写，比如全按时间戳排序，那准得出大问题——数据全往一个Region挤，妥妥的热点，集群直接卡住。所以设计RowKey时，我一般会
【赵渝强老师】HBase的体系架构赵渝强老师 NoSQL数据库 hbase 架构数据库大数据 hadoop hdfs nosql
HBase是大表（BigTable）思想的一个具体实现。它是一个列式存储的NoSQL数据库，适合执行数据的分析和处理。简单来说，就是适合执行查询操作。从体系架构的角度看，HBase是一种主从架构，包含：HBaseHMaster、RegionServer和ZooKeeper，下图展示了这一架构。其中：HBaseHMaster负责Region的分配及数据库的创建和删除等操作。Regionserver负
大数据学习（141）-分布式数据库 viperrrrrrr 大数据学习分布式 clickhouse hdfs hbase
在分布式数据库中主要有hdfs、hbase、clickhouse三种。HDFS（HadoopDistributedFileSystem）、HBase和ClickHouse都是处理大数据的分布式系统，但它们的设计目标、架构和适用场景有所不同。一、HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生态系统的一部分，是一个高度容错的系统，适合存储大量数据。它被设计为
TiDB 替换 HBase 全场景实践指南 ——从架构革新到业务赋能 TiDB 社区干货传送门 tidb hbase 架构数据库大数据
作者：数据源的TiDB学习之路原文来源：https://tidb.net/blog/c687d474第一章：HBase的历史使命与技术瓶颈1.1HBase的核心价值与经典场景作为Hadoop生态的核心组件，HBase凭借LSM-Tree存储引擎和Region分片机制，在2010年代成为海量数据存储的标杆。其典型场景包括：日志流处理：支持Kafka每日TB级数据持久化，写入吞吐达百万级QPS（如某头
【Ambari3.0.0 部署】Step3—安装JDK17与JDK1.8-适用于el8 TTBIGDATA ambari bigtop hdp hidataplus edp 大数据 el8
如果有其他系统部署需求可以参考原文https://doc.janettr.com/install/manual/Step3—安装JDK17与JDK1.8Ambari3.0及部分Bigtop/Hadoop新组件强制要求JDK17，而HBase/Hive/Spark生态仍有组件长期依赖JDK1.8。因此推荐双版本共存方案，让集群灵活兼容各种大数据组件，满足未来升级和遗留需求。JDK17与JDK1.8可
时序数据管理的新维度：解析IoTDB与HBase的技术边界时序数据说 iotdb hbase 数据库时序数据库分布式开源
在物联网与工业大数据场景中，数据的时序特性对存储与计算提出了独特挑战。面对海量设备生成的高频时序数据，如何在有限的资源内实现高效写入、灵活查询与实时分析，成为企业技术选型的核心考量。本文将从架构设计、数据建模、性能表现及场景适配等角度，对比分析IoTDB与HBase的技术差异，探索时序数据库的演进方向。一、设计哲学的分野：专用时序与通用存储HBase作为经典的NoSQL数据库，以宽表模型和LSM-
大数据领域HBase的数据压缩技术应用 AI天才研究院 AI大模型企业级应用开发实战 AI Agent 应用开发大数据 hbase 数据库 ai
大数据领域HBase的数据压缩技术应用关键词：大数据、HBase、数据压缩技术、压缩算法、性能优化摘要：本文深入探讨了大数据领域中HBase的数据压缩技术应用。首先介绍了HBase的背景以及数据压缩技术在其中的重要性，详细阐述了常见的压缩算法原理，包括LZO、Snappy、Gzip等。通过数学模型和公式分析了不同压缩算法的性能指标，如压缩比和压缩速度。给出了在HBase中应用数据压缩技术的项目实战
大数据、数据挖掘技术收集（Vivo互联网技术） XiaoQiong.Zhang 数据挖掘大数据
Hudi在vivo湖仓一体的落地实践用户行为分析模型实践（四）——留存分析模型用户行为分析模型实践（三）——H5通用分析模型用户行为分析模型实践（二）——漏斗分析模型用户行为分析模型实践（一）——路径分析模型AB实验遇到用户不均匀怎么办？——vivo游戏中心业务实践经验分享HBaseCompaction原理与线上调优实践vivo游戏黑产反作弊实践Kafka实时数据即席查询应用与实践Hive和Spa
Python 100个常用函数全面解析东皇太星 python 开发语言
Python100个常用函数全面解析1.类型转换函数1.1int()将字符串或数字转换为整数。#基本用法int('123')#123int(3.14)#3#指定进制转换int('1010',2)#10(二进制转十进制)int('FF',16)#255(十六进制转十进制)#临界值处理int('')#ValueError:invalidliteralforint()withbase10:''int(N
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st