weiqing687

HBase的put流程源码分析

https://blog.csdn.net/bryce123phy/article/details/51279878

hbase是一个nosql型数据库，本文我们会分析一下客户的数据是通过什么样的路径写入到hbase的。

HBase作为一种列族数据库，其将相关性较高的列聚合成一个列族单元，不同的列族单元物理上存储在不同的文件（HFile）内。一个表的数据会水平切割成不同的region分布在集群中不同的regionserver上。客户端访问集群时会首先得到该表的region在集群中的分布，之后的数据交换由客户端和regionserver间通过rpc通信实现，下面我们从hbase源码里探究客户端put数据的流程。本文参考的源码是1.1.2版本的hbase

1）客户端

put在客户端的操作主要分为三个步骤，下面分别从三个步骤展开解释：

（一）、客户端缓存用户提交的put请求

get/delete/put/append/increment等等等等客户可用的函数都在客户端的HTable.java文件中。

在HTable.java文件中有如下的两个变量：

private RpcRetryingCallerFactory rpcCallerFactory;

private RpcControllerFactory rpcControllerFactory;

protected AsyncProcess multiAp;

如上的几个变量分别定义了rpc调用的工厂和一个异步处理的进程

客户端的put请求调用getBufferedMutator().mutate(put)，进入mutate这个函数可以看到它会把用户提交的此次put操作放入到列表writeAsyncBuffer中，当buffer中的数据超过规定值时，由后台进程进行提交。

（二）、将writeBuffer中的put操作根据region的不同进行分组，分别放入不同的Map集合

进程提交由函数backgroudFlushCommits完成，提交动作包含同步提交和异步提交两种情况，由传入的参数boolean控制。进入上述函数分析。

可见当传入backgroudFlushCommits的参数为false时执行的是异步提交，参数为true时执行的是同步提交。

与此同时，可以发现无论异步提交还是同步提交，实际的提交动作是由AsyncProcess ap执行的，调用的语句如下：

ap.submit(tableName，writeAsyncBuffer,true,null,false)

需要注意的是多数情况下执行的是异步提交，只有在异步提交出错的情况下执行同步提交。

进入submit函数，可以看到它循环遍历参数writeAsyncBuffer中的每一行，通过connection.locateRegion函数找到其在集群的位置loc，将该位置与操作action一起绑定在变量actionByServer中。

这里的region定位是由ClusterConnection类型的变量connection完成的，进入其locateRegion方法可以看出，如果客户端有缓存，则直接从缓存读取，否则从META表中读出了region所处的位置，并缓存此次的读取结果。返回的结果是RegionLocations类型的变量。

actionByServer是一个Map>类型的变量，从该变量的类型定义可以看出，其将用户的一批写请求中，写入regionserver地址相同的动作归类到一起。

（三）、提交服务端RegionServer处理，在回调函数中与服务端交互。

最后调用sumitMultiActions函数将所有请求提交给服务端，它接受了上面的actionByServer作为参数，内部实例化一个AsyncRequestFutureImpl类执行异步的提交动作。

从sendMultiAction函数中一步步向里查看代码，其将用户的action请求通过getNewMultiActionRunnable、SingleServerRequestRunnable层层调用最终落到了hbase的RPC框架中，每个用户请求包装成包装MultiServerCallable对象，其是一个Runnable对象，在该对象中用户请求与服务端建立起RPC联系。所有的runnable对象最终交到AsyncProcess对象的内部线程池中处理执行。

2）服务端

客户端MultiServerCallable的call方法中调用了服务端的multi函数执行提交动作，进入服务端。

multi方法内部会根据请求是否是原子请求，执行不同的操作语句，这里我们以非原子性提交为例，其执行了doNonAtomicRegionMutation()函数，这个函数中先进行一些rpc请求的编码，将编码后的action相关信息组织到一个List类型的变量mutations中，这里的编码采用的proto buffer的编码方案，然后调用doBatchOp()语句，其接受了mutations作为参数。

在doBatchOp函数中，可以看到其最终调用的batchMutate执行的批量操作，这里操作的结果会返回到OperationStatus类型的变量codes[]中，包括了以下几种状态：BAD_FAMILY；SANITY_CHECK_FAILURE；SUCCESS等状态。这些状态记录了每个action的执行结果，包括成功啦、失败啦等等。

就一步地这些请求被包装成一个MutationBatch类型的对象传入batchMutate，batchMutatue首先判断一下资源的状态，然后调用doMiniBatchMutation()执行最终的put操作，该操作返回的是写入数据的大小addedSize，根据addedSize计算此时memstore的size以决定是否flush，如果达到了flush的要求，执行requestFlush()。doMiniBatchMutation接受了MutationBatch类型的对象继续作为其参数。关键代码如下所示：

[java]  view plain 
         copy
while (!batchOp.isDone()) {   //操作未完成前一直循环  
  if (!batchOp.isInReplay()) {  
      checkReadOnly();              //判断是否是只读状态  
  }  
  checkResources();               //检查相关资源  
  
  if (!initialized) {  
      this.writeRequestsCount.add(batchOp.operations.length);   //更新写请求计数器  
      if (!batchOp.isInReplay()) {  
        doPreMutationHook(batchOp);  
      }  
      initialized = true;  
  }  
  long addedSize = doMiniBatchMutation(batchOp);    //最终的put操作是落在这里的  
  long newSize = this.addAndGetGlobalMemstoreSize(addedSize);     //以原子操作的方式增加Region上的MemStore内存的大小  
  if (isFlushSize(newSize)) {    //判断memstore的大小是否达到阈值,决定是否flush  
      requestFlush();  
  }  
}  

服务端的put主要实现在HRegion.java的doMiniBatchMutation()，该函数主要利用了group commit技术，即多次修改一起写。

首先对于所有要修改的行，一次性拿住所有行锁，在2944行实现。

rowLock = getRowLockInternal(mutation.getRow(),shouldBlock) ，注意的是这里的锁是写锁。

put和delete在客户端都是由这个函数实现的，在2960行针对两者的不同第一次出现了不同的处理，分别将put和delete操作归类到putsCfSet和deletesCfSet两个不同的集合中，这两个集合分别代表了put/delete的列族集合，数据类型为Set。

第二步是修正keyvalue的时间戳，把action里面的所有kv时间戳修正为最新的时间。时间戳修正之后，在3009行

lock(this.updatesLock.readLock()，numReadyToWrite) 加入了读锁。

然后获得该批写入memstore数据的批次号mvccNum，mvccNum同时也是此次写事务的版本号，由this.sequenceId加一获得的

然后通过w=mvcc.beginMemstoreInsertWithSeqNum(mvccNum)，进入函数beginMemstoreInsertWithSeqNum，可以看见，该函数通过传入的mvccNum new一个新的WriteEntry对象，然后将WriteEntry放入队列writeQueue中，这一步加队列的操作是被锁保护起来的。

writeQueue队列用于保存多个并发写事务的WriteEntry。

然后，就是将batch中的数据写入到各个store的memstore中，并根据batch中的数据构建WAL edit。

构造WAL edit之后，将该条数据对应的table name、region info、cluster id等等包装成一个HLogKey结构的对象，该对象即为walkey，将walKey和WAL edit共同组装成一个entry之后将之append到内存中的ringbuffer数据结构中。

注意的是这次的append操作产生一个HLog范围内的id，记作txid。txid用于标识这次写事务写入的HLog日志。

写入buffer后，即释放所有的行锁，两阶段锁过程结束。然后在3153行

syncOrDefer(txid，durability)

将这次事务的日志持久化到hfs中，一旦持久化完成便提交此次事务，代码在3170行，其调用了completeMemstoreInsertWithSeqNum()，走进这个函数会发现其在写入mvccnum之后，调用了waitForPreviousTransactoinsComplete（）函数，这个函数实际是推进了mvcc的memstoreRead，推进的思路如下：

先锁上writeQueue队列，然后一个一个看，找连续的已完成的WriteEntry，最后一个WriteEntry的writeNumber即是最新的点，此时可以赋值给mvcc.memstoreRead，后续读事务一开始就去拿mvcc.memstoreRead，从而能够拿到本次写入的数据。

这里要补充一句，此时写入的数据存储在memstore中，并没有持久化到hdfs中，内存中的key-value是以skip list的数据结构存储的。

总结上面hbase的写路径可以发现在hbase的写入过程中应用到了如下的一些技术：
首先，客户端的rpc请求传递到服务端时，函数AsyncRequestFutureImpl()是一个Lazy优化，或者说是一个异步的优化，虽然函数声明了一个对服务端的rpc调用，但是它并没有马上呼叫服务端，而是在需要时才真正呼叫服务端。

第二，数据提交时采用了group commit技术，理解group commit可以用挖煤做比喻，是一铲子一铲子挖比较快，还是一次挖出一车比较省力。

第三，MVCC即多版本并发控制

限于篇幅和本人的知识有限，以上所说的只是简单描述了hbase的写事务的主干路径，并简要指出了其中的关键技术点，此外还有幂等控制、回滚操作、错误处理以及写入线程模型等等等等，即便是提到的mvcc、group commit也只是蜻蜓点水，如果展开还有很多很精彩的内容值得大家研究，如果你也对hbase感兴趣，欢迎与我一起讨论，共同提高。

参考资料：

http://www.cnblogs.com/foxmailed/p/3897884.html

Hbase-0.98.6源码分析--Put写操作Client端流程

客户端程序写数据通过HTable和Put进行操作，我们从客户端代码开始分析写数据的流程：

可以看到，客户端写数据最终的调用了HTableInterface的put()方法，因为HTableInterface只是一个接口，所以最终调用的是它的子类HTable的put()方法。进入HTable.put()：

从上面代码可以看出：你既可以一次put一行记录也可以一次put多行记录，两个方法内部都会调用doPut方法，最后再来根据autoFlush（默认为true），即自动提交，判断是否需要flushCommits刷写提交，在autoFlush为false的时候，如果当前容量超过了缓冲区大小（默认值为：2097152=2M），也会调用flushCommits方法。也就是说，在自动提交情况下，你可以手动控制通过一次put多条记录，然后将这些记录flush，以提高写操作吞吐量。

首先看下flushCommits()方法：

只是简单地调用了backgroundFlushCommits()方法，该方法会在后面讲到。

进入doPut()方法：

从上面的代码可以看出，backgroundFlushCommits()这个刷新操作可以是制定异步提交还是同步提交，从doPut方法中来看默认是以异步的方式进行，这里的ap是AsyncProcess类的一个实例，该类使用多线程的来实现异步的请求，也就是说，并非每一次put操作都是直接往HBase里面写数据的，而是等到缓存区域内的数据多到一定程度(默认设置是2M)，再进行一次写操作。当然这次操作在Server端应当还是要排队执行的，具体执行机制这里不作展开。可以确定的是，HConnection在HTable的put操作中，只是起到一个定位RegionServer的作用，在定位到RegionServer之后，操作都是由cilent端通过rpc调用完成的。这个结论在插入/查询/删除中是一致的。

writeAsyncBuffer.add(put)就是向一个异步缓冲区添加该操作，然后当一定条件的时候进行flash,当发生flash操作的时候，才会真正的去执行该操作，这主要是提高系统的吞吐率，接下来我们去看看这个flush的操作内部。

看下waitUntilDone()方法：

进入waitForMaximumCurrentTasks()方法：

由这个waitForMaximumCurrentTasks()方法，可以清晰了了解到waitUntilDone()方法的操作流程，具体要等待到什么时候呢？等到tasksSent的值减去tasksDone的值等于0，tasksSent表示提交的任务数，tasksDone表示完成的任务数。

现在就可以重新总结一下backgroundFlushCommits()方法，在第965行，submit()方法传入的参数是true,表示需要等待rpc调用结束。第980行，如果有部分数据提交失败，同时没有设置清空失败的数据时，把数据重新添加到writeAsyncBuffer列表中。最后在finally块中，清空当前currentWriteBufferSize的大小，如果有数据没有提交成功，
重新把未提交的数据的大小计算起来添加到currentWriteBufferSize中。

比较doPut()和flushCommits()，如果在doput的过程中，也就是调用htable.put(Put)的时候，如果缓存大小超过了客户端写缓存大小的限制，调用backgroundFlushCommits()方法方法是异步的；而在flushcommit方法中，backgroundFlushCommits()这个方法是同步的。

接下来就是重要的提交过程，submit()方法：

进入sendMultiAction()方法，看它是如何发送put请求的：

从上面的代码可以看出，每个任务都是通过HBase的RPC框架与服务器进行通信，并获取返回的结果。其中最重要的两个组件我用红色方框已经圈出，看下他俩的具体实现：

先构造一个MultiServerCallable，然后再通过rpcCallerFactory将其封装为RpcRetryingCaller做最后的call操作。

查看MultiServerCallable：

注释里就说的很明白了，client端通过MultiServerCallable.call()方法调用res的rpc的multi()方法，来实现put提交请求。可以想象，根据讲过的《Hadoop RPC机制-原理篇》，HRegionServer端必定也有一个multi()方法。

总结put操作：
　　(1)把put操作添加到writeAsyncBuffer队列里面，符合条件（自动flush或者超过了阀值writeBufferSize）就通过AsyncProcess异步批量提交。
　　(2)在提交之前，我们要根据每个rowkey找到它们归属的region server，这个定位的过程是通过HConnection的locateRegion方法获得的，然后再把这些rowkey按照HRegionLocation分组。在获得具体region位置的时候，会对最近使用的region server做缓存，如果缓存中保存了相应的region server信息，就直接使用这个region信息，连接这个region server，否则会对master进行一次rpc操作，获得region server信息，客户端的操作put、get、delete等操作每次都是封装在一个Action对象中进行提交操作的，都是一系列的的action一起提交，这就是MultiAction。
　　(3)通过多线程，一个HRegionLocation构造MultiServerCallable，然后通过rpcCallerFactory. newCaller()执行调用，忽略掉失败重新提交和错误处理，客户端的提交操作到此结束。

下篇文章将会介绍HRegionServer如何响应客户端发出的Put请求。

在《Hbase-0.98.6源码分析--Put写操作Client端流程》中，介绍了put操作的流程，最后client端是通过MultiServerCallable.call()调用multi()方法来进行rpc请求的。追踪multi()方法，进入ClientProtos.ClientService.BlockingInterface接口的multi()抽象方法，再次追踪该方法，进入实现该方法的HRegionServer实例，查看multi()方法的具体实现：

这个方法里面还包括了PayloadCarryingRpcController和CellScanner可以看得出来它不只是被Put来用的，但是这些我们不管我们只看Put如何处理就行了。在该方法的3464行调用了getRegion()方法，来获取对应的HRegion，简单看一下：

分析下getRegionByEncodedName()方法流程，看它如何从当前regionserver中的onlnieRegions中得到请求的region.：

1.从onlineRegions中取出HRegion实例
2.如果onlineRegions列表中不包含此region,从movedRegions列表中拿到region,region的moved超时是2分钟，
如果movedRegions列表中能拿到此region,同时move时间超时，并从movedRegions列表中移出引region返回null,
否则返回正在moved的region,如果movedRegions中返回的region不为null,throwRegionMovedException
3.从regionsInTransitionInRS中获取此region,如果能拿到，同时拿到的值为true,表示region还在做opening操作，
Throw RegionOpeningException
4.如果以上得到的值都为null,表示此server中没有此region,throw NotServingRegionException
此时基本上只有一个可能，region在做split.或者move到其它server(刚完成move,client请求时不在此server)

总结下multi()方法的操作：

1、取出来所有的action(Put)，这里主要是put，因为我们调用客户端就是这么调用的，其实别的类型也可以支持，获取他们对应的region。
2、根据action的原子性来判断走哪个方法，原子性操作走mutateRows，非原子性操作走doNonAtomicRegionMutation方法，我查了一下这个Atomic到底是怎么回事，我搜索了一下代码，发现在调用HTable的mutateRow方法的时候，它设置了Atomic为true，这个是应该是支持一行数据的原子性的，有这个需求的童鞋可以尝试用这个方法，也是可以提交多个，包括Put、Delete操作。

接下来看doNonAtomicRegionMutation()方法，用于处理非原子性的put/delete/get操作，这是我们常用的方式：

这里面代码很多，也适配了很多种类型，是个大而全的方法，但是我们这里用到的只是把Put、Delete等的类型转换添加到mutations的列表里，然后走最后的圈出的doBatchOp()这个批量操作，然而这个代码也比较长，简单说一下该方法的思路：

1、还是得把Put、Delete给转换类型，这里的批量操作只支持全是Delete或者全是Put。
2、用HRegion.batchMutate方法来执行操作，返回OperationStatus数组，记录每个action的状态，是成功，还是失败，或者是别的状态。
在batchMutate()里面首先就是检查是否是只读状态，然后检查是否是Meta Region的，是否执行MemStore检查了。

终于到了最终的Big Boss类，这个类很长很长很长。。。。。。

1、重要的成员变量

2、检查Put和Delete里面的列族是否和Region持有的列族的定义相同，有时候我们在Delete的时候是不填列族的，这里它给这个缺的列族来一个KeyValue.Type.DeleteFamily，删除列族的类型。

3、给Row加锁，先计算hash值做key，如果该key没上过锁，就上一把锁，然后计算出来要写的action有多少个，记录到numReadyToWrite。

4、更新时间戳，把该action里面的所有的kv的时间戳更新为最新的时间戳，它这里也会把之前的没运行的也一起更新。

5、给该region加锁，这个时间点之后，就不允许读了，等待时间需要根据numReadyToWrite的数量来计算。

6、上锁之后，就是Put、Delete等的重点。给这些写入memstore的数据创建一个批次号。

7、把kv们写入到memstore当中，然后计算出来一个添加数据之后的新的MemStore的大小addedSize。

MemStore里面有两个kv的集合，调用applyFamilyMapToMemstore()把kv添加到集合里面去。

8、把kv添加到日志当中，标志状态为成功，如果是用户设置了不写入日志的，它就不写入日志了。
9、先异步添加日志，这里为什么是异步的，因为之前给上锁了，暂时不能读了。
10、释放之前创建的锁。

11、同步日志。
12、结束该批次的操作。

Final、同步日志没成功的，最后根据批次回滚MemStore中的操作。

大数据学习（67）- Flume、Sqoop、Kafka、DataX对比 viperrrrrrr 大数据学习 flume kafka sqoop datax
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦工具主要作用数据流向实时性数据源/目标应用场景Flume实时日志采集与传输从数据源到存储系统实时日志文件、网络流量等→HDFS、HBase、Kafka等日志收集、实时监控、实时分析Sqoop关系型数据库与Hadoop间数据同步关系型数据库→Hadoop生态系统（HDFS、Hive、
HBase学习二：HBase的表结构 hucs420109 HBase HBase
HBase的表结构初次接触HBase，可能看到以下描述会懵：“基于列存储”，“稀疏MAP”，“RowKey”,“ColumnFamily”。其实没那么高深，我们需要分两步来理解HBase,就能够理解为什么HBase能够“快速地”“分布式地”处理“大量数据”了。内存结构文件存储结构先介绍几个名称概念行键RowKey：行键，类似mysql中的主键，Table中的记录按照RowKey排序，行键是表结构的
分布式存储—— HBase数据模型详解 Future_yzx 分布式 hbase 数据库
目录1.3HBase数据模型1.3.1两类数据模型1.3.2数据模型的重要概念1.3.3数据模型的操作1.3.4数据模型的特殊属性1.3.5CAP原理与最终一致性1.3.6小结本文章参考、总结于学校教材课本《HBase开发与应用》1.3HBase数据模型在开始学习HBase之前非常有必要先学习HBase的特性，因此本节将介绍HBase的逻辑模型、物理模型和访问HBase的方法等。和传统的关系型数据
分布式存储学习——HBase表结构设计 Future_yzx oracle 数据库
目录1.4.1模式创建1.4.2Rowkey设计1.4.3列族定义1.4.3.1可配置的数据块大小1.4.3.2数据块缓存1.4.3.3布隆过滤器1.4.3.4数据压缩1.4.3.5单元时间版本1.4.3.6生存时间1.4.4模式设计实例1.4.4.1实例1：动物分类1.4.4.2实例2：店铺与商品1.4.4.3实例3：网上商城用户消费记录1.4.4.4实例4：微博用户与粉丝1.4.4.5小结本文
HBase2.6.1部署文档 CXH728 zookeeper hbase
1、HBase概述ApacheHBase是基于Hadoop分布式文件系统（HDFS）之上的分布式、列存储、NoSQL数据库。它适合处理结构化和半结构化数据，能够存储数十亿行和数百万列的数据，并支持实时读写操作。HBase通常应用于需要快速随机读写、低延迟访问以及高吞吐量的场景，例如大规模日志处理、社交网络数据存储等。HBase特性列存储模型：HBase的数据是按列族存储的，适合高稀疏数据。行键分区
使用Couchbase中的向量搜索进行智能查询 eahba python
技术背景介绍Couchbase是一种强大的分布式NoSQL数据库，广泛应用于云、移动、AI和边缘计算应用中。其向量搜索功能，作为全文搜索服务的一部分，支持在应用中进行高效的语义查询。这为开发者在实现AI驱动的应用时提供了极大的便利。核心原理解析Couchbase的向量搜索利用向量嵌入技术对文本进行处理，可以实现基于语义相似度的查询。这与传统的关键词匹配有根本的不同，更适合AI应用场景中模糊或语义相
Zookeeper与Kafka学习笔记上海研博数据 zookeeper kafka 学习
一、Zookeeper核心要点1.核心特性分布式协调服务，用于维护配置/命名/同步等元数据采用层次化数据模型（Znode树结构），每个节点可存储<1MB数据典型应用场景：HadoopNameNode高可用HBase元数据管理Kafka集群选举与状态管理2.设计限制内存型存储，不适合大数据量场景数据变更通过版本号（Version）控制，实现乐观锁机制采用ZAB协议保证数据一致性二、Kafka核心架构
phoenix无法连接hbase shell创建表失败_报错_PleaseHoldException: Master is initializing---记录020_大数据工作笔记0180 添柴程序猿 hbase连接报错 phoenix连接hbase phoenix PleaseHoldExcep
今天发现,我的phoenix,去连接hbase集群,怎么也连不上了,奇怪了...弄了一晚上org.apache.hadoop.hbase.PleaseHoldException:Masterisinitializing[root@hadoop120bin]#ll总用量184-rwxr-xr-x.1rootroot36371月222020chaos-daemon.sh-rwxr-xr-x.1root
regionserver实例僵住问题分析 spring208208 hbase hbase
问题现象：应用提交超时，发现regionserver实例异常。hbase原生页面这个实例dead，业务连接到这个rs的进程超时8个regionserver实例。D08在18：30分后显示warning，应用提交任务到这个rs节点超时，hbase控制台不显示d08的rs信息了。19：30在页面停止rs实例失败，然后kill进程。18：30统计图等就不刷新了，但是机器里rs进程在。d08节点还有dn，
hbase 默认目录_[HBase] HBase数据存储目录解析 weixin_39577422 hbase 默认目录
Hbase在hdfs上的存储位置，根目录是由配置项hbase.rootdir决定，默认就是"/hbase"/hbase/WALs在该目录下，对于每个RegionServer，都会对应1~n个子目录/hbase/oldWALs当/hbase/WALs中的HLog文件被持久化到存储文件时，它们就会被移动到/hbase/oldWALs/hbase/hbase.id集群的唯一ID/hbase/hbase.
hbase-05 namespace、数据的确界&TTL 小技工丨大数据技术学习 hbase 数据库大数据
要点掌握HBase的命名空间namespace概念掌握HBase数据版本确界掌握HBase数据TTL1.HBase的namespace1.1namespace基本介绍在HBase中，namespace命名空间指对一组表的逻辑分组，类似RDBMS中的database，方便对表在业务上划分。ApacheHBase从0.98.0,0.95.2两个版本号开始支持namespace级别的授权操作，HBase
Hbase在hdfs上的archive目录占用空间过大宝罗Paul 大数据 hbase
hbase版本：1.1.2hadoop版本：2.7.3Hbase在hdfs上的目录/apps/hbase/data/archive占用空间过大，导致不停地发出hdfs空间使用率告警。【问题】告警信息alert:datanode_storageistriggered告警信息表明某个或某些datanode的HDFS存储空间使用率已超过阈值(我们设置的是80%)，需要清理。[hdfs@master-2r
hbase集群archive目录过大问题处理 spring208208 大数据组件线上问题分析 hbase 数据库大数据
1.问题现象现场反馈hbase集群/hbase/archive目录过大，大小约为1.52PB现场集群已经清理掉2个月以前的snapshot文件，当前archive目录文件仍不能释放现场发现1T以上的archive子目录有211个查看集群hbase配置，hmaster堆栈大小20GB，hmaster清理周期5分钟查看hmaster进程分配内存占用6G上下问题分析HMaster内存估算，假如/hbas
Flume-HBase-Kafka 正在緩沖҉99% kafka Flume HBase 大数据
Flume-HBase-Kafka一、各自介绍1.Flume简介和特征2.HBase简介和特征3.Kafka简介和特征二、通过Flume读取日志文件写入到Kafka中在写入HBase各自作用一、各自介绍1.Flume简介和特征一、简介Flume是一个分布式、可靠、和高可用的海量日志聚合的系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方
大数据面试临阵磨枪不知看什么？看这份心理就有底了-大数据常用技术栈常见面试100道题大模型大数据攻城狮大数据面试职场和发展面试题数据仓库算法
目录1描述Hadoop的架构和它的主要组件。2MapReduce的工作原理是什么？3什么是YARN，它在Hadoop中扮演什么角色？4Spark和HadoopMapReduce的区别是什么？5如何在Spark中实现数据的持久化？6SparkStreaming的工作原理是什么？7如何优化Spark作业的性能？8描述HBase的架构和它的主要组件。9HBase的读写流程是怎样的？10HBase如何处理
value error wqq奋斗的小鸟 pyspark
ValueError:invalidliteralforint()withbase10:''int()函数只能转化数字组成的字符串
如何使用Spark Streaming将数据写入HBase Java资深爱好者 spark hbase 大数据
在SparkStreaming中将数据写入HBase涉及到几个步骤。以下是一个基本的指南，帮助你理解如何使用SparkStreaming将数据写入HBase。1.环境准备HBase：确保HBase集群已经安装并运行。Spark：确保Spark已经安装，并且Spark版本与HBase的Hadoop版本兼容。HBaseConnectorforSpark：你需要使用HBase的SparkConnecto
华为MRS产品组件 QianJin_zixuan hadoop hive 大数据数据库架构 gaussdb
MRS：MRS是一个在华为云上部署和管理Hadoop系统的服务，一键即可部署Hadoop集群。MRS提供租户完全可控的一站式企业级大数据集群云服务（全栈大数据平台），轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件。集群管理：使用MRS的首要操作就是购买集群，MRS的扩容不论在存储还是计算能力上，都可以简单地通过增加Core节点或者Task节点来完成。集群Core节
HBase：大数据时代的“超级数据库” 狮歌~资深攻城狮 hbase 大数据
HBase：大数据时代的“超级数据库”你是不是也被数据淹没过？大家有没有这样的经历，手机里存了成千上万张照片，每次想找某一张特定的照片时，都得翻半天？或者在工作中面对堆积如山的数据报表，感觉像是在大海捞针。今天我们要聊的HBase，就是为了解决这种“数据洪流”的问题。什么是HBase？HBase是一个分布式的、面向列的开源数据库，它基于Google的Bigtable论文设计而成。简单来说，HBas
HBase常用的Filter过滤器操作梵高的夏天 python 算法机器学习
HBase常用的Filter过滤器操作_hbasefilter-CSDN博客HBase过滤器种类很多，我们选择8种常用的过滤器进行介绍。为了获得更好的示例效果，先利用HBaseShell新建students表格，并往表格中进行写入多行数据。一、数据准备工作（1）在默认命名空间中新建表格students，设置列族info、score。hbase:002:0>create'students','inf
Pinpoint应用性能管理工具Docker化安装小苏少 Docker Linux 软件测试 docker pinpoint linux JVM监控
目录Pinpoint应用性能管理工具Docker化安装Pinpoint是什么为什么用Pinpoint下载hbase-create.hbase编写Dockerfile编写run.sh构建Dockerfile启动Pinpoint其他Pinpoint应用性能管理工具Docker化安装本文主要介绍Pinpoint应用性能管理工具Docker化安装，以及在后期Pinpoint进行版本升级时，如何同步升级Do
hbase put 写入数据慢_HBase 马斯克·贾 hbase put 写入数据慢
HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。逻辑结构物理存储结构数据模型逻辑上，HBase的数据模型同关系型数据库很类似，数据存储在一张表中，有行有列。HBase的底层物理存储结构(K-V)。NameSpace命名空间，类似于关系型数据库的DatabBase概念，每个命名空间下有多个表。HBase有两个自带的命名空间，分别是hbase和default，hbase中存放的是H
如何用HBase轻松管理海量数据？狮歌~资深攻城狮 hbase 大数据
如何用HBase轻松管理海量数据？小白也能学会的入门指南数据太多，头都大了？你有没有过这样的经历：面对堆积如山的数据文件，感觉像是被淹没在信息的海洋里？别担心，今天我们要聊的HBase，就是来帮你解决这个问题的神器。不管你是技术小白还是有一定经验的开发者，这篇文章都能让你轻松上手HBase。什么是HBase？HBase是一个分布式的、面向列的开源数据库，专门用来处理大规模数据。它基于Google的
Zookeeper（67） Zookeeper在HBase中的应用是什么？辞暮尔尔-烟火年年微服务 zookeeper hbase python
Zookeeper在HBase中起到了至关重要的作用，主要用于协调和管理HBase集群中的多个组件。具体来说，Zookeeper在HBase中的应用包括以下几个方面：Master选举：HBase集群中可以有多个Master节点，但只有一个处于Active状态，其余为Standby状态。Zookeeper用于进行Master节点的选举。RegionServer协调：Zookeeper用于管理和协调R
深入HBase——核心组件黄雪超大数据基础 #深入HBase hbase 数据库数据结构
引入通过上一篇对HBase核心算法和数据结构的梳理，我们对于其底层设计有了更多理解。现在我们从引入篇里面提到的HBase架构出发，去看看其中不同组件是如何设计与实现。核心组件首先，需要提到的就是HBase架构中会依赖到的Zookeeper和HDFS。对于HDFS看过深入HDFS的小伙伴，应该都不陌生，它提供了高可靠的海量数据存储和读写能力；而对于Zookeeper，它是一个分布式协调存储服务，主要
大数据-257 离线数仓 - 数据质量监控监控方法 Griffin架构 m0_74823705 面试学习路线阿里巴巴大数据架构
点一下关注吧！！！非常感谢！！持续更新！！！Java篇开始了！目前开始更新MyBatis，一起深入浅出！目前已经更新到了：Hadoop（已更完）HDFS（已更完）MapReduce（已更完）Hive（已更完）Flume（已更完）Sqoop（已更完）Zookeeper（已更完）HBase（已更完）Redis（已更完）Kafka（已更完）Spark（已更完）Flink（已更完）ClickHouse（已
Trae 项目常见问题解决方案强和毓Hadley
Trae项目常见问题解决方案trae:postbox:MinimalisticFetchbasedHTTPclient项目地址:https://gitcode.com/gh_mirrors/tr/trae项目基础介绍Trae是一个基于FetchAPI的极简HTTP客户端，旨在提供一个简单、轻量级的HTTP请求工具。该项目的主要编程语言是TypeScript和JavaScript。Trae的设计理念
Hbase深入浅出天才之上数据存储 Hbase 大数据存储
目录HBase在大数据生态圈中的位置HBase与传统关系数据库的区别HBase相关的模块以及HBase表格的特性HBase的使用建议Phoenix的使用总结HBase在大数据生态圈中的位置提到大数据的存储，大多数人首先联想到的是Hadoop和Hadoop中的HDFS模块。大家熟知的Spark、以及Hadoop的MapReduce，可以理解为一种计算框架。而HDFS，我们可以认为是为计算框架服务的存
深入浅出了解HBase及RDD编程山海王子大数据 hbase
深入浅出了解HBaseHBase简介架构HBase是什么样的数据库？关键是数据模型关键要素：什么是单元格时间戳的功能是什么？HBase为什么能存储海量数据创建一个HBase表配置Spark编写程序读取HBase数据编写程序向HBase写入数据关于搭建HBase高可用集群的图文教程，可参考我的另一篇博文——安装并配置HBase集群（5个节点）。HBase简介HBase是GoogleBigTable的
HBase简介：高效分布式数据存储和处理代码指四方分布式 hbase 数据库大数据
HBase简介：高效分布式数据存储和处理HBase是一个高效的、可扩展的分布式数据库，它是构建在ApacheHadoop之上的开源项目。HBase的设计目标是为大规模数据存储和处理提供高吞吐量和低延迟的解决方案。它可以在成百上千台服务器上运行，并能够处理海量的结构化和半结构化数据。HBase的核心特点包括：分布式存储：HBase使用Hadoop分布式文件系统（HDFS）作为底层存储，数据被分布在集
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio

HBase的put流程源码分析

你可能感兴趣的:(hbase)