u013063153

使用HBase Coprocessor协处理器

原文：

http://www.zhyea.com/2017/04/13/using-hbase-coprocessor.html

HBase的Coprocessor是模仿谷歌BigTable的Coprocessor模型实现的。

Coprocessor提供了一种机制可以让开发者直接在RegionServer上运行自定义代码来管理数据。

首先必须要指明使用Coprocessor还是存在一些风险的。Coprocessor是HBase的高级功能，本来是只为HBase系统开发人员准备的。因为Coprocessor的代码直接在RegionServer上运行，并直接接触数据，这样就带来了数据破坏的风险，比如“中间人攻击（Man-in-the-MiddleAttack，简称“MITM攻击”，见百度词条）”以及其他类型的恶意入侵。目前还没有任何机制来屏蔽Coprocessor导致的数据破坏。此外，因为没有资源隔离，一个即使不是恶意设计的但表现不佳的Coprocessor也会严重影响集群的性能和稳定性。

通常我们访问HBase的方式是使用scan或get获取数据，使用Filter过滤掉不需要的部分，最后在获取到的数据上进行业务运算。但是在数据量非常大的时候，比如一个有上亿行及十万个列的数据集，再按常用的方式移动获取数据就会在网络层面遇到瓶颈。客户端也需要有强大的计算能力以及足够的内存来处理这么多的数据。此外，这也会使客户端的代码变得庞大而复杂。

这种场景正是Coprocessor可以发挥作用的地方。我们可以将业务运算代码封装到Coprocessor中并在RegionServer上运行，即在数据实际存储位置执行，最后将运算结果返回到客户端。

如下的一些理论可以帮助我们理解Coprocessor是如何发挥作用的：

触发器和存储过程：一个Observer Coprocessor有些类似于关系型数据库中的触发器，通过它我们可以在一些事件（如Get或是Scan）发生前后执行特定的代码。Endpoint Coprocessor则类似于关系型数据库中的存储过程，因为它允许我们在RegionServer上直接对它存储的数据进行运算，而非是在客户端完成运算。

MapReduce：MapReduce的原则就是将运算移动到数据所处的节点。Coprocessor也是按照相同的原则去工作的。

AOP：如果熟悉AOP的概念的话，可以将Coprocessor的执行过程视为在传递请求的过程中对请求进行了拦截，并执行了一些自定义代码。

Coprocessor类型

Coprocessor可以分为两大类：Observer Coprocessors（观察者）和EndPoint Coprocessor（终端）。

Observer Coprocessors

Observer Coprocessor在一个特定的事件发生前或发生后触发。在事件发生前触发的Coprocessor需要重写以pre作为前缀的方法，比如prePut。在事件发生后触发的Coprocessor使用方法以post作为前缀，比如postPut。

Observer Coprocessor的使用场景如下：

安全性：在执行Get或Put操作前，通过preGet或prePut方法检查是否允许该操作；
引用完整性约束：HBase并不直接支持关系型数据库中的引用完整性约束概念，即通常所说的外键。但是我们可以使用Coprocessor增强这种约束。比如根据业务需要，我们每次写入user表的同时也要向user_daily_attendance表中插入一条相应的记录，此时我们可以实现一个Coprocessor，在prePut方法中添加相应的代码实现这种业务需求。
二级索引：可以使用Coprocessor来维持一个二级索引。这里暂不展开，有时间会单独说明。

根据作用的对象，Observer Coprocessor有如下几种：RegionObserver、RegionServerObserver、MasterObserver和WalObserver。我们可以通过这些Observer来处理其观察的对象的操作，比如可以通过RegionObserver处理Region相关的事件，如Get和Put操作。

Endpoint Coprocessor

Endpoint Coprocessor可以让开发者在数据本地执行运算。一个典型的案例：一个table有几百个Region，需要计算它的运行平均值或者总和。

Observer Coprocessor中代码的执行是相对透明的，而对于Endpoint Coprocessor，则需要显式的调用Table, HTableInterface或者HTable中的CoprocessorService()方法才能使之执行。

从0.96版本开始，HBase开始使用Google的protobuff。这对Endpoint Coprocessor的开发多少有一些影响。Endpoint Coprocessor不应该使用HBase内部成员，尽量只使用公共的API，最理想的情况应该是只依赖接口和数据结构。这样可以使开发的Endpoint Coprocessor更加健壮，不会受到HBase内核演进的干扰。注释为private或evolving的HBase内部API在删除前不必遵守关于deprecate的语义版本规则或相关的一般java规则。而使用protobuff生成的文件不会受到这些注释的影响，因为这些文件是用protoc工具自动生成的。在生成时这些文件时，protoc不知道也不会考虑HBase是如何工作的。

装载和卸载Coprocessor

要使用Coprocessor，就需要先完成对其的装载。这可以静态实现（通过HBase配置文件），也可以动态完成（通过shell或Java API）。

静态装载和卸载Coprocessor

按以下如下步骤可以静态装载自定义的Coprocessor。需要注意的是，如果一个Coprocessor是静态装载的，要卸载它就需要重启HBase。

静态装载步骤如下：

1. 在hbase-site.xml中使用标签定义一个Coprocessor。的子元素的值只能从下面三个中选一个：

hbase.coprocessor.region.classes 对应 RegionObservers和Endpoints；
hbase.coprocessor.wal.classes 对应 WALObservers；
hbase.coprocessor.master.classes 对应MasterObservers。

而标签的内容则是自定义Coprocessor的全限定类名。

下面演示了如何装载一个自定义Coprocessor（这里是在SumEndPoint.java中实现的），需要在每个RegionServer的hbase-site.xml中创建如下的记录：

 
              hbase.coprocessor.region.classes 
         
              org.myname.hbase.coprocessor.endpoint.SumEndPoint

如果要装载多个类，类名需要以逗号分隔。HBase会使用默认的类加载器加载配置中的这些类，因此需要将相应的jar文件上传到HBase服务端的类路径下。

使用这种方式加载的Coprocessor将会作用在HBase所有表的全部Region上，因此这样加载的Coprocessor又被称为系统Coprocessor。在Coprocessor列表中第一个Coprocessor的优先级值为Coprocessor.Priority.SYSTEM，其后的每个Coprocessor的值将会按序加一（这意味着优先级会减降低，因为优先级是按整数的自然顺序降序排列的）。

当调用配置的Observer Coprocessor时，HBase将会按照优先级顺序依次调用它们的回调方法。

2. 将代码放到HBase的类路径下。一个简单的方法是将封装好的jar（包括代码和依赖）放到HBase安装路径下的/lib目录中。

3. 重启HBase。

静态卸载的步骤如下：

1. 移除在hbase-site.xml中的配置。

2. 重启HBase。

3. 这一步是可选的，将上传到HBase类路径下的jar包移除。

动态装载Coprocessor

动态装载Coprocessor的一个优势就是不需要重启HBase。不过动态装载的Coprocessor只是针对某个表有效。因此，动态装载的Coprocessor又被称为表级Coprocessor。

此外，动态装载Coprocessor是对表的一次schema级别的调整，因此在动态装载Coprocessor时，目标表需要离线。

动态装载Coprocessor有两种方式：通过HBase Shell和通过Java API。

在下面介绍关于动态装载的部分，假设已经封装好了一个coprocessor.jar的包，里面包含实现代码及所有的依赖，并且已经将这个jar上传到了HDFS中。

通过HBase Shell动态装载和卸载

装载步骤如下

1. 在HBase Shell中disable 掉目标表

 
          hbase>disable'users' 
         

2. 使用类似如下的命令加载Coprocessor

 
          hbase alter 'users', METHOD => 'table_att', 'Coprocessor'=>'hdfs://<namenode>:<port>/ 
         
          user/<hadoop-user>/coprocessor.jar| org.myname.hbase.Coprocessor.RegionObserverExample|1073741823| 
         
          arg1=1,arg2=2'

简单解释下这个命令。这条命令在一个表的table_att中添加了一个新的属性“Coprocessor”。使用的时候Coprocessor会尝试从这个表的table_attr中读取这个属性的信息。这个属性的值用管道符“|”分成了四部分：

文件路径：文件路径中需要包含Coprocessor的实现，并且对所有的RegionServer都是可达的。这个路径可以是每个RegionServer的本地磁盘路径，也可以是HDFS上的一个路径。通常建议是将Coprocessor实现存储到HDFS。HBASE-14548允许使用一个路径中包含的所有的jar，或者是在路径中使用通配符来指定某些jar，比如：hdfs://:/user// 或者 hdfs://:/user//*.jar。需要注意的是如果是用路径来指定要加载的Coprocessor，这个路径下的所有jar文件都会被加载，不过该路径下的子目录中的jar不会被加载。另外，如果要用路径指定Coprocessor时，就不要再使用通配符了。这些特性在Java API中也得到了支持。
类名：Coprocessor的全限定类名。
优先级：一个整数。HBase将会使用优先级来决定在同一个位置配置的所有Observer Coprocessor的执行顺序。这个位置可以留白，这样HBase将会分配一个默认的优先级。
参数（可选的）：这些值会被传递给要使用的Coprocessor实现。这个项是可选的。

3. enable这个表

 
          hbase(main):003:0>enable'users' 
         

4. 检验Coprocessor是否被加载

 
          hbase(main):04:0> describe 'users' 
         

Coprocessor可以在TABLE_ATTRIBUTES中找到。

加载步骤就是这样。

卸载步骤如下

1. disbale目标表

 
          hbase>disable'users' 
         

2. 使用alter命令移除掉Coprocessor

1	hbase> alter 'users', METHOD => 'table_att_unset', NAME => 'coprocessor$1'

3. enable目标表

1	hbase>enable'users'

使用Java API动态装载和卸载

装载方式如下

针对不同版本的HBase会有不同的JavaAPI。幸运的是有一个全版本的Java API。下面的代码演示了是如何使用Java API来装载Coprocessor的：

 
          TableName tableName = TableName.valueOf("users"); 
         
          String path = "hdfs://:/user//coprocessor.jar"; 
         
          Configuration conf = HBaseConfiguration.create(); 
         
          Connection connection = ConnectionFactory.createConnection(conf); 
         
          Admin admin = connection.getAdmin(); 
         
          admin.disableTable(tableName); 
         
          HTableDescriptor hTableDescriptor = new HTableDescriptor(tableName); 
         
          HColumnDescriptor columnFamily1 = new HColumnDescriptor("personalDet"); 
         
          columnFamily1.setMaxVersions(3); 
         
          hTableDescriptor.addFamily(columnFamily1); 
         
          HColumnDescriptor columnFamily2 = new HColumnDescriptor("salaryDet"); 
         
          columnFamily2.setMaxVersions(3); 
         
          hTableDescriptor.addFamily(columnFamily2); 
         
          hTableDescriptor.setValue("COPROCESSOR$1", path + "|" 
         
          + RegionObserverExample.class.getCanonicalName() + "|" 
         
          + Coprocessor.PRIORITY_USER); 
         
          admin.modifyTable(tableName, hTableDescriptor); 
         
          admin.enableTable(tableName);

0.96及更高版本的HBase还有另一套API。在这套API里，HTableDescriptor的addCoprocessor()方法提供了一种更简单的方式来动态加载Coprocessor：

 
          TableNametableName=TableName.valueOf("users"); 
         
          Stringpath="hdfs://:/user//coprocessor.jar"; 
         
          Configurationconf=HBaseConfiguration.create(); 
         
          Connectionconnection=ConnectionFactory.createConnection(conf); 
         
          Adminadmin=connection.getAdmin(); 
         
          admin.disableTable(tableName); 
         
          HTableDescriptorhTableDescriptor=newHTableDescriptor(tableName); 
         
          HColumnDescriptorcolumnFamily1=newHColumnDescriptor("personalDet"); 
         
          columnFamily1.setMaxVersions(3); 
         
          hTableDescriptor.addFamily(columnFamily1); 
         
          HColumnDescriptorcolumnFamily2=newHColumnDescriptor("salaryDet"); 
         
          columnFamily2.setMaxVersions(3); 
         
          hTableDescriptor.addFamily(columnFamily2); 
         
          hTableDescriptor.setValue("COPROCESSOR$1",path+"|" 
         
          +RegionObserverExample.class.getCanonicalName()+"|" 
         
          +Coprocessor.PRIORITY_USER); 
         
          admin.modifyTable(tableName,hTableDescriptor); 
         
          admin.enableTable(tableName);

卸载方式如下：

卸载方式就是重新加载表定义信息。重新加载的时候就不需要再使用setValue()方法或者是addCoprocessor()方法设置表的Coprocessor信息了：

 
          TableName tableName = TableName.valueOf("users"); 
         
          String path = "hdfs://:/user//coprocessor.jar"; 
         
          Configuration conf = HBaseConfiguration.create(); 
         
          Connection connection = ConnectionFactory.createConnection(conf); 
         
          Admin admin = connection.getAdmin(); 
         
          admin.disableTable(tableName); 
         
          HTableDescriptor hTableDescriptor = new HTableDescriptor(tableName); 
         
          HColumnDescriptor columnFamily1 = new HColumnDescriptor("personalDet"); 
         
          columnFamily1.setMaxVersions(3); 
         
          hTableDescriptor.addFamily(columnFamily1); 
         
          HColumnDescriptor columnFamily2 = new HColumnDescriptor("salaryDet"); 
         
          columnFamily2.setMaxVersions(3); 
         
          hTableDescriptor.addFamily(columnFamily2); 
         
          admin.modifyTable(tableName, hTableDescriptor); 
         
          admin.enableTable(tableName);

对于0.96及更高版本的HBase，可以使用HTableDescriptor类的removeCoprocessor()方法。

Coprocessor示例程序

在写示例程序之前，先假设一个场景：我们有一张名为“users”的表，包含personalDet和salaryDet两个列族。这两个列族中分别记录了个人信息和薪资信息的详情。具体如下表：

	personalDet			salaryDet
rowkey	name	lastname	dob	gross	net	allowances
admin	Admin	Admin
cdickens	Charles	Dickens	02/07/1812	10000	8000	2000
jverne	Jules	Verne	02/08/1828	12000	9000	3000

Observer 实例

现在我们写一个Observer Coprocessor，目标是阻止在对users表进行scan或get时获取admin用户的信息。具体步骤如下：

实现RegionObserver接口。
重写preGetOp()方法（preGet()方法已经过时）检查客户端有没有查询行键为“admin”的记录。如果有的话直接返回空结果，没有的话，正常处理请求。
将代码和依赖封装成一个jar。
上传jar到HDFS——HBase需要能访问到这个HDFS。
加载Coprocessor。
编写测试程序进行测试。

下面是Coprocessor的实现：

 
          publicclassRegionObserverExampleimplementsRegionObserver{ 
         
              privatestaticfinalbyte[]ADMIN=Bytes.toBytes("admin"); 
         
              privatestaticfinalbyte[]COLUMN_FAMILY=Bytes.toBytes("details"); 
         
              privatestaticfinalbyte[]COLUMN=Bytes.toBytes("Admin_det"); 
         
              privatestaticfinalbyte[]VALUE=Bytes.toBytes("You can't see Admin details"); 
         
              @Override 
         
              publicvoidpreGetOp(finalObserverContexte,finalGetget,finalListresults) 
         
                throwsIOException{ 
         
                  if(Bytes.equals(get.getRow(),ADMIN)){ 
         
                      Cellc=CellUtil.createCell(get.getRow(),COLUMN_FAMILY,COLUMN, 
         
                      System.currentTimeMillis(),(byte)4,VALUE); 
         
                      results.add(c); 
         
                      e.bypass(); 
         
                  } 
         
              } 
         
          }

重写preGetOp方法将只对Get操作生效，要对scan生效还需要重写preScannerOpen()方法来从scan结果中过滤掉“admin”的信息：

 
          @Override 
         
          public RegionScanner preScannerOpen(final ObserverContext e, final Scan scan, 
         
          final RegionScanner s) throws IOException { 
         
              Filter filter = new RowFilter(CompareOp.NOT_EQUAL, new BinaryComparator(ADMIN)); 
         
              scan.setFilter(filter); 
         
              return s; 
         
          }

现在代码可以工作了，不过还存在一个问题：如果客户端在scan的时候也使用了Filter，客户端使用的Filter就会被这个FIlter覆盖掉。这不是一个好方法，所以我们可以在查询结果上做手脚，从查询结果中删除掉行键为“admin”的记录：

 
          @Override 
         
          publicbooleanpostScannerNext(finalObserverContexte,finalInternalScanners, 
         
          finalListresults,finalintlimit,finalbooleanhasMore)throwsIOException{ 
         
                  Resultresult=null; 
         
              Iteratoriterator=results.iterator(); 
         
              while(iterator.hasNext()){ 
         
              result=iterator.next(); 
         
                  if(Bytes.equals(result.getRow(),ROWKEY)){ 
         
                      iterator.remove(); 
         
                      break; 
         
                  } 
         
              } 
         
              returnhasMore; 
         
          }

Endpoint实例

还是对users表进行处理。这次的目标是计算所有员工的薪资的总和。需要编写一个Endpoint Coprocessor，步骤如下：

1. 创建一个“.proto”文件定义服务

 
          option java_package = "org.myname.hbase.coprocessor.autogenerated"; 
         
          option java_outer_classname = "Sum"; 
         
          option java_generic_services = true; 
         
          option java_generate_equals_and_hash = true; 
         
          option optimize_for = SPEED; 
         
          message SumRequest { 
         
              required string family = 1; 
         
              required string column = 2; 
         
          } 
         
          message SumResponse { 
         
            required int64 sum = 1 [default = 0]; 
         
          } 
         
          service SumService { 
         
            rpc getSum(SumRequest) 
         
              returns (SumResponse); 
         
          }

“.proto”是protobuff的对象描述文件，使用前需要先安装protobuff，目前使用的版本应该还是2.5版本。

2. 执行protoc命令，通过“.proto”文件生成Java代码

 
          $mkdirsrc 
         
          $protoc--java_out=src./sum.proto

根据文件描述定义将会生成一个名为Sum.java的文件。

3. 编写一个Coprocessor类，实现Coprocessor和CoprocessorService两个接口，并实现接口中定义的方法：

 
          public class SumEndPoint extends SumService implements Coprocessor, CoprocessorService { 
         
              private RegionCoprocessorEnvironment env; 
         
              @Override 
         
              public Service getService() { 
         
                  return this; 
         
              } 
         
              @Override 
         
              public void start(CoprocessorEnvironment env) throws IOException { 
         
                  if (env instanceof RegionCoprocessorEnvironment) { 
         
                      this.env = (RegionCoprocessorEnvironment)env; 
         
                  } else { 
         
                      throw new CoprocessorException("Must be loaded on a table region!"); 
         
                  } 
         
              } 
         
              @Override 
         
              public void stop(CoprocessorEnvironment env) throws IOException { 
         
                  // do mothing 
         
              } 
         
              @Override 
         
              public void getSum(RpcController controller, SumRequest request, RpcCallback done) { 
         
                  Scan scan = new Scan(); 
         
                  scan.addFamily(Bytes.toBytes(request.getFamily())); 
         
                  scan.addColumn(Bytes.toBytes(request.getFamily()), Bytes.toBytes(request.getColumn())); 
         
                  SumResponse response = null; 
         
                  InternalScanner scanner = null; 
         
                  try { 
         
                      scanner = env.getRegion().getScanner(scan); 
         
                      List results = new ArrayList(); 
         
                      boolean hasMore = false; 
         
                                  long sum = 0L; 
         
                          do { 
         
                                  hasMore = scanner.next(results); 
         
                                  for (Cell cell : results) { 
         
                                      sum = sum + Bytes.toLong(CellUtil.cloneValue(cell)); 
         
                               } 
         
                                  results.clear(); 
         
                          } while (hasMore); 
         
                          response = SumResponse.newBuilder().setSum(sum).build(); 
         
                  } catch (IOException ioe) { 
         
                      ResponseConverter.setControllerException(controller, ioe); 
         
                  } finally { 
         
                      if (scanner != null) { 
         
                          try { 
         
                              scanner.close(); 
         
                          } catch (IOException ignored) {} 
         
                      } 
         
                  } 
         
                  done.run(response); 
         
              } 
         
          }

4. 加载Coprocessor

5. 编写客户端代码调用Coprocessor

 
          Configurationconf=HBaseConfiguration.create(); 
         
          // Use below code for HBase version 1.x.x or above. 
         
          Connectionconnection=ConnectionFactory.createConnection(conf); 
         
          TableNametableName=TableName.valueOf("users"); 
         
          Tabletable=connection.getTable(tableName); 
         
          //Use below code HBase version 0.98.xx or below. 
         
          //HConnection connection = HConnectionManager.createConnection(conf); 
         
          //HTableInterface table = connection.getTable("users"); 
         
          finalSumRequestrequest=SumRequest.newBuilder().setFamily("salaryDet").setColumn("gross") 
         
                                      .build(); 
         
          try{ 
         
          Map<byte[],Long>results=table.CoprocessorService(SumService.class,null,null, 
         
          newBatch.Call<SumService,Long>(){ 
         
              @Override 
         
                  publicLongcall(SumServiceaggregate)throwsIOException{ 
         
                      BlockingRpcCallbackrpcCallback=newBlockingRpcCallback(); 
         
                      aggregate.getSum(null,request,rpcCallback); 
         
                      SumResponseresponse=rpcCallback.get(); 
         
                      returnresponse.hasSum()?response.getSum():0L; 
         
                  } 
         
              }); 
         
              for(Longsum:results.values()){ 
         
                  System.out.println("Sum = "+sum); 
         
              } 
         
          }catch(ServiceExceptione){ 
         
                e.printStackTrace(); 
         
          }catch(Throwablee){ 
         
                e.printStackTrace(); 
         
          }

部署Coprocessor的原则

更新Coprocessor

更新动态部署的Coprocessor并不是简单地disable表，替换jar，然后重新启用Coprocessor。在JVM中，如果一个类还有引用，我们就无法重新加载它。因为当前的JVM对自定义的Coprocessor还有引用，要完成更新就需要重启JVM，也就是重启RegionSever。

关于日志

Coprocessor框架并没有提供日志相关的API。

注意事项

重复加载Coprocessor

如果我们先静态加载了一个Coprocessor，而后又通过HBase Shell动态加载了一次这个Coprocessor。那么先加载的Coprocessor并不会被覆盖，而是会同时存在两个Coprocessor实例。第二个Coprocessor会有更低的优先级，换句话说，重复加载的第二个Coprocessor实例实际上没有发挥作用。

################

你可能感兴趣的:(HBase)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
Apache HBase基础（基本概述，物理架构，逻辑架构，数据管理，架构特点，HBase Shell） May--J--Oldhu HBase HBase shell hbase物理架构 hbase逻辑架构 hbase
NoSQL综述及ApacheHBase基础一.HBase1.HBase概述2.HBase发展历史3.HBase应用场景3.1增量数据-时间序列数据3.2信息交换-消息传递3.3内容服务-Web后端应用程序3.4HBase应用场景示例4.ApacheHBase生态圈5.HBase物理架构5.1HMaster5.2RegionServer5.3Region和Table6.HBase逻辑架构-Row7.
HBase（一）——HBase介绍 weixin_30595035 大数据数据库数据结构与算法
HBase介绍1、关系型数据库与非关系型数据库（1）关系型数据库关系型数据库最典型的数据机构是表，由二维表及其之间的联系所组成的一个数据组织优点：1、易于维护：都是使用表结构，格式一致2、使用方便：SQL语言通用，可用于复杂查询3、复杂操作：支持SQL，可用于一个表以及多个表之间非常复杂的查询缺点：1、读写性能比较差，尤其是海量数据的高效率读写2、固定的表结构，灵活度稍欠3、高并发读写需求，传统关
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
Hbase - 迁移数据[导出,导入] kikiki5
>有没有这样一样情况，把一个集群中的某个表导到另一个群集中，或者hbase的表结构发生了更改，但是数据还要，比如预分区没做，导致某台RegionServer很吃紧，Hbase的导出导出都可以很快的完成这些操作。![](https://upload-images.jianshu.io/upload_images/9028759-4fb9aa8ca3777969.png?imageMogr2/auto
通过DBeaver连接Phoenix操作hbase 不想做咸鱼的王富贵
通过DBeaver连接Phoenix操作hbase前言本文介绍常用一种通用数据库工具Dbeaver，DBeaver可通过JDBC连接到数据库，可以支持几乎所有的数据库产品，包括：MySQL、PostgreSQL、MariaDB、SQLite、Oracle、Db2、SQLServer、Sybase、MSAccess、Teradata、Firebird、Derby等等。商业版本更是可以支持各种NoSQ
Hbase - kerberos认证异常 kikiki2
之前怎么认证都认证不上，问题找了好了，发现它的异常跟实际操作根本就对不上，死马当活马医，当时也是瞎改才好的，给大家伙记录记录。KrbException:ServernotfoundinKerberosdatabase(7)-LOOKING_UP_SERVER>>>KdcAccessibility:removestorm1.starsriver.cnatsun.security.krb5.KrbTg
kvm 虚拟机命令行虚拟机操作、制作快照和恢复快照以及工作常用总结西京刀客云原生(Cloud Native)云计算虚拟化 Linux C/C++服务器 linux kvm
文章目录kvm虚拟机命令行虚拟机操作、制作快照和恢复快照一、kvm虚拟机命令行虚拟机操作(创建和删除)查看虚拟机virt-install创建一个虚拟机关闭虚拟机重启虚拟机销毁虚拟机二、kvm制作快照和恢复快照**创建快照**工作常见问题创建快照报错：：internalsnapshotsofaVMwithpflashbasedfirmwarearenotsupported检查虚拟机是否包含pflas
hadoop 0.22.0 部署笔记 weixin_33701564 大数据 java 运维
为什么80%的码农都做不了架构师？>>>因为需要使用hbase，所以开始对hbase进行学习。hbase是部署在hadoop平台上的NOSql数据库，因此在部署hbase之前需要先部署hadoop。环境：redhat5、hadoop-0.22.0.tar.gz、jdk-6u13-linux-i586.zipip192.168.1.128hostname：localhost.localdomain（
实时数仓之实时数仓架构(Hudi)(1)，2024年最新熬夜整理华为最新大数据开发笔试题 2401_84181221 程序员架构大数据
+Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；+Doris：OLAP引擎，同步数仓结果模型，对外提供数据服务支持；+Hbase：用来存储维表信息，维表数据来源一部分有Flink加工实时写入，另一部分是从Spark任务生产，其主要作用用来支持FlinkETL处理过程中的LookupJoin功能。这里选用Hbase原因主要因为Table的HbaseC
HBase 源码阅读（一） Such Devotion hbase 数据库大数据
1.HMastermain方法在上文中MacosM1IDEA本地调试HBase2.2.2，我们使用HMaster的主函数使用"start"作为入参，启动了HMaster进程这里我们再深入了解下HMaster的运行机理publicstaticvoidmain(String[]args){LOG.info("STARTINGservice"+HMaster.class.getSimpleName())
HBase 源码阅读（四）HBase 关于LSM Tree的实现- MemStore Such Devotion hbase lsm-tree 数据库
4.MemStore接口Memstore的函数不能并行的被调用。调用者需要持有读写锁，这个的实现在HStore中我们放弃对MemStore中的诸多函数进行查看直接看MemStore的实现类AbstractMemStoreCompactingMemStoreDefaultMemStore4.1三个实现类的使用场景1.AbstractMemStore角色:基础抽象类作用:AbstractMemStor
大数据（Hbase简单示例） BL小二 hbase 大数据 hadoop
importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.apache.hadoop.hbase.TableName;importorg.apache.hadoop.hbase.client.*;importorg.apache.hadoop.hbase
Hbase的简单使用示例傲雪凌霜，松柏长青后端大数据 hbase 数据库大数据
HBase是基于HadoopHDFS构建的分布式、列式存储的NoSQL数据库，适用于存储和检索超大规模的非结构化数据。它支持随机读写，并且能够处理PB级数据。HBase通常用于实时数据存取场景，与Hadoop生态紧密集成。使用HBase的Java示例前置条件HBase集群：确保HBase集群已经安装并启动。如果没有，你可以通过本地伪分布模式或Docker来运行HBase。Hadoop配置：HBas
快手HBase在千亿级用户特征数据分析中的应用与实践王知无
声明：本文的原文是来自Hbase技术社区的一个PPT分享，个人做了整理和提炼。大家注意哈，这种会议PPT类的东西能学习到的更多的是技术方案和他人在实践过程中的经验。希望对大家有帮助。背景快手每天产生数百亿用户特征数据，分析师需要在跨30-90天的数千亿特征数据中，任意选择多维度组合(如:城市=北京&性别=男)，秒级分析用户行为。针对这一需求,快手基于HBase自主研发了支持bitmap转化、存储、
ClickHouse与其他数据库的对比九州Pro ClickHouse 数据库 clickhouse 数据仓库大数据 sql
目录1与传统关系型数据库的对比1.1性能差异1.2数据模型差异1.3适用场景差异2与其他列式存储数据库的对比2.1ApacheCassandra2.2HBase3与分布式数据库的对比3.1GoogleBigQuery3.2AmazonRedshift3.3Snowflake4ClickHouse的缺点5ClickHouse的其他优点1与传统关系型数据库的对比1.1性能差异ClickHouse是一种
Hbase、hive以及ClickHouse的介绍和区别？ damokelisijian866 hbase hive clickhouse
一、Hbase介绍：HBase是一个分布式的、面向列的开源数据库，由ApacheSoftwareFoundation开发，是Hadoop生态系统中的一个重要组件。HBase的设计灵感来源于Google的Bigtable论文，它通过提供类似于Bigtable的能力，在Hadoop之上构建了一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。HBase主要用于存储大量结构化数据，并支持随机读写访问，
Hive和Hbase的区别傲雪凌霜，松柏长青大数据后端 hive hbase hadoop
Hive和HBase都是Hadoop生态系统中的重要组件，它们都能处理大规模数据，但各自有不同的适用场景和设计理念。以下是两者的主要区别：1.数据模型Hive：Hive类似于传统的关系型数据库(RDBMS)，以表格形式存储数据。它使用SQL-like语言HiveQL来查询和处理数据，数据通常是结构化或半结构化的。HBase：HBase是一个NoSQL数据库，基于Google的BigTable模型。
HBase 傲雪凌霜，松柏长青大数据后端 hbase 数据库大数据
ApacheHBase是一个基于Hadoop分布式文件系统（HDFS）构建的分布式、面向列的NoSQL数据库，主要用于处理大规模、稀疏的表结构数据。HBase的设计灵感来自Google的Bigtable，能够在海量数据中提供快速的随机读写操作，适合需要低延迟和高吞吐量的应用场景。HBase核心概念表（Table）：HBase的数据存储在表中，与传统的关系型数据库不同，HBase的表是面向列族（Co
大数据面试题：说下为什么要使用Hive？Hive的优缺点？Hive的作用是什么？蓦然_ 大数据面试题 hive 大数据开发面试题大数据面试
1、为什么要使用Hive？Hive是Hadoop生态系统中比不可少的一个工具，它提供了一种SQL(结构化查询语言)方言，可以查询存储在Hadoop分布式文件系统（HDFS）中的数据或其他和Hadoop集成的文件系统，如MapR-FS、Amazon的S3和像HBase（Hadoop数据仓库）和Cassandra这样的数据库中的数据。大多数数据仓库应用程序都是使用关系数据库进行实现的，并使用SQL作为
Hadoop组件静听山水 Hadoop hadoop
这张图片展示了Hadoop生态系统的一些主要组件。Hadoop是一个开源的大数据处理框架，由Apache基金会维护。以下是每个组件的简短介绍：HBase：一个分布式、面向列的NoSQL数据库，基于GoogleBigTable的设计理念构建。HBase提供了实时读写访问大量结构化和半结构化数据的能力，非常适合大规模数据存储。Pig：一种高级数据流语言和执行引擎，用于编写MapReduce任务。Pig
Hbase BulkLoad用法 kikiki2
要导入大量数据，Hbase的BulkLoad是必不可少的，在导入历史数据的时候，我们一般会选择使用BulkLoad方式，我们还可以借助Spark的计算能力将数据快速地导入。使用方法导入依赖包compilegroup:'org.apache.spark',name:'spark-sql_2.11',version:'2.3.1.3.0.0.0-1634'compilegroup:'org.apach
EMR组件部署指南 ivwdcwso 运维 EMR 大数据开源运维
EMR(ElasticMapReduce)是一个大数据处理和分析平台,包含了多个开源组件。本文将详细介绍如何部署EMR的主要组件,包括:JDK1.8ElasticsearchKafkaFlinkZookeeperHBaseHadoopPhoenixScalaSparkHive准备工作所有操作都在/data目录下进行。首先安装JDK1.8:yuminstalljava-1.8.0-openjdk部署
Sublime text3+python3配置及插件安装 raysonfang
作者：方雷个人博客：http://blog.chargingbunk.cn/微信公众号：rayson_666(Rayson开发分享)个人专研技术方向：微服务方向：springboot,springCloud,Dubbo分布式/高并发：分布式锁，消息队列RabbitMQ大数据处理：Hadoop,spark,HBase等python方向：pythonweb开发一，前言在网上搜索了一些Python开发的
Spring Data：JPA与Querydsl 光图强 java
JPAJPA是java的一个规范，用于在java对象和数据库之间保存数据，充当面向对象领域模型和数据库之间的桥梁。它使用Hibernate、TopLink、IBatis等ORM框架实现持久性规范。SpringDataSpringData是Spring的一个子项目，用于简化数据库访问，支持NoSql数据和关系数据库。支持的NoSql数据库包括：Mongodb、redis、Hbase、Neo4j。Sp
HBase 源码阅读（二） Such Devotion hbase 数据库大数据
衔接在上一篇文章中，HMasterCommandLine类中在startMaster();方法中//这里除了启动HMaster之外，还启动一个HRegionServerLocalHBaseClustercluster=newLocalHBaseCluster(conf,mastersCount,regionServersCount,LocalHMaster.class,HRegionServer.
大数据技术之HBase 与 Hive 集成(7) 大数据深度洞察 Hbase 大数据 hbase hive
目录使用场景HBase与Hive集成使用1）案例一2）案例二使用场景如果大量的数据已经存放在HBase上面，并且需要对已经存在的数据进行数据分析处理，那么Phoenix并不适合做特别复杂的SQL处理。此时，可以使用Hive映射HBase的表格，之后通过编写HQL进行分析处理。HBase与Hive集成使用Hive安装https://blog.csdn.net/qq_45115959/article/
【HBase之轨迹】（1）使用 Docker 搭建 HBase 集群寒冰小澈IceClean 【大数据之轨迹】【Docker之轨迹】笔记 hbase docker hadoop
——目录——0.前置准备1.下载安装2.配置（重）3.启动与关闭4.搭建高可用HBase前言（贫穷使我见多识广）前边经历了Hadoop，Zookeeper，Kafka，他们的集群，全都是使用Docker搭建的一开始的我认为，把容器看成是一台台独立的服务器就好啦也确实是这样，但端口映射问题，让我一路以来磕碰了太多太多，直到现在的HBase，更是将Docker集群所附带的挑战性，放大到了极致（目前是如
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include