窝头就辣椒

HBase最佳实践－多租户机制简析

本篇文章转自两篇博客，因为hbase中资源的划分有三种方式，两位老师的文章都只写了其中部分。

背景介绍

在HBase1.1.0发布之前，HBase同一集群上的用户、表都是平等的，没有优劣之分。这种’大同’社会看起来完美，实际上有很多问题。最棘手的主要有这么两个，其一是某些业务较其他业务重要，需要在资源有限的情况下优先保证核心重要业务的正常运行，其二是有些业务在某些场景下会时常’抽风’，QPS常常居高不下，严重消耗系统资源，导致其他业务无法正常运转。
这实际上是典型的多租户问题，社区针对这个问题提出了相应的应对措施，主要有如下三点：

（1）资源限制，主要针对用户、namespace以及表的QPS和请求大小进行限制，详见HBase-11598
（2）资源调度，主要针对任务进行优先级调度，通常会优先调度实时交互而且小的任务，而批量操作任务或者长时间操作任务（大scan）优先级相对较低，详见HBase-10993
（3）资源隔离，将不同表通过物理隔离的方式分布到不同的RegionServer上，详见HBase-6721

本文将会重点介绍HBase中的资源限制方案 – Quotas，主要对其使用方式、实现原理进行介绍，并对其实际效果通过实践进行验证。另外，本文还会对HBase的资源调度原理进行简单介绍，并对主要配置进行讲解。

资源限制－Quotas

Quotas使用条件

（1）HBase版本在1.1.0以上，或者低版本HBase应用了对应的Patch（HBase-11598）
（2）Quotas功能默认是关闭的，需要在配置文件hbase-site.xml中通过设置hbase.quota.enabled为true打开。设置完成之后，需要重启HMaster才能生效。

Quotas语句详解

hbase> set_quota TYPE => THROTTLE, THROTTLE_TYPE => READ, USER => 'u1', TABLE => 't2', LIMIT => '10req/sec'

（1）Quotas分别支持表级别以及用户级别资源限制，或者同时支持表级别和用户级别，如示例所示
（2）THROTTLE_TYPE可以取值READ / WRITE，分别对随机读和随机写进行限制
（3）LIMIT 可以从两个维度对资源进行限制，分别为req/time 和 size/time，前者限制单位时间内的请求数，后者限制单位时间内的请求数据量。需要指明的是time的单位可以是sec | min | hour | day，size的单位可以是B(bytes) | K | M | G | T | P，因此LIMIT可以表示为’1000req/min’或者’100G/day’，分别表示’限制1分钟的请求数在1000次以内’，’限制每天的数据量为100G’

常用Quotas语句

hbase> set_quota TYPE => THROTTLE, TABLE => 't1', LIMIT => '1000req/sec'
hbase> set_quota TYPE => THROTTLE, THROTTLE_TYPE => WRITE, USER => 'u1', LIMIT => '10M/sec'

注意事项

（1）set_quota命令执行的限制都是针对单个RegionServer来说的，并不是针对整个集群
（2）set_quota命令默认执行后并不会立刻生效，需要等待一段时间才会生效，等待时间默认为5min。可以通过参数 hbase.quota.refresh.period 进行设置，比如可以通过设置
hbase.quota.refresh.period = 60000将生效时间缩短为1min
（3）可以通过命令list_quotas查看当前所有执行的set_quota命令

Quotas – 实现原理

原理很简单，如果请求数超过设置的Quota数，就抛出异常！有同学会说也没在日志中看到任何异常嘛，这是因为这类异常日志级别是debug，而默认的日志输出级别为info，可以通过调整log4j来查看。但是这类异常实在太多，没有必要输出。

Quotas – 实践效果

了解了Quotas的使用方法以及基本原理，是不是很想试一试它的功效，笔者在测试环境做了如下的测试：

1. 测试硬件情况

集群规模	RS JVM内存配置	硬盘	HBase版本	YCSB版本
4台RegionServer	72G	12 * 3.6T	1.1.2	0.8.0

2. 测试环境新建两张表，分别称为A和B。两张表的数据构成都相同，10亿条数据，每条数据500Bytes，总大小500G左右。
3. 分别使用两个YCSB客户端分别对这两张表执行读写混合操作（读写比为1:1），再然后对B表不断执行set_quota操作，对该表QPS进行限制。再分别观察A表和B表的QPS以及读延迟变化情况。
4. 为了方便理解，下面测试结果中A表称为Unthrottle_Table，B表称为Throttle_Table。测试结果如下：

通过测试基本可以看出，随着B表执行的QPS限制越来越严格，上图中Throttle_Table表对应的吞吐量（红色柱状图）越来越小，相应Unthrottle_Table表（紫色柱状图）对应的吞吐量却越来越大，这是因为B表执行QPS限制之后各种硬件资源就会更多地分配给A表。
总体来说，Quotas功能总体看来基本完成了资源限制的职能，达到了资源限制的目的。同时支持用户级别和表级别，另外同时支持请求大小和请求数量两个维度，基本涵盖了常见的资源限制维度；另外，易用性也是一大亮点，比较人性化，只需要在Shell界面上敲一行命令就可以搞定。

资源调度

在 0.99版本之前，HBase只提供了一种请求队列类型：FIFO队列，意为先到的请求会优先被处理，后到的请求需要等待之前的请求被处理完。这样的设计有一个致命的缺陷，就是在线交互式查询有可能会被离线大scan长时间阻塞，而从优先级的角度讲在线交互式查询无疑更加重要。

0.99版本之后，HBase将默认请求队列由FIFO类型改为了Deadline类型，用来解决上述缺陷。提起DeadLine队列，很多对Linux IO调度算法比较了解的同学并不陌生，Linux IO常用调度算法主要有Noop、CFQ（Completely Fair Queuing）以及Deadline，其中Noop调度算法基本可以认为就是FIFO算法，因此同样存在上述弊端；而CFQ算法会按照IO请求的地址进行排序，这样处理的目的在于尽量少地减少磁盘移动，实际效果来看确实极大的提升了IO的吞吐率，但是相比Noop，部分IO请求有可能会一直排到队尾，存在饿死的情况。Deadline算法首先将读写IO队列进行了分离，而且读IO优先级要高于写IO优先级；除此之外，它还会为每一个IO请求设置一个时间戳，用以判断请求是否长时间没有得到处理，进而需要优先处理。需要知道的是，对于常见数据库环境来说（Oracle,MySQL等），Deadline算法总是最佳选择。

那HBase新增的Deadline算法和Linux IO中Deadline算法是否一样呢？答案是肯定的，至少两者实现思路基本是一致的。接下来主要结合HBase请求调度源码对Deadline算法进行深入分析。
Deadline算法基于Deadline类型队列实现，Deadline类型队列和FIFO类型队列不同，属于优先级队列，里面的元素会按照优先级进行排序，优先级高的排在队首，优先级低的排在队尾。很显然，Deadline算法目标是使得在线交互式查询请求优先级更高，而离线长scan请求优先级更低。除此之外还有一个通常不会被注意的目标：不能出现任何请求被饿死！在弄懂具体的实现机制前，需要首先搞清楚一个问题：如何量化一个scan的请求长短？

如何量化一个scan的请求长短：这个问题的理解需要对scan的流程有一个大体认识，一次scan请求并不会将所有数据查询返回，这一方面是因为在数据量大的场景下诸如带宽之类的系统资源会被严重消耗，另一方面也有可能会因为数据量大导致客户端OOM。因此HBase实际上将一次scan请求分为多次连续的next小请求执行，每次查询纪录数用户可以配置，默认为100条。这样假如一次scan查询总纪录数为1000，每次查询返回100条，就需要10次客户端到服务器端的next请求。看到这里，很多童鞋已经明白，可以通过当前RPC请求次数（即next RPC调用次数）粗略地衡量scan的长短，比如当前scanA的RPC请求次数为10，scanB的RPC请求次数为5，就可以认为scanA长于scanB，那理论上scanA的这次请求优先级就会低于scanB的这次请求。
HBase在具体实现中会为每一个请求设置一个deadline（时间期限），代表这个请求的处理期限，deadline越小，请求优先级越高。

这个deadline参数是理解HBase资源调度的关键，它由两部分构成：后半部分的核心在于vtime，代表当前scan的next请求次数，可见vtime越大（scan越长），对应的deadline越大，优先级越低；因为设定get操作的vtime为0，因此同等条件下get操作优先级最高；可见，通过vtime就可以实现请求优先级功能。那对于长scan，会不会出现因为优先级太低长时间得不到处理饿死的情况呢？这就需要看看前半部分，timestamp表示请求点的绝对时间戳，设置绝对时间戳是为了保证该请求的deadline肯定早于5s（等式后面部分最大就是5s）之后所有请求的deadline，从而能够保证不会被饿死；

好吧，上面不是说Linux IO调度系统中Deadline算法还实现了读IO和写IO的分离，那HBase实现了么？当然，用户只需要通过简单的配置就不仅可以实现读请求和写请求的分离，还可以实现了scan请求的分离。

默认场景下，HBase只提供一个队列，所有请求都会进入该队列进行优先级排序。用户可以通过设置参数hbase.ipc.server.callqueue.handler.factor来设置多个队列，队列个数等于该参数 * handlercount，比如该参数设置为0.1，总的handlercount胃150，则会产生15个独立队列。
独立队列产生之后，可以通过参数 hbase.ipc.server.callqueue.read.ratio 来设置读写队列比例，比如设置0.6，则表示会有9个队列用于接收读请求，6个用于接收写请求；另外，可以通过参数 hbase.ipc.server.callqueue.scan.ratio 设置get和scan的队列比例，比如设置为0.1，表示1个队列用于scan请求，另外8个用于get请求；

总结

本文主要介绍了HBase中多租户实现中的两个重要手段：资源限制以及资源调度，对其工作原理以及使用方法进行了解析。后续再针对资源隔离这个重头戏进行深入解析~（原文链接 http://hbasefly.com/2016/09/26/hbase-mutiltenant-1/）

第三种资源隔离方式见下文

背景

随着 Apache HBase 在各个领域的广泛应用，在 HBase 运维或应用的过程中我们可能会遇到这样的问题：

同一个 HBase 集群使用的用户越来越多，不同用户之间的读写或者不同表的 compaction、region splits 操作可能对其他用户或表产生了影响。将所有业务的表都存放在一个集群的好处是可以很好的利用整个集群的资源，只需要一套运维系统。
如果一个业务或者一个部门使用一个 HBase 集群，这样会导致 HBase 集群的数量越来越多，直接导致了运维成本的增加。而且集群的分离也会导致资源的浪费，有些集群资源过剩，有些集群资源不足，这种情况我们无法充分利用不同集群的资源。将集群按照业务或部门分开的好处是可以很好的隔离不同表、不同用户之间的影响。

上面两种情况均存在不足，如果我们能够多租户共用一套集群，而且能够使不同用户之间进行隔离，在上层用户看来好像是独享一套 HBase 集群。为了解决这个问题，来自雅虎的 Francis Liu 提出了多租户隔离技术：RegionServer Group，详情请参见 HBASE-6721。这个技术的目标就是只需维护一个 HBase 集群，同时满足各个表在性能上、操作上的互不干扰，又支持访问安全隔离。

RegionServer Group

RegionServer Group 技术是通过对 RegionServer 进行分组，不同的 RegionServer 分到不同的组。每个组可以按需挂载不同的表，并且当组内的表发生异常后，Region 不会迁移到其他的组。这样，每个组就相当于一个逻辑上的子集群，通过这种方式达到资源隔离的效果，降低管理成本，不必为每个高 SLA 的业务线单独搭集群。

从上图可以看出，RegionServer 1 和 RegionServer 2 同属于 iteblog Group 1，而且管理 Table 1 和 Table 3 两张表；RegionServer 3 和 RegionServer 4 同属于 iteblog Group 2，而且管理 Table 2 和 Table 4 两张表。从用户角度上看，RegionServer 1 和 RegionServer 2 看起来是属于一个集群；而 RegionServer 3 和 RegionServer 4 同属于一个集群，这两个组之间均不互相影响。但是对于集群运维人员来说，这就是一个 HBase 集群，我们只需要运维这一个 HBase 集群即可，大大降低了运维成本。

技术简要介绍

在引入 RegionServer Group 技术之前，HBase 默认使用 StochasticLoadBalancer 策略（通过 hbase.master.loadbalancer.class 参数实现，参见HBASE-9555）将表的 Region 移动到 RegionServer 里面去。这种策略被没有考虑到 RegionServer Group 的信息，所以如果要对 RegionServer 分组，我们就需要在移动 Region 的时候考虑到这些信息。

基于这些信息，社区开发出能够识别出 RegionServer Group 信息的 RSGroupBasedLoadBalancer，这个类和上面的 StochasticLoadBalancer都是实现了 LoadBalancer 接口的，详见 HBASE-6721。

在默认情况下，所有的表和 RegionServer 都属于 default 组。RSGroupBasedLoadBalancer 类具有识别组信息的能力，所以在移动表的 Region 到 RegionServer 的时候会考虑到 RegionServer Group 信息的。为了启用这个特性，我们需要在 master 节点的 hbase-site.xml 文件加入以下的配置：


   hbase.coprocessor.master.classes
   org.apache.hadoop.hbase.rsgroup.RSGroupAdminEndpoint

 

   hbase.master.loadbalancer.class
   org.apache.hadoop.hbase.rsgroup.RSGroupBasedLoadBalancer

设置完之后需要重启 master 节点。

RegionServer Group 技术新引入的命令

RegionServer Group 技术为我们带来了以下13个新的 HBase shell 命令。使用下面的命令一定需要在 master 节点上的 hbase-site.xml 文件配置好上面两个属性。否则将会出现 UnknownProtocolException: No registered Master Coprocessor Endpoint found for RSGroupAdminService 异常。如下所示：

hbase(main):002:0> list_rsgroups
NAME                                            SERVER / TABLE
 
ERROR: org.apache.hadoop.hbase.exceptions.UnknownProtocolException: No registered Master Coprocessor Endpoint found for RSGroupAdminService. Has it been enabled?
    at org.apache.hadoop.hbase.master.MasterRpcServices.execMasterService(MasterRpcServices.java:802)
    at org.apache.hadoop.hbase.shaded.protobuf.generated.MasterProtos$MasterService$2.callBlockingMethod(MasterProtos.java)
    at org.apache.hadoop.hbase.ipc.RpcServer.call(RpcServer.java:413)
    at org.apache.hadoop.hbase.ipc.CallRunner.run(CallRunner.java:130)
    at org.apache.hadoop.hbase.ipc.RpcExecutor$Handler.run(RpcExecutor.java:324)
    at org.apache.hadoop.hbase.ipc.RpcExecutor$Handler.run(RpcExecutor.java:304)
 
List all RegionServer groups. Optional regular expression parameter can
be used to filter the output.
 
Example:
 
  hbase> list_rsgroups
  hbase> list_rsgroups 'abc.*'
 
 
Took 1.1077 seconds

list_rsgroups：列出所有的 RegionServer groups，我们可以在这个命令的后面使用正则表达式来过滤一些我们要的信息。

hbase> list_rsgroups
hbase> list_rsgroups 'iteblog.*'

get_rsgroup：获取某个 RegionServer group 的信息。

hbase> get_rsgroup 'default'

add_rsgroup：创建一个新的 RegionServer Group。

hbase> add_rsgroup 'iteblog_group'

remove_rsgroup：删除某个 RegionServer Group。

hbase> remove_rsgroup 'iteblog_group'

balance_rsgroup：对某个 RegionServer Group 进行 balance 操作。

hbase> balance_rsgroup 'iteblog_group'

move_servers_rsgroup：将 RegionServers 从一个组移动到另一个组。 RegionServer 中的所有 Region 都将移动到另一个 RegionServer 中。

hbase> move_servers_rsgroup 'dest',['server1:port','server2:port']

move_tables_rsgroup：将表从一个 RegionServer Group 移动另一个 RegionServer Group。

hbase> move_tables_rsgroup 'dest',['table1','table2']

move_namespaces_rsgroup：将指定命名空间的表从一个 RegionServer Group 移动另一个 RegionServer Group。

hbase> move_namespaces_rsgroup 'dest',['ns1','ns2']

move_servers_tables_rsgroup：将 RegionServers 和 Tables 从一个 RegionServer Group 移动另一个 RegionServer Group。

hbase> move_servers_tables_rsgroup 'dest',['server1:port','server2:port'],['table1','table2']

move_servers_namespaces_rsgroup：将指定命名空间的 RegionServers 和 Tables 从一个 RegionServer Group 移动另一个 RegionServer Group。

hbase> move_servers_namespaces_rsgroup 'dest',['server1:port','server2:port'],['ns1','ns2']

get_server_rsgroup：获取给定 RegionServer 所属的 RegionServer Group。

hbase> get_server_rsgroup 'server1:port1'

get_table_rsgroup：获取给定表所属的 RegionServer Group。

hbase> get_table_rsgroup 'iteblog_Table'

remove_servers_rsgroup：从 RegionServer Group 中删除已停用的 Region。处于 Dead/recovering/live 状态的 Region 将无法操作。

hbase> remove_servers_rsgroup ['server1:port','server2:port']

如何使用 RegionServer Group

我们前面说了，如果没有创建 RegionServer Group 的话，HBase 默认的组只有 default，而且所有的表和 RegionServer 都属于 default 组，如下：

hbase(main):001:0> list_rsgroups
NAME                                            SERVER / TABLE
 default                                        server 192.168.1.103:16020
                                                server 192.168.1.103:16021
                                                table hbase:meta
                                                table hbase:namespace
                                                table hbase:rsgroup
2 row(s)
Took 1.4986 seconds

现在我们使用 add_rsgroup 命令创建了一个名为 iteblog_group 的组：

hbase(main):020:0> add_rsgroup 'iteblog_group'
Took 0.0444 seconds
hbase(main):021:0> list_rsgroups
NAME                                            SERVER / TABLE
 iteblog_group
 default                                        server 192.168.1.103:16020
                                                server 192.168.1.103:16021
                                                table hbase:meta
                                                table hbase:namespace
                                                table hbase:rsgroup
2 row(s)
Took 0.0101 seconds

下面命令我们将 192.168.1.103:16021 RegionServer 移到了名为 iteblog_group 组里面：

hbase(main):022:0> move_servers_rsgroup 'iteblog_group', ['192.168.1.103:16021']
Took 1.0220 seconds
hbase(main):023:0> list_rsgroups
NAME                                            SERVER / TABLE
 iteblog_group                                  server 192.168.1.103:16021
 default                                        server 192.168.1.103:16020
                                                table hbase:meta
                                                table hbase:namespace
                                                table hbase:rsgroup
2 row(s)
Took 0.0102 seconds

我们已经看到了地址为 192.168.1.103:16021 的 RegionServer 已经移到名为 iteblog_group 的组了。现在我们来创建一张表 iteblog_table，并且把这张表移到名为 iteblog_group 的组里面。为了演示 RegionServer Group 的作用，这里我现在创建一张名为 iteblog_table 的表，并且设置了预分区，如下：

hbase(main):011:0> create 'iteblog_table', 'cf', SPLITS=>['10','20','30','40']
Created table iteblog_table
Took 1.3884 seconds
=> Hbase::Table - iteblog_table
hbase(main):013:0> get_table_rsgroup 'iteblog_table'
default
1 row(s)
Took 0.0281 seconds

从上面的输出可以看到，创建表的时候，默认是属于 default 组，虽然我们有两个 RegionServer，而且设置了预分区，按正常情况， iteblog_table 的 Region 应该是会分布在这两个 RegionServer 上的。但实际上因为这两个 RegionServer 的组不一样，而且 iteblog_table 的组属于 default，所有 iteblog_table 的 Region 全部位于 192.168.1.103:16020 上。正如下图所示：

现在我们将表 iteblog_table 移到名为 iteblog_group 的组里面，那属于 iteblog_table 的 Region 也应该全部移到 iteblog_group 里面的：

hbase(main):007:0> move_tables_rsgroup 'iteblog_group', ['iteblog_table']
Took 5.6177 seconds
 
hbase(main):008:0> get_table_rsgroup 'iteblog_table'
iteblog_group
1 row(s)
Took 0.0202 seconds

我们已经看到 iteblog_table 所属的组为 iteblog_group，从下图也可以看到，iteblog_table 的所有 Region 全部移到了 192.168.1.103:16021 上。

我们还可以为命名空间设置 RegionServer 组，这样属于这个命名空间的表都属于这个 RegionServer 组：

hbase(main):012:0> create_namespace 'iteblog_namespace', {'hbase.rsgroup.name'=>'iteblog_group'}
Took 0.3406 seconds
hbase(main):013:0> create 'iteblog_namespace:mytable', 'f'
Created table iteblog_namespace:mytable
Took 0.8126 seconds
=> Hbase::Table - iteblog_namespace:mytable
hbase(main):014:0> get_table_rsgroup 'iteblog_namespace:mytable'
iteblog_group
1 row(s)
Took 0.0080 seconds

好了，到这里我们已经了解了 HBase RegionServer Group 技术，已经如何使用了。剩下的命令我就不再介绍，感兴趣的同学可以自己再去学习。

上文转载自过往记忆（https://www.iteblog.com/，原文链接https://www.iteblog.com/archives/2435.html）

没办法，英文不好，即使在issues上看了hbase的原特征说明，也看的不是太懂，所以把两篇博客转过来，后面如果忘记了以供参考

你可能感兴趣的:(hbase,hadoop,hbase,hbase-resource,hadoop)

Hive简介
文章目录Hive简介Hive特点Hive和RDBMS的对比Hive的架构Hive的数据组织Hive数据类型Hive简介1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在HDFS上6、Hive的本质是将SQL语句转换为MapReduce任务运行7、使不熟悉MapRedu
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
大数据技术之集群数据迁移
dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.
HIVE（二） 2301_78012738 hive 数据仓库
目录访问HIVE的三种方式DDLDML数据操作向表中装载数据数据导出常用函数Like和RLike分组Join排序分区表和分桶表访问HIVE的三种方式启动Hive命令，CtrlC退出客户端，执行测试语句，与sql一致[wyc@hadoop102hive]$bin/hive经验小结：在hive中执行语句报错：ExecutionError,returncode2fromorg.apache.hadoop
安全运维的 “五层防护”：构建全方位安全体系 KKKlucifer 安全运维
在数字化运维场景中，异构系统复杂、攻击手段隐蔽等挑战日益突出。保旺达基于“全域纳管-身份认证-行为监测-自动响应-审计溯源”的五层防护架构，融合AI、零信任等技术，构建全链路安全运维体系，以下从技术逻辑与实践落地展开解析：第一层：全域资产纳管——筑牢安全根基挑战云网基础设施包含分布式计算（Hadoop/Spark）、数据流处理（Storm/Flink）等异构组件，通信协议繁杂，传统方案难以全面纳管
ftp文件服务器有连接数限制,查看ftp服务器连接数命令赵承铭 ftp文件服务器有连接数限制
查看ftp服务器连接数命令内容精选换一换本章节适用于MRS3.x之前版本。Loader支持以下多种连接，每种连接的配置介绍可根据本章节内容了解。obs-connectorgeneric-jdbc-connectorftp-connector或sftp-connectorhbase-connector、hdfs-connector或hive-connectorOBS连接是Loa“数据导入”章节适用于
Hive 事务表(ACID)问题梳理
文章目录问题描述分析原因什么是事务表概念事务表和普通内部表的区别相关配置事务表的适用场景注意事项设计原理与实现文件管理格式参考博客问题描述工作中需要使用pyspark读取Hive中的数据，但是发现可以获取metastore，外部表的数据可以读取，内部表数据有些表报错信息是：AnalysisException:org.apache.hadoop.hive.ql.metadata.HiveExcept
HBase总结
HBase1.HBase核心概念HBase的作用HBase主要用于存储和管理超大规模的结构化或半结构化数据（如PB级），特点包括：高扩展性：通过分布式架构横向扩展，支持数千台服务器高吞吐量：适合实时随机读写（如用户行为日志、实时分析）强一致性：保证同一行数据的原子性操作灵活的数据模型：支持动态列和稀疏存储典型应用场景：互联网公司的用户行为日志存储（如点击流数据）社交媒体的实时消息存储物联网设备时序
Docker快速构建Hive测试环境静谧星光 docker hive 容器编程
Docker是一种流行的容器化平台，可以帮助我们快速构建和管理应用程序的环境。在本文中，我们将学习如何使用Docker快速构建Hive测试环境。Hive是一个基于Hadoop的数据仓库基础设施，它提供了一种类似于SQL的查询语言，用于分析和处理大规模数据集。步骤1：安装Docker和DockerCompose首先，我们需要安装Docker和DockerCompose。您可以根据您的操作系统类型，从
HDFS 伪分布模式搭建与使用全攻略（适合初学者 & 开发测试环境） huihui450 hdfs hadoop 大数据
HDFS（HadoopDistributedFileSystem）作为Hadoop生态系统的核心组件，广泛应用于海量数据的分布式存储场景。对于开发者而言，伪分布模式提供了一种低成本、高还原度的学习与测试方式。本文将详细介绍如何在本地搭建并使用HDFS的伪分布模式，包括环境准备、配置过程、常用命令及常见问题排查，帮助你快速入门Hadoop分布式文件系统的实践操作。一、什么是伪分布模式？Hadoop有
YARN container cpu超核如何解决 fzip YARN 超核
在ApacheHadoopYARN中，ContainerCPU超核（即Container使用的CPU资源超过分配量）是一个常见问题，可能导致集群性能下降或不稳定。以下是解决该问题的详细步骤：1.问题诊断1.1确认超核现象查看YARNWebUI：访问http://:8088，检查Container的CPU使用率是否持续超过分配的vCore数。检查NodeManager日志：查看/var/log/ha
Hadoop-Mapreduce入门
Hadoop-Mapreduce入门MapReduce介绍mapreduce设计MapReduce编程规范入门案例WordCountMapReduce介绍MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。知识。Map负责“分”，把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。Redu
Hadoop MapReduce入门且行且安~ 数据分析进阶之路 Linux命令 hadoop MapReduce入门
入门简介计算过程分为两个阶段Map和ReduceMap阶段并行处理输入数据Reduce阶段对Map结果进行汇总针对python语言来说：map函数或者reduce函数来说，输出的数据格式为元组tuple一个简单的MapReduce程序只需要指定map()reduce()input()output()剩下的由框架完成。Linux常见命令：-读取文件（文本文件，在Windows下使用记事本打开的文件）
Hadoop MapReduce 入门
一、Hadoop3.0.4环境准备1.环境要求Java8（Hadoop3.0.4不支持Java11+）单节点或多节点Linux系统（推荐Ubuntu18.04+）至少4GB内存（建议8GB+）50GB以上磁盘空间2.安装Java#安装Java8sudoapt-getinstallopenjdk-8-jdk#验证安装java-version3.下载与安装Hadoop3.0.4#下载Hadoop3.0
管理大数据存储的十大技巧 weixin_34238633 大数据数据库运维
在1990年，每一台应用服务器都倾向拥有直连式系统(DAS)。SAN的构建则是为了更大的规模和更高的效率提供共享的池存储。Hadoop已经逆转了这一趋势回归DAS。每一个Hadoop集群都拥有自身的——虽然是横向扩展型——直连式存储，这有助于Hadoop管理数据本地化，但也放弃了共享存储的规模和效率。如果你拥有多个实例或Hadoop发行版，那么你就将得到多个横向扩展的存储集群。而我们所遇到的最大挑
MapReduce数据处理过程2万字保姆级教程大模型大数据攻城狮 mapreduce 大数据 yarn cdh hadoop 大数据面试 shuffle
目录1.MapReduce的核心思想：分而治之的艺术2.HadoopMapReduce的架构：从宏观到微观3.WordCount实例：从代码到执行的完整旅程4.源码剖析：Job.submit的魔法5.Map任务的执行：从分片到键值对6.Shuffle阶段：MapReduce的幕后英雄7.Reduce任务的执行：从数据聚合到最终输出8.Combiner的魔法：提前聚合的性能利器9.Partition
Hadoop核心组件最全介绍 Cachel wood 大数据开发 hadoop 大数据分布式 spark 数据库计算机网络
文章目录一、Hadoop核心组件1.HDFS(HadoopDistributedFileSystem)2.YARN(YetAnotherResourceNegotiator)3.MapReduce二、数据存储与管理1.HBase2.Hive3.HCatalog4.Phoenix三、数据处理与计算1.Spark2.Flink3.Tez4.Storm5.Presto6.Impala四、资源调度与集群管
数据仓库技术及应用（Hive 产生背景与架构设计，存储模型与数据类型）娟恋无暇数据仓库笔记 hive
1.Hive产生背景传统Hadoop架构存在的一些问题：MapReduce编程必须掌握Java，门槛较高传统数据库开发、DBA、运维人员学习门槛高HDFS上没有Schema的概念，仅仅是一个纯文本文件Hive的产生：为了让用户从一个现有数据基础架构转移到Hadoop上现有数据基础架构大多基于关系型数据库和SQL查询Facebook诞生了Hive2.Hive是什么官网：https://hive.ap
缺少关键的 MapReduce 框架文件
计算圆周率时提醒Hadoop集群缺少关键的MapReduce框架文件mr-framework.tar.gz在http://master:7180/cmf/services/4/status里直接安装再次运行代码：
大数据 ETL 工具 Sqoop 深度解析与实战指南
一、Sqoop核心理论与应用场景1.1设计思想与技术定位Sqoop是Apache旗下的开源数据传输工具，核心设计基于MapReduce分布式计算框架，通过并行化的Map任务实现高效的数据批量迁移。其特点包括：批处理特性：基于MapReduce作业实现导入/导出，适合大规模离线数据迁移，不支持实时数据同步。异构数据源连接：支持关系型数据库（如MySQL、Oracle）与Hadoop生态（HDFS、H
安装Hadoop集群&入门&源码编译只年大数据 Hadoop hadoop 大数据分布式
安装Hadoop集群完全分布式先决条件准备三台机器NameStaticIPDESCbigdata102192.168.1.102DataNode、NodeManager、NameNodebigdata103192.168.1.103DataNode、NodeManager、ResourceManagerbigdata104192.168.1.104DataNode、NodeManager、Seco
Hadoop之HDFS 只年大数据 Hadoop HDFS hadoop hdfs 大数据
Hadoop之HDFSHDFS的Shell操作启动Hadoop集群（方便后续测试）[atguigu@hadoop102~]$sbin/start-dfs.sh[atguigu@hadoop102~]$sbin/start-yarn.sh-help：输出这个命令参数[atguigu@hadoop102~]$hadoopfs-helprm-ls：显示目录信息[atguigu@hadoop102~]$h
安装Python3.12报错：HTTP 429 TOO MANY REQUESTS for url ＜https://mirrors.ustc.edu.cn/anaconda/pkgs/free/li
安装Python3.12报错(base)[xxx@hadoop104python_shell]$condacreate--namepythonThirteenpython=3.12报错如下：Retrievingnotices:…working…ERRORconda.notices.fetch:get_channel_notice_response(63):Requesterrorforchanne
大数据分析技术的学习路径，不是绝对的，仅供参考水云桐程序员学习大数据数据分析学习方法
阶段一：基础筑基（1-3个月）1.编程语言：Python：掌握基础语法、数据结构、流程控制、函数、面向对象编程、常用库（NumPy,Pandas）。SQL：精通SELECT语句（过滤、排序、分组、聚合、连接）、DDL/DML基础。理解关系型数据库概念（表、主键、外键、索引）。MySQL或PostgreSQL是很好的起点。Java/Scala：深入理解Hadoop/Spark等框架会更有优势。初学者
HBase 开发：使用Java操作HBase 睡觉的时候我不困 hbase java python
第1关：创建表任务描述相关知识如何使用Java连接HBase数据库HBaseConfigurationConnectionFactory创建表HBase2.X创建表编程要求测试说明任务描述本关任务：使用Java代码在HBase中创建表。相关知识为了完成本关任务，你需要掌握：1.如何使用Java连接HBase数据库，2.如何使用Java代码在HBase中创建表。如何使用Java连接HBase数据库J
头歌作业-HBase 开发：使用Java操作HBase http_lizi hbase java python
第一关packagestep1;importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.apache.hadoop.hbase.HColumnDescriptor;importorg.apache.h
HDFS中fsimage和edits究竟是什么清平乐的技术博客大数据运维 hdfs hadoop 大数据
fsimage和edits是HadoopHDFS(Hadoop分布式文件系统)中的两个关键组件，用于存储文件系统的元数据，以确保文件系统的持久性和一致性。在理解它们的作用之前，我们先了解一下HDFS的基本工作原理。HDFS采用了一种分布式文件系统的架构，其中数据被划分成块并分布在不同的数据节点上，而元数据(文件和目录的信息)则由单独的组件进行管理。元数据的持久性和一致性非常重要，因为文件系统的正确
spark处理kafka的用户行为数据写入hive 月光一族吖 spark kafka hive
在CentOS上部署Hadoop（Hadoop3.4.1）和Hive（Hive3.1.2）的详细步骤说明。这份指南面向单机安装（伪集群模式），如果需要搭建真正的多节点集群，各节点间的网络互访、SSH免密登录以及配置同步需进一步调整。注意：本指南假设你已拥有root权限或者具有sudo权限，并且系统连接Internet（用于下载安装包）。步骤中的版本号可根据实际需要进行更改。一、环境准备更新系统软件
PostgreSql、Hbase的安装月光一族吖 postgresql hbase 数据库
在CentOS8中安装PostgreSQL和HBase，以下是详细步骤，包括使用sudo权限的命令：安装PostgreSQL更新系统包在两台CentOS8上运行以下命令，确保系统是最新的：sudodnfupdate-y安装PostgreSQLCentOS8默认仓库提供PostgreSQL。你可以直接安装所需版本的PostgreSQL：sudodnfinstall-ypostgresql-serve
【Hadoop】Hadoop车辆数据存储 db_hjx_2066 java hadoop
Hadoop车辆数据存储本作业旨在实现将车辆数据按天存储到Hadoop分布式文件系统（HDFS）中，并根据数据文件大小分割成多个文件进行存储。数据格式为JSON。作业要求车辆数据按天存储，每天的数据存储在一个文件夹下。数据文件以JSON格式存储。如果数据文件大于100M，则另起一个文件存储。每天的数据总量不少于300M。实现方法1.代码说明以下是用Java编写的实现代码：1.导入类//导入必要的类
eclipse maven IXHONG eclipse
eclipse中使用maven插件的时候，运行run as maven build的时候报错 -Dmaven.multiModuleProjectDirectory system propery is not set. Check $M2_HOME environment variable and mvn script match. 可以设一个环境变量M2_HOME指
timer cancel方法的一个小实例 alleni123 多线程 timer
package com.lj.timer; import java.util.Date; import java.util.Timer; import java.util.TimerTask; public class MyTimer extends TimerTask { private int a; private Timer timer; pub
MySQL数据库在Linux下的安装 ducklsl mysql
1.建好一个专门放置MySQL的目录 /mysql/db数据库目录 /mysql/data数据库数据文件目录 2.配置用户，添加专门的MySQL管理用户 >groupadd mysql ----添加用户组 >useradd -g mysql mysql ----在mysql用户组中添加一个mysql用户 3.配置，生成并安装MySQL >cmake -D
spring------>>cvc-elt.1: Cannot find the declaration of element Array_06 spring bean
将-------- <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3
maven发布第三方jar的一些问题 cugfy maven
maven中发布第三方jar到nexus仓库使用的是 deploy:deploy-file命令有许多参数，具体可查看 http://maven.apache.org/plugins/maven-deploy-plugin/deploy-file-mojo.html 以下是一个例子： mvn deploy:deploy-file -DgroupId=xpp3
MYSQL下载及安装 357029540 mysql
好久没有去安装过MYSQL，今天自己在安装完MYSQL过后用navicat for mysql去厕测试链接的时候出现了10061的问题，因为的的MYSQL是最新版本为5.6.24，所以下载的文件夹里没有my.ini文件，所以在网上找了很多方法还是没有找到怎么解决问题，最后看到了一篇百度经验里有这个的介绍，按照其步骤也完成了安装，在这里给大家分享下这个链接的地址
ios TableView cell的布局张亚雄 tableview
cell.imageView.image = [UIImage imageNamed:[imageArray objectAtIndex:[indexPath row]]]; CGSize itemSize = CGSizeMake(60, 50); &nbs
Java编码转义 adminjun java 编码转义
import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符，也叫作ISO646-US、Unicode字符集的基本拉丁块 */ public static final Strin
Tomcat 配置和spring aijuans spring
简介 Tomcat启动时，先找系统变量CATALINA_BASE，如果没有，则找CATALINA_HOME。然后找这个变量所指的目录下的conf文件夹，从中读取配置文件。最重要的配置文件：server.xml 。要配置tomcat，基本上了解server.xml，context.xml和web.xml。 Server.xml -- tomcat主
Java打印当前目录下的所有子目录和文件 ayaoxinchao 递归 File
其实这个没啥技术含量，大湿们不要操笑哦，只是做一个简单的记录，简单用了一下递归算法。 import java.io.File; /** * @author Perlin * @date 2014-6-30 */ public class PrintDirectory { public static void printDirectory(File f
linux安装mysql出现libs报冲突解决 BigBird2012 linux
linux安装mysql出现libs报冲突解决安装mysql出现 file /usr/share/mysql/ukrainian/errmsg.sys from install of MySQL-server-5.5.33-1.linux2.6.i386 conflicts with file from package mysql-libs-5.1.61-4.el6.i686
jedis连接池使用实例 bijian1013 redis jedis连接池 jedis
实例代码： package com.bijian.study; import java.util.ArrayList; import java.util.List; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.clients.jedis.JedisPoo
关于朋友 bingyingao 朋友兴趣爱好维持
成为朋友的必要条件：志相同，道不合，可以成为朋友。譬如马云、周星驰一个是商人，一个是影星，可谓道不同，但都很有梦想，都要在各自领域里做到最好，当他们遇到一起，互相欣赏，可以畅谈两个小时。志不同，道相合，也可以成为朋友。譬如有时候看到两个一个成绩很好每次考试争做第一，一个成绩很差的同学是好朋友。他们志向不相同，但他
【Spark七十九】Spark RDD API一 bit1129 spark
aggregate package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} //测试RDD的aggregate方法 object AggregateTest { def main(args: Array[String]) { val conf = new Spar
ktap 0.1 released bookjovi kernel tracing
Dear, I'm pleased to announce that ktap release v0.1, this is the first official release of ktap project, it is expected that this release is not fully functional or very stable and we welcome bu
能保存Properties文件注释的Properties工具类 BrokenDreams properties
今天遇到一个小需求：由于java.util.Properties读取属性文件时会忽略注释，当写回去的时候，注释都没了。恰好一个项目中的配置文件会在部署后被某个Java程序修改一下，但修改了之后注释全没了，可能会给以后的参数调整带来困难。所以要解决这个问题。 &nb
读《研磨设计模式》-代码笔记-外观模式-Facade bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 百度百科的定义： * Facade（外观）模式为子系统中的各类（或结构与方法）提供一个简明一致的界面， * 隐藏子系统的复杂性，使子系统更加容易使用。他是为子系统中的一组接口所提供的一个一致的界面 * * 可简单地
After Effects教程收集 cherishLC After Effects
1、中文入门 http://study.163.com/course/courseMain.htm?courseId=730009 2、videocopilot英文入门教程（中文字幕） http://www.youku.com/playlist_show/id_17893193.html 英文原址： http://www.videocopilot.net/basic/ 素
Linux Apache 安装过程 crabdave apache
Linux Apache 安装过程下载新版本： apr-1.4.2.tar.gz（下载网站：http://apr.apache.org/download.cgi） apr-util-1.3.9.tar.gz（下载网站：http://apr.apache.org/download.cgi） httpd-2.2.15.tar.gz（下载网站：http://httpd.apac
Shell学习之变量赋值和引用 daizj shell 变量引用赋值
本文转自：http://www.cnblogs.com/papam/articles/1548679.html Shell编程中，使用变量无需事先声明，同时变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）中间不能有空格，可以使用下划线（_）不能使用标点符号不能使用bash里的关键字（可用help命令查看保留关键字）需要给变量赋值时，可以这么写：
Java SE 第一讲（Java SE入门、JDK的下载与安装、第一个Java程序、Java程序的编译与执行） dcj3sjt126com java jdk
Java SE 第一讲： Java SE：Java Standard Edition Java ME: Java Mobile Edition Java EE：Java Enterprise Edition Java是由Sun公司推出的（今年初被Oracle公司收购）。收购价格：74亿美金 J2SE、J2ME、J2EE JDK：Java Development
YII给用户登录加上验证码 dcj3sjt126com yii
1、在SiteController中添加如下代码： /** * Declares class-based actions. */ public function actions() { return array( // captcha action renders the CAPTCHA image displ
Lucene使用说明 dyy_gusi Lucene search 分词器
Lucene使用说明 1、lucene简介 1.1、什么是lucene Lucene是一个全文搜索框架，而不是应用产品。因此它并不像baidu或者googleDesktop那种拿来就能用，它只是提供了一种工具让你能实现这些产品和功能。 1.2、lucene能做什么要回答这个问题，先要了解lucene的本质。实际
学习编程并不难,做到以下几点即可! gcq511120594 数据结构编程算法
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
Java面试十问之三：Java与C++内存回收机制的差别 HNUlanwei java C++finalize()堆栈内存回收
大家知道， Java 除了那 8 种基本类型以外，其他都是对象类型（又称为引用类型）的数据。 JVM 会把程序创建的对象存放在堆空间中，那什么又是堆空间呢？其实，堆（ Heap）是一个运行时的数据存储区，从它可以分配大小各异的空间。一般，运行时的数据存储区有堆（ Heap）和堆栈（ Stack），所以要先看它们里面可以分配哪些类型的对象实体，然后才知道如何均衡使用这两种存储区。一般来说，栈中存放的
第二章 Nginx+Lua开发入门 jinnianshilongnian nginx lua
Nginx入门本文目的是学习Nginx+Lua开发，对于Nginx基本知识可以参考如下文章： nginx启动、关闭、重启 http://www.cnblogs.com/derekchen/archive/2011/02/17/1957209.html agentzh 的 Nginx 教程 http://openresty.org/download/agentzh-nginx-tutor
MongoDB windows安装基本命令 liyonghui160com
windows安装安装目录： D:\MongoDB\ 新建目录 D:\MongoDB\data\db 4.启动进城： cd D:\MongoDB\bin mongod -dbpath D:\MongoDB\data\db &n
Linux下通过源码编译安装程序 pda158 linux
一、程序的组成部分　　Linux下程序大都是由以下几部分组成：　　二进制文件：也就是可以运行的程序文件　　库文件：就是通常我们见到的lib目录下的文件　　配置文件：这个不必多说，都知道　　帮助文档：通常是我们在linux下用man命令查看的命令的文档　　二、linux下程序的存放目录　　linux程序的存放目录大致有三个地方：　　/etc, /b
WEB开发编程的职业生涯４个阶段 shw3588 编程 Web 工作生活
觉得自己什么都会 2007年从学校毕业，凭借自己原创的ASP毕业设计，以为自己很厉害似的，信心满满去东莞找工作，找面试成功率确实很高，只是工资不高，但依旧无法磨灭那过分的自信，那时候什么考勤系统、什么OA系统、什么ERP，什么都觉得有信心，这样的生涯大概持续了约一年。根本不是自己想的那样 2008年开始接触很多工作相关的东西，发现太多东西自己根本不会，都需要去学，不管是asp还是js，
遭遇jsonp同域下变作post请求的坑 vb2005xu jsonp 同域post
今天迁移一个站点时遇到一个坑爹问题,同一个jsonp接口在跨域时都能调用成功,但是在同域下调用虽然成功,但是数据却有问题. 此处贴出我的后端代码片段 $mi_id = htmlspecialchars(trim($_GET['mi_id '])); $mi_cv = htmlspecialchars(trim($_GET['mi_cv '])); 贴出我前端代码片段: $.aj