拼命菇凉

HBase系列——HBase总结

HBase

1.1 HBase写数据

1.1.1 写数据流程

client发送写的请求,获取meta region路由信息--------->zk集群；

zk返回meta region的路由信息(HRegionServer1)---------->client

client获取根据rowkey获取在meta表中的region信息----->HRegionServer1

HRegionServer1返回region信息(HRegionServer2)-------------->client

client访问HRegionServer2，发送写入数据请求----------->HRegionServer2

HRegionServer2拿到请求进行region分发------------->region

region内部将数据hbase做写操作时,先记录在本地的wal(Write-Ahead logfile)中,但是不同步到hdfs------->再写入memstore----------------->开始将wal同步到hdfs------->memstore中数据达到一定阈值后，进行数据的刷写生成HFile存入HDFS

1.1.2 为什么需要将数据先写入wallog再写入memstore？

1.1.2.1 wal

是什么

HBase的Write Ahead Log (WAL)提供了一种高并发、持久化的日志保存与回放机制。每一个业务数据的写入操作（PUT / DELETE）执行前，都会记账在WAL中。
为什么？

WAL最重要的作用是灾难恢复，和Mysql的BIN log类似，它记录着所有数据的改动。在正常操作下，不需要WAL，因为数据更改从MemStore移动到StoreFiles。但是，如果在刷新MemStore之前RegionServer崩溃或变得不可用，则WAL确保可以重播对数据所做的更改。如果写入WAL失败，则修改数据的整个操作将失败。
怎么做？
- 每个RegionServer单个 WAL ，RegionServer必须串行写入WAL，因为HDFS文件必须是顺序的。这会导致WAL成为性能瓶颈。所以在需要一个memstore。
- HLog也是记录在HDFS上

1.1.2.2 memstore

是什么？

就是内存存储，位于内存中，用来保存当前的数据操作，所以当数据保存在WAL中之后，RegsionServer会在内存中存储键值对。
为什么？
- 解决“无序问题”：用到Memstore最主要的原因是:存储在HDFS上的数据需要按照row key排序。而HDFS本身被设计为顺序读写(sequential reads/writes),不允许修改。这样的话, HBase就不能够高效的写数据，因为要写入到HBase的数据不会被排序，这也就意味着没有为将来的检索优化。为了解决这个问题，HBase将最近接收到的数据缓存在内存中(in Memstore),在持久化到HDFS之前完成排序，然后再快速的顺序写入HDFS。
- 作为一个内存级缓存，缓存最近增加数据。一种显而易见的场合是，新插入数据总是比老数据频繁使用。
- 在持久化写入之前，在内存中对Rows/Cells可以做某些优化。比如，当数据的version被设为1的时候，对于某些CF的一些数据，Memstore缓存了数个对该Cell的更新，在写入HFile的时候，仅需要保存一个最新的版本就好了，其他的都可以直接抛弃。

1.1.3 在memstore的时候为什么会进行flush

1.1.3.1 是什么？

HBase 写数据(比如 put、delete)的时候，都是写 WAL(假设 WAL 没有被关闭)，然后将数据写到一个称为 MemStore 的内存结构里面的，但是，MemStore 毕竟是内存里面的数据结构，写到这里面的数据最终还是需要flush持久化到磁盘的，生成 HFile。

1.1.3.2 什么时候触发？

Region 中所有 MemStore 占用的内存超过相关阈值
- 当一个 Region 中所有 MemStore 占用的内存(包括 OnHeap + OffHeap)大小超过刷写阈值的时候会触发一次刷写。
  
  hbase.hregion.memstore.flush.size：128M
- 如果我们的数据增加得很快，达到
  
  ==hbase.hregion.memstore.flush.size hbase.hregion.memstore.block.multiplier（4）==的大小，也就是1284=512MB的时候，那么除了触发 MemStore 刷写之外，HBase 还会在刷写的时候同时阻塞所有写入该 Store 的写请求！这时候如果你往对应的 Store 写数据，会出现 RegionTooBusyException 异常。
整个 RegionServer 的 MemStore占用内存总和大于相关阈值

HBase 为 RegionServer 的 MemStore 分配一定的写缓存，写缓存大概占用 RegionServer 整个 JVM 内存使用量的 40%。如果整个 RegionServer 的 MemStore 占用内存总和大于 hbase.regionserver.global.memstore.size.lower.limit （0.95）* hbase.regionserver.global.memstore.size（0.4） * hbase_heapsize 的时候，将会触发 MemStore 的刷写。
WAL数量大于相关阈值
- 如果设置 hbase.regionserver.maxlogs，那就是这个参数的值；否则是 max(32, hbase_heapsize * hbase.regionserver.global.memstore.size * 2 / logRollSize)。如果某个 RegionServer 的 WAL 数量大于 maxLogs 就会触发 MemStore 的刷写。
- WAL 数量触发的刷写策略是，找到最旧的 un-archived WAL 文件，并找到这个 WAL 文件对应的 Regions，然后对这些 Regions 进行刷写。
定期自动刷写

这个时间是由 hbase.regionserver.optionalcacheflushinterval参数控制的，默认是 3600000，也就是1小时会进行一次刷写。如果设定为0，则意味着关闭定时自动刷写。
数据更新超过一定阈值

如果 HBase 的某个 Region 更新的很频繁，而且既没有达到自动刷写阀值，也没有达到内存的使用限制，但是内存中的更新数量已经足够多，比如超过 hbase.regionserver.flush.per.changes 参数配置，默认为30000000，那么也是会触发刷写的。
手动触发刷写

可以通过执行相关命令或 API 来触发 MemStore 的刷写操作。

1.1.3.3 什么操作会触发？

我们常见的 put、delete、append、increment、调用 flush 命令、Region 分裂、Region Merge、bulkLoad HFiles 以及给表做快照操作都会对上面的相关条件做检查，以便判断要不要做刷写操作。

1.1.3.4 刷写的时候原理

每个HRegionServer中都会有一个HLog对象，HLog是一个实现Write Ahead
Log的类，每次用户操作写入Memstore的同时，也会写一份数据到HLog文件中，HLog文件定期会滚动出新，并删除旧的文件（已持久化到Storefile中的数据），当HRegionServer意外终止后，HMaster会通过Zookeeper感知，HMaster首先处理遗留的HLog文件，将不同region的log数据拆分，分别放在相应region目录下，然后再将失效的region（带有刚刚拆分的log）重新分配，领取到这些region的HRegionServer在Load
Region的过程中，会发现有历史HLog需要处理，因此会Replay
HLog中的数据到Memstore中，然后flush到StoreFile，完成数据恢复。

1.1.4 HBase中HFile的大合并和小合并

每个 RegionServer 包含多个 Region，而每个 Region 又对应多个 Store，每一个 Store 对应表中一个列族的存储，且每个 Store 由一个 MemStore 和多个 StoreFile 文件组成。

StoreFile 在底层文件系统中由 HFile 实现，也可以把 Store 看作由一个 MemStore 和多个 HFile 文件组成。MemStore 充当内存写缓存，默认大小 64MB，当 MemStore 超过阈值时，MemStore 中的数据会刷新到一个新的 HFile 文件中来持久化存储。

久而久之，每个 Store 中的 HFile 文件会越来越多，I/O 操作的速度也随之变慢，读写也会延时，导致慢操作。因此，需要对 HFile 文件进行合并，让文件更紧凑，让系统更有效率

1.1.4.1 HFile中的大合并：Major

是什么？

Major合并针对的是给定 Region 的一个列族的所有 HFile。它将 Store 中的所有 HFile 合并成一个大文件，有时也会对整个表的同一列族的 HFile 进行合并，这是一个耗时和耗费资源的操作，会影响集群性能。
怎么做？

一般情况下都是做 Minor 合并，不少集群是禁止 Major 合并的，只有在集群负载较小时进行手动 Major 合并操作，或者配置 Major 合并周期，默认为 7 天。另外，Major 合并时会清理 Minor 合并中被标记为删除的 HFile。

1.1.4.2 HFile中的小合并：Minor

是什么？

Minor 合并是把多个小 HFile 合并生成一个大的 HFile。
为什么？
怎么做？
- 执行合并时，HBase 读出已有的多个 HFile 的内容，把记录写入一个新文件中。然后把新文件设置为激活状态，并标记旧文件为删除。
- 在 Minor 合并中，这些标记为删除的旧文件是没有被移除的，仍然会出现在 HFile 中，只有在进行 Major 合并时才会移除这些旧文件。对需要进行 Minor 合并的文件的选择是触发式的，当达到触发条件才会进行 Minor 合并，而触发条件有很多，例如，在将 MemStore 的数据刷新到 HFile 时会申请对 Store下符合条件的 HFile 进行合并，或者定期对 Store 内的 HFile 进行合并。
- 条件
  
  [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cHNcQyvZ-1615782802472)(…/…/%E5%A4%A7%E6%95%B0%E6%8D%AE%E6%96%87%E6%A1%A3/%E9%A1%B9%E7%9B%AE%E6%80%BB%E7%BB%93%E6%96%87%E6%A1%A3/assets/1614829346400.png)]
  
  在执行 Minor 合并时，系统会根据上述配置参数选择合适的 HFile 进行合并。Minor 合并对 HBase 的性能是有轻微影响的，因此，合并的 HFile 数量是有限的，默认最多为 10 个。

1.1.5 Region的拆分与合并

1.1.5.1 拆分

1.1.5.1.1 是什么？

region在数据量大到一定程度的时候，会进行拆分（最开始由一个变成二个）

1.1.5.1.2 为什么？

region中存储的是大量的rowkey数据 ,当region中的数据条数过多的时候,直接影响查询效率.当region过大的时候.hbase会拆分region。

1.1.5.1.3 怎么做？

预拆分
- 是什么？
  
  在建表的时候就定义好了拆分点的算法，所以叫预拆分
- 为什么？
  
  预拆分一部分的作用能减少rowkey热点，另外一部分能减轻region切分时导致的服务不可用。
- 怎么做？
  
  Hex拆分点：根据 HexStringSplit拆分点算法预拆分为10个Region，同时要建立的列族叫 mycf。（使用命令）
自动拆分
- 是什么？
  
  hbase自己定的默认的拆分策略
- 为什么？
  
  Region自动切分是HBase能够拥有良好扩张性的最重要因素之一，也必然是所有分布式系统追求无限扩展性的一副良药。
- 怎么做？
  
  hbase有很多种默认的拆分策略
  - ConstantSizeRegionSplitPolicy：0.94版本前默认切分策略。-----一个region中最大store的大小大于设置阈值之后才会触发切分。
  - IncreasingToUpperBoundRegionSplitPolicy: 0.94版本~2.0版本默认切分策略。------一个region中最大store大小大于设置阈值就会触发切分。但是这个阈值并不像ConstantSizeRegionSplitPolicy是一个固定的值，而是会在一定条件下不断调整
  - SteppingSplitPolicy: 2.0版本默认切分策略。------和待分裂region所属表在当前regionserver上的region个数有关系
  - DisableSplitPolicy:可以禁止region发生分裂
手动拆分
- 是什么？
  
  除了预拆分和自动拆分以外，你还可以对运行了一段时间的Region 进行强制地手动拆分（forced splits）。
- 怎么做？
  
  调用hbase shell的 split方法

1.1.5.2 合并

为什么？

当一个Region被不断的写数据，达到Region的Split的阀值时(由属性hbase.hregion.max.filesize来决定，默认是10GB)，该Region就会被Split成2个新的Region。随着业务数据量的不断增加，Region不断的执行Split，那么Region的个数也会越来越多。如果有很多 Region，它们中 MemStore 也过多，会频繁出现数据从内存被刷新到 HFile 的操作，从而会对用户请求产生较大的影响，可能阻塞该 Region 服务器上的更新操作。过多的 Region 会增加 ZooKeeper 的负担。
怎么做？
- hbase提供合并的命令
```
# 合并相邻的两个Region
hbase> merge_region 'ENCODED_REGIONNAME', 'ENCODED_REGIONNAME'
# 强制合并两个Region
hbase> merge_region 'ENCODED_REGIONNAME', 'ENCODED_REGIONNAME', true
```
  但是这种方式存在问题就是只能一次合并2个Region，如果这里有几千个Region需要合并，这种方式是不可取的。
- 批量合并，写脚本
问题？

如果在合并Region的过程中出现永久RIT怎么办

1.5.6 列族是不是越多越好？

是什么？

HBASE表中的每个列，都归属于某个列族。列族是表的schema的一部分(而列不是)，必须在使用表之前定义。列名都以列族作为前缀。例如 courses:history，courses:math都属于courses 这个列族。
为什么？
- 对Flush影响
- 对split影响
- 对compaction影响
- 对HDFS影响
- 对Regionserver内存影响
这么做？

在设置列族之前，我们最好想想，有没有必要将不同的列放到不同的列族里面。如果没有必要最好放一个列族。如果真要设置多个列族，但是其中一些列族相对于其他列族数据量相差非常悬殊，比如1000W相比100行，是不是考虑用另外一张表来存储相对小的列族。

1.5.7 HBase的meta表中存储了哪些信息？

序列化的regioninfo实例
包含此region的regionserver
包含此region的regionserver进程开始时间

1.5.8 压缩

hbase支持大量的算法，并且支持列族级别以上的压缩算法，除非有特殊原因，不然我们应该尽量使用压缩，压缩通常会带来较好的性能。通过一些测试，我们推荐使用SNAPPY这种算法来进行我们hbase的压缩。

1.5.9 关于表的设计

设计表的时候，有两种设计方式，一种是高表设计，一种是胖表设计。根据HBase的拆分规则，我们的高表设计更容易拆分（使用组合键），不过如果我们设计成胖表，而我们这个胖表里的数据需要经常修改，这样的设计是很合理的。以为HBase保证了行级原子性，如果设计成高表，反而就不合适了，因为不能保证跨行的原子性。

1.2 HBase读数据

1.2.1 流程

Client访问zookeeper，获取hbase:meta所在RegionServer的节点信息

Client访问hbase:meta所在的RegionServer，获取hbase:meta记录的元数据后先加载到内存中，然后再从内存中根据需要查询的RowKey查询出RowKey所在的Region的相关信息（Region所在RegionServer）

Client访问RowKey所在Region对应的RegionServer，发起数据读取请求

先从MemStore找数据，如果没有，再到BlockCache里面读；

BlockCache还没有，再到StoreFile上读(为了读取的效率)；

找到数据之后会先缓存到blockcache中，再将结果返回；

blockcache逐渐满了之后，会采用LRU的淘汰策略。

1.2.2 查询数据后先缓存到blockcache，但是blockcache不是无限的，满之后会淘汰，缓存数据淘汰机制是什么？

1.2.2.1 blockcache是什么？

HBase读取数据时，首先到memestore上读数据，找不到再到blockcahce上找数据，再查不到则到磁盘查找，并把读入的数据同时放入blockcache。

BlockCache 是 RegionServer 级别的，一个 RegionServer 只有一个 BlockCache，在RegionServer启动的时候完成Block Cache的初始化工作。

1.2.2.2 为什么

BlockCache: HBase会将一次文件查找的Block块缓存到Cache中，以便后续同一请求或者相邻数据查找请求，可以直接从内存中获取，避免昂贵的IO操作。
HBase提供了两种不同的BlockCache实现，用于缓存从HDFS读出的数据。这两种分别为：
- 默认的，存在于堆内存的（on-heap）LruBlockCache
- 存在堆外内存的（off-heap）BucketCache
当blockcache达到heapsize * hfile.block.cache.size * 0.85时，会启用淘汰机制。

1.2.2.2.1 什么时候使用堆内，什么时候使用堆外

LruBlockCache是最初始的实现，并且全部存在Java堆内存中。BucketCache是另一个选择，主要用于将block cache的数据存在off-heap（堆外内存），不过BlockCache也可以作为一种文件备份式的缓存。

当开启了BucketCache后，便启用了两级缓存的系统。以前我们会用“L1”和“L2”来描述这两个等级，但是现在这个术语已经在hbase-2.0.0后被弃用了。现在“L1” cache 直接指的是LruBlockCache，“L2”指的是一个off-heap的BucketCache。（hbase-2.0.02之后）当BucketCache启用后，所有数据块（DATA block）会被存在BucketCache 层，而meta 数据块（INDEX 以及BLOOM块）被存在on-heap的LruBlockCache中。管理这两层缓存，以及指示数据块如何在它们之间移动的策略，由CombinedBlockCache完成。

1.2.2.3 怎么做？

LRUBlockCache是默认的BlockCache实现方案。Block数据块都存储在 JVM heap内，由JVM进行垃圾回收管理。
其使用一个ConcurrentHashMap管理BlockKey到Block的映射关系，
缓存Block只需要将BlockKey和对应的Block放入该HashMap中，查询缓存就根据BlockKey从HashMap中获取即可。

同时该方案采用严格的LRU淘汰算法，当Block Cache总量达到一定阈值之后就会启动淘汰机制，最近最少使用的Block会被置换出来。
在具体的实现细节方面，需要关注三点：

缓存分层策略

HBase在LRU缓存基础上，采用了缓存分层设计，将整个BlockCache分为三个部分：Single、Mutile和In-Memory。
- Single：当我们只有一次读取的数据，这个级别的数据块是第一时间就会被挤出去
- Mutile：读取多次数据的缓存，这个级别的数据块是当块中没有 SINGLE 级别的数据才会被挤出去
- In-Memory：对列族属性中的 IN_MEMEORY 设置为 true，这个级别的数据块是最后才会被挤出去，Catalog 表是默认启动了 IN_MEMORY 表的特性；
将内存从逻辑上分为了三块, 分别占到整个BlockCache大小的25%、50%、25%。

HBase系统元数据存放在InMemory区，因此设置数据属性InMemory = true需要非常谨慎，
确保此列族数据量很小且访问频繁，否则有可能会将hbase.meta元数据挤出内存，严重影响所有业务性能。
LRU淘汰算法实现

系统在每次cache block时将BlockKey和Block放入HashMap后都会检查BlockCache总量是否达到阈值，如果达到阈值，就会唤醒淘汰线程对Map中的Block进行淘汰。
系统设置三个MinMaxPriorityQueue队列，分别对应上述三个分层，每个队列中的元素按照最近最少被使用排列，系统会优先poll出最近最少使用的元素，将其对应的内存释放。
可见，三个分层中的Block会分别执行LRU淘汰算法进行淘汰。
LRU方案优缺点

LRU方案使用JVM提供的HashMap管理缓存，简单有效。
但随着数据从single-access区晋升到mutil-access区，基本就伴随着对应的内存对象从young区到old区，
晋升到old区的Block被淘汰后会变为内存垃圾，最终由CMS回收掉（Conccurent Mark Sweep，一种标记清除算法），
然而这种算法会带来大量的内存碎片，碎片空间一直累计就会产生臭名昭著的Full GC。
尤其在大内存条件下，一次Full GC很可能会持续较长时间，甚至达到分钟级别。
大家知道Full GC是会将整个进程暂停的（称为stop-the-wold暂停），
因此长时间Full GC必然会极大影响业务的正常读写请求。BucketCache方案才会横空出世。

1.2.3 读取有get和scan两种方式，两种方式有什么区别，有什么优缺点？如何避免全表扫描和跨表扫描

1.2.3.1 是什么？

Get 是一种随机点查的方式，根据 rowkey 返回一行数据，也可以在构造 Get 对象的时候传入一个 rowkey 列表，这样一次 RPC 请求可以返回多条数据。Get 对象可以设置列与 filter，只获取特定 rowkey 下的指定列的数据、
Scan 是范围查询，通过指定 Scan 对象的 startRow 与 endRow 来确定一次扫描的数据范围，获取该区间的所有数据。

1.2.3.2 区别

get方法：按指定rowkey获取唯一一条记录（点查）

scan方法：按指定条件获取一批记录（范围查）

1.2.3.3 优缺点

1.2.4 读取数据时，加载列族到内存的机制是什么？比如是全部列族都加载还是只加载所需列族，有什么优化方法？

加载到内存的机制：

在HBase中，所有的存储文件都被划分成了若干个小存储块，这些存储块在get或scan操作时会加载到内存中，他们类似与RDBMS中的存储单元页，这个参数的默认大小是64k，HBase会顺序的读取一个数据块到内存缓存中，其读取相邻的数据时就可以在内存中读取而不需要从磁盘中再次读取，有效的减少了磁盘的I/O的次数。这个参数默认为TRUE，这意味着每次读取的块都会缓存到内存中。
但是：如果用户顺序读写某个特定的列族，这个时候，这个机制就会把其他我们不需要的列族的数据也加载到内存中，增加了我们的负担，那么1就需要将其关闭。void setBlockCacheEnable（boolean blockCacheEnable）;

优化：

见下面；

1.2.5 数据更新操作先将数据写入Memstore，再落盘。落盘之后需不需要更新Blockcache中对应的kv？如果不更新，会不会读到脏数据？

HBase中数据仅仅独立地存在于Memstore和StoreFile中，Blockcache中的数据只是StoreFile中的部分数据（热点数据），即所有存在于Blockcache的数据必然存在于StoreFile中。因此MemstoreScanner和StoreFileScanner就可以覆盖到所有数据。实际读取时StoreFileScanner通过索引定位到待查找key所在的block之后，首先检查该block是否存在于Blockcache中，如果存在直接取出，如果不存在再到对应的StoreFile中读取。（常说HBase数据读取要读Memstore、HFile和Blockcache，为什么上面Scanner只有StoreFileScanner和MemstoreScanner两种？没有BlockcacheScanner?）

不需要更新Blockcache中对应的kv，而且不会读到脏数据。数据写入Memstore落盘会形成新的文件，和Blockcache里面的数据是相互独立的，以多版本的方式存在。

1.2.6 限定扫描范围

比如我们要处理大量行（特别是作为mapreduce的输入源），其中用到scan的时候我们有Scan.addFamily();的方法，这个时候我们如果只是需要到这几个列族中的几个列，那么我们一定要精确，因为过多的列会导致效率的损失。

1.2.7 hbase的表设计

1.2.7.1 列族设计

追求的原则是：在合理范围内能尽量少的减少列簇就尽量减少列簇。

最优设计是：将所有相关性很强的 key-value 都放在同一个列簇下，这样既能做到查询效率最高，也能保持尽可能少的访问不同的磁盘文件。

以用户信息为例，可以将必须的基本信息存放在一个列族，而一些附加的额外信息可以放在另一列族。

1.2.7.2 rowkey设计

HBase 中，表会被划分为 1…n 个 Region，被托管在 RegionServer 中。Region 二个重要的属性：StartKey 与 EndKey 表示这个 Region 维护的 rowKey 范围，当我们要读/写数据时，如果 rowKey 落在某个 start-end key 范围内，那么就会定位到目标 region 并且读/写到相关的数据

1.2.7.2.1 设计原则

长度原则

Rowkey 是一个二进制码流，Rowkey 的长度被很多开发者建议说设计在 10~100 个字节，不过建议是越短越好，不要超过 16 个字节。

原因如下：
- 数据的持久化文件 HFile 中是按照 KeyValue 存储的，如果 Rowkey 过长比如 100 个字节，1000 万列数据光 Rowkey 就要占用 100*1000 万=10 亿个字节，将近 1G 数据，这会极大影响 HFile 的存储效率；
- MemStore 将缓存部分数据到内存，如果 Rowkey 字段过长内存的有效利用率会降低，系统将无法缓存更多的数据，这会降低检索效率。因此 Rowkey 的字节长度越短越好。
- 目前操作系统是都是 64 位系统，内存 8 字节对齐。控制在 16 个字节，8 字节的整数倍利用操作系统的最佳特性。
唯一原则

必须在设计上保证其唯一性。rowkey 是按照字典顺序排序存储的，因此，设计 rowkey 的时候，要充分利用这个排序的特点，将经常读取的数据存储到一块，将最近可能会被访问的数据放到一块。
散列原则

如果 Rowkey 是按时间戳的方式递增，不要将时间放在二进制码的前面，建议将 Rowkey 的高位作为散列字段，由程序循环生成，低位放时间字段，这样将提高数据均衡分布在每个 Regionserver 实现负载均衡的几率。如果没有散列字段，首字段直接是时间信息将产生所有新数据都在一个 RegionServer 上堆积的热点现象，这样在做数据检索的时候负载将会集中在个别 RegionServer，降低查询效率。

1.2.7.2.2 防止热点数据的有效措施

取反

第三种防止热点的方法是反转固定长度或者数字格式的 rowkey。这样可以使得 rowkey 中经常改变的部分（最没有意义的部分）放在前面。这样可以有效的随机 rowkey，但是牺牲了 rowkey 的有序性。

反转 rowkey 的例子以手机号为 rowkey，可以将手机号反转后的字符串作为 rowkey，这样的就避免了以手机号那样比较固定开头导致热点问题
加盐

这里所说的加盐不是密码学中的加盐，而是在 rowkey 的前面增加随机数，具体就是给 rowkey 分配一个随机前缀以使得它和之前的 rowkey 的开头不同。分配的前缀种类数量应该和你想使用数据分散到不同的 region 的数量一致。加盐之后的 rowkey 就会根据随机生成的前缀分散到各个 region 上，以避免热点。
hash

哈希会使同一行永远用一个前缀加盐。哈希也可以使负载分散到整个集群，但是读却是可以预测的。使用确定的哈希可以让客户端重构完整的 rowkey，可以使用 get 操作准确获取某一个行数据
时间戳反转

一个常见的数据处理问题是快速获取数据的最近版本，使用反转的时间戳作为 rowkey 的一部分对这个问题十分有用，可以用 Long.Max_Value - timestamp 追加到 key 的末尾，例如 [key][reverse_timestamp] , [key] 的最新值可以通过 scan [key]获得[key]的第一条记录，因为 HBase 中 rowkey 是有序的，第一条记录是最后录入的数据。比如需要保存一个用户的操作记录，按照操作时间倒序排序，在设计 rowkey 的时候，可以这样设计 [userId 反转][Long.Max_Value - timestamp]，在查询用户的所有操作记录数据的时候，直接指定反转后的 userId ， startRow 是 [userId 反转 ][000000000000],stopRow 是 [userId 反转][Long.Max_Value - timestamp]

如果需要查询某段时间的操作记录，startRow 是[user 反转][Long.Max_Value - 起始时间]， stopRow 是[userId 反转][Long.Max_Value - 结束时间]

1.2.8 hbase的二级索引怎么构建以及Phoenix

1.2.8.1 是什么？

HBase的一级索引就是rowkey，我们只能通过rowkey进行检索。如果我们相对hbase里面列族的列列进行一些组合查询，就需要采用HBase的二级索引方案来进行多条件的查询。

1.2.8.2 为什么

对于 HBase 而言，如果想精确定位到某行记录，唯一的办法是通过 rowkey 来查询，如果不通过 rowkey 来查找数据，就必须逐行地比较每一列的值，即全表扫瞄。

对于数据量较大的表，全表扫描的代价是不可接受的。但是，在很多情况下，我们又不得不需要从多个维度来查询数据。例如，在定位某个人的时候，可以通过姓名、身份证号、学籍号等不同的维度来查询，可要想把这么多维度的数据都放到 rowkey 中几乎不可能（业务的灵活性不允许，对 rowkey 长度的要求也不允许）。所以需要 secondary index（二级索引）来完成这件事。secondary index 的原理很简单，但是如果自己来维护二级索引的话则会麻烦一些。现在，Phoenix 已经提供了对 HBase secondary index 的支持。

1.2.8.3 怎么做？

1.2.8.3.1 二级索引分类

二级索引分为全局索引和本地索引。

**「Global Indexing」**Global Indexing，即全局索引，适用于读多写少的业务场景。
**「Local Indexing」**Local Indexing，即本地索引，适用于写操作频繁以及空间受限制的场景。
「Immutable Index」**Immutable Index，不可变索引，适用于数据只增加不更新并且按照时间先后顺序存储（time-series data）的场景，如保存日志数据或者事件数据等。
**「mutable index」**mutable index，可变索引，适用于数据有增删改的场景。

1.2.8.3.2 phoenix创建二级索引

修改配置文件

如果要启用 Phoenix 的二级索引功能，需要修改 HBase 的配置文件 hbase-site.xml，在 hbase 集群的 conf/hbase-site.xml 文件中添加以下内容。
配置修改完成之后需要重启集群。

1.2.8.4 二级索引创建方案

1.2.8.4.1 MapReduce方案

使用整合MapReduce的方式创建hbase索引。主要的流程如下：

扫描输入表，使用hbase继承类TableMapper
获取rowkey和指定字段名称和字段值
创建Put实例， value=rowkey, rowkey=columnName +"_" +columnValue
使用IdentityTableReducer将数据写入索引表

1.2.8.4.2 ITHBASE（Indexed-Transanctional HBase）方案

1.2.8.4.3 IHBASE（Index HBase）方案

1.2.8.4.4 Hbase Coprocessor(协处理器)方案

1.2.8.4.5 Solr+hbase方案

1.2.8.4.6 CCIndex（complementalclustering index）方案

1.2.9 扫描缓存和块缓存

1.2.9.1 是什么？

扫描缓存：HBase在扫描数据时，使用Scanner表扫描器。

块缓存：读取一个数据块到内存缓存中

1.2.9.2 怎么做？

扫描缓存：hbase.client.scanner.caching配置项可以设置HBase scanner一次从服务器抓取的数据条数，默认情况下一次一行。通过将其设置成一个合理的值，可以减少scan过程中next()的时间开销，代价是scanner需要通过客户机的内存来维持这些被cache的行的记录。

在HBase的conf配置文件中进行配置；
通过调用HTable.setScannerCaching(int scannerCaching)进行配置；
通过调用Scan.setCaching(int caching)进行配置，三者的优先级越来越高。

块缓存：首先我们的块缓存是通过Scan.setCacheBlocks();启动的，那么被频繁访问的行，我们应该使用缓存块，但是MapReduce作业使用扫描大量的行，我们就不该使用这个了。

1.2.10 bloom过滤器：实现原理和在hbase中的应用

1.2.10.1 bloom过滤器是什么

布隆过滤器是一种多哈希函数映射的快速查找算法(存储结构），可以实现用很小的空间和运算代价，来实现海量数据的存在与否的记录（黑白名单判断）。特点是高效的插入和查询，可以判断出一定不存在和可能存在，相比于传统的 List、Set、Map 等数据结构，它更高效、占用空间更少，但是缺点是其返回的可能存在结果是概率性的，而不是确切的。

判断一个元素是不是在一个集合里，一般想到的是将所有元素保存起来，然后通过比较来确定。链表、平衡二叉树、散列表，或者是把元素放到数组或链表里，都是这种思路。以上三种结构的检索时间复杂度分别为O(n), O(logn), O(n/k)，O(n),O(n)。而布隆过滤器(Bloom Filter)也是用于检索一个元素是否在一个集合中，它的空间复杂度是固定的常数O(m)，而检索时间复杂度是固定的常数O(k)。相比而言，有1%误报率和最优值k的布隆过滤器，每个元素只需要9.6个比特位–无论元素的大小。这种优势一方面来自于继承自数组的紧凑性，另外一方面来自于它的概率性质。1%的误报率通过每个元素增加大约4.8比特，就可以降低10倍。

1.2.10.2 为什么？

布隆过滤器是hbase中的高级功能，它能够减少特定访问模式（get/scan）下的查询时间。不过由于这种模式增加了内存和存储的负担，所以被默认为关闭状态。

1.2.10.3 怎么做

当我们随机读get数据时，如果采用hbase的块索引机制，hbase会加载很多块文件。

采用布隆过滤器后，它能够准确判断该HFile的所有数据块中是否含有我们查询的数据，从而大大减少不必要的块加载，增加吞吐，降低内存消耗，提高性能

在读取数据时，hbase会首先在布隆过滤器中查询，根据布隆过滤器的结果，再在MemStore中查询，最后再在对应的HFile中查询。

1.3 调优

1.3.1 通用调优

高可用：在 HBase 中 Hmaster 负责监控 RegionServer 的生命周期，均衡 RegionServer 的负载，如果 Hmaster 挂掉了，那么整个 HBase 集群将陷入不健康的状态，并且此时的工作状态并不会维持太久。所以 HBase 支持对 Hmaster 的高可用配置。
HDFS调优
- NameNode 元数据备份使用 SSD
- 定时备份 NameNode 上的元数据：每小时或者每天备份，如果数据极其重要，可以 5~10 分钟备份一次。备份可以通过定时任务复制元数据目录即可。
- 为 NameNode 指定多个元数据目录：使用 dfs.name.dir 或者 dfs.namenode.name.dir 指定。这样可以提供元数据的冗余和健壮性，以免发生故障。
Linux优化
- 开启文件系统的预读缓存可以提高读取速度
- 关闭进程睡眠池
- 调整 ulimit 上限，默认值为比较小的数字
ZK优化

优化 Zookeeper 会话超时时间：hbase-site.xml中zookeeper.session.timeout

1.3.2 个性优化

1.3.2.1 预分区及RowKey设计

1.3.2.2 内存优化

合理配置JVM内存：这里首先涉及 HBase 服务的堆内存设置。一般刚部署的 HBase 集群，默认配置只给 Master 和 RegionServer 分配了 1G 的内存，RegionServer 中 MemStore 默认占 0.4 即 400MB 左右的空间，而一个 MemStore 刷写阈值默认 128M，所以一个 RegionServer 也就能正常管理 3 个Region，多了就可能会产生小文件了，另外也容易发生 Full GC。因此建议合理调整 Master 和 RegionServer 的内存，
选择合适的GC策略：小堆（4G及以下）选择 CMS，大堆（32G及以上）考虑用 G1，如果堆内存介入 4~32G 之间，可自行测试下两种方案。剩下来的就是 GC 参数调优了，这一块也要合理配置加上实际测试
开启MSLAB功能：HBase 自己实现了一套以 MemStore 为最小单元的内存管理机制，称为 MSLAB（MemStore-Local Allocation Buffer），主要作用是为了减少内存碎片化，改善 Full GC 发生的情况。
考虑开启BucketCache：这块涉及到读缓存 BlockCache 的策略选择。首先，BlockCache 是 RegionServer 级别的，一个 RegionServer 只有一个 BlockCache。BlockCache 的工作原理是读请求会首先检查 Block 是否存在于 BlockCache，存在就直接返回，如果不存在再去 HFile 和 MemStore 中获取，返回数据时把 Block 缓存到 BlockCache 中，后续同一请求或临近查询可以直接从 BlockCache 中获取，避免过多的昂贵 IO 操作。BlockCache 默认是开启的。
合理配置读写缓存比例：这里首先涉及 HBase 服务的堆内存设置。一般刚部署的 HBase 集群，默认配置只给 Master 和 RegionServer 分配了 1G 的内存，RegionServer 中 MemStore 默认占 0.4 即 400MB 左右的空间，而一个 MemStore 刷写阈值默认 128M，所以一个 RegionServer 也就能正常管理 3 个Region，多了就可能会产生小文件了，另外也容易发生 Full GC。因此建议合理调整 Master 和 RegionServer 的内存，在一些场景下，我们可以适当调整两部分比例，比如写多读少的场景下我们可以适当调大写缓存，让 HBase 更好的支持写业务，相反类似，总之两个参数要配合调整。

1.3.2.3 基础优化

flush、compact、split 机制：当 MemStore 达到阈值，将 Memstore 中的数据 Flush 进 Storefile；compact 机制则是把 flush 出来的小文件合并成大的 Storefile 文件。split 则是当 Region 达到阈值，会把过大的 Region 一分为二。
指定 scan.next 扫描 HBase 所获取的行数：hbase.client.scanner.caching用于指定 scan.next 方法获取的默认行数，值越大，消耗内存越大。
设置 RPC 监听数量：hbase.regionserver.handler.count默认值为 30，用于指定 RPC 监听的数量，可以根据客户端的请求数进行调整，读写请求较多时，增加此值。

1.3.2.4 HBase写表的优化

多Table并发写：创建多个HTable客户端用于写操作，提高写数据的吞吐量
HTable参数优化：
- Auto Flush：通过调用HTable.setAutoFlush(false)方法可以将HTable写客户端的自动flush关闭，这样可以批量写入数据到HBase，而不是有一条put就执行一次更新，只有当put填满客户端写缓存时，才实际向HBase服务端发起写请求。默认情况下auto flush是开启的。
- Write Buffer：通过调用HTable.setWriteBufferSize(writeBufferSize)方法可以设置HTable客户端的写buffer大小，如果新设置的buffer小于当前写buffer中的数据时，buffer将会被flush到服务端。其中，writeBufferSize的单位是byte字节数，可以根据实际写入数据量的多少来设置该值。
- Wal Flag：在HBae中，客户端向集群中的RegionServer提交数据时（Put/Delete操作），首先会先写WAL（Write Ahead Log）日志（即HLog，一个RegionServer上的所有Region共享一个HLog），只有当WAL日志写成功后，再接着写MemStore，然后客户端被通知提交数据成功；如果写WAL日志失败，客户端则被通知提交失败。这样做的好处是可以做到RegionServer宕机后的数据恢复。
  
  因此，对于相对不太重要的数据，可以在Put/Delete操作时，通过调用Put.setWriteToWAL(false)或Delete.setWriteToWAL(false)函数，放弃写WAL日志，从而提高数据写入的性能。
  
  值得注意的是：谨慎选择关闭WAL日志，因为这样的话，一旦RegionServer宕机，Put/Delete的数据将会无法根据WAL日志进行恢复。
批量写：通过调用HTable.put(Put)方法可以将一个指定的row key记录写入HBase，同样HBase提供了另一个方法：通过调用HTable.put(List)方法可以将指定的row key列表，批量写入多行记录，这样做的好处是批量执行，只需要一次网络I/O开销，这对于对数据实时性要求高，网络传输RTT高的情景下可能带来明显的性能提升。
多线程并发：在客户端开启多个HTable写线程，每个写线程负责一个HTable对象的flush操作，这样结合定时flush和写buffer（writeBufferSize），可以既保证在数据量小的时候，数据可以在较短时间内被flush（如1秒内），同时又保证在数据量大的时候，写buffer一满就及时进行flush。

1.3.2.5 HBase读表的优化

多HTable并发读：创建多个HTable客户端用于读操作，提高读数据的吞吐量
HTable参数设置：
批量读：通过调用HTable.get(Get)方法可以根据一个指定的row key获取一行记录，同样HBase提供了另一个方法：通过调用HTable.get(List)方法可以根据一个指定的row key列表，批量获取多行记录，这样做的好处是批量执行，只需要一次网络I/O开销，这对于对数据实时性要求高而且网络传输RTT高的情景下可能带来明显的性能提升。
多线程并发：在客户端开启多个HTable读线程，每个读线程负责通过HTable对象进行get操作。
缓存查询结果：对于频繁查询HBase的应用场景，可以考虑在应用程序中做缓存，当有新的查询请求时，首先在缓存中查找，如果存在则直接返回，不再查询HBase；否则对HBase发起读请求查询，然后在应用程序中将查询结果缓存起来。至于缓存的替换策略，可以考虑LRU等常用的策略。
Blockcache：HBase上Regionserver的内存分为两个部分，一部分作为Memstore，主要用来写；另外一部分作为BlockCache，主要用于读。

写请求会先写入Memstore，Regionserver会给每个region提供一个Memstore，当Memstore满64MB以后，会启动 flush刷新到磁盘。当Memstore的总大小超过限制时（heapsize * hbase.regionserver.global.memstore.upperLimit * 0.9），会强行启动flush进程，从最大的Memstore开始flush直到低于限制。

读请求先到Memstore中查数据，查不到就到BlockCache中查，再查不到就会到磁盘上读，并把读的结果放入BlockCache。由于BlockCache采用的是LRU策略，因此BlockCache达到上限(heapsize * hfile.block.cache.size * 0.85)后，会启动淘汰机制，淘汰掉最老的一批数据。

一个Regionserver上有一个BlockCache和N个Memstore，它们的大小之和不能大于等于heapsize * 0.8，否则HBase不能启动。默认BlockCache为0.2，而Memstore为0.4。对于注重读响应时间的系统，可以将 BlockCache设大些，比如设置BlockCache=0.4，Memstore=0.39，以加大缓存的命中率。

1.4 HBase高可用

1.4.1 为什么？

HBase是一个没有单点故障的分布式系统，上层(HBase层)和底层(HDFS层)都通过一定的技术手段，保障了服务的可用性。上层HMaster一般都是高可用部署，而RegionServer如果出现宕机，region迁移的代价并不大，一般都在毫秒级别完成，所以对应用造成的影响也很有限；底层存储依赖于HDFS，数据本身默认也有3副本，数据存储上做到了多副本冗余，而且Hadoop 2.0以后NameNode的单点故障也被消除。所以，对于这样一个本身没有单点故障，数据又有多副本冗余的系统，再进行高可用的配置是否有这个必要？

数据库管理人员失误，进行了不可逆的DDL操作：不管是什么数据库，DDL操作在执行的时候都需要慎之又慎，很可能一条简单的drop操作，会导致所有数据的丢失，并且无法恢复，对于HBase来说也是这样，如果管理员不小心drop了一个表，该表的数据将会被丢失。
离线MR消耗过多的资源，造成线上服务受到影响：HBase经过这么多年的发展，已经不再是只适合离线业务的数据存储分析平台，许多公司的线上业务也相继迁移到了HBase上，比较典型的如：facebook的Messages系统、360的搜索业务、小米米聊的历史数据等等。但不可避免在这些数据上做些统计分析类操作，大型MR跑起来，会有很大的资源消耗，可能会影响线上业务。
不可预计的另外一些情况：比如核心交换机故障，机房停电等等情况都会造成HBase服务中断

1.4.2 怎么做

为了保证 HBase 集群的高可靠性，HBase 支持多 Backup Master 设置，当Active Master 挂掉后，Backup Master 可以自动接管整个HBase的集群

该配置很简单，在 conf 目录下新增配置文件 backup-masters，在里面添加要作为 Backup Master 的节点机器名或 ip

vim /usr/local/hbase/conf/backup-masters

我这里用 Worker1 作为备用 master

将配置好的 hbase 目录传到到其他机器上
更改其他机器的 hbase 所属，在另外两台机器上执行
并配置环境变量

你可能感兴趣的:(Hbase,hbase,总结,面试)

输了，腾讯golang一面凉了 golang学习记 golang golang
本月正值4月，是金三银四的找工作的最佳时机。同时竞争也是很大，因为每年这个时候快要毕业的大学生也进去了找工作的潮水中。今天分享我的一位大佬朋友CC，勇闯腾讯golang的面试经历。这次面试问题的方向主要集中在计算机基础个网络方面。下面是主要问到的问题。第一个，http握手，https证书第二个，操作系统的中断，堆和栈第三个，数据库，乐观锁，悲观锁，acid等TSL四次握手的过程是什么第一次握手首先
golang面经整理（一）（k8s,docker二次开发方向，云原生方向） gooooer 1024程序员节
笔者在2022年7月份-9月份之间面试了很多golang和k8s相关的面试，主要想从事云原生相关的开发工作，大小公司面试了很多，现将整体面试感受和一些通用的问题做一些整理记录，帮助大家在面试的时候更好的进行准备。最近大环境不好，大厂的岗位也少了不少。主要投递的岗位包含广州、深圳的岗位，面试的是golang工程师相关的岗位，但其实单纯做云原生相关岗位比较少，基本上局限于国内的几朵云，阿里云，华为云，
【元婴境】mysql的MVCC（详解） jstart千语 mysql 数据库
目录MVCC介绍隐藏字段undologReadView示例：流程总结MVCC介绍大家好，我是jstart千语。上篇我们讲到mysql的事务隔离级别，其中MVCC就是控制事务隔离级别的重要组成部分，也是实现事务四大特性之一隔离性的重要手段。那么接下来我将通透地讲解MVCC，让大家对mysql的隔离性有一个更深刻的理解。MVCC全称Multi-VersionConcurrencyControl，也就是
栈力扣hot100热门面试算法题面试基础核心思路背题滑动窗口最大值字符串解码每日温度柱状图中最大矩形有效的括号最小栈尘土哥算法 leetcode 面试
栈栈的核心思路：每个数都要进栈or队列，但是要及时维护栈or队列，当某元素没有存在的意义时就删掉，关键是思考栈尾什么时候有用与没用。滑动窗口最大值https://leetcode.cn/problems/sliding-window-maximum/题解链接https://leetcode.cn/problems/sliding-window-maximum/solutions/3067170/d
广州各大IT公司情况调查总结 Monika Zhang 就业面试攻略其他
腾讯微信地址：广东省广州市海珠区新港中路397号TIT创意园B1-B3号使用C语言，C#居多门槛比较高字节跳动广州市天河区珠江东路6号广州周大福金融中心15层01-06室应聘比较注重算法阿里广州市海珠区阅江西路唯品会总部大厦西侧约170米不需要机试，面试难度比较高，注重技术深度，要有一技之长华为广州市黄埔区黄埔东路与红荔西路交叉路口往南约80米需要机试，三道算法题，400分，150分及格，多刷题不
闭包的概念总结与分析 Monika Zhang java java
1定义闭包又称词法闭包闭包最早定义为一种包含和的实体.在计算机科学中，闭包（英语：Closure），又称词法闭包（LexicalClosure）或函数闭包（functionclosures），是引用了自由变量的函数。解释一：闭包是引用了自由变量的函数，这个被引用的变量将和这个函数一同存在。解释二：闭包是函数和相关引用环境组成的实体。注：：除了局部变量的其他变量《Python核心编程》对闭包的解释:
nvidia系列教程-AGX-Orin系统刷机及备份 flypig哗啦啦 nvidia nvidia AGX-Orin
目录前言一、准备工作二、AGXOrin系统刷机步骤三、AGXOrin系统备份总结前言NVIDIAAGXOrin是一款高性能的嵌入式计算平台，专为边缘计算和AI应用而设计。为了确保系统的稳定性和适应不同的应用场景，用户可能需要对AGXOrin进行系统刷机和备份操作。本文将详细介绍如何完成这些操作，帮助您更好地管理和维护AGXOrin设备。一、准备工作在开始刷机和备份之前，请确保您已经准备好以下工具和
流数据（Streaming Data）处理人间无人事 javascript
在看代码之前，我们应当首先知道流数据与webSocket之间的区别（两者不能同一而论），因为存在区别所以在读取数据时使用相对较大的差距下面我将概述我对两者区别的一个总结（若有不对，请斧正）流数据（StreamingData）和WebSocket是两种不同的技术，但它们在实时数据传输方面有一些相似之处。以下是它们的区别和相同点：相同点1.实时性-两者都支持实时数据传输，适合需要低延迟的场景，如聊天应
Python基础知识点总结豆芽819 tip python 开发语言
1Python简介Python特点：解释型语言：无需编译，逐行执行。动态类型：变量类型在运行时确定。简洁易读：语法接近自然语言，代码简洁。跨平台支持：Windows/Linux/macOS均可运行。应用领域：Web开发、数据分析、人工智能、自动化脚本等。开发环境：推荐使用IDLE、PyCharm、VSCode或JupyterNotebook。2Python数值运算基本运算符：算术：+,-,*,/,
HDFS相关的面试题努力的搬砖人. java 面试 hdfs
以下是150道HDFS相关的面试题，涵盖了HDFS的基本概念、架构、操作、数据存储、高可用性、权限管理、性能优化、容错机制、与MapReduce的结合、安全性、数据压缩、监控与管理、与YARN的关系、数据一致性、数据备份与恢复等方面，希望对你有所帮助。HDFS基本概念1.HDFS是什么？它的设计目标是什么？•HDFS是Hadoop分布式文件系统，设计目标是实现对大规模数据的高吞吐量访问，适用于一次
服务器虚拟化相关的面试题努力的搬砖人. java 面试服务器其他
以下是服务器虚拟化相关的面试题，涵盖了服务器虚拟化的基础概念、技术原理、应用场景、性能优化、容错与高可用性、网络与存储、管理与监控、安全与备份、与其他技术的结合等方面，希望对你有所帮助。服务器虚拟化基础概念1.什么是服务器虚拟化？它的主要目的是什么？•服务器虚拟化是指通过虚拟化技术将一台物理服务器虚拟成多台虚拟机，每台虚拟机可以独立运行操作系统和应用程序。其主要目的是提高服务器的资源利用率，降低硬
Flink相关面试题努力的搬砖人. 面试 java 后端 flink
以下是150道ApacheFlink面试题及其详细回答，涵盖了Flink的基础知识、核心架构、API使用、性能调优等多个方面，每道题目都尽量详细且简单易懂：Flink基础概念类1.什么是ApacheFlink？ApacheFlink是一个开源的流处理和批处理框架，能够实现快速、可靠、可扩展的大数据处理。它既可以处理无界的数据流，也可以处理有界的数据批，提供了低延迟和高吞吐量的实时数据处理能力。Fl
什么是CDN？一篇让小白也能看懂的科普博客网络小白不怕黑网络科普网络 CDN 网络科普
目录什么是CDN？CDN的工作原理CDN的核心组成部分CDN的主要作用CDN的应用场景CDN的优势与局限性如何选择CDN服务？总结1.什么是CDN？CDN的全称是ContentDeliveryNetwork，中文翻译为内容分发网络。简单来说，CDN是一个由多个服务器组成的网络系统，这些服务器分布在世界各地，用来帮助用户更快、更稳定地访问网站、视频、图片等内容。举个例子：假设你在北京访问一个位于美国
MQ总结 java
一.如何实现消息可靠性1.发送到MQ失败，重试策略2.生产者确认机制Confirm机制每个消息都有自己的一个Confirm机制消息正确到达交换机，返回ack。未到达交换机，返回nack。Return机制消息未正确到达队列，此时会通过PublisherConfirm返回ack，会通过PublisherReturn回调方法返回异常信息。全局只有一个失败后把消息写入数据库表，后期通过定时任务扫描，再次发
JavaScript 箭头函数使用总结及注意事项（适合新手到进阶）我真聪明。 javascript 开发语言 ecmascript
箭头函数（=>）是ES6的核心特性之一，它简化了函数写法并改变了this的指向逻辑，但在使用时需要明确其适用场景和限制。以下是详细总结：一、箭头函数核心特点简洁语法：//传统函数constadd=function(a,b){returna+b;};//箭头函数constadd=(a,b)=>a+b;//单行省略returnconstadd=(a,b)=>{returna+b;};//多行需显式re
前端面试：[React] scheduler 调度机制原理？ returnShitBoy 前端 react.js javascript
ReactScheduler是React16.8引入的一种调度机制，旨在对高效渲染和复杂应用程序的性能进行优化。它允许React在空闲时间进行渲染，优先处理对用户体验最为重要的任务。以下是Scheduler调度机制的原理，以及它在实际工作中如何帮助管理渲染。1.调度机制的背景React的渲染过程可能会受到多个因素的影响，例如用户输入、网络请求以及其他状态变化。传统的渲染机制在某些情况下可能导致性能
Java设计模式——装饰模式爱吃土豆的程序员 Java设计模式 java 装饰器模式设计模式
目录模式动机模式定义模式结构类图代码分析示例：动态添加功能的流组件接口具体组件装饰抽象类具体装饰类客户端模式分析核心思想动态扩展功能组合优于继承优点动态扩展功能组合优于继承代码复用性高符合开闭原则缺点增加系统的复杂性类的膨胀复杂的调试适用环境动态扩展功能避免继承带来的类爆炸性增长高度可定制化的需求模式应用输入输出流GUI组件日志记录模式扩展多层次装饰结合其他设计模式总结模式动机一般有两种方式可以实
算法刷题记录——LeetCode篇(1) [第1~100题](持续更新) Allen Wurlitzer 实战-算法解题算法 leetcode 职场和发展
更新时间：2025-03-21LeetCode刷题目录：算法刷题记录——专题目录汇总技术博客总目录：计算机技术系列博客——目录页优先整理热门100及面试150，不定期持续更新，欢迎关注！1.两数之和给定一个整数数组nums和一个整数目标值target，请你在该数组中找出和为目标值target的那两个整数，并返回它们的数组下标。你可以假设每种输入只会对应一个答案，并且你不能使用两次相同的元素。你可以
HarmonyOS Next 安全机制深度剖析 SameX-4869 harmonyos 华为
本文旨在深入探讨华为鸿蒙HarmonyOSNext系统（截止目前API12）的安全机制相关技术细节，基于实际开发实践进行总结。主要作为技术分享与交流载体，难免错漏，欢迎各位同仁提出宝贵意见和问题，以便共同进步。本文为原创内容，任何形式的转载必须注明出处及原作者。第一章：安全体系架构一、整体架构介绍HarmonyOSNext的安全体系架构犹如一座坚固的城堡，从多个层面为系统和应用提供全方位的保护。它
LLM 大模型技术知识最佳学习路径图发布！ AGI-杠哥学习人工智能语言模型 agi 自然语言处理
近日，经常有小伙伴私信我，大模型知识太多了，有点懵啊，我该如何学习LLM大模型？今天我们就来剖析下LLM大模型技术知识的学习路径。如果你是一个LLM大模型的“技术小白”，我们建议的学习路径如下：技术交流群前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~我们建了大模型技术与面试交流群
python实现接口自动化一只小H呀の python 自动化开发语言
代码实现自动化相关理论代码编写脚本和工具实现脚本区别是啥?代码：优点：代码灵活方便缺点：学习成本高工具：优点：易上手缺点：灵活度低，有局限性。总结：功能脚本：工具自动化脚本：代码代码接口自动化怎么做的？第一步：python+request+unittest;具体描述？第二步：封装、调用、数据驱动、日志、报告;详细举例:第三步：api\scripts\data\log\report\until…脚本
前端面试请叫我子鱼编程语言笔试面试程序员 web interview
前端面试之道JS基础知识点及常考面试题原始（Primitive）类型面试题：原始类型有哪几种？null是对象嘛？在JS中，存在着6种原始值，分别是：booleannullundefinednumberstringsymbol首先原始类型存储的都是值，是没有函数可以调用的对象（Object）类型面试题：对象类型和原始类型的不同之处？函数参数是对象会发生什么问题？在JS中，除了原始类型那么其他的都是对
如何编写一个Spring Boot Starter 一口酥Hac java spring boot 后端 java maven
文章目录概要创建一个SpringBootStarter的步骤创建一个Maven项目打包并发布在其他项目中使用总结概要写一个SpringBootStarter其实就是封装一部分功能，方便其他项目引入和使用。Starter是SpringBoot提供的一种机制，目的是为了简化配置和模块化开发。一般来说，SpringBootStarter会封装一个特定的功能模块，并自动配置一些常用的组件。通过写一个Sta
PostgreSQL_数据使用与日数据分享程序猿与金融与科技数据库 postgresql
目录前置：1使用1.1获取前复权因子1.2查询股票的纵向数据1.3查询股票的横向数据2日数据分享（截止至：2025-03-21）总结前置：本博文是一个系列。在本人“数据库专栏”-》“PostgreSQL_”开头的博文。本文为该系列最后一篇。1使用1.1获取前复权因子访问优矿官网ticker_list=[]field_list=['secID','tradeDate','accumAdjFactor
单片机 - RAM 与内存、ROM 与硬盘之间的详细对比总结 Peter_Deng. 单片机嵌入式硬件
RAM与内存RAM（RandomAccessMemory，随机存取存储器）和内存这两个术语通常是同义词，即内存常常指的就是RAM。1.RAM（内存）定义：RAM是计算机中的主存储器，用于临时存储正在运行的程序和数据。所有正在进行的操作，包括正在运行的程序、操作系统和应用程序数据，都存储在RAM中。工作原理：RAM通过直接访问任何位置的方式存取数据，故称为随机存储。数据存取速度非常快，因此在计算机中
初级：数组与字符串面试题深度剖析佩奇的技术笔记 Java面试小册 java
一、引言在Java开发中，数组和字符串是最常用的数据结构之一。面试官通过相关问题考察候选人对数组和字符串的理解和运用能力，以及在实际开发中解决相关问题的经验。本文将深入剖析常见的数组与字符串面试题，结合实际开发场景，帮助读者全面掌握这些知识点。二、数组面试题：如何对数组进行初始化和遍历？答案：数组的初始化可以使用直接初始化、动态初始化等方式。遍历数组可以使用传统的for循环、增强型for循环（fo
windows使用ssh-copy-id命令的解决方案爱编程的喵喵 Windows实用技巧 windows ssh ssh-copy-id 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了windows使用ssh-copy-
C 语言 --- 三子棋笑口常开xpr c语言开发语言
C语言---三子棋代码全貌与功能介绍游戏效果展示游戏代码详解game.htest.cgame.c总结作者简介：曾与你一样迷茫，现以经验助你入门C语言个人主页：@笑口常开xpr的个人主页系列专栏：C启新程✨代码趣语：编程是告诉另一个人你希望计算机做什么的艺术。代码千行，始于坚持，每日敲码，进阶编程之路。gitee链接：gitee在编程的世界里，每一行代码都可能隐藏着无限的可能性。你是否想过，一个小小
C语言 --- 分支笑口常开xpr C 启新程：从基础迈向代码巅峰 c语言
C语言---分支语句分支语句含义if...else语句单分支if语句语法形式双分支if-else语句语法形式悬空else含义问题描述多分支if-else语句语法形式switch...case语句含义语法形式总结作者简介：曾与你一样迷茫，现以经验助你入门C语言个人主页：@笑口常开xpr的个人主页系列专栏：C启新程✨代码趣语：C语言是一种简洁、高效、强大的语言，它能够让你做任何你想做的事情。代码千行，
WPF从初学者到专家：实战项目经验分享与总结 xcLeigh WPF 从入门到精通 wpf C#
WPF从初学者到专家：实战项目经验分享与总结一、前言二、WPF基础概念与入门2.1什么是WPF2.2XAML基础2.3数据绑定基础三、第一个WPF项目：简单的待办事项列表3.1项目需求分析3.2项目搭建与界面设计3.3业务逻辑实现四、中级项目：音乐播放器应用4.1项目需求分析4.2界面设计与布局4.3多媒体功能实现五、高级项目：企业级办公自动化平台（回顾与进阶）5.1项目回顾与优化5.2引入MVV
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置