之乎者也·

HBase内容分享（五）：HBase读写性能优化

一、HBase 读优化

1. HBase客户端优化

2. HBase服务器端优化

3. HBase列族设计优化

4. HDFS相关优化

5. HBase读性能优化归纳

二、HBase 写优化

1. 写性能优化切入点

2. 写异常问题检查点

一、HBase 读优化

1. HBase客户端优化

和大多数系统一样，客户端作为业务读写的入口，姿势使用不正确通常会导致本业务读延迟较高实际上存在一些使用姿势的推荐用法，这里一般需要关注四个问题：

1) scan缓存是否设置合理？

优化原理：在解释这个问题之前，首先需要解释什么是scan缓存，通常来讲一次scan会返回大量数据，因此客户端发起一次scan请求，实际并不会一次就将所有数据加载到本地，而是分成多次RPC请求进行加载，这样设计一方面是因为大量数据请求可能会导致网络带宽严重消耗进而影响其他业务，另一方面也有可能因为数据量太大导致本地客户端发生OOM。在这样的设计体系下用户会首先加载一部分数据到本地，然后遍历处理，再加载下一部分数据到本地处理，如此往复，直至所有数据都加载完成。数据加载到本地就存放在scan缓存中，默认100条数据大小。

通常情况下，默认的scan缓存设置就可以正常工作的。但是在一些大scan（一次scan可能需要查询几万甚至几十万行数据）来说，每次请求100条数据意味着一次scan需要几百甚至几千次RPC请求，这种交互的代价无疑是很大的。因此可以考虑将scan缓存设置增大，比如设为500或者1000就可能更加合适。笔者之前做过一次试验，在一次scan扫描10w+条数据量的条件下，将scan缓存从100增加到1000，可以有效降低scan请求的总体延迟，延迟基本降低了25%左右。

优化建议：大scan场景下将scan缓存从100增大到500或者1000，用以减少RPC次数

2) get请求是否可以使用批量请求？

优化原理：HBase分别提供了单条get以及批量get的API接口，使用批量get接口可以减少客户端到RegionServer之间的RPC连接数，提高读取性能。另外需要注意的是，批量get请求要么成功返回所有请求数据，要么抛出异常。

优化建议：使用批量get进行读取请求

3) 请求是否可以显示指定列族或者列？

优化原理：HBase是典型的列族数据库，意味着同一列族的数据存储在一起，不同列族的数据分开存储在不同的目录下。如果一个表有多个列族，只是根据Rowkey而不指定列族进行检索的话不同列族的数据需要独立进行检索，性能必然会比指定列族的查询差很多，很多情况下甚至会有2倍～3倍的性能损失。

优化建议：可以指定列族或者列进行精确查找的尽量指定查找

4) 离线批量读取请求是否设置禁止缓存？

优化原理：通常离线批量读取数据会进行一次性全表扫描，一方面数据量很大，另一方面请求只会执行一次。这种场景下如果使用scan默认设置，就会将数据从HDFS加载出来之后放到缓存。可想而知，大量数据进入缓存必将其他实时业务热点数据挤出，其他业务不得不从HDFS加载，进而会造成明显的读延迟毛刺

优化建议：离线批量读取请求设置禁用缓存，scan.setBlockCache(false)

2. HBase服务器端优化

一般服务端端问题一旦导致业务读请求延迟较大的话，通常是集群级别的，即整个集群的业务都会反映读延迟较大。可以从4个方面入手：

1) 读请求是否均衡？

优化原理：极端情况下假如所有的读请求都落在一台RegionServer的某几个Region上，这一方面不能发挥整个集群的并发处理能力，另一方面势必造成此台RegionServer资源严重消耗（比如IO耗尽、handler耗尽等），落在该台RegionServer上的其他业务会因此受到很大的波及。可见，读请求不均衡不仅会造成本身业务性能很差，还会严重影响其他业务。当然，写请求不均衡也会造成类似的问题，可见负载不均衡是HBase的大忌。

观察确认：观察所有RegionServer的读请求QPS曲线，确认是否存在读请求不均衡现象

优化建议：RowKey必须进行散列化处理（比如MD5散列），同时建表必须进行预分区处理

2) BlockCache是否设置合理？

优化原理：BlockCache作为读缓存，对于读性能来说至关重要。默认情况下BlockCache和Memstore的配置相对比较均衡（各占40%），可以根据集群业务进行修正，比如读多写少业务可以将BlockCache占比调大。另一方面，BlockCache的策略选择也很重要，不同策略对读性能来说影响并不是很大，但是对GC的影响却相当显著，尤其BucketCache的offheap模式下GC表现很优越。另外，HBase 2.0对offheap的改造（HBASE-11425）将会使HBase的读性能得到2～4倍的提升，同时GC表现会更好！

观察确认：观察所有RegionServer的缓存未命中率、配置文件相关配置项一级GC日志，确认BlockCache是否可以优化

优化建议：JVM内存配置量 < 20G，BlockCache策略选择LRUBlockCache；否则选择BucketCache策略的offheap模式；期待HBase 2.0的到来！

3) HFile文件是否太多？

优化原理：HBase读取数据通常首先会到Memstore和BlockCache中检索（读取最近写入数据&热点数据），如果查找不到就会到文件中检索。HBase的类LSM结构会导致每个store包含多数HFile文件，文件越多，检索所需的IO次数必然越多，读取延迟也就越高。文件数量通常取决于Compaction的执行策略，一般和两个配置参数有关：

hbase.hstore.compactionThreshold

hbase.hstore.compaction.max.size

前者表示一个store中的文件数超过多少就应该进行合并，后者表示参数合并的文件大小最大是多少，超过此大小的文件不能参与合并。这两个参数不能设置太’松’（前者不能设置太大，后者不能设置太小），导致Compaction合并文件的实际效果不明显，进而很多文件得不到合并。这样就会导致HFile文件数变多。

观察确认：观察RegionServer级别以及Region级别的storefile数，确认HFile文件是否过多

优化建议：hbase.hstore.compactionThreshold设置不能太大，默认是3个；设置需要根据Region大小确定，通常可以简单的认为 hbase.hstore.compaction.max.size = RegionSize / hbase.hstore.compactionThreshold

4) Compaction是否消耗系统资源过多？

优化原理：Compaction是将小文件合并为大文件，提高后续业务随机读性能，但是也会带来IO放大以及带宽消耗问题（数据远程读取以及三副本写入都会消耗系统带宽）。正常配置情况下Minor Compaction并不会带来很大的系统资源消耗，除非因为配置不合理导致Minor Compaction太过频繁，或者Region设置太大情况下发生Major Compaction。

观察确认：观察系统IO资源以及带宽资源使用情况，再观察Compaction队列长度，确认是否由于Compaction导致系统资源消耗过多

优化建议：

Minor Compaction设置：hbase.hstore.compactionThreshold设置不能太小，又不能设置太大，因此建议设置为5～6；hbase.hstore.compaction.max.size = RegionSize / hbase.hstore.compactionThreshold
Major Compaction设置：大Region读延迟敏感业务（ 100G以上）通常不建议开启自动Major Compaction，手动低峰期触发。小Region或者延迟不敏感业务可以开启Major Compaction，但建议限制流量；
期待更多的优秀Compaction策略，类似于stripe-compaction尽早提供稳定服务

3. HBase列族设计优化

HBase列族设计对读性能影响也至关重要，其特点是只影响单个业务，并不会对整个集群产生太大影响。列族设计主要从以下方面检查：

1) Bloomfilter是否设置？是否设置合理？

优化原理：Bloomfilter主要用来过滤不存在待检索RowKey或者Row-Col的HFile文件，避免无用的IO操作。它会告诉你在这个HFile文件中是否可能存在待检索的KV，如果不存在，就可以不用消耗IO打开文件进行seek。很显然，通过设置Bloomfilter可以提升随机读写的性能。

Bloomfilter取值有两个，row以及rowcol，需要根据业务来确定具体使用哪种。如果业务大多数随机查询仅仅使用row作为查询条件，Bloomfilter一定要设置为row，否则如果大多数随机查询使用row+cf作为查询条件，Bloomfilter需要设置为rowcol。如果不确定业务查询类型，设置为row。

优化建议：任何业务都应该设置Bloomfilter，通常设置为row就可以，除非确认业务随机查询类型为row+cf，可以设置为rowcol

4. HDFS相关优化

HDFS作为HBase最终数据存储系统，通常会使用三副本策略存储HBase数据文件以及日志文件。从HDFS的角度望上层看，HBase即是它的客户端，HBase通过调用它的客户端进行数据读写操作，因此HDFS的相关优化也会影响HBase的读写性能。这里主要关注如下三个方面：

1) Short-Circuit Local Read功能是否开启？

优化原理：当前HDFS读取数据都需要经过DataNode，客户端会向DataNode发送读取数据的请求，DataNode接受到请求之后从硬盘中将文件读出来，再通过TPC发送给客户端。Short Circuit策略允许客户端绕过DataNode直接读取本地数据。（具体原理参考此处）

优化建议：开启Short Circuit Local Read功能，具体配置戳这里

2) Hedged Read功能是否开启？

优化原理：HBase数据在HDFS中一般都会存储三份，而且优先会通过Short-Circuit Local Read功能尝试本地读。但是在某些特殊情况下，有可能会出现因为磁盘问题或者网络问题引起的短时间本地读取失败，为了应对这类问题，社区开发者提出了补偿重试机制 – Hedged Read。该机制基本工作原理为：客户端发起一个本地读，一旦一段时间之后还没有返回，客户端将会向其他DataNode发送相同数据的请求。哪一个请求先返回，另一个就会被丢弃。

优化建议：开启Hedged Read功能，具体配置参考这里

3) 数据本地率是否太低？

数据本地率：HDFS数据通常存储三份，假如当前RegionA处于Node1上，数据a写入的时候三副本为(Node1,Node2,Node3)，数据b写入三副本是(Node1,Node4,Node5)，数据c写入三副本(Node1,Node3,Node5)，可以看出来所有数据写入本地Node1肯定会写一份，数据都在本地可以读到，因此数据本地率是100%。现在假设RegionA被迁移到了Node2上，只有数据a在该节点上，其他数据（b和c）读取只能远程跨节点读，本地率就为33%（假设a，b和c的数据大小相同）。

优化原理：数据本地率太低很显然会产生大量的跨网络IO请求，必然会导致读请求延迟较高，因此提高数据本地率可以有效优化随机读性能。数据本地率低的原因一般是因为Region迁移（自动balance开启、RegionServer宕机迁移、手动迁移等）,因此一方面可以通过避免Region无故迁移来保持数据本地率，另一方面如果数据本地率很低，也可以通过执行major_compact提升数据本地率到100%。

优化建议：避免Region无故迁移，比如关闭自动balance、RS宕机及时拉起并迁回飘走的Region等；在业务低峰期执行major_compact提升数据本地率

5. HBase读性能优化归纳

在本文开始的时候提到读延迟较大无非三种常见的表象，单个业务慢、集群随机读慢以及某个业务随机读之后其他业务受到影响导致随机读延迟很大。了解完常见的可能导致读延迟较大的一些问题之后，我们将这些问题进行如下归类，读者可以在看到现象之后在对应的问题列表中进行具体定位：

二、HBase 写优化

和读相比，HBase写数据流程倒是显得很简单：数据先顺序写入HLog，再写入对应的缓存Memstore，当Memstore中数据大小达到一定阈值（128M）之后，系统会异步将Memstore中数据flush到HDFS形成小文件。

HBase数据写入通常会遇到两类问题，一类是写性能较差，另一类是数据根本写不进去。这两类问题的切入点也不尽相同，如下图所示：

1. 写性能优化切入点

1) 是否需要写WAL？WAL是否需要同步写入？

优化原理：数据写入流程可以理解为一次顺序写WAL+一次写缓存，通常情况下写缓存延迟很低，因此提升写性能就只能从WAL入手。WAL机制一方面是为了确保数据即使写入缓存丢失也可以恢复，另一方面是为了集群之间异步复制。默认WAL机制开启且使用同步机制写入WAL。首先考虑业务是否需要写WAL，通常情况下大多数业务都会开启WAL机制（默认），但是对于部分业务可能并不特别关心异常情况下部分数据的丢失，而更关心数据写入吞吐量，比如某些推荐业务，这类业务即使丢失一部分用户行为数据可能对推荐结果并不构成很大影响，但是对于写入吞吐量要求很高，不能造成数据队列阻塞。这种场景下可以考虑关闭WAL写入，写入吞吐量可以提升2x~3x。退而求其次，有些业务不能接受不写WAL，但可以接受WAL异步写入，也是可以考虑优化的，通常也会带来1x～2x的性能提升。

优化推荐：根据业务关注点在WAL机制与写入吞吐量之间做出选择

其他注意点：对于使用Increment操作的业务，WAL可以设置关闭，也可以设置异步写入，方法同Put类似。相信大多数Increment操作业务对WAL可能都不是那么敏感～

2) Put是否可以同步批量提交？

优化原理：HBase分别提供了单条put以及批量put的API接口，使用批量put接口可以减少客户端到RegionServer之间的RPC连接数，提高写入性能。另外需要注意的是，批量put请求要么全部成功返回，要么抛出异常。

优化建议：使用批量put进行写入请求

3) Put是否可以异步批量提交？

优化原理：业务如果可以接受异常情况下少量数据丢失的话，还可以使用异步批量提交的方式提交请求。提交分为两阶段执行：用户提交写请求之后，数据会写入客户端缓存，并返回用户写入成功；当客户端缓存达到阈值（默认2M）之后批量提交给RegionServer。需要注意的是，在某些情况下客户端异常的情况下缓存数据有可能丢失。

优化建议：在业务可以接受的情况下开启异步批量提交

使用方式：setAutoFlush(false)

4) Region是否太少？

优化原理：当前集群中表的Region个数如果小于RegionServer个数，即Num(Region of Table) < Num(RegionServer)，可以考虑切分Region并尽可能分布到不同RegionServer来提高系统请求并发度，如果Num(Region of Table) > Num(RegionServer)，再增加Region个数效果并不明显。

优化建议：在Num(Region of Table) < Num(RegionServer)的场景下切分部分请求负载高的Region并迁移到其他RegionServer；

5) 写入请求是否不均衡？

优化原理：另一个需要考虑的问题是写入请求是否均衡，如果不均衡，一方面会导致系统并发度较低，另一方面也有可能造成部分节点负载很高，进而影响其他业务。分布式系统中特别害怕一个节点负载很高的情况，一个节点负载很高可能会拖慢整个集群，这是因为很多业务会使用Mutli批量提交读写请求，一旦其中一部分请求落到该节点无法得到及时响应，就会导致整个批量请求超时。因此不怕节点宕掉，就怕节点奄奄一息！

优化建议：检查RowKey设计以及预分区策略，保证写入请求均衡。

6) 写入KeyValue数据是否太大？

KeyValue大小对写入性能的影响巨大，一旦遇到写入性能比较差的情况，需要考虑是否由于写入KeyValue数据太大导致。KeyValue大小对写入性能影响曲线图如下：

图中横坐标是写入的一行数据（每行数据10列）大小，左纵坐标是写入吞吐量，右坐标是写入平均延迟（ms）。可以看出随着单行数据大小不断变大，写入吞吐量急剧下降，写入延迟在100K之后急剧增大。

说到这里，有必要和大家分享两起在生产线环境因为业务KeyValue较大导致的严重问题，一起是因为大字段业务写入导致其他业务吞吐量急剧下降，另一起是因为大字段业务scan导致RegionServer宕机。

案件一：大字段写入导致其他业务吞吐量急剧下降

部分业务反馈集群写入忽然变慢、数据开始堆积的情况，查看集群表级别的数据读写QPS监控，发现问题的第一个关键点：业务A开始写入之后整个集群其他部分业务写入QPS都几乎断崖式下跌，初步怀疑黑手就是业务A。

下图是当时业务A的写入QPS（事后发现脑残忘了截取其他表QPS断崖式下跌的惨象），但是第一感觉是QPS并不高啊，凭什么去影响别人！

于是就继续查看其他监控信息，首先确认系统资源（主要是IO）并没有到达瓶颈，其次确认了写入的均衡性，直至看到下图，才追踪到影响其他业务写入的第二个关键点：RegionServer的handler（配置150）被残暴耗尽：

对比上面两张图，是不是发现出奇的一致，那就可以基本确认是由于该业务写入导致这台RegionServer的handler被耗尽，进而其他业务拿不到handler，自然写不进去。那问题来了，为什么会这样？正常情况下handler在处理完客户端请求之后会立马释放，唯一的解释是这些请求的延迟实在太大。

试想，我们去汉堡店排队买汉堡，有150个窗口服务，正常情况下大家买一个很快，这样150个窗口可能只需要50个服务。假设忽然来了一批大汉，要定制超大汉堡，好了，所有的窗口都工作起来，而且因为大汉堡不好制作导致服务很慢，这样必然会导致其他排队的用户长时间等待，直至超时。

可回头一想这可是写请求啊，怎么会有这么大的请求延迟！和业务方沟通之后确认该表主要存储语料库文档信息，都是平均100K左右的数据，是不是已经猜到了结果，没错，就是因为这个业务KeyValue太大导致。KeyValue太大会导致HLog文件写入频繁切换、flush以及compaction频繁触发，写入性能急剧下降。

目前针对这种较大KeyValue写入性能较差的问题还没有直接的解决方案，好在社区已经意识到这个问题，在接下来即将发布的下一个大版本HBase 2.0.0版本会针对该问题进行深入优化，详见HBase MOB，优化后用户使用HBase存储文档、图片等二进制数据都会有极佳的性能体验。

案件二：大字段scan导致RegionServer宕机

案件现场：有段时间有个0.98集群的RegionServer经常频繁宕机，查看日志是由于”java.lang.OutOfMemoryError: Requested array size exceeds VM limit”，如下图所示：

原因分析：通过查看源码以及相关文档，确认该异常发生在scan结果数据回传给客户端时由于数据量太大导致申请的array大小超过JVM规定的最大值（ Interge.Max_Value-2）。造成该异常的两种最常见原因分别是：

表列太宽（几十万列或者上百万列），并且scan返回没有对列数量做任何限制，导致一行数据就可能因为包含大量列而数据超过array大小阈值
KeyValue太大，并且scan返回没有对返回结果大小做任何限制，导致返回数据结果大小超过array大小阈值

有的童鞋就要提问啦，说如果已经对返回结果大小做了限制，在表列太宽的情况下是不是就可以不对列数量做限制呢。这里需要澄清一下，如果不对列数据做限制，数据总是一行一行返回的，即使一行数据大小大于设置的返回结果限制大小，也会返回完整的一行数据。在这种情况下，如果这一行数据已经超过array大小阈值，也会触发OOM异常。

解决方案：目前针对该异常有两种解决方案，其一是升级集群到1.0，问题都解决了。其二是要求客户端访问的时候对返回结果大小做限制(scan.setMaxResultSize(210241024))、并且对列数量做限制(scan.setBatch(100))，当然，0.98.13版本以后也可以对返回结果大小在服务器端进行限制，设置参数hbase.server.scanner.max.result.size即可

2. 写异常问题检查点

上述几点主要针对写性能优化进行了介绍，除此之外，在一些情况下还会出现写异常，一旦发生需要考虑下面两种情况（GC引起的不做介绍）：

Memstore设置是否会触发Region级别或者RegionServer级别flush操作？

问题解析：以RegionServer级别flush进行解析，HBase设定一旦整个RegionServer上所有Memstore占用内存大小总和大于配置文件中upperlimit时，系统就会执行RegionServer级别flush，flush算法会首先按照Region大小进行排序，再按照该顺序依次进行flush，直至总Memstore大小低至lowerlimit。这种flush通常会block较长时间，在日志中会发现“Memstore is above high water mark and block 7452 ms”，表示这次flush将会阻塞7s左右。

问题检查点：

Region规模与Memstore总大小设置是否合理？如果RegionServer上Region较多，而Memstore总大小设置的很小（JVM设置较小或者upper.limit设置较小），就会触发RegionServer级别flush。集群规划相关内容可以参考文章《HBase最佳实践－集群规划》
列族是否设置过多，通常情况下表列族建议设置在1～3个之间，最好一个。如果设置过多，会导致一个Region中包含很多Memstore，导致更容易触到高水位upperlimit

Store中HFile数量是否大于配置参数blockingStoreFile?

问题解析：对于数据写入很快的集群，还需要特别关注一个参数：hbase.hstore.blockingStoreFiles，此参数表示如果当前hstore中文件数大于该值，系统将会强制执行compaction操作进行文件合并，合并的过程会阻塞整个hstore的写入。通常情况下该场景发生在数据写入很快的情况下，在日志中可以发现”Waited 3722ms on a compaction to clean up ‘too many store files“

问题检查点：

参数设置是否合理？hbase.hstore.compactionThreshold表示启动compaction的最低阈值，该值不能太大，否则会积累太多文件，一般建议设置为5～8左右。hbase.hstore.blockingStoreFiles默认设置为7，可以适当调大一些。

你可能感兴趣的:(大数据（Hadoop）内容分享,HBase,内容分享,hbase,性能优化,数据库)

信创产品认证的关键条件与指标齐鲁物联网测试中心王工信创产品测试功能测试可用性测试
信创产品认证是确保产品符合国家信息化和工业化融合战略的重要环节。客户在考虑信创产品时，通常会关注三个核心条件：技术路线、知识产权和产品质量。三大基本条件详细解读：1.技术路线技术路线是信创产品的入门门槛，涉及国产CPU、操作系统、数据库和中间件等关键技术。常见的国产技术品牌包括鲲鹏、麒麟、兆芯、海光等，而数据库方面则有达梦、瀚高等。这些技术构成了信创产品的技术基础，是产品能否满足信创要求的前提。2
大数据Hadoop集群运行程序赵广陆 hadoop hadoop big data mapreduce
目录1运行自带的MapReduce程序2常见错误1运行自带的MapReduce程序下面我们在Hadoop集群上运行一个MapReduce程序，以帮助读者对分布式计算有个基本印象。在安装Hadoop时，系统给用户提供了一些MapReduce示例程序，其中有一个典型的用于计算圆周率的Java程序包，现在运行该程序。该jar包文件的位置和文件名是“~/hadoop-3.1.0/share/Hadoop/
【数据库】通俗易懂掌握MySQL存储最小单位及数据存取过程千益数据库数据库 mysql
MySQL是一种广泛使用的关系型数据库管理系统（RDBMS），它的核心功能是存储和管理数据。要深入理解MySQL的工作原理，首先需要了解它的存储最小单位以及数据存取过程。此外，MySQL支持多种存储引擎（如InnoDB、MyISAM等），不同的存储引擎在数据存取过程中会有一些区别。本文将通过丰富的案例和通俗易懂的解释，帮助你掌握这些核心概念。1.MySQL存储的最小单位：页（Page）1.1什么是
SQL基础语法 F_0125 MYSQL 数据库 oracle sql
主要内容SQL（StructuredQueryLanguage）是一种用于管理关系数据库的编程语言。它允许用户在数据库中存储、修改和检索数据，并提供了一些强大的功能，如数据过滤、排序、分组和聚合。SQL是一种标准化的语言，几乎所有的关系数据库管理系统都支持它。SQL的用法包括以下几个方面：1.数据库的创建和删除使用SQL可以创建和删除数据库。创建数据库的语法如下：CREATEDATABASEdat
2025年渗透测试面试题总结-字某某动-安全研究实习生（二面）（题目+回答）独行soc 2025年渗透测试面试指南面试职场和发展安全网络安全红蓝攻防护网
网络安全领域各种资源，学习文档，以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具，欢迎关注。目录字某某动-安全研究实习生（二面）1.护网行动中的核心工作2.防护层级选择（WAF/IDS）3.误报治理方案4.内网误报分布场景5.MySQL执行PowerShell防护6.资产收集经验7.漏洞攻击案例8.SQL注入攻防详解原理防御方案OrderBy防御特殊字符处理9.
2025年二级建造师备考经验技巧分享 100分题库小栗子笔记
备考二级建造师，掌握有效的方法至关重要。下面从学习规划、科目复习要点以及练习巩固等方面分享经验。制定科学学习规划依据考试时间与自身日常安排，制定详细学习计划。例如，若距离考试还有三个月，可将第一个月用于全面学习各科基础知识点，每天保证2-3小时学习时间。第二个月进行知识点强化，梳理重点、难点，可利用周末时间进行章节总结。最后一个月集中刷题、模拟考试，熟悉考试节奏。同时，规划时要预留弹性时间，应对突
【微服务】SpringBoot 整合Redis Stack 构建本地向量数据库相似性查询小码农叔叔 AI大模型实战与应用 springboot 入门到精通向量数据库 redis stack java使用向量数据库
目录一、前言二、向量数据库介绍2.1什么是向量数据库2.2向量数据库特点2.3向量数据库使用场景三、常用的向量数据库解决方案3.1Milvus3.1.1Milvus是什么3.1.2Milvus主要特点3.2Faiss3.2.1Faiss是什么3.2.2Faiss主要特点3.3Pinecone3.3.1Pinecone是什么3.3.2Pinecone主要特点3.4Weaviate3.4.1Weavi
ShardingSphere 和 Spring 的动态数据源切换机制的对比以及原理龙大. 系统设计 Spring Mysql spring java 数据库
ShardingSphere与Spring动态数据源切换机制的对比及原理一、核心定位对比维度ShardingSphereSpring动态数据源（如AbstractRoutingDataSource）定位分布式数据库中间件轻量级多数据源路由工具核心目标分库分表、读写分离、分布式事务多数据源动态切换适用场景大数据量、高并发、复杂分片需求简单多数据源隔离（如多租户、环境隔离）实现层级JDBC驱动层（拦截
向量数据库（二）：Qdrant J_D_Chi 数据库数据库
写在前面我们借助Qdrant来了解向量数据库的一些内容内容什么是Qdrant？Qdrant是一个开源的针对向量相似性搜索的引擎，它提供了一系列的API用于对向量数据进行存储、搜索和管理等功能。下面是来自Qdrant官网的一个架构图：初步了解Qdrant里的一些概念以Qdrant的架构图为背景，我们需要初步了解下里面涉及到的一些概念名词，后面我们再对这些概念做进一步的了解。
Ceph实战（一）-分布式存储介绍与原理架构概述深度视觉机器 Centos7 Ceph 分布式存储介绍与原理架构概述
最近工作中有涉及到CEPH相关的内容，所以打算开一个CEPH专栏来进行总结，学习CEPH还有一个重要原因就是我同时要补充kubernetes、rancher专栏必定会涉及到有状态的存储资源抽象（StatefulSet、PV、PVC、StorageClass等），首先绕不开的就是高可用的分布式存储系统，虽然有很多人反对将持久化数据以容器的方式来部署，说容器化部署不是银弹，但未来发展方向就是容器化，并
Django 模型的逆向工程 jay丿 django 数据库 sqlite
模型的逆向工程：通过inspectdb命令从数据库表创建Django模型在Django开发中，模型（Model）是定义数据库结构的关键组件。通常，我们根据业务需求先设计模型，然后通过Django的迁移系统创建相应的数据库表。然而，在某些情况下，我们可能需要从已经存在的数据库表中生成Django模型，这个过程称为逆向工程。Django提供了一个非常有用的工具——inspectdb命令，它允许我们直接
容器技术概要及docker容器部署和常用命令此方konata docker 容器运维
容器技术是一种轻量级的虚拟化技术，它允许开发者将应用程序及其依赖项打包在一个独立的、可移植的容器中。与传统的虚拟机不同，容器共享宿主机的操作系统内核，因此它们更加轻量级、启动更快，并且资源占用更少。容器技术的核心是容器引擎，如Docker，它负责创建、运行和管理容器。容器引擎通过使用容器镜像来定义容器的内容，镜像包含了应用程序运行所需的所有文件、库和配置。容器镜像可以在不同的环境中一致地运行，确保
打卡代码随想录第17天：LeetCode654.最大二叉树、 617.合并二叉树、 700.二叉搜索树中的搜索、98.验证二叉搜索树 jingjingjing1111 算法数据结构
学习资料：代码随想录文中含LLM生成内容，不一定对654.最大二叉树力扣题目地址思路：不断寻找该部分的最大值去切割数组，不断递归，到在左闭右开区间不成立时，返回空节点。/***Definitionforabinarytreenode.*structTreeNode{*intval;*TreeNode*left;*TreeNode*right;*TreeNode():val(0),left(null
打卡代码随想录第15天：LeetCode 110.平衡二叉树 257. 二叉树的所有路径 404.左叶子之和 jingjingjing1111 leetcode
学习资料：代码随想录文中含LLM生成内容110.平衡二叉树力扣题目链接思路：逐层返回当前节点的最大高度，比较各节点的左右孩子高度后续方法遍历，因为‘中’是比较环节，要在左右之后/***Definitionforabinarytreenode.*structTreeNode{*intval;*TreeNode*left;*TreeNode*right;*TreeNode():val(0),left(
打卡代码随想录算法训练营第11天： 150. 逆波兰表达式求值 239. 滑动窗口最大值 347.前 K 个高频元素 jingjingjing1111 leetcode
代码随想录文中含LLM回答内容150.逆波兰表达式求值力扣题目链接思路K:先理解逆波兰表达式是啥，是把运算符放在了两个要运算的数字的后边，又叫后缀表达式。遇见数字就入栈，遇见算符就计算栈里前两个数字，算完再存回去classSolution{public:intevalRPN(vector&tokens){stackpoland;for(inti=0;ique;voidpop(intval){if(
向量数据库及其在大模型应用落地中的作用一望无际的大草原高级数据应用读书笔记工作总结数据库向量数据库解决方案
一、几个术语需要弄清楚几个术语，比如向量、Embedding、向量检索、向量数据库，具体如下。1.向量：为AI理解世界的通用数据形式，是多模态数据的压缩，任何模态数据都可以转为向量。文本直接送给计算机是无法认识的，而且是高维数据，需要对其进行向量化处理（即Embedding），处理完成后就形成一个个向量。2.Embedding：将文字文本转化为保留语义关系的向量文本，相当于利用embedding模
介绍一下Qt中的动态属性已是上好佳 qt 数据库开发语言 c++
在Qt中，动态属性是一种强大且灵活的特性，它允许你在运行时为对象添加、修改和查询属性，而不需要在类的定义中预先声明这些属性。下面为你详细介绍Qt动态属性的相关内容：1.动态属性的基本概念在传统的C++类中，属性通常是在类的定义里通过成员变量来表示的，并且在编译时就已经确定。而Qt的动态属性打破了这种限制，它可以在程序运行期间为任何继承自QObject的对象添加额外的属性，这些属性以键值对的形式存储
vue让table表格滚动的功能代码 yzy85 vue.js javascript 前端
方法1：vue中在固定高度的容器中，表格内容需要滚动显示，代码如下：/***自动滚动*@param{divData}dom*@param{time}多久滚动一次默认50ms*/exportfunctioninfinitScroll(divData,time=50){divData.onmouseover=function(){clearInterval(t);//鼠标移入，停止滚动};divDat
MySQL存储结构胖虎是只mao MySQL 数据库 mysql 哈希表数组二叉树
背景：为什么数据库存储使用b+树而不是二叉树，因为二叉树树高过高，每次查询都需要访问过多节点，即访问数据块过多，而从磁盘随机读取数据块过于耗时。1.表存储结构单位：表>段>区>页>行在数据库中，不论读一行，还是读多行，都是将这些行所在的页进行加载。也就是说存储空间的基本单位是页。一个页就是一棵树B+树的节点，数据库I/O操作的最小单位是页，与数据库相关的内容都会存储在页的结构里。2.B+树索引结构
简单分享下Python数据可视化小软件大世界信息可视化 python 开发语言
在数据科学的广阔天地里，数据可视化是不可或缺的一环，它让复杂的数据变得易于理解。对于Python初学者而言，掌握Matplotlib和Seaborn这两个强大的库，无疑能让你的分析报告更加生动有趣。本文专为渴望提升数据可视化技能的你设计，通过15个实用技巧，带你从基础走向高级，探索数据背后的精彩故事。1.基础条形图-简单入手Matplotlib示例：import matplotlib.pyplot
linux svn创建资源库,CentOS 7搭建svn服务你的麦克疯 linux svn创建资源库
一、背景自己平时有记笔记的习惯，回到宿舍笔记就同步不了。打算入手下很火的笔记软件，用着觉得不顺手，目录一多查找不方便，没有英文首字母定位快，想想决定用svn同步，整理出来分享给大家。二、搭建svn服务1、安装subversionyum-yinstallsubversion2、创建版本库目录，为创建版本库提供存放位置mkdir-p/home/svn/svnrepos3、创建svn版本库，mynote
Java面试专业技能怎么写_Java面试——专业技能靳天羽 Java面试专业技能怎么写
目录一、简单讲下Java的跨平台原理二、装箱与拆箱三、实现一个拷贝文件的工具类使用字节流还是字符流四、介绍下线程池五、JSP和Servlet有哪些相同点和不同点六、简单介绍一下关系数据库三范式七、Mysql数据库的默认的最大连接数八、说一下Mysql和Oracle的分页九、简单讲一下数据库的触发器的使用场景十、简单讲一下数据库的存储过程的使用场景十一、简单介绍一下Activiti十二、编写一个Se
高斯溅射融合之路（一）- webgl渲染3d gaussian splatting 山海鲸可视化数字孪生 GIS系统 webgl 数字孪生 GIS 高斯泼溅 AI重构
大家好，我是山海鲸的技术负责人。之前已经写了一个GIS融合系列。其实CesiumJS的整合有相当的难度，同时也有很多方面的工作，很难在几篇文章内写完，整个山海鲸团队也是投入了接近两年的时间，才把周边整套工具链进行了完善，后续有新的内容也会持续分享，隔壁系列传送门：GIS融合之路一坑未平，一坑又起。去年年末，我们的AI合作伙伴突然给山海鲸技术团队丢来了一个新技术-3DGaussianSplattin
判断字符串是否是回文冱洇算法 c语言
编程小白，分享做题心得输入一串字符串，判断是否是回文序列例1：abba输出：yes例2：aaad输出：no#includeintmain(void){staticinti,k;charc[10000];k=0;for(intj=0;j=k)//当判断出是否为回文序列时立刻结束循环{break;}}if(i
python反爬虫处理--处理动态内容加载（Selenium库）范哥来了 python 爬虫开发语言
使用Selenium处理动态加载的内容Selenium是一个强大的工具，可以用来模拟真实用户与网页进行交互。这对于处理那些通过JavaScript动态加载内容的网站特别有用。下面我将介绍如何安装Selenium库以及如何使用它来抓取动态加载的内容。1.安装Selenium库首先，您需要确保已经安装了Selenium库。您可以使用pip来安装Selenium：pipinstallselenium此外
计算机二级第29套题计算机小林 windows
ppt1设置幻灯片大小→设计→自定义→幻灯片大小2构成不可分离的完整图形→水平居中对齐→绘图工具→格式→插入形状→合并形状Word1编号对齐左侧边距→对齐位置0厘米2正文格式为上标→开始→开始→编辑→替换→查找内容"尾注标记"，替换"特殊格式"上标3删除文档中的空行→两个段落标记→一个段落标记4页眉为各章的编号和内容→styleref→插入段落编号5分节之前把首页不同去掉Excel1计算各候选人在
解决方案｜回归医院运营管理本质，从建立指标体系出发机器学习人工智能
医疗行业一直是一个备受关注的领域，尤其在当前全球卫生挑战背景下更是备受瞩目。随着数字化技术和大数据应用的不断深入，医疗行业正在经历一次前所未有的变革和转型。在2023年的两会上，大数据和数字化技术将再次成为热点议题，这意味着政府将会更加关注并支持医疗行业数据转型。在这个背景下，我们需要思考如何充分利用数字化技术和大数据，为医疗行业的发展注入新的活力，并为人类的健康保障提供更好的保障。最近几年，随着
Matlab中input函数用法 jk_101 Matlab matlab 开发语言算法
目录语法说明示例请求数值输入或表达式请求未处理的文本输入input函数的功能是请求用户输入。语法x=input(prompt)str=input(prompt,'s')说明x=input(prompt)显示prompt中的文本并等待用户输入值后按Return键。用户可以输入pi/4或rand(3)之类的表达式，并可以使用工作区中的变量。如果用户不输入任何内容直接按下Return键，则input会返
13 【HarmonyOS NEXT】仿uv-ui组件开发之Avatar组件进阶指南(四) harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！补充内容由于本人疏忽本教程的第一节忘记上传运行效果图拉，因此在本章节进行补充，哈哈哈！第四篇：打造高性能Avatar组件的终极优化秘籍1.性能优化策略1.1状态管理优化//优化前@Stateprivateprops:AvatarProps//优化后private
IP-Guard软件设置P2P升级功能峰哥IT IP-Guard技术文档 IP-Guard内网管理软件
日常使用IP-Guard软件遇到客户端升级，需要从服务器下载升级包，为了让快速升级，可以配置参数，具体设置见下图：控制台—策略—定制配置—新增关键字：obt_dislble_p2p2内容：2
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比