亚马逊云开发者

Amazon EMR HBase on S3 之二级索引、Thrift 和性能评测

点击上方【凌云驭势重塑未来】

一起共赴年度科技盛宴！

HBase 是作为 Apache 软件基金会 Hadoop 项目的一部分开发的开源、非关系、分布式数据库，为 Hadoop 生态系统提供非关系数据库功能。Amazon EMR 从4.6.0版本开始，就提供了 HBase。

Amazon EMR 从5.2.0版本开始，就支持把 HBase 根目录和元数据直接存储到 Amazon S3, 这样就实现了HBase 的存算分离，使得数据变成了高可用。我们可以启动一个 Amazon EMR 集群，在使用 HBase 时将其目录指向 S3 中的 HBase 根目录位置。当关闭 EMR 集群后，HBase 的数据文件仍然保留在 S3 上，如果启动新的 EMR集群，HBase 仍然可以使用原来位于 S3 的数据文件。

关于 HBase on S3, 请参考：

https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hbase-s3.html

Amazon EMR 从5.7.0版本开始，HBase on S3 支持只读副本集群。只读副本群集为只读操作提供对主集群数据文件和元数据的只读访问。这样就实现了 HBase 的读写分离。

关于使用 HBase on S3 设置只读副本集群，请参考：

https://aws.amazon.com/cn/blogs/china/setting-up-read-replica-clusters-with-hbase-on-amazon-s3

关于 HBase on S3 和 HBase 只读副本集群，上述文档里已经说的非常清楚了，这里不再赘述。本文从实战的角度，解释一下客户在选择使用 HBase on S3 的时候比较关心的两个问题，一个是如何把已有的 HBase on HDFS 迁移到 HBase on S3，并包含二级索引的迁移；另一个是 HBase on S3 的性能问题。

HBase 的架构和文件

为了方便后面介绍 HBase 迁移的步骤，以及确保迁移过程中避免数据丢失，需要先了解 HBase 的架构和数据文件，来看存储在 HDFS 上的 HBase 的架构图：

图1: HBase on HDFS 的架构和组成部分

下面依次介绍上图中的元素：

1. Client

提供了访问 HBase 的一系列 API 接口，如 Java Native API、Rest API、Thrift API 等，并维护 Cache 来加快对 HBase 的访问。

2. Zookeeper

HBase 通过 Zookeeper 来实现 Master 的高可用，保证任何时候集群中只有一个 Master、实时监控 Region Server 的上线和下线信息，并实时通知 Master 元数据的入口，以及集群配置等工作。

在创建 Aamazon EMR 时选中 HBase 应用后，会自带创建一个 Zookeeper 应用。

3. HDFS

HDFS 为 HBase 提供底层数据存储服务。使用 Amazon EMR HBase 时，我们推荐使用 S3 替换 HDFS。

4. Master（即图中的 HMaster）

HBase 通过 Master 来管理所有的 Region Server 和对表的 DDL 操作。

5. Region Server（即图中的 HRegionServer）

Region Server 用来管理 Region，处理外部对 Region 的 IO 请求，即对表的 DML 操作，向底层文件系统中读写数据。

Region Server 管理多个 Region，一个 Region 包含多个 Store, 一个 Store 对应一个 CF（列族），而一个 Store 包括位于内存中的 Mem Store 和位于磁盘的 Store File（即 HFile）。

6. Mem Store

写缓存，数据是先存储在 Mem Store 中，排好序后刷写（flush）到 Store File。关于这个 flush 的触发机制，可以参考：

https://www.jianshu.com/p/396664db17be

7. Store File

实际的存储文件。Store File 是以 HFile 的形式存储在 HDFS（或者 S3 上）的。每个 Store 会有一个或多个 Store File。

8. HFile

文件格式，HBase 的数据文件，即 Store File 是以 HFile 格式存储的。

默认情况下， HFile 位于 HDFS 文件系统的 /user/hbase/data 目录下。如果是 HBase on S3，则位于指定的 S3 目录。

9. HLog, 预写入日志，又称 Write-Ahead Logs (WAL)

用来保存 HBase 的修改记录，当对 HBase 操作数据的时候，对数据的操作会先写在一个叫做 Write-Ahead Log 的文件中，然后再将操作的数据写入内存中。所以在系统出现故障的时候，可以通过这个日志文件来恢复数据。

默认情况下， HLog 位于 HDFS 文件系统的 /user/hbase/WALs 目录下。

HBase 的二级索引

之所以会谈到二级索引，是因为我们在后面的 HBase on HDFS 迁移到 HBase on S3 时，也会涉及二级索引的迁移。这也是很多客户关心的话题。

HBase 的表数据按 RowKey 进行字典排序， RowKey 实际上是数据表的一级索引（Primary Index），由于 HBase 本身没有二级索引（Secondary Index）机制，基于索引检索数据只能单纯地依靠 RowKey, 这使得 HBase 不能有效地支持多条件查询。

HBase 本身不提供二级索引（Secondary Index），而是通过新建一个表的方式来实现实现二级索引的功能。为了实现索引而带来的额外的需求，例如更新数据时需要原子更新索引表，则需要在 HBase 上去开发实现，好在有开源的组件替 HBase 考虑到并实现了这些需求，例如 Apache Phoenix。

Phoenix 提供了几种类型的二级索引，常用的是一种叫 Covered Index（覆盖索引）的二级索引。这种索引在获取数据的过程中，内部不需要再去 HBase 表上获取任何数据，你查询需要返回的列的数据都被存储在索引中。要想达到这种效果，你的 select 的列，where 的列，group by 的列，都需要在索引中出现。

举个例子，如果你的 SQL 语句是：

SELECT "customer"."type" AS credit_card_type, count(*) AS num_customers 
FROM "customer" WHERE "customer"."state" = 'CA' GROUP BY "customer"."type";

左滑查看更多

要最大化查询效率和速度最快，你就需要建立覆盖索引：

CREATE INDEX my_index ON "customer" ("customer"."state") 
INCLUDE("PK", "customer"."city", "customer"."expire", "customer"."type");

左滑查看更多

我们可以参考文档：

https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-phoenix-clients.html

来使用 Phoenix 建立 HBase 二级索引。在操作过程中，请注意：文档中还是使用 sqlline-thin 来执行 Sql 语句，新版本的 Phoenix 已经替换为 psql 了，例如：

/usr/lib/phoenix/bin/psql.py localhost:2181 /home/hadoop/phoenixQuery.sql

左滑查看更多

另外，如果遇到 ” a) Scanner id given is wrong, b) Scanner lease expired because of long wait between consecutive client checkins” 之类的错误提示，可以设置 hbase.client.scanner.timeout.period 为更大的值，例如3000000。

建立二级索引后，我们可以看到 HBase 里多了这样几张表，如下图：

图2: Phoenix 二级索引建立的 HBase 表（customer 表是 HBase 的测试表）

我们可以执行命令 ”/usr/lib/phoenix/bin/sqlline.py localhost:2181” 进入 Phoenix 执行环境，然后检查执行计划如下：

图3: 从执行计划看二级索引的效果

HBase on HDFS 迁移到 HBase on S3

HBase on S3 的优点，很多文档和 Blog 已经介绍的很详细了，具体可以参考：

https://docs.aws.amazon.com/zh_cn/emr/latest/ReleaseGuide/emr-hbase-s3.html

我们总结起来就是：实现 HBase 的存算分离和读写分离，以及由此带来的各种优势，例如数据高可用、降本增效等。

需要指出的是：HBase on S3 并不是指 HBase 所有的组成部分都放到 S3，我们在章节1中提到的写缓存（Mem Store）是内存部分，需要把写缓存的数据 Push 到位于 S3 的 HFile 文件里。另外 HLog （WAL）仍然是位于 EMR Core 节点的 HDFS 上。HBase on S3 的组件分布图如下：

图4: HBase on S3 的组件分布

由于很多客户已经在使用 HBase on HDFS 了，怎样帮助客户从 HBase on HDFS 迁移到 HBase on S3，就成了一个亟待解决的问题。在文章中，提供了三种迁移的方法：

https://aws.amazon.com/cn/blogs/china/tips-for-migrating-to-apache-hbase-on-amazon-s3-from-hdfs/

● 快照（Snapshot）

● 导出和导入（Export / Import）

● CopyTable

上述三种方法，都是对单个表的迁移，在实际项目中可能多个表，包括二级索引产生的表，可能还需要自己写脚本实现整库的迁移。

还有一种迁移方式，就是把所有的库文件迁移到 S3。前提是把所有的表都 Disable, 步骤如下：

1.在 S3 上创建 HBase 根目录，例如 s3://dalei-demo/hbase

2.将 HBase on HDFS 集群的表 Disable, 并刷新 ‘hbase:meta’

bash /usr/lib/hbase/bin/disable_all_tables.sh
hbase:001:0>flush 'hbase:meta'

左滑查看更多

3. 将 HBase 在 HDFS 上的文件全部 Distcp 到 S3 的 HBase 根目录

hadoop distcp hdfs://ip-10-0-0-126:8020/user/hbase/* s3://dalei-demo/hbase/

左滑查看更多

4.创建新的 Amazon EMR 集群，指定 HBase on S3, 步骤可以参考：

https://docs.aws.amazon.com/zh_cn/emr/latest/ReleaseGuide/emr-hbase-s3.html

5.在新的 HBase on S3 上 Enable 所有的表，然后做常规操作的测试，包括二级索引的测试

6.创建只读副本集群，并测试

到目前为止，HBase on HDFS 已经迁移到了 HBase on S3, 有兴趣的读者可以再去测试一下数据文件的高可用性，例如把 HBase on S3 所在的 Amazon EMR 集群终止，然后重建一个新的集群，配置 HBase on S3 指向老集群使用的 S3 上的 HBase 根目录，会发现表、索引、数据都可以正常使用。

请注意一点，上述测试可能因为数据没有 Flush 到 HFile，而导致数据丢失，所以如果是生产环境，还是建议使用3个 Master 节点的 Amazon EMR, 避免集群的突然崩溃。

如果是正常释放 Amazon EMR 集群，请一定执行迁移步骤中的第2）步，确保所有的数据和 Meta Data，都被 Flush 到 S3 的 HBase 根目录下，避免可能出现的数据丢失。

性能评测

实际开发中，客户是把 HBase 作为一种高并发、低延迟的 No-Sql 数据库来使用，并通过 Thrift 实现的接口来进行随机的读写。我们来对比一下 HBase on HDFS 和 HBase on S3 上的性能。

Thrift 的编译和实现

Thrift 是一种接口描述语言和二进制通讯协议，它被用来定义和创建跨语言的服务。它被当作一个远程过程调用（RPC）框架来使用，是由 Facebook 为“大规模跨语言服务开发”而开发的，它现在是 Apache 软件基金会的开源项目。

Thrift 包含一套完整的栈来创建客户端和服务端程序。服务端的程序我们不需要关心，很多应用都自带了（Amazon EMR 也带了 Thrift Server）。客户端的接口是由 Thrift 提供的，客户端的代码是由 Thrift 根据这个接口文件生成的。生成的步骤请参考：

https://thrift.apache.org/tutorial/py.html

通过 Thrift 访问 HBase

Thrift 为 HBase 提供了两个版本的服务端程序（Thrift Server）：Thrift 和 Thrift2。Amazon EMR HBase 默认启动的 Thrift，目前大部分客户都在使用 Thrift2, 我们先把启动的 Thrift Server 的版本改一下，步骤如下：

1.关闭 Thrift 服务

sudo systemctl stop hbase-thrift

2.修改 hbase-thrift 服务的启动脚本

sudo vim /etc/systemd/system/hbase-thrift.service


将 ExecStart=/usr/lib/hbase/bin/hbase-daemon.sh start thrift
替换为 ExecStart=/usr/lib/hbase/bin/hbase-daemon.sh start thrift2


将 /var/run/hbase/hbase-hbase-thrift.pid
替换为 /var/run/hbase/hbase-hbase-thrift2.pid

左滑查看更多

3. 刷新 systemd 服务配置

sudo systemctl daemon-reload

4.重新启动 hbase-thrift 服务，此时启动的是 Thrift2

sudo systemctl start hbase-thrift

5.检查是否启动成功

ps aux | grep thrift2

通过 Thrift2 访问 HBase 的步骤如下：

1.安装 Python 依赖包

pip install thrift
pip install hbase-thrift

2.部署客户端代码

将上一节编译生成的 Thrift 客户端代码中的 ttypes.py 和 THBaseService.py, 放到 Python 依赖包生成的目录，例如 /home/hadoop/.local/lib/python3.7/site-packages/hbase。如果已有 ttypes.py 文件，则替换它。

如果自己编译失败，也可以从：

https://github.com/xudalei1977/hbase-thrift-performance

直接下载这两个文件，放到上面的目录里。

3.在 hbase shell 里创建表空间和表

hbase:001:0> create_namespace 'test_ns'
Took 8.4409 seconds                                                                                                                                                                                     
hbase:002:0> create 'test_ns:test_1', {NAME =>'cf_1', COMPRESSION => 'snappy', TTL=>'86400' }, { NUMREGIONS => 257, SPLITALGO => 'HexStringSplit' }
Created table test_ns:test_1
Took 48.2039 seconds                                                                                                                                                                                    
=> Hbase::Table - test_ns:test_1

左滑查看更多

4.执行的测试代码如下：

from thrift.transport import TSocket
from thrift.protocol import TBinaryProtocol
from thrift.transport import TTransport
from hbase.ttypes import *
from hbase import THBaseService


transport = TTransport.TBufferedTransport(TSocket.TSocket('127.0.0.1', 9090))
protocol = TBinaryProtocol.TBinaryProtocolAccelerated(transport)
client = THBaseService.Client(protocol)
transport.open()


table = 'test_ns:test_1'
row = 'row1'


put_columns = [
        TColumnValue('cf_1'.encode(), 'col_1'.encode(), 'value_1'.encode()),
        TColumnValue('cf_1'.encode(), 'col_2'.encode(), 'value_2'.encode()),
        TColumnValue('cf_1'.encode(), 'col_3'.encode(), 'value_3'.encode()),
        TColumnValue('cf_1'.encode(), 'col_4'.encode(), 'value_4'.encode()),
        TColumnValue('cf_1'.encode(), 'col_5'.encode(), 'value_5'.encode())
        ]
tput = TPut(row.encode(), put_columns)
client.put(table.encode(), tput)


get_columns = [
        TColumn('cf_1'.encode(), 'col_1'.encode()),
        TColumn('cf_1'.encode(), 'col_2'.encode()),
    ]
tget = TGet(row.encode(), get_columns)
tresult = client.get(table.encode(), tget)
print(tresult)


transport.close()

左滑查看更多

性能对比

我们会在 HBase on HDFS 和 HBase on S3 上分别测试写入（Put）操作和读取（Get）操作的性能。首先创建两个 Amazon EMR 集群，一个使用 HBase on HDFS, 一个使用 HBase on S3, 版本采用最新的6.9.0, 配置都是如下：

测试代码位于：

https://github.com/xudalei1977/hbase-thrift-performance

用户可以 git clone 到 Amazon EMR 的 Master 节点上。

我们会用到 Parallel 模拟并发测试，先下载 Parallel 源文件到 Master 节点，并进行编译如下：

wget https://ftpmirror.gnu.org/parallel/parallel-20221122.tar.bz2
tar -jxvf parallel-20221122.tar.bz2 
cd parallel-20221122 
./configure 
make && sudo make install

左滑查看更多

测试写入（Put）操作的性能的代码是 hbase-put.py, 我们使用如下 Shell 执行：

CONF_FILE=parallel.hbase
rm -rf $CONF_FILE
CORE_NUM=`nproc`
KEY_NUM=4
TASK_NUM=`expr $CORE_NUM \* $KEY_NUM`


for i in $(seq 1 $TASK_NUM);do echo "/usr/bin/python3 ~/hbase-put.py 400000 1" >> $CONF_FILE ; done;


wc -l $CONF_FILE


nohup parallel -j $TASK_NUM < $CONF_FILE &

左滑查看更多

在上面的代码中，请注意：

▌ Parallel 根据当前节点的核数，乘以每个节点的 Task 数目，来确定执行 hbase-put.py 文件的并发数。

▌ hbase-put.py 用来写入数据到表 “test_ns:test_1”，后面的参数表示每次执行写入的条数和线程数，由于 Parallel 已经使用了并发，这里线程数就指定为1，可以修改这两个参数来调整写入的记录条数。

▌ 在写入数据时，RowKey 是采用了 md5 作用于随机数，保证了数据在 Region 上的均匀分布。

写入（Put）操作的性能对比如下：

图5: HBase on HDFS 和 HBase on S3 的写入（Put）操作的性能对比

可以看出，二者在写入时的性能，相差无几。

再来看读取（Get）操作，性能测试的代码是 hbase-get.py, 我们使用如下 Shell 执行：

CONF_FILE=parallel.hbase
rm -rf $CONF_FILE
CORE_NUM=`nproc`
KEY_NUM=4
TASK_NUM=`expr $CORE_NUM \* $KEY_NUM`


for i in $(seq 1 $TASK_NUM);do echo "/usr/bin/python3 ~/hbase-get.py 400000 1" >> $CONF_FILE ; done;


wc -l $CONF_FILE


nohup parallel -j $TASK_NUM < $CONF_FILE &

左滑查看更多

在上面的代码中，请注意：

▌Parallel 根据当前节点的核数，乘以每个节点的 Task 数目，来确定执行 hbase-get.py 文件的并发数。

▌hbase-get.py 用来从表 ”test_ns:test_1”中读取数据, 后面的参数表示每次执行读取的次数和线程数，由于 Parallel 已经使用了并发，这里线程数就指定为1，可以修改这两个参数来调整读取的次数/

▌在读取数据时，采用了 md5 作用于随机数去匹配 Rowkey，有可能因为匹配不到 Rowkey 而遍历所有的 HFile，这保证了读取的数据不是只位于 Mem Store，也有位于 HDFS 或者 S3 上的 HFile 里的数据。

读取（Get）操作的性能对比如下：

可以看出在进行读操作时，HBase on S3 有性能优势。

关于其它的操作，不论是 HBase 自带的 Count, Scan, Filter，还是 Spark 读写 HBase，还是我们前面介绍的二级索引，作者在实际开发中都做过比较，HBase on HDFS 和 HBase on S3 的性能差别不大。此外，如果使用只读集群实现 HBase 的读写分离的话，还可获得更多的优化空间，因为读和写可以设置不同的参数。有兴趣的朋友可以自己测试一下。

总之，还是鼓励 HBase 的用户，把数据迁到 S3 上来。

参考文档

https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hbase.html

https://thrift.apache.org/

https://hbase.apache.org/

https://phoenix.apache.org/

https://aws.amazon.com/cn/blogs/china/setting-up-read-replica-clusters-with-hbase-on-amazon-s3/

https://aws.amazon.com/cn/blogs/china/tips-for-migrating-to-apache-hbase-on-amazon-s3-from-hdfs/

https://aws.amazon.com/cn/blogs/china/using-athena-to-replace-hbase-to-query-analyze-historical-data/

https://aws.amazon.com/cn/blogs/china/migrate-to-apache-hbase-on-amazon-s3-on-amazon-emr-guidelines-and-best-practices/

https://aws.amazon.com/cn/blogs/china/build-a-hbase-read-backup-cluster-based-on-s3/

https://aws.amazon.com/blogs/big-data/amazon-emr-6-2-0-adds-persistent-hfile-tracking-to-improve-performance-with-hbase-on-amazon-s3/

本篇作者

Dalei Xu

亚马逊云科技解决方案架构师，负责亚马逊云科技数据分析的解决方案的咨询和架构设计。多年从事一线开发，在数据开发、架构设计和组件管理方面积累了丰富的经验，希望能将亚马逊云科技优秀的服务组件，推广给更多的企业用户，实现与客户的双赢和共同成长。

2022亚马逊云科技 re:Invent 全球大会

精彩视频现已上线！

点击下方图片立即观看

听说，点完下面4个按钮

就不会碰到bug了！

你可能感兴趣的:(hbase,hadoop,大数据,分布式,数据库)

Web学习：SQL注入之联合查询注入 kaikaile1995 前端学习 sql
SQL注入（SQLInjection）是一种常见且危害极大的Web安全漏洞，攻击者可以通过构造恶意的SQL语句窃取、篡改数据库中的数据，甚至控制整个数据库服务器。本文将深入探讨SQL注入的一个重要变种——联合查询注入（Union-basedSQLInjection），介绍其原理、常见攻击方式、以及防御措施。SQL注入概述SQL注入是指将恶意的SQL代码插入到应用程序的输入字段中，使得这些代码被意外
行为型设计模式-备忘录模式网络深处的易某某设计模式设计模式备忘录模式开发语言后端
一、备忘录模式备忘录模式提供了一种状态恢复的实现机制，使得用户可以方便地回到一个特定的历史步骤，当新的状态无效或者存在问题时，可以使用暂时存储起来的备忘录将状态复原，很多软件都提供了撤销（Undo）操作，如Word、记事本、Photoshop、IDEA等软件在编辑时按Ctrl+Z组合键时能撤销当前操作，使文档恢复到之前的状态；还有在浏览器中的后退键、数据库事务管理中的回滚操作、玩游戏时的中间结果存
如何在pytorch中使用tqdm：优雅实现训练进度监控 Ven% 简单入门pytorch pytorch 人工智能 python
文章目录为什么需要进度条？tqdm简介基础用法示例深度学习中的实战应用1.数据加载进度监控2.训练循环增强版3.验证阶段集成高级技巧与最佳实践1.自定义进度条样式2.嵌套进度条（多任务）3.分布式训练支持4.与日志系统集成性能优化建议完整训练流程示例常见问题解决方案总结掌握训练进度监控是深度学习工程师的基本功。本文将带你从零开始，深入探索如何用tqdm为深度学习训练添加专业级进度条。为什么需要进度
Nacos与Eureka、ZooKeeper的区别？ leijmdas java
Nacos、Eureka和ZooKeeper是分布式系统中常用的服务注册与发现组件，但它们在功能定位、一致性模型、性能特性及适用场景上存在显著差异。以下从核心维度进行对比分析：一、功能定位对比特性NacosEurekaZooKeeper核心功能服务注册发现+动态配置管理仅服务注册发现分布式协调（含服务发现）健康检查多模式（心跳+服务端主动探测）仅客户端心跳临时节点会话机制管理界面功能丰富，支持配置
LlamaIndex + 智谱大模型GLM 实现智能代理（Agent）不吃辣的陈人工智能 python langchain faiss 自然语言处理
LlamaIndex+智谱大模型GLM实现智能代理（Agent）文章目录LlamaIndex+智谱大模型GLM实现智能代理（Agent）前言一、模型加载二、向量数据库加载1.向量库加载2.向量库生成三、方法创建1.创建FAISS查询引擎适配器（本地外挂知识库查询）2.数学计算工具函数（计算器）3.WebSearch工具（网络搜索）4.手机号码归属地信息（号码归属地工具）四、FunctionTool
大学专业科普 | 计算机应用、视觉与算法鸭鸭鸭进京赶烤计算机应用
一、专业概述计算机应用专业是一门实践性很强的学科，专注于将计算机技术转化为实际应用，服务于各个行业和领域，为社会的数字化转型提供人才支撑。二、课程设置专业基础课程：包括计算机组成原理、操作系统、数据结构、计算机网络等，为学生构建坚实的理论基础。专业核心课程：聚焦于程序设计语言（如C、C++、Java、Python等）、数据库原理与应用、软件工程、Web前端开发等，使学生具备开发各类软件系统的能力。
用流式API优雅地在Java中组装数据
作为开发者，我们经常会遇到这样的场景：从数据库、微服务API或不同的文件里获取到了几份数据，它们之间通过某些ID相互关联。我们的任务是将它们“拼接”成一个完整的、信息丰富的视图。通常，我们的第一反应可能是这样：//丑陋的嵌套循环Listresult=newArrayListfinalData=DataAssembler.source(users).data(orders).match((user,
mysql中有大量sleep进程的原因与解决办法 \光辉岁月/ php 数据库
mysql中有大量sleep进程的原因与解决办法mysql服务器中有大量的sleep进程，本文分析下mysql出现大sleep进程原因分析与解决方法。可能的原因：造成睡眠连接过多的原因？1.使用了太多持久连接（个人觉得，在高并发系统中，不适合使用持久连接）2.程序中，没有及时关闭mysql连接3.数据库查询不够优化，过度耗时。当然，更根本的方法，还是从以上三点排查之：1.程序中，不使用持久链接，即
『深度编码』MySQL：数据库命令（一）浮灯Foden 深度编码：MySQL 数据库 mysql sql sqlserver
数据库基本概念数据库管理系统（databasemanagementsystem/DBMS）：数据库系统中对数据进行管理的软件系统。数据库（database/DB）：按照特定的数据结构来组织、存储和管理数据的仓库。表（table）：某种特定类型数据的结构化清单。列（column）或字段：表由一个或多个列组成，每个列都有对应的数据。行（row）或记录：表中的数据是按行存储的，每行存储一条数据。主键（p
python拷贝文件到指定路径不存在_Python实现文件夹递归拷贝 weixin_39717825
维护一个网站，数据库可以自动备份，但用户上传的文件很多，手动备份很麻烦，所以想用Python实现自动备份目标：1.多层文件夹嵌套，在要备份的文件夹中嵌套多个文件夹2.增量备份，因为文件较多，且之前已有部分备份，所以只需对新增的文件进行备份，提升效率Python安装：1.下载安装包，http://www.python.org/getit/，可以选择Python2或3，2的兼容性更好2.添加Pytho
Cache与DB的数据一致性（缓存更新设计模式和操作顺序）
description:总结Cache与DB的数据一致性相关内容。缓存一致性的三个障碍当对主数据库的更改未反映在缓存中时更新缓存结果时出现延迟当缓存节点之间不一致时如何设计缓存更新模式？首先，提出我阅读相关文章时遇到的疑惑。当我使用搜索引擎（百度orGoogle）去搜索缓存与数据库的数据一致性如何保证时,我会看到三种结果：仅讲解先操作数据库or先操作缓存（最多）讲解四种缓存更新策略模式将上述两者结
Ubuntu18.04/Mysql 5.7 建立主备模式Mysql集群武昌库里写JAVA 面试题汇总与解析课程设计 spring boot vue.js layui 毕业设计
一、数据库的安装详见https://www.jianshu.com/p/5073177eedf2本文实验环境为阿里云的两台ubuntu18.04服务器：masterip:172.26.138.7slaveip:172.26.0.209二、修改Master的配置(#的行是我后增加的部分)：编辑/etc/mysql/mysql.conf.d/mysqld.cnf[mysqld]user=mysqlpi
商品中心—14.库存分桶初始化的技术文档东阳马生架构商品中心商品系统库存系统
大纲1.库存分桶缓存初始化时涉及的数据表2.库存分桶架构的初始化+扣减+上下线+扩容+下线+预警补货流程3.商品库存⼊桶流程概览4.商品库存分桶缓存初始化请求处理5.商品库存分桶缓存初始化的加分布式锁处理+插入库存变更记录6.商品库存分桶元数据本地+远程缓存查询7.商品库存动态分桶算法实现8.基于分桶算法结果构建库存分桶元数据9.剩余库存写入中心桶缓存+分桶库存写入分桶缓存+分桶元数据写入本地缓存
结合Groovy脚本在IDEA可以为所欲为——使用数据库表生成实体类和表结构JSON monkeyhi 工具使用数据库 intellij-idea
生成MyBatisPlus实体在IDEA编辑器，双击shift键在GeneratePOJOs.groovy文件，同级目录下新建一个文件MyBatisPluspojo.groovy，将下面的代码粘贴进去即可，有问题可以自己改，在IDEA自带数据库工具的数据库表上右键执行importcom.intellij.database.model.DasTableimportcom.intellij.datab
低代码平台架构设计 LINGYI_WEN 低代码前端开发语言
1.整体架构概述1.1技术栈选择前端：React+Redux/Vue+Vuex后端：Node.js+Express/SpringBoot数据库：MySQL/PostgreSQL/MongoDB云服务：AWS/Azure/GoogleCloud容器化：Docker+Kubernetes1.2模块划分前端模块：可视化编辑器：用于拖拽和配置组件预览器：实时预览页面效果发布器：将设计好的页面发布到生产环境
JT808教程：设置/查询终端参数
REDISANT提供互联网与物联网开发测试套件#互联网与中间件：RedisAssistantZooKeeperAssistantKafkaAssistantRocketMQAssistantRabbitMQAssistantPulsarAssistantHBaseAssistantNoSqlAssistantEtcdAssistantGarnetAssistant工业与物联网：MQTTAssist
搞笑Java工程师面试：从基础到高并发，大厂技术总监直击水货本质搞Java的小码农 Java技术场景题 Java 面试技术高并发微服务分布式 Redis
搞笑Java工程师面试：从基础到高并发，大厂技术总监直击水货本质场景设定在一个位于硅谷某栋现代化办公楼的会议室里，气氛庄重而专业。面试官李工是一位经验丰富的技术总监，他身穿整洁的西装，神情严肃，手中拿着一份详尽的面试提纲。对面的求职者小兰则显得自信满满，穿着时尚，带着一点漫不经心的神情，准备接受这场“挑战”。第1轮：Java核心、基础框架与数据库问题1：Java中的ConcurrentHashMa
【LangChain编程：从入门到实践】AI 大模型检索增强生成 RAG 实践 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LangChain编程：从入门到实践-AI大模型检索增强生成RAG实践关键词：LangChain,RAG,大语言模型,检索增强生成,向量数据库,嵌入模型,提示工程1.背景介绍在人工智能和自然语言处理领域,大语言模型(LargeLanguageModels,LLMs)的出现无疑是一个重大突破。像GPT-3、GPT-4这样的模型展现出了惊人的语言理解和生成能力,为各种应用场景带来了无限可能。然而,这些
Redis缓存穿透、击穿、雪崩解决方案详解码农小灰 java 面试题 redis 缓存 redis 数据库
目录一、引言二、缓存穿透：如何阻挡不存在的请求？1.定义与成因2.解决方案(1)缓存空值(2)布隆过滤器（BloomFilter）(3)参数校验三、缓存击穿：如何保护热点数据？1.定义与成因2.解决方案(1)互斥锁（分布式锁）(2)逻辑过期(3)缓存预热四、缓存雪崩：如何应对集体失效？1.定义与成因2.解决方案(1)随机过期时间(2)熔断与限流(3)高可用集群五、实际案例分析案例1：电商库存缓存穿
基于深度学习的线上问诊系统设计与实现（Python+Django+MySQL）神经网络15044 深度学习算法神经网络 python 深度学习 django 机器学习人工智能算法目标检测
基于深度学习的线上问诊系统设计与实现（Python+Django+MySQL）一、系统概述本系统结合YOLOv8目标检测和ResNet50图像分类算法，构建了一个智能线上问诊平台。系统支持用户上传医学影像（皮肤照片/X光片），自动分析并生成诊断报告，同时提供医生审核功能。二、技术栈后端框架：Django4.2数据库：MySQL8.0深度学习：YOLOv8：皮肤病变区域检测ResNet50：肺炎X光
2023年JAVA面试题【Redis/Elasticsearch】 GJH-JAVA java redis elasticsearch
1.什么是Redis？Redis是一个使用C语言写成的，开源的高性能key-value非关系缓存数据库。它支持存储的value类型相对更多，包括string(字符串)、list(链表)、set(集合)、zset(sortedset--有序集合)和hash（哈希类型）。Redis的数据都基于缓存的，所以很快，每秒可以处理超过10万次读写操作，是已知性能最快的Key-ValueDB。Redis也可以实
后端Spring Data Elasticsearch的集群故障恢复 AI大模型应用实战 spring elasticsearch java ai
后端SpringDataElasticsearch的集群故障恢复关键词：SpringDataElasticsearch、集群故障恢复、分布式系统、故障处理、数据一致性摘要：本文围绕后端SpringDataElasticsearch的集群故障恢复展开深入探讨。首先介绍了相关背景，包括目的范围、预期读者等。接着阐述了核心概念与联系，详细讲解了核心算法原理及具体操作步骤，并结合数学模型和公式进行说明。通
Vue3 中 Excel 导出的性能优化与实战指南
文章目录Vue3中Excel导出的性能优化与实战指南引言：为什么你的导出功能会卡死浏览器？一、前端导出方案深度剖析1.1xlsx(SheetJS)-轻量级冠军1.2exceljs-功能强大的重量级选手二、后端导出方案：大数据处理的救星2.1为什么大数据需要后端处理？2.2Node.js流式导出实战三、生产环境性能优化全攻略3.1内存优化技巧对比3.2用户体验优化方案四、决策流程图：帮你选择最佳方案
《48小时极速开发：Python+MySQL 学生信息管理系统架构实战揭秘》 Cyber4K Python 项目实践及实战 python mysql 架构
Python项目实践：学生信息管理系统1.项目概述1.1项目背景开发周期：2天（需求分析0.5天+开发1天+测试0.5天）技术栈：Python3.9+MySQL+面向对象编程核心价值：实现学生信息的全生命周期管理采用分层架构设计（表示层/业务层/数据层）数据库驱动的高效数据持久化方案1.2系统架构系统架构调用CRUD操作连接池业务逻辑层命令行界面数据访问层MySQL数据库2.核心模块实现2.1数据
微电网系列之微电网的故障检测与接入标准云纳星辰怀自在微电网微电网标准微电网保护配置微电网前沿技术
个人主页：云纳星辰怀自在座右铭：“所谓坚持，就是觉得还有希望！”微电网的故障检测与接入标准微电网保护的核心挑战分布式电源引入微电网后，使得微电网系统的保护与常规配电网存在较大差异，主要可表现为：Table17微电网保护的核心挑战（与传统配电网对比）差异维度传统配电网含分布式电源微电网技术影响故障电流5-10倍额定电流1.5-2倍额定电流过流保护灵敏度不足潮流方向单向流动双向流动传统方向保护失效运行
多线程环境下的线程安全资源与缓存池设计：ThreadSafeObject 与 CachePool 实例解析要努力啊啊啊 RAG系统开发指南 langchain pdf python
ThreadSafeObject和CachePool的作用✅ThreadSafeObject定义：一个带有锁的资源封装容器。作用：为某个对象加上线程锁（RLock），确保多线程下安全访问。支持通过withobj.acquire():的方式对资源进行锁保护。可记录加载状态，防止重复加载。典型用途：缓存中的模型、数据库连接、会话对象等资源。✅CachePool定义：一个带有线程锁和LRU管理机制的缓存
AI人工智能神经网络马里亚纳海沟网人工智能神经网络深度学习笔记运维全文检索搜索引擎
**AI人工智能神经网络概述**神经网络是并行计算设备，它们试图构建大脑的计算机模型。背后的主要目标是开发一个系统来执行各种计算任务比传统系统更快。这些任务包括模式识别和分类，近似，优化和数据聚类什么是人工神经网络(ANN)人工神经网络(ANN)是一个高效的计算系统，其核心主题是借用生物神经网络的类比。人工神经网络也被称为人工神经系统，并行分布式处理系统和连接系统。ANN获取了大量以某种模式相互连
初学Spring AI 笔记笑衬人心。大模型学习 spring 人工智能笔记
目录SpringAI简介依赖与环境配置基础概念集成OpenAI（或其他LLM提供商）Prompt模板引擎Embedding与向量数据库SpringAIChatClient使用SpringAI和LangChain对比常见问题与建议SpringAI简介SpringAI是Spring团队推出的人工智能集成框架，旨在简化AI模型（如OpenAI、HuggingFace、Mistral、AzureOpenA
SQL语句全攻略：从基础到进阶的编程之旅奔跑吧邓邓子必备核心技能 sql 数据库基础语法高级应用
目录一、引言二、SQL基础语法2.1SQL语句写法顺序2.2关联查询2.3数据处理常用函数和运算符三、数据库和表的基本操作3.1创建数据库3.2使用数据库3.3创建表四、基础增删改查操作4.1插入数据（增）4.2查询数据（查）4.3更新数据（改）4.4删除数据（删）五、复杂关系操作5.1一对多关系操作5.2多对多关系操作六、SQL优化技巧6.1索引的使用6.2避免子查询6.3其他优化建议七、SQL
Mysql事务 clk6607 mysql 数据库
MySQL事务详解（超详细讲解）一、事务是什么？事务（Transaction）是数据库操作的最小执行单元。事务中包含多条SQL，这些SQL要么全部执行成功（提交COMMIT），要么在某条失败时全部撤销（回滚ROLLBACK）。✅你可以这样理解：就像Java中的try-catch-finally，只不过这里是在数据库层。二、事务的四大特性（ACID）特性含义示例A-原子性一组操作是不可分割的整体转账
ios内付费 374016526 ios 内付费
近年来写了很多IOS的程序，内付费也用到不少，使用IOS的内付费实现起来比较麻烦，这里我写了一个简单的内付费包，希望对大家有帮助。具体使用如下: 这里的sender其实就是调用者，这里主要是为了回调使用。 [KuroStoreApi kuroStoreProductId:@"产品ID" storeSender:self storeFinishCallBa
20 款优秀的 Linux 终端仿真器 brotherlamp linux linux视频 linux资料 linux自学 linux教程
终端仿真器是一款用其它显示架构重现可视终端的计算机程序。换句话说就是终端仿真器能使哑终端看似像一台连接上了服务器的客户机。终端仿真器允许最终用户用文本用户界面和命令行来访问控制台和应用程序。（LCTT 译注：终端仿真器原意指对大型机-哑终端方式的模拟，不过在当今的 Linux 环境中，常指通过远程或本地方式连接的伪终端，俗称“终端”。）你能从开源世界中找到大量的终端仿真器，它们
Solr Deep Paging(solr 深分页) eksliang solr深分页 solr分页性能问题
转载请出自出处：http://eksliang.iteye.com/blog/2148370 作者：eksliang(ickes) blg:http://eksliang.iteye.com/ 概述长期以来，我们一直有一个深分页问题。如果直接跳到很靠后的页数，查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。直到solr
数据库面试题 18289753290 面试题数据库
1.union ,union all 网络搜索出的最佳答案： union和union all的区别是,union会自动压缩多个结果集合中的重复结果，而union all则将所有的结果全部显示出来，不管是不是重复。 Union：对两个结果集进行并集操作，不包括重复行，同时进行默认规则的排序； Union All：对两个结果集进行并集操作，包括重复行，不进行排序； 2.索引有哪些分类？作用是
Android TV屏幕适配酷的飞上天空 android
先说下现在市面上TV分辨率的大概情况两种分辨率为主 1.720标清，分辨率为1280x720. 屏幕尺寸以32寸为主，部分电视为42寸 2.1080p全高清，分辨率为1920x1080 屏幕尺寸以42寸为主，此分辨率电视屏幕从32寸到50寸都有适配遇到问题，已1080p尺寸为例：分辨率固定不变，屏幕尺寸变化较大。如：效果图尺寸为1920x1080，如果使用d
Timer定时器与ActionListener联合应用永夜-极光 java
功能:在控制台每秒输出一次代码: package Main; import javax.swing.Timer; import java.awt.event.*; public class T { private static int count = 0; public static void main(String[] args){
Ubuntu14.04系统Tab键不能自动补全问题解决随便小屋 Ubuntu 14.04
Unbuntu 14.4安装之后就在终端中使用Tab键不能自动补全，解决办法如下： 1、利用vi编辑器打开/etc/bash.bashrc文件（需要root权限） sudo vi /etc/bash.bashrc 接下来会提示输入密码 2、找到文件中的下列代码 #enable bash completion in interactive shells #if
学会人际关系三招轻松走职场 aijuans 职场
要想成功，仅有专业能力是不够的，处理好与老板、同事及下属的人际关系也是门大学问。如何才能在职场如鱼得水、游刃有余呢？在此，教您简单实用的三个窍门。　　第一，多汇报最近，管理学又提出了一个新名词“追随力”。它告诉我们，做下属最关键的就是要多请示汇报，让上司随时了解你的工作进度，有了新想法也要及时建议。不知不觉，你就有了“追随力”，上司会越来越了解和信任你。　　第二，勤沟通团队的力
《O2O：移动互联网时代的商业革命》读书笔记 aoyouzi 读书笔记
移动互联网的未来：碎片化内容+碎片化渠道=各式精准、互动的新型社会化营销。 O2O：Online to OffLine 线上线下活动 O2O就是在移动互联网时代，生活消费领域通过线上和线下互动的一种新型商业模式。手机二维码本质：O2O商务行为从线下现实世界到线上虚拟世界的入口。线上虚拟世界创造的本意是打破信息鸿沟，让不同地域、不同需求的人
js实现图片随鼠标滚动的效果百合不是茶 JavaScript 滚动属性的获取图片滚动属性获取页面加载
1,获取样式属性值 top 与顶部的距离 left 与左边的距离 right 与右边的距离 bottom 与下边的距离 zIndex 层叠层次例子:获取左边的宽度,当css写在body标签中时 <div id="adver" style="position:absolute;top:50px;left:1000p
ajax同步异步参数async bijian1013 jquery Ajax async
开发项目开发过程中，需要将ajax的返回值赋到全局变量中，然后在该页面其他地方引用，因为ajax异步的原因一直无法成功，需将async:false，使其变成同步的。格式： $.ajax({ type: 'POST', ur
Webx3框架（1） Bill_chen eclipse spring maven 框架 ibatis
Webx是淘宝开发的一套Web开发框架，Webx3是其第三个升级版本；采用Eclipse的开发环境，现在支持java开发；采用turbine原型的MVC框架，扩展了Spring容器，利用Maven进行项目的构建管理，灵活的ibatis持久层支持，总的来说，还是一套很不错的Web框架。 Webx3遵循turbine风格，velocity的模板被分为layout/screen/control三部
【MongoDB学习笔记五】MongoDB概述 bit1129 mongodb
MongoDB是面向文档的NoSQL数据库，尽量业界还对MongoDB存在一些质疑的声音，比如性能尤其是查询性能、数据一致性的支持没有想象的那么好，但是MongoDB用户群确实已经够多。MongoDB的亮点不在于它的性能，而是它处理非结构化数据的能力以及内置对分布式的支持(复制、分片达到的高可用、高可伸缩)，同时它提供的近似于SQL的查询能力，也是在做NoSQL技术选型时，考虑的一个重要因素。Mo
spring/hibernate/struts2常见异常总结白糖_ Hibernate
Spring ①ClassNotFoundException: org.aspectj.weaver.reflect.ReflectionWorld$ReflectionWorldException 缺少aspectjweaver.jar，该jar包常用于spring aop中 ②java.lang.ClassNotFoundException: org.sprin
jquery easyui表单重置(reset)扩展思路 bozch form jquery easyui reset
在jquery easyui表单中尚未提供表单重置的功能，这就需要自己对其进行扩展。扩展的时候要考虑的控件有： combo,combobox,combogrid,combotree,datebox,datetimebox 需要对其添加reset方法，reset方法就是把初始化的值赋值给当前的组件，这就需要在组件的初始化时将值保存下来。在所有的reset方法添加完毕之后，就需要对fo
编程之美-烙饼排序 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; /* *《编程之美》的思路是：搜索+剪枝。有点像是写下棋程序：当前情况下，把所有可能的下一步都做一遍；在这每一遍操作里面，计算出如果按这一步走的话，能不能赢（得出最优结果）。 *《编程之美》上代码有很多错误，且每个变量的含义令人费解。因此我按我的理解写了以下代码： */
Struts1.X 源码分析之ActionForm赋值原理 chenbowen00 struts
struts1在处理请求参数之前，首先会根据配置文件action节点的name属性创建对应的ActionForm。如果配置了name属性，却找不到对应的ActionForm类也不会报错，只是不会处理本次请求的请求参数。如果找到了对应的ActionForm类，则先判断是否已经存在ActionForm的实例，如果不存在则创建实例，并将其存放在对应的作用域中。作用域由配置文件action节点的s
[空天防御与经济]在获得充足的外部资源之前,太空投资需有限度 comsci 资源
这里有一个常识性的问题: 地球的资源,人类的资金是有限的,而太空是无限的..... 就算全人类联合起来,要在太空中修建大型空间站,也不一定能够成功,因为资源和资金,技术有客观的限制.... &
ORACLE临时表—ON COMMIT PRESERVE ROWS daizj oracle 临时表
ORACLE临时表转临时表：像普通表一样，有结构，但是对数据的管理上不一样，临时表存储事务或会话的中间结果集，临时表中保存的数据只对当前会话可见，所有会话都看不到其他会话的数据，即使其他会话提交了，也看不到。临时表不存在并发行为，因为他们对于当前会话都是独立的。创建临时表时，ORACLE只创建了表的结构（在数据字典中定义），并没有初始化内存空间，当某一会话使用临时表时，ORALCE会
基于Nginx XSendfile+SpringMVC进行文件下载 denger 应用服务器 Web nginx 网络应用 lighttpd
在平常我们实现文件下载通常是通过普通 read-write方式，如下代码所示。 @RequestMapping("/courseware/{id}") public void download(@PathVariable("id") String courseID, HttpServletResp
scanf接受char类型的字符 dcj3sjt126com c
/* 2013年3月11日22:35:54 目的：学习char只接受一个字符 */ # include <stdio.h> int main(void) { int i; char ch; scanf("%d", &i); printf("i = %d\n", i); scanf("%
学编程的价值 dcj3sjt126com 编程
发一个人会编程, 想想以后可以教儿女, 是多么美好的事啊, 不管儿女将来从事什么样的职业, 教一教, 对他思维的开拓大有帮助像这位朋友学习: http://blog.sina.com.cn/s/articlelist_2584320772_0_1.html VirtualGS教程 (By @林泰前): 几十年的老程序员，资深的
二维数组（矩阵）对角线输出飞天奔月二维数组
今天在BBS里面看到这样的面试题目, 1，二维数组（N*N），沿对角线方向，从右上角打印到左下角如N=4： 4*4二维数组 { 1 2 3 4 } { 5 6 7 8 } { 9 10 11 12 } {13 14 15 16 } 打印顺序 4 3 8 2 7 12 1 6 11 16 5 10 15 9 14 13 要
Ehcache（08）——可阻塞的Cache——BlockingCache 234390216 并发 ehcache BlockingCache 阻塞
可阻塞的Cache—BlockingCache 在上一节我们提到了显示使用Ehcache锁的问题，其实我们还可以隐式的来使用Ehcache的锁，那就是通过BlockingCache。BlockingCache是Ehcache的一个封装类，可以让我们对Ehcache进行并发操作。其内部的锁机制是使用的net.
mysqldiff对数据库间进行差异比较 jackyrong mysqld
mysqldiff该工具是官方mysql-utilities工具集的一个脚本，可以用来对比不同数据库之间的表结构，或者同个数据库间的表结构如果在windows下，直接下载mysql-utilities安装就可以了，然后运行后，会跑到命令行下： 1）基本用法 mysqldiff --server1=admin:12345
spring data jpa 方法中可用的关键字 lawrence.li java spring
spring data jpa 支持以方法名进行查询/删除/统计。查询的关键字为find 删除的关键字为delete/remove (>=1.7.x) 统计的关键字为count (>=1.7.x) 修改需要使用@Modifying注解 @Modifying @Query("update User u set u.firstna
Spring的ModelAndView类 nicegege spring
项目中controller的方法跳转的到ModelAndView类，一直很好奇spring怎么实现的？ /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version 2.0 (the "License"); * yo
搭建 CentOS 6 服务器(13) - rsync、Amanda rensanning centos
（一）rsync Server端 # yum install rsync # vi /etc/xinetd.d/rsync service rsync { disable = no flags = IPv6 socket_type = stream wait
Learn Nodejs 02 toknowme nodejs
（1）npm是什么 npm is the package manager for node 官方网站：https://www.npmjs.com/ npm上有很多优秀的nodejs包，来解决常见的一些问题，比如用node-mysql，就可以方便通过nodejs链接到mysql，进行数据库的操作在开发过程往往会需要用到其他的包，使用npm就可以下载这些包来供程序调用 &nb
Spring MVC 拦截器 xp9802 spring mvc
Controller层的拦截器继承于HandlerInterceptorAdapter HandlerInterceptorAdapter.java 1 public abstract class HandlerInterceptorAdapter implements HandlerIntercep