zhisheng_blog

不惧流量持续上涨，BIGO 借助 Flink 与 Pulsar 打造实时消息系统

最初，BIGO 的消息流平台主要采用开源 Kafka 作为数据支撑。随着数据规模日益增长，产品不断迭代，BIGO 消息流平台承载的数据规模出现了成倍增长，下游的在线模型训练、在线推荐、实时数据分析、实时数仓等业务对消息流平台的实时性和稳定性提出了更高的要求。开源的 Kafka 集群难以支撑海量数据处理场景，我们需要投入更多的人力去维护多个 Kafka 集群，这样成本会越来越高，主要体现在以下几个方面：

1、数据存储和消息队列服务绑定，集群扩缩容/分区均衡需要大量拷贝数据，造成集群性能下降。

2、当分区副本不处于 ISR（同步）状态时，一旦有 broker 发生故障，可能会造成数据丢失或该分区无法提供读写服务。

3、当 Kafka broker 磁盘故障/空间占用率过高时，需要进行人工干预。

4、集群跨区域同步使用 KMM（Kafka Mirror Maker），性能和稳定性难以达到预期。

5、在 catch-up 读场景下，容易出现 PageCache 污染，造成读写性能下降。

6、Kafka broker 上存储的 topic 分区数量有限，分区数越多，磁盘读写顺序性越差，读写性能越低。

7、Kafka 集群规模增长导致运维成本急剧增长，需要投入大量的人力进行日常运维；在 BIGO，扩容一台机器到 Kafka 集群并进行分区均衡，需要 0.5 人/天；缩容一台机器需要 1 人/天。

如果继续使用 Kafka，成本会不断上升：扩缩容机器、增加运维人力。同时，随着业务规模增长，我们对消息系统有了更高的要求：系统要更稳定可靠、便于水平扩展、延迟低。为了提高消息队列的实时性、稳定性和可靠性，降低运维成本，我们开始考虑是否要基于开源 Kafka 做本地化二次开发，或者看看社区中有没有更好的解决方案，来解决我们在维护 Kafka 集群时遇到的问题。

为什么选择 Pulsar

2019 年 11 月，我们开始调研消息队列，对比当前主流消息流平台的优缺点，并跟我们的需求对接。在调研过程中，我们发现 Apache Pulsar 是下一代云原生分布式消息流平台，集消息、存储、轻量化函数式计算为一体。Pulsar 能够无缝扩容、延迟低、吞吐高，支持多租户和跨地域复制。最重要的是，Pulsar 存储、计算分离的架构能够完美解决 Kafka 扩缩容的问题。Pulsar producer 把消息发送给 broker，broker 通过 bookie client 写到第二层的存储 BookKeeper 上。

Pulsar 采用存储、计算分离的分层架构设计，支持多租户、持久化存储、多机房跨区域数据复制，具有强一致性、高吞吐以及低延时的高可扩展流数据存储特性。

1、水平扩容：能够无缝扩容到成百上千个节点。

2、高吞吐：已经在 Yahoo! 的生产环境中经受了考验，支持每秒数百万条消息的发布-订阅（Pub-Sub）。

3、低延迟：在大规模的消息量下依然能够保持低延迟（小于 5 ms）。

4、持久化机制：Pulsar 的持久化机制构建在 Apache BookKeeper 上，实现了读写分离。

5、读写分离：BookKeeper 的读写分离 IO 模型极大发挥了磁盘顺序写性能，对机械硬盘相对比较友好，单台 bookie 节点支撑的 topic 数不受限制。

为了进一步加深对 Apache Pulsar 的理解，衡量 Pulsar 能否真正满足我们生产环境大规模消息 Pub-Sub 的需求，我们从 2019 年 12 月开始进行了一系列压测工作。由于我们使用的是机械硬盘，没有 SSD，在压测过程中遇到了一些性能问题，在 StreamNative 的协助下，我们分别和进行了一系列的调优，Pulsar 的吞吐和稳定性均有所提高。

经过 3~4 个月的压测和调优，我们认为 Pulsar 完全能够解决我们使用 Kafka 时遇到的各种问题，并于 2020 年 4 月在测试环境上线 Pulsar。

Apache Pulsar at BIGO：Pub-Sub 消费模式

2020 年 5 月，我们正式在生产环境中使用 Pulsar 集群。Pulsar 在 BIGO 的场景主要是 Pub-Sub 的经典生产消费模式，前端有 Baina 服务（用 C++ 实现的数据接收服务），Kafka 的 Mirror Maker 和 Flink，以及其他语言如 Java、Python、C++ 等客户端的 producer 向 topic 写入数据。后端由 Flink 和 Flink SQL，以及其他语言的客户端的 consumer 消费数据。

在下游，我们对接的业务场景有实时数仓、实时 ETL（Extract-Transform-Load，将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程）、实时数据分析和实时推荐。大部分业务场景使用 Flink 消费 Pulsar topic 中的数据，并进行业务逻辑处理；其他业务场景消费使用的客户端语言主要分布在 C++、Go、Python 等。数据经过各自业务逻辑处理后，最终会写入 Hive、Pulsar topic 以及 ClickHouse、HDFS、Redis 等第三方存储服务。

Pulsar + Flink 实时流平台

在 BIGO，我们借助 Flink 和 Pulsar 打造了实时流平台。在介绍这个平台之前，我们先了解下 Pulsar Flink Connector 的内部运行机理。在 Pulsar Flink Source/Sink API 中，上游有一个 Pulsar topic，中间是 Flink job，下游有一个 Pulsar topic。我们怎么消费这个 topic，又怎样处理数据并写入 Pulsar topic 呢？

按照上图左侧代码示例，初始化一个 StreamExecutionEnvironment，进行相关配置，比如修改 property、topic 值。然后创建一个 FlinkPulsarSource 对象，这个 Source 里面填上 serviceUrl（brokerlist）、adminUrl（admin 地址）以及 topic 数据的序列化方式，最终会把 property 传进去，这样就能够读取 Pulsar topic 中的数据。Sink 的使用方法非常简单，首先创建一个 FlinkPulsarSink，Sink 里面指定 target topic，再指定 TopicKeyExtractor 作为 key，并调用 addsink，把数据写入 Sink。这个生产消费模型很简单，和 Kafka 很像。

Pulsar topic 和 Flink 的消费如何联动呢？如下图所示，新建 FlinkPulsarSource 时，会为 topic 的每一个分区新创建一个 reader 对象。要注意的是 Pulsar Flink Connector 底层使用 reader API 消费，会先创建一个 reader，这个 reader 使用 Pulsar Non-Durable Cursor。Reader 消费的特点是读取一条数据后马上提交（commit），所以在监控上可能会看到 reader 对应的 subscription 没有 backlog 信息。

在 Pulsar 2.4.2 版本中，由 Non-Durable Cursor 订阅的 topic，在接收到 producer 写入的数据时，不会将数据保存在 broker 的 cache 中，导致大量数据读取请求落到 BookKeeper 中，降低数据读取效率。BIGO 在 Pulsar 2.5.1 版本中修正了这个问题。

Reader 订阅 Pulsar topic 后，消费 Pulsar topic 中的数据，Flink 如何保证 exactly-once 呢？Pulsar Flink Connector 使用另外一个独立的 subscription，这个 subscription 使用的是 Durable Cursor。当 Flink 触发 checkpoint，Pulsar Flink Connector 会把 reader 的状态（包括每个 Pulsar Topic Partition 的消费位置) checkpoint 到文件、内存或 RocksDB 中，当 checkpoint 完成后，会发布一次 Notify Checkpoint Complete 通知。Pulsar Flink Connector 收到 checkpoint 完成通知后，把当前所有 reader 的消费 Offset，即 message id 以独立的 SubscriptionName 提交给 Pulsar broker，此时才会把消费 Offset 信息真正记录下来。

Offset Commit 完成后，Pulsar broker 会将 Offset 信息（在 Pulsar 中以 Cursor 表示）存储到底层的分布式存储系统 BookKeeper 中，这样做的好处是当 Flink 任务重启后，会有两层恢复保障。第一种情况是从 checkpoint 恢复：可以直接从 checkpoint 里获得上一次消费的 message id，通过这个 message id 获取数据，这个数据流就能继续消费。如果没有从 checkpoint 恢复，Flink 任务重启后，会根据 SubscriptionName 从 Pulsar 中获取上一次 Commit 对应的 Offset 位置开始消费。这样就能有效防止 checkpoint 损坏导致整个 Flink 任务无法成功启动的问题。

Checkpoint 流程如下图所示。

先做 checkpoint N，完成后发布一次 notify Checkpoint Complete，等待一定时间间隔后，接下来做 checkpoint N+1，完成后也会进行一次 notify Checkpoint Complete 操作，此时把 Durable Cursor 进行一次 Commit，最终 Commit 到 Pulsar topic 的服务端上，这样能确保 checkpoint 的 exactly-once，也能根据自己设定的 subscription 保证 message “keep alive”。

Topic/Partition Discovery 要解决什么问题呢？当 Flink 任务消费 topic 时，如果 Topic 增加分区，Flink 任务需要能够自动发现分区。Pulsar Flink Connector 如何实现这一点呢？订阅 topic 分区的 reader 之间相互独立，每个 task manager 包含多个 reader thread，根据哈希函数把单个 task manager 中包含的 topic 分区映射过来，topic 中新增分区时，新加入的分区会映射到某个 task manager 上，task manager 发现新增分区后，会创建一个 reader，消费掉新数据。用户可以通过设置 `partition.discovery.interval-millis` 参数，调配检测频率。

为了降低 Flink 消费 Pulsar topic 的门槛，让 Pulsar Flink Connector 支持更加丰富的 Flink 新特性，BIGO 消息队列团队为 Pulsar Flink Connector 增加了 Pulsar Flink SQL DDL（Data Definition Language，数据定义语言）和 Flink 1.11 支持。此前官方提供的 Pulsar Flink SQL 只支持 Catalog，要想通过 DDL 形式消费、处理 Pulsar topic 中的数据不太方便。在 BIGO 场景中，大部分 topic 数据都以 JSON 格式存储，而 JSON 的 schema 没有提前注册，所以只能在 Flink SQL 中指定 topic 的 DDL 后才可以消费。针对这种场景，BIGO 基于 Pulsar Flink Connector 做了二次开发，提供了通过 Pulsar Flink SQL DDL 形式消费、解析、处理 Pulsar topic 数据的代码框架（如下图所示）。

左边的代码中，第一步是配置 Pulsar topic 的消费，首先指定 topic 的 DDL 形式，比如 rip、rtime、uid 等，下面是消费 Pulsar topic 的基础配置，比如 topic 名称、service-url、admin-url 等。底层 reader 读到消息后，会根据 DDL 解出消息，将数据存储在 test_flink_sql 表中。第二步是常规逻辑处理（如对表进行字段抽取、做 join 等），得出相关统计信息或其他相关结果后，返回这些结果，写到 HDFS 或其他系统上等。第三步，提取相应字段，将其插入一张 hive 表。由于 Flink 1.11 对 hive 的写入支持比 1.9.1 更加优秀，所以 BIGO 又做了一次 API 兼容和版本升级，使 Pulsar Flink Connector 支持 Flink 1.11。

BIGO 基于 Pulsar 和 Flink 构建的实时流平台主要用于实时 ETL 处理场景和 AB-test 场景。

实时 ETL 处理场景

实时 ETL 处理场景主要运用 Pulsar Flink Source 及 Pulsar Flink Sink。这个场景中，Pulsar topic 实现几百甚至上千个 topic，每个 topic 都有独立的 schema。我们需要对成百上千个 topic 进行常规处理，如字段转换、容错处理、写入 HDFS 等。每个 topic 都对应 HDFS 上的一张表，成百上千个 topic 会在 HDFS 上映射成百上千张表，每张表的字段都不一样，这就是我们遇到的实时 ETL 场景。

这种场景的难点在于 topic 数量多。如果每个 topic 维护一个 Flink 任务，维护成本太高。之前我们想通过 HDFS Sink Connector 把 Pulsar topic 中的数据直接 sink 到 HDFS 上，但处理里面的逻辑却很麻烦。最终我们决定使用一个或多个 Flink 任务去消费成百上千个 topic，每个 topic 配自己的 schema，直接用 reader 来订阅所有 topic，进行 schema 解析后处理，将处理后的数据写到 HDFS 上。

随着程序运行，我们发现这种方案也存在问题：算子之间压力不均衡。因为有些 topic 流量大，有些流量小，如果完全通过随机哈希的方式映射到对应的 task manager 上去，有些 task manager 处理的流量会很高，而有些 task manager 处理的流量很低，导致有些 task 机器上积塞非常严重，拖慢 Flink 流的处理。所以我们引入了 slot group 概念，根据每个 topic 的流量情况进行分组，流量会映射到 topic 的分区数，在创建 topic 分区时也以流量为依据，如果流量很高，就多为 topic 创建分区，反之少一些。分组时，把流量小的 topic 分到一个 group 中，把流量大的 topic 单独放在一个 group 中，很好地隔离了资源，保证 task manager 总体上流量均衡。

AB-test 场景

实时数仓需要提供小时表或天表为数据分析师及推荐算法工程师提供数据查询服务，简单来讲就是 app 应用中会有很多打点，各种类型的打点会上报到服务端。如果直接暴露原始打点给业务方，不同的业务使用方就需要访问各种不同的原始表从不同维度进行数据抽取，并在表之间进行关联计算。频繁对底层基础表进行数据抽取和关联操作会严重浪费计算资源，所以我们提前从基础表中抽取用户关心的维度，将多个打点合并在一起，构成一张或多张宽表，覆盖上面推荐相关的或数据分析相关的 80% ~ 90% 场景任务。

在实时数仓场景下还需实时中间表，我们的解决方案是，针对 topic A 到 topic K ，我们使用 Pulsar Flink SQL 将消费到的数据解析成相应的表。通常情况下，将多张表聚合成一张表的常用做法是使用 join，如把表 A 到 K 按照 uid 进行 join 操作，形成非常宽的宽表；但在 Flink SQL 中 join 多张宽表效率较低。所以 BIGO 使用 union 来替代 join，做成很宽的视图，以小时为单位返回视图，写入 ClickHouse，提供给下游的业务方实时查询。使用 union 来替代 join 加速表的聚合，能够把小时级别的中间表产出控制在分钟级别。

输出天表可能还需要 join 存放在 hive 上的表或其他存储介质上的离线表，即流表和离线表之间 join 的问题。如果直接 join，checkpoint 中需要存储的中间状态会比较大，所以我们在另外一个维度上做了优化。

左侧部分类似于小时表，每个 topic 使用 Pulsar Flink SQL 消费并转换成对应的表，表之间进行 union 操作，将 union 得到的表以天为单位输入到 HBase（此处引入 HBase 是为了做替代它的 join）。

右侧需要 join 离线数据，使用 Spark 聚合离线的 Hive 表（如表 a1、a2、a3），聚合后的数据会通过精心设计的 row-key 写入 HBase 中。数据聚合后状态如下：假设左边数据的 key 填了宽表的前 80 列，后面 Spark 任务算出的数据对应同样一个 key，填上宽表的后 20 列，在 HBase 中组成一张很大的宽表，把最终数据再次从 HBase 抽出，写入 ClickHouse，供上层用户查询，这就是 AB-test 的主体架构。

业务收益

从 2020 年 5 月上线至今，Pulsar 运行稳定，日均处理消息数百亿，字节入流量为 2~3 GB/s。Apache Pulsar 提供的高吞吐、低延迟、高可靠性等特性极大提高了 BIGO 消息处理能力，降低了消息队列运维成本，节约了近 50% 的硬件成本。目前，我们在几十台物理主机上部署了上百个 Pulsar broker 和 bookie 进程，采用 bookie 和 broker 在同一个节点的混部模式，已经把 ETL 从 Kafka 迁移到 Pulsar，并逐步将生产环境中消费 Kafka 集群的业务（比如 Flink、Flink SQL、ClickHouse 等）迁移到 Pulsar 上。随着更多业务的迁移，Pulsar 上的流量会持续上涨。

我们的 ETL 任务有一万多个 topic，每个 topic 平均有 3 个分区，使用 3 副本的存储策略。之前使用 Kafka，随着分区数增加，磁盘由顺序读写逐渐退化为随机读写，读写性能退化严重。Apache Pulsar 的存储分层设计能够轻松支持百万 topic，为我们的 ETL 场景提供了优雅支持。

未来展望

BIGO 在 Pulsar broker 负载均衡、broker cache 命中率优化、broker 相关监控、BookKeeper 读写性能优、BookKeeper 磁盘 IO 性能优化、Pulsar 与 Flink、Pulsar 与 Flink SQL 结合等方面做了大量工作，提升了 Pulsar 的稳定性和吞吐，也降低了 Flink 与 Pulsar 结合的门槛，为 Pulsar 的推广打下了坚实基础。

未来，我们会增加 Pulsar 在 BIGO 的场景应用，帮助社区进一步优化、完善 Pulsar 功能，具体如下：

1、为 Apache Pulsar 研发新特性，比如支持 topic policy 相关特性。

2、迁移更多任务到 Pulsar。这项工作涉及两方面，一是迁移之前使用 Kafka 的任务到 Pulsar。二是新业务直接接入 Pulsar。

3、BIGO 准备使用 KoP 来保证数据迁移平滑过渡。因为 BIGO 有大量消费 Kafka 集群的 Flink 任务，我们希望能够直接在 Pulsar 中做一层 KoP，简化迁移流程。

4、对 Pulsar 及 BookKeeper 持续进行性能优化。由于生产环境中流量较高，BIGO 对系统的可靠性和稳定性要求较高。

5、持续优化 BookKeeper 的 IO 协议栈。Pulsar 的底层存储本身是 IO 密集型系统，保证底层 IO 高吞吐，才能够提升上层吞吐，保证性能稳定。

end






Flink 从入门到精通 系列文章
基于 Apache Flink 的实时监控告警系统关于数据中台的深度思考与总结（干干货）日志收集Agent，阴暗潮湿的地底世界

公众号(zhisheng)里回复 面经、ClickHouse、ES、Flink、 Spring、Java、Kafka、监控 等关键字可以查看更多关键字对应的文章。

点个赞+在看，少个 bug ????

腾讯云大数据套件TBDS与阿里云大数据能力产品对比奋力向前123 数据库 java 人工智能腾讯云大数据阿里云
前言博主在接触大数据方向研究的时候是在2016年，那时候正是大数据概念非常火热的一个时间段，最著名的Google的3篇论文。GoogleFS、MapReduce、BigTable，奠定了大数据框架产品的基础。Google文件系统，计算框架和存储框架。往后所有的大数据产品和过程域无一不是在三个模块的基础上进行搭建，迭代，完善。我们最开始使用的都是开源的产品，比如hadoop，HDSF，MAPRedu
基于Python、使用`pandas`库和`Brightway2`库实现根据Excel表格某一列内容与数据库进行匹配 go5463158465 python 算法 python pandas excel
以下是一个基于Python、使用pandas库和Brightway2库实现根据Excel表格某一列内容与数据库进行匹配，然后抓取匹配成功的数据并导出为新Excel表格的示例代码。这里假设你已经成功导入了数据库，并且了解数据库中数据的结构。安装必要的库首先确保你已经安装了pandas和Brightway2库。如果没有安装，可以使用以下命令进行安装：pipinstallpandasbrightway2
DeepSeek底层揭秘——知识图谱与语料库的联邦学习架构 9命怪猫知识图谱架构人工智能
目录1.知识图谱与语料库的联邦学习架构2.技术要素3.技术难点与挑战4.技术路径5.应用场景6.最新研究与技术进展7.未来趋势8.实际案例猫哥说1.知识图谱与语料库的联邦学习架构(1)定义“知识图谱与语料库的联邦学习架构”是一种结合知识图谱（KnowledgeGraph,KG）、语料库（Corpus）和联邦学习（FederatedLearning,FL）的分布式学习框架。其核心目标是通过联邦学习技
网络安全（黑客）——自学2025 网安大师兄 web安全安全网络网络安全密码学
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包前言什么是网络安全网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。如何成为一名黑客很多朋友在学习安全方面都会半路转行，因为不知如何去学，在这里，我将这个整份答案分为黑客（网络安全）入门必备、黑客（网络安全）职业指南、黑客（网络安全）学习
Git 安全与权限管理计算机毕设定制辅导-无忧学长 #Git git 安全
引言在当今软件开发的宏大版图中，Git无疑占据着举足轻重的地位。作为一款分布式版本控制系统，Git以其卓越的特性，为开发者们搭建了高效协作与代码管理的坚实桥梁。它赋予了开发者极大的自主性，即便在离线状态下，也能从容地进行代码的修改、提交等操作，待网络恢复时再与团队成员的代码进行同步。在团队协作的场景里，其分布式特性更是大放异彩，众多开发者能够并行工作，各自在本地开展开发与测试，极大地减少了因等待中
Python面试宝典：Python中与Django相关的面试笔试题（1000加面试笔试题助你轻松捕获大厂Offer）脑洞笔记 python全栈面试宝典 python 面试 django
Python面试宝典：1000加python面试题助你轻松捕获大厂Offer【第二部分：Python高级特性：第十六章：Web开发：第二节：Django】第十六章：Web开发第二节：DjangoMTV架构（模型-模板-视图）特性快速开始数据库和模型URL路由和视图模板Django面试题面试题1面试题2面试题3面试题4面试题5面试题6面试题7面试题8面试题9面试题10更多面试题请查阅：Python面
R 语言必备十大资源后端
引言R是进行统计计算和数据分析的热门编程语言之一，广泛应用于数据科学家、研究者和统计学家之间，用于处理大数据、执行复杂分析和结果可视化。如果你是R的新手或希望提升你的R技能，这里有一些核心资源可以助你一臂之力，无论是从基础学起还是提高现有水平，包括官方站点、知名学府和互动式学习平台。1.R项目官网(r-project.org)R项目的官方网站是开启R学习之旅的首选，它提供免费的R软件、文档、教程和
如何利用Spring的@Value注解实现配置信息的动态注入与管理？码农技术栈 spring spring cloud spring boot java 微服务
@Value注解在Spring中的作用，就像是一个“传话员”，它负责把配置文件中的值或者其他来源的值传递给Java对象中的属性。想象一下，你有一个装满各种设置的小盒子（配置文件），里面记录了各种信息，比如数据库的连接信息、应用的端口号等。现在，你有一个Java对象，它需要一个属性值，比如数据库的连接字符串。这时候，@Value注解就像是一个“传话员”，它跑到小盒子（配置文件）那里，找到对应的值，然
零基础入门机器学习 -- 第二章机器学习的基本流程山海青风 #机器学习机器学习 python 人工智能
1.机器学习的五个基本步骤在机器学习项目中，我们通常遵循以下步骤：收集数据：获取数据集，例如从文件、数据库或在线资源。清洗和预处理数据：处理缺失值、去除异常数据、转换数据格式等。选择合适的模型：不同任务适合不同模型，如分类使用逻辑回归、决策树等。训练模型：让模型从数据中学习模式并调整参数。评估模型：检查模型的准确率，以判断效果是否良好。本章会通过电影评分预测的示例，帮助你快速体验从数据到模型的基本
SRE体系17----复盘与定责运维
这是SRE或运维工程师在故障处理完毕后必然要面对的工作。也是比较棘手的环节复盘复盘环节要在故障处理完毕后尽快展开，因为大家对当时的故障细节和处理过程还能记住，时间久了就会遗忘。各个公司流程大体差不多，通常分为以下几步：回顾回顾整个故障处理的过程，包括故障的发生，报警，定位，处理，以及每个人在故障处理过程中做了哪些事。尽可能的把所有的细节信息收集起来。这一步收集的信息是下一步分析的基础分析1).分析
SRE体系16----变更运维
变更是SRE或运维工程师日常工作中最频繁的操作，然而70%以上的事故都来源于变更操作。所以必须要对变更保持一份敬畏心。变更可达性首先我们要保证在变更过程中运维管理工具和手段的可达性。必须保证能够接触到业务系统相关的IT资源。例如我们要保证办公网的可达性，有登录网络的权限，或者在公司外时，要确保有热点设备，能够移动上网，同时配置好VPN软件。否则因为网络问题无法登录到服务器就尴尬了。还要确保堡垒机，
为何要为Nacos配置外置Mysql数据库? t04bf Java nacos
文章目录为什么要外置Mysql数据库创建sql表docker启动nacos为什么要外置Mysql数据库数据的持久性:使用MySQL作为外置数据库可以确保数据被持久化存储，这对于确保服务的稳定性和数据的可靠性至关重要。高可用性:Nacos支持集群部署，而使用MySQL作为共享的数据存储可以确保集群中各个节点之间的数据一致性。此外，MySQL自身也支持高可用性和故障转移，如使用主从复制或集群解决方案，
MybatisPlusCRUD接口使用 cwtlw java 开发语言 spring boot mysql
1.MybatisPlus的CRUD接口MybatisPlus提供了很多CRUD接口，可以直接使用这些接口来操作数据库。而不用像Mybatis那样写大量的XML文件及SQL语句。MapperCRUD接口主要关键是继承BaseMapper，其中T是实体类。使用案例Mapper层继承BaseMapper接口@MapperpublicinterfaceStudentMapperextendsBaseMa
真正通俗易懂的Langchain入门学习（五） caridle 智能体 langchain 学习
四、项目实战：从玩具到工具的蜕变项目1：智能客服助手（1-2天）场景需求：用户咨询产品信息→自动查询数据库处理退换货请求→生成工单并邮件通知多轮对话→记住用户历史订单技术栈：产品咨询售后服务用户提问意图识别Chain类型判断数据库查询Agent工单生成Chain组织回复回复美化Transform分步实现：搭建基础问答链fromlangchain.chainsimportRetrievalQA#连接
安科瑞ADL400N导轨式多功能电能表外置互感器UL、CE、MID、ROHS、UKCA认证户储光伏并网系统安科瑞华楠能源
安科瑞华楠187+0616+3979ADL系列导轨式多功能电能表，是主要针对于光伏并网系统、微逆系统、储能系统、交流耦合系统等新能源发电系统而设计的一款智能仪表，产品具有精度高、体积小、响应速度快、安装方便等优点。具有对电力参数进行采样计量和监测，逆变器或者能量管理系统（EMS）与之进行通讯，根据实时功率及累计电能实现防逆流、调节发电量、电池充放电等功能，可双向计量，实现户用分布式光伏能量管理。
基于Django以及vue的电子商城系统设计与实现放学-别走 django vue.js python 毕设毕业设计后端零售
基于Django以及vue的电子商城系统设计与实现引言随着电子商务的快速发展，越来越多的企业和个人选择搭建线上商城，以提供更加便捷的购物体验。本文基于Python开发了一套电子商城系统，后端采用Django框架，前端使用Vue.js，并使用MySQL数据库进行数据存储和管理。本文将详细介绍该系统的设计、实现及测试过程，以供开发者参考。1.电子商城系统概述1.1背景与意义电子商务已经成为现代商业的重
数智时代下，值得关注的大技术趋势人工智能爱好者人工智能大数据大数据技术趋势
(1)区块链将得到更广泛的应用。区块链是一种每一个人都能够分享和访问的电子分类账，交易的双方可通过区块链来跟踪交易记录。区块链这个词在整个2017年都备受大家关注，这是因为加密货币比特币采用了一个分散式区块链来跟踪它的所有交易记录，然而区块链技术的应用范围远不限于比特币，它还有更广泛的应用范围。有些人希望将区块链技术能够应用在病历记录上，病人的病史可通过不同的数据库和软件集中导入一个加密数据库。这
Java NIO基础与实战：如何提升IO操作性能薛伟同学 Netty：高性能网络编程技巧 java nio
JavaNIO概述JavaNIO（新I/O）是Java提供的一个更为高效的I/O处理框架。JavaNIO（NewI/O）是对传统I/O（java.io）模型的改进，它引入了非阻塞I/O操作和面向缓冲区的数据读写方式，解决了传统I/O模型中的性能瓶颈。NIO的设计目标是使I/O操作更加高效，特别是在大数据量、高并发情况下，能够充分利用操作系统的底层I/O多路复用机制。JavaNIO的核心概念包括：B
信息技术革新引领时代变革 JiYan_xiaohei 业界资讯
信息技术革新引领时代变革一、信息技术的飞速发展1．信息技术的概念及重要性信息技术，即信息的获取、传输、存储、处理和应用等技术的综合，已经成为现代社会不可或缺的基础设施。信息技术的飞速发展极大地改变了人们的生活方式和工作模式，推动了社会进步。2．信息技术的快速发展现状近年来，人工智能、大数据、云计算等前沿技术不断突破，展现出强大的潜力。这些新技术的出现不仅改变了数据处理和分析的方式，还催生了新的产业
信息技术革新引领社会变革 JiYan_yellow 业界资讯
信息技术革新引领社会变革一、信息技术推动数字化转型随着信息技术的迅猛发展，我们正处在一个数字化的时代。信息技术在推动产业数字化转型方面发挥着重要作用。云计算、大数据、人工智能等先进技术的应用，使得企业能够实现更高效的生产和运营。例如，在制造业领域，智能制造技术能够提高生产效率和质量，降低运营成本。此外，信息技术还在促进供应链管理、市场营销等环节的数字化转型，为企业提供更广阔的发展空间。信息技术还深
人工智能之推荐系统实战系列(协同过滤,矩阵分解,FM与DeepFM算法) weixin_58351028 人工智能深度学习神经网络算法机器学习
一.推荐系统介绍和应用(1)推荐系统通俗解读推荐系统就是来了就别想走了。例如在大数据时代中京东越买越想买，抖音越刷越是自己喜欢的东西，微博越刷越过瘾。(2).推荐系统发展简介1)推荐系统无处不在，它是根据用户的行为决定推荐的内容。用户每天在互联网中都会留下足迹，这样就会越来越多的用户画像。2)为什么要推荐系统卖的好的商品就那几种，其它就不管了吗？答案是否定的。80%的销售来自20%的热门商品，要想
javax.imageio.IIOException: Can‘t read input file 阿俊仔（摸鱼版）眼盲心不瞎的憨憨bug日记 intellij-idea
问题描述根据路径地址读取图片存入数据库时，提示我没法读取图片。原因分析：大致就是各种情况导致路径不对或者文件不对路径格式写错了(windows路径分隔符是\，Linux是/)文件格式写错（文件名写错或者文件后缀写错）该路径下此文件不存在（复制路径去本地找找核对一下）解决方案：先看报错信息检查出错的语句（那边没什么问题），然后我又检查了所有写了文件路径的语句，发现我写入数据库的那个文件的路径没把文件
MVC和react 吃蛋糕的居居 javascript css node.js html
MVC1.MVC是一种使用MVC（ModelViewController模型-视图-控制器）设计创建Web应用程序的模式.(1)Model（模型）表示应用程序核心（比如数据库记录列表）.(2)View(视图)显示数据（数据库记录）.(3)Controller（控制器）处理输入（写入数据库记录）.2.MVC模式同时提供了对HTML、CSS和JavaScript的完全控制.(1)Model（模式）是应
手把手教你给 windows装个vmware虚拟机 python算法小白
附Java/C/C++/机器学习/算法与数据结构/前端/安卓/Python/程序员必读书籍书单大全：书单导航页（点击右侧极客侠栈即可打开个人博客）：极客侠栈①【Java】学习之路吐血整理技术书从入门到进阶最全50+本（珍藏版)②【算法数据结构+acm】从入门到进阶吐血整理书单50+本（珍藏版)③【数据库】从入门到进阶必读18本技术书籍网盘吐血整理网盘(珍藏版)④【Web前端】从HTML到JS到AJ
在Podman中配置Dify Sandbox服务与外部PostgreSQL服务的网络连接松哥_ai自动化经验分享
在Podman中配置DifySandbox服务与外部PostgreSQL服务的网络连接引言在容器化环境中，确保不同服务之间的可靠通信是至关重要的。本文将指导你如何使用Podman来配置DifySandbox服务与外部通过docker-compose管理的PostgreSQL数据库服务之间的网络连接。我们将逐步介绍每一步骤，并适时融入相关概念，帮助读者更好地理解配置过程。网络基础：理解容器间的通信在
分布式数据库面试整理 Necther 数据库面试分布式
5.3.1redis面试专题1、redis和memcached什么区别？为什么高并发下有时单线程的redis比多线程的memcached效率要高？区别：mc可缓存图片和视频。rd支持除k/v更多的数据结构；rd可以使用虚拟内存，rd可持久化和aof灾难恢复，rd通过主从支持数据备份;3.rd可以做消息队列。原因:mc多线程模型引入了缓存一致性和锁，加锁带来了性能损耗。2、redis主从复制如何实现
定了，2025年数据库运维就这样干我科绝伦（Huanhuan Zhou） mysql oracle 数据库运维 oracle
在数字化浪潮中，数据库作为企业数据资产的核心载体，其稳定运行与高效管理至关重要。新的一年，为应对日益增长的数据量和业务复杂度，我们为数据库运维制定了一系列全面且细致的计划，旨在提升数据库性能、保障数据安全，为企业业务发展筑牢坚实基础。一、强化巡检，防患未然数据库的稳定运行离不开日常的精心呵护。2025年，我们将进一步加强巡检工作，利用专业工具和自主研发的系统，对数据库进行全面“体检”。不仅关注数据
不要直接返回DTO给前端 Coder LM Wang Java java
Entity（实体类）：对应数据库表结构包含所有的数据库字段可能包含敏感信息，如密码哈希、状态标记等DTO（数据传输对象）：专门设计用于数据传输只包含前端需要的字段可以自定义字段名和数据格式
Web3 的虚实融合之路：从虚拟交互到元宇宙构建 dingzd95 web3 web3 交互
在这个数字技术日新月异的时代，我们正站在Web3的门槛上，见证着互联网的又一次革命。Web3不仅仅是技术的迭代，它代表了一种全新的交互方式和价值创造模式。本文将探讨Web3如何推动虚拟交互的发展，并最终实现元宇宙的构建，揭示这一技术演进背后的关键理念与现实意义。Web3：去中心化的新交互方式Web3，即第三代互联网，是一个去中心化、用户主权、数据自主的网络环境。它依托于区块链、分布式存储等技术，实
基于neo4j知识图谱+flask的大数据医疗领域知识问答系统（完整源码+源码解析+开发文档+视频讲解等资料 2401_84185074 neo4j 知识图谱 flask
1.classMedicalSpider::定义了一个名为MedicalSpider的类。2.def**init**(self)::这是类的构造函数，用于在创建类的实例时进行初始化。在初始化过程中，建立了与MongoDB数据库的连接，并选择了名为‘medical’的数据库和名为‘data’的集合。3.definsert\_data(self,data)::这是一个方法，用于插入数据到MongoDB
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s