字节跳动云原生计算

字节跳动新一代云原生消息队列实践

作者：火山引擎云原生计算研发工程师｜雷丽媛

上文我们了解了在字节跳动内部业务快速增长的推动下，经典消息队列 Kafka 的劣势开始逐渐暴露，在弹性、规模、成本及运维方面都无法满足业务需求。因此字节消息队列团队研发了计算存储分离的云原生消息引擎 BMQ，在极速扩缩容及吞吐上都有非常好的表现。本文将继续从整体技术架构开始，介绍字节自研的云原生消息引擎的分层架构在数据存储模型、运维等角度的优势及挑战。

回顾：一文了解字节跳动消息队列演进之路

云原生消息引擎 BMQ 架构

从整体来看，BMQ 与 Kafka 架构最大的不同在于 BMQ 是存算分离的架构，相较于 Kafka 将数据存储在本地磁盘，BMQ 将数据存储在了分布式的存储系统。在 BMQ 内部，主要有四个模块：Proxy，Broker，Coordinator 和 Controller。我们依次来看一下这些模块的主要工作：

Proxy 负责接收所有用户的请求，对于生产请求，Proxy 会将其转发给对应的 Broker；对于消费者相关的请求，例如 commit offset，join group 等，Proxy 会将其转发给对应的 Coordinator；对于读请求 Proxy 会直接处理，并将结果返回给客户端。
BMQ 的 Broker 与 Kafka 的 Broker 略有不同，它主要负责写入请求的处理，其余请求交给了 Proxy 和 Coordinator 处理。
Coordinator 与 Kafka 版本最大的差别在于我们将其从 Broker 中独立，作为单独的进程提供服务。这样的好处是读写流量与消费者协调的资源可以完全隔离，不会互相影响。另外 Coordinator 可以独立扩缩容，以应对不同集群的情况。
Controller 承担组件心跳管理、负载均衡、故障检测及控制命令接入的工作。因为 BMQ 将数据放在分布式存储系统上，因此无需管理数据副本，相较于 Kafka 省去了 ISR 相关的管理。Controller 可以更加专注地关注集群整体流量均衡及故障检测。

在 BMQ 中用户所有请求都会由 Proxy 接入，因此 BMQ 的 Metadata 中的 ‘Broker’ 信息实际上填写的是 BMQ 中 Proxy 的信息，客户端根据 Metadata 请求将生产和消费等请求发送到对应的 Proxy，再由 Proxy 处理或转发。这样的架构有助于 BMQ 做更多的容错工作。例如在 Broker 重启时，Proxy 可以感知到相关错误并进行退避重试，避免将异常直接暴露给客户端；此外我们可以监控 Proxy 在访问其他组件时产生的错误，进行一些自动的故障诊断，并将故障节点自动隔离，避免对用户产生影响。

分层架构的优势

分层架构的优势是显而易见的，BMQ 作为计算层无状态，可以实现秒级的扩缩容或故障机替换。在故障场景下，例如交换机故障或机房故障，可以秒级将流量调度到健康节点恢复服务。

数据存储模型

在分层之后数据存储模型上的优势，主要体现在 BMQ 中，一个 Partition 的数据会和 Kafka 一样被切分为若干个 Segment，Kafka 中的这些 Segment 都会被存储在同一块磁盘上，而在 BMQ 中，因为数据存储在分布式存储中，每一个 Segment 也都被存储在存储池中不同的磁盘上。从上图中可以明显看出，BMQ 的存储模型很好的解决了热点问题。即使 Partition 间数据大小或访问吞吐差别很大，被切割成 Segment 后都能均匀地分散在存储池中。

❯ 接下来我们通过一个例子进一步感受池化存储的优势。

在 Kafka 的使用中，我们经常会有回溯数据的需求，以上图中的数据分布为例，例如业务有需求回溯 Partition 1 全部的数据，高吞吐的 IO 会影响磁盘的性能，在 Kafka 存储模型中与 Partition 1 Leader 同在一块磁盘的 Partition 3 Follower 就会受到影响，使得 Partition 3 处于 Under Replica 的状态。这个状态会持续到用户将 Partition 全部数据回溯完成。

而在 BMQ 的存储模型中，Partition 1 的数据分散在不同磁盘上，热点会随着用户的回溯进程转移，不会持续影响同一块磁盘。且对于回溯访问的磁盘，仅有已经存储在该磁盘的其他 Segment 刚好被用户消费时，或有新的 Segment 要写入该磁盘的时候会受影响。此外我们也可以通过一些策略避免写入有热点访问的磁盘来降低热点访问对新写入的影响。总结来看，Kafka 存储模型下，热点访问对同磁盘其他访问的影响大、持续长、且优化空间不大；而 BMQ 的池化存储模型中，热点影响范围小、持续时间短，并且可以通过一些策略优化进一步降低影响。

运维及故障影响

从运维角度来看，BMQ 的存储模型也有非常大的优势。无论重启、替换、扩容还是缩容，Kafka 都需要数据拷贝。以扩容为例，新扩容的 Broker 需要作为 Partition 的 follower，将数据从 leader 所在 Broker 拷贝至本地，全部拷贝完成后新 Broker 才可以晋升为 leader 提供服务。而矛盾的地方在于，当业务流量上涨急需扩容时，Broker 已经没有多余的带宽来支持拷贝数据了。而 BMQ 所依赖的分布式存储系统则没有这个问题，同样以扩容为例，新扩充进来的存储节点可以立即提供读写服务，无需做额外的数据拷贝，不会对原有存储造成额外压力。而在替换和缩容场景，分布式存储依然需要一些数据拷贝来补齐副本，但对业务影响会小很多。因为数据存储是分散的，因此拷贝的 IO 也会分散在多台存储上。

从故障影响角度分析，以两副本的配置为例，在 Kafka 场景下，任意两台 Broker 宕机都会造成某个 Partition 无法读写，且数据全部丢失。在 BMQ 的存储模型下，任意两台存储节点的异常都不会影响新写入的数据，因为只要存活的存储节点可以支持写入流量，新写入的数据就可以选择剩余健康的存储节点写入。对于已经存入的数据，两台存储节点宕机会导致同时存在这两台机器上的 Segment 无法读取，若这个 Segment 是最近写入的尚未被消费的，则会影响这部分数据的消费，但若这个 Segment 刚好是一个历史数据，没有消费者需要，那就不会对业务产生实际影响。

分层架构的挑战

上面我们讨论了分层架构带来的优势，下面要来分析下挑战以及 BMQ 的解决方案。分层存储之后 BMQ 访问数据的代价增加了，访问存储在分布式系统上的数据延时会比直接读取本地磁盘稍高，并且我们也需要考虑对分布式存储系统元信息及存储节点的压力情况。下面我们来分别看一下 BMQ 在生产和消费这两条链路上是如何克服这些困难的。

生产

首先介绍一下 BMQ 数据写入的流程。上文介绍过 Broker 是主要负责数据写入的节点，由 Controller 负责将 Partition 分配到各个 Broker 上。因为 Kafka 协议中 Partition 内部的数据是有序的，因此每个 Partition 只会在唯一一个 Broker 上调度。Controller 调度的时候也会综合考虑 Broker 的负载及 Partition 的流量等因素，最终做到 Broker 之间的负载均衡。

如上图所示，当一个 Partition 被调度到 Broker 上之后，便开始了它的生命周期。首先 Partition 会进行 Recover，即从上一个 Checkpoint 恢复数据，并将最终结果保存，这样做是避免因意外宕机导致用户已经写入成功的数据丢失。之后 Partition 便会创建一个新的 Segment 开始写入数据，期间会写入索引等信息。当文件长度到达配置长度，或者文件写入持续到达配置时间后会被关闭，存储相关元信息，并开启一个新的 Segment 写入。依次循环，直到 Controller 将 Partition 从这个 Broker 调度走，或发生异常 Partition 退出。

我们可以看到在状态集中有一个 Failover 节点，这个节点是 BMQ 降低分布式存储延时毛刺的关键。每一次写入 BMQ 会先将数据放入一个 Inflight Buffer 中，之后通过异步调用分布式存储的 Flush 接口持久化数据。若 Flush 在预期时间内返回成功，那么 Inflight Buffer 数据中的数据会被清除，同时返回给用户写入成功的回应。但若因为网络或者慢节点问题导致写入超时，那么 Broker 会直接创建一个新的 Segment 文件，将 Inflight Buffer 中的数据直接写入新的文件，并在后台异步将之前的 Segment 文件关闭。对于异步关闭的这个文件，元信息只会包含成功返回的数据长度，最后超时的部分则不会被记录，这样即使超时数据最终确实写入了分布式存储，也不会被用户读取造成数据重复，这一整个过程就是我们说的 Failover。

为什么通过切一个文件就能解决这个问题呢？这也与存储模型有关。Kafka 因为一个 Partition 数据均被存储在一块磁盘上，那么若是因为磁盘异常引起的延时抖动，无论如何切换文件都是不能解决的。但是在 BMQ 中，每个 Segment 都是一个文件，而每个文件的多个副本都会随机地分布在整个存储池中。那么若存储池中有少数慢节点，随机切换一个节点大概率可以绕过故障的节点。因此，在慢节点问题及偶发的磁盘热点问题上，BMQ 可以更加灵活地规避，降低这些问题对用户的影响。

当然，BMQ 的分层架构对于底层的分布式存储系统也提出了较高的要求。火山引擎上分布式存储系统由 C++ 实现，是一个高性能的分布式文件系统。能够提供 5w QPS 写入及 15w QPS 读取的元信息访问能力；写入访问延时 p99 约在 10 毫秒左右，读取延时 p99 为亚毫秒级别；并且单集群可以承载 50 亿文件。同时在数据写入方面对写入延时也做了很多优化，包括慢节点的检测和规避、利用 NVMe 加速的多介质存储功能等。

消费

当一个消费请求到达 Kafka Broker，Broker 会查看当前是否有足够多的已写入数据返回给消费者，如果条件满足则会读取数据并返回。这个流程非常简单清晰，但这个流程不能直接照搬到 BMQ，因为 BMQ 底层是分布式存储系统，如果对于每个请求都直接从存储层读取数据，那么对于分布式存储系统的元信息和数据节点都是极大地压力，并且延时也会变得非常高。因此直接处理消费请求的 BMQ Proxy 针对读流程设计了多个缓存机制。

第一个缓存系统非常直观，我们称之为 Message Cache。顾名思义，这个缓存存储的是消息数据。Message Cache 会将每个 Partition 末尾的一部分数据从远端读取回来，并缓存在内存中，以供消费者读取。若这个 Partition 有多个消费组，那么理想情况下，他们只会产生一次分布式文件系统的实际数据读取，其余请求均会从 Proxy 内存中直接获取数据。不同于 Kafka 依赖于 Page Cache，BMQ 的 Message Cache 拥有丰富的淘汰策略以应对不同的生产消费场景，使得缓存命中率更高。

当然，不是所有的请求都能够完美的命中 Message Cache，一些消费者会因为消费资源不足或业务需求消费一些较老的数据，而这部分数据无法被 Message Cache 覆盖。如果在这种请求发生时 Proxy 直接读取分布式存储系统则会对其造成一次元数据的访问，当请求变多时分布式存储系统的元数据节点将不堪重负。因此 Proxy 设计来 File Cache 来应对这种情况。Proxy 会缓存某个 Segment 的文件句柄，即这个 Segment 所对应文件的文件句柄。因为 Kafka 的消费场景下，用户大多数情况都是顺序消费，因此一个消费请求这一次所访问的文件很大概率是上一次请求访问过的文件。线上实践效果来看，File Cache 可以帮助我们减少 70% 对后端存储的元信息访问请求。

在 BMQ 拥有优越的消费性能上也需要强大的分布式存储系统的加持。除了上一节提到的高性能的元数据节点，也需要存储系统支持读取的慢节点检测，即如果当前读取的节点延时较高，Client 端会自动切换另外一个节点读取。再加上 NVMe 分层存储的加速，BMQ 可以以较低延时达到非常理想的消费吞吐。

总结与展望

总体来看，分层架构给 BMQ 带来了极大的性能收益及可运维性的提升，同时也给我们带了来很多的挑战。BMQ 也通过不停的探索和优化，成功克服了这些困难，很好的支撑了业务的发展。在线上实践中，目前我们承接了 TB/s 级别的入流及数十 TB/s 级别的的峰值吞吐，其中最大 Topic 峰值达到数百 GB/s 入流和 TB/s 级别的出流吞吐。

当然，我们也在思考如何在各种场景下持续优化云原生消息引擎能力为用户带来更加极致的使用体验。对于一些特定的场景，探索将 Proxy 和 Broker 融合，在降低部署成本的同时提供更加极致的读写延时体验。未来，我们也将持续优化自动检测能力，使它更智能、更准确判断故障的同时更快地隔离异常节点，缩短影响时间，持续为 BMQ 的稳定性保驾护航。此外我们也在探索更加极致的弹性能力，在保障租户吞吐能力的同时，可以根据流量潮汐自动扩缩容实例，实现极致地降本增效。后续，我们还会介绍更多技术能力，敬请期待。

火山引擎云原生消息引擎 BMQ 基于云原生全托管服务，支持灵活动态的扩缩容和流批一体化计算，能够有效地处理大数据量级的实时流数据，帮助用户构建数据处理的“中枢神经系统”，广泛应用于日志收集、数据聚合、离线数据分析等业务场景。

新一轮黑产打击：上亿简历大数据公司被警方一锅端大数据的时代
近日，中国的简历大数据公司、曾获李开复旗下创新工场投资的“巧达科技”被警方一锅端，所有员工都被带走。随后，有部分员工被陆续放出。据悉，该公司被查可能缘起在没有获得授权下抓取用户简历。该公司此前曾获得天使轮、A轮和B轮融资，资方包括李开复的创新工场、中信产业基金等。有迹象显示，监管部门正在掀起对大数据灰产和黑产的新一轮打击。传公司被警方一锅端，网站已无法打开。3月23日，有网友在工商信息查询网站“天
贵州微商行业协会，今日成立我是磊少
图片发自App文/磊少2018年6.19是全国所有微商引以为傲的一天，因为这一天，微商立法了。且被纳入电子商务经营者范围。而我想说的是，今天（2018.8月28）是所有贵州微商最扬眉吐气的一天。因为今天，贵州省微商行业协会成立了。伴随着移动互联网的蓬勃发展，大数据的日新月异，尤其是贵州贵阳作为全球大数据研究中心，吸引了众多国际顶尖的互联网技术与核心人才，更是为贵州互联网的发展插上了理想的翅膀，飞翔
Hadoop与图像识别与处理 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Hadoop与图像识别与处理作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在大数据时代，数据的爆炸性增长对数据处理技术提出了新的挑战。图像数据作为一种重要的数据形式，其处理和分析在许多领域中具有重要意义，如医疗影像分析、自动驾驶、安防监控等。然而，传统的图像处理方法在面对海量图像数据时显得力不从心。Hadoop作为一种分
【Grafana】Prometheus指标可视化Grafana，手把手教你如何自定义图形景天科技苑 grafana prometheus prometheus可视化 grafana自定义图形手撕grafana 自定义监控图形
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，前后端开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，云原生k8s，Prometheu
大数据领域数据架构的实时数据可视化架构 AGI大模型与大数据研究院 AI大模型应用开发实战信息可视化大数据架构 ai
大数据领域数据架构的实时数据可视化架构关键词：大数据架构、实时数据处理、数据可视化、流式计算、数据管道、可视化工具、性能优化摘要：本文深入探讨了大数据领域中实时数据可视化架构的设计与实现。我们将从基础概念出发，逐步分析实时数据处理流程，介绍关键技术和工具，并通过实际案例展示如何构建高性能的实时可视化系统。文章将涵盖数据采集、处理、存储和可视化展示的全链路架构，同时讨论性能优化策略和未来发展趋势。1
践行乡村支教，助力乡村振兴 bc1bd9748b57
在大数据时代，大量农村青年进城寻求机遇，在工资待遇环境各个方面追求改善，导致大批留守儿童与孤寡老人，教育环境差，师资力量薄弱，这些孩子的教育问题受到大众关注。同时，大学毕业生在求职时也更加倾向于留在大城市，发展较快的地方寻求更大的发展机遇。当然也不乏大学生回乡为新一代的成长奉献自己，通过支教或者直接就业的形式，为乡村孩子的成长奉献自己的力量。有一些有才华的人放弃自己在大城市继续深造的机会，专心于这
时序数据库：数据库领域的未来之星数据库管理艺术数据库专家之路大数据AI人工智能 MCP&Agent SQL实战数据库时序数据库 ai
时序数据库：数据库领域的未来之星关键词：时序数据库、时间序列数据、物联网、大数据分析、数据库优化、TSDB、实时数据处理摘要：本文深入探讨了时序数据库(TimeSeriesDatabase,TSDB)这一新兴数据库技术。我们将从基本概念入手，分析时序数据库的核心原理和架构设计，详细讲解其特有的数据模型和存储机制。通过实际代码示例展示如何使用主流时序数据库处理时间序列数据，并探讨其在物联网、金融科技
MySQL 大数据量分页查询优化实战：从 90秒到 965毫秒的性能飞跃要阿尔卑斯吗. mysql 数据库分布式架构 java
在日常开发中，我们经常需要对数据库中的数据进行分页展示。特别是当表数据量达到几十万甚至上百万级时，传统的LIMIT分页方式会面临严重的性能瓶颈。今天，我将分享一个真实的性能优化案例，通过模拟大页码查询的现场，从90秒缩短到965毫秒，显著提升了查询效率。本篇文章将从问题出现的原因、索引原理、优化思路和最终实战效果等方面，为你全面讲解如何高效处理MySQL大数据分页查询问题。一、问题背景：大页码分页
老码农和你一起学AI：Python系列-Pandas大数据处理 chilavert318 熬之滴水穿石 pandas python
今天开始梳理一下pandas的大数据处理，在数据处理领域，Pandas凭借简洁的API和强大的功能成为Python开发者的首选工具。但当面对GB级甚至更大的数据集时，直接读取数据往往会触发“内存不足”的错误——这是因为Pandas默认将数据全部加载到内存中进行处理。此时，分块处理（Out-of-Core）技术就成为解决问题的关键。它通过将大文件拆分为小块，逐块加载并处理，最终整合结果，实现“用有限
关于线上技术学习的一点学习心得 GuangHui
我是**五期学员,和你分享一下我的学习心得,希望能够帮助到你.这是自己对于学习的思考和想法,因为我还在不断的学习和调整中,所以并不能说自己的所想都是正确的.我想即使我实现了成功的转行,也并不代表我说的我所选择的方式都是适合所有人的.每个人还需结合自己的实际情况,找到适合自己的最佳方法.我们一起努力.一.目标篇因为大数据需要学习的内容很多,所以学习过程中,一定要对进行定位,要做到有所取舍.针对自己的
贝融助手是什么？贝融助手是专业的大数据信用查询平台无忧达人
贝融助手是一个可以快速了解自己信用的工具，是一个生活中非常实用的小助手，信用是现在最重要的一个生活场景，人人都想有一个好的信用，贝融助手就是帮助我们查询自己信用的平台。贝融助手是一个非常专业的平台，贝融助手18年就上线了，到现在已经有很多年的历史了，在信用行业一直都是行业前三的平台，用户量也是非常的大，身边朋友都在用的平台。贝融助手查询入口放在文末了，划到文章结尾就可以看到查询入口贝融助手大数据信
从AWS MySQL数据库下载备份到S3的完整解决方案 AWS官方合作商数据库 aws mysql
本文将介绍两种主流方法将AWSRDSMySQL数据库备份下载到S3，适用于生产环境需求。方法一：通过RDS快照导出（AWS原生方案）适用场景：全量备份、大数据量、无需额外计算资源流程：创建数据库快照进入AWSRDS控制台→选择目标MySQL实例→点击"操作"→"拍摄快照"输入快照名称（如my-db-snapshot-2024）配置S3导出任务在RDS控制台左侧菜单选择快照→选择刚创建的快照点击"操
java毕业设计-基于Javaweb的家常小菜烹饪学习管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿刘 vue spring boot 毕业设计 java 课程设计学习
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费开题报告、任务书、全bao定制+
java毕业设计源码案例-基于ssm+协同过滤的个性化小说推荐系统设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 项目帮 springboot java 计算机毕设 java 课程设计开发语言
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
碳中和碳交易骗局揭晓！第七届内部操盘群伍戈被骗黑幕曝光!血泪事迹令人惊心! 昌龙律法
如今大家生活好了，手里或多或少有点闲钱了。就开始想着怎么赚更多的钱！这也使得各种投资市场很火爆，无孔不入的骗子们又暗戳戳上线了，利用人们对赚钱的渴望，打着网络投资的旗号实施诈骗。随着“互联网+”的发展，万物皆可“数字经济”的“数字大数据”投资项目走入现实生活中。但是有不法分子就利用了这一“商机”，将数字投资变为新型找形式，并且利用洗脑话术，核心骗术仍然是高额返利，让人不知不觉掉进提前布局的“陷阱”
计算机专业大数据毕业设计-基于 Spark 的音乐数据分析项目(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿八哥数据可视化计算机毕设 spark 大数据课程设计 spark
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
智慧水库信息化系统建设产品需求文档V2.0 小赖同学啊 test Technology Precious 物联网
智慧水库信息化系统建设产品需求文档1.引言1.1文档目的本文档旨在明确智慧水库信息化系统的建设需求，为系统设计、开发和实施提供全面依据，确保系统功能满足水库管理业务需求，提升水库管理的智能化水平和决策效率。1.2背景介绍传统水库管理面临数据采集不及时、分析手段有限、决策依赖经验等问题，难以应对复杂多变的水文情势和日益增长的管理需求。随着物联网、大数据、人工智能等技术的发展，智慧水库建设成为必然趋势
9.20其二道左无人
做一家服务公司，为下面的公司提供一些事务性的管理、财务管理、风险管理的服务，粘住一个大圈子的HR，通过下面的公司做掉项目，为HR提供一个稳定的资源变现的渠道；做一家科技公司，提供线上的平台运营，大数据采集，以及基于这个基础上的卖货、信贷等服务做一家连锁企业，每一家门店都是独立的企业，提供招聘、引流以及终端服务所以外部通过众筹绑定大批量的HR，就会有稳定的订单，通过服务公司提供服务，通过终端门店保证
只靠可视化大屏，做不了数字化，数据总监总结3点，你做到了几个大数据的那些事
企业数字化是很多企业热衷的话题。本文的数字化指各行业头的头部企业的端到端数字化解决方案，常见部署于华为专有云、阿里私有云、亚马逊云，项目金额一般百万起步，上不封顶。很多企业投人、投钱数字化，都希望有个酷炫的数据大脑，政府、合作伙伴来参观时，用酷炫的数据大脑让来宾们啧啧称赞。热闹散去后，企业内部的各部门，天天围着数据挖宝，大数据快告诉我，下个月能卖多少，哪几个渠道卖得不好，哪条生产线有问题，哪些货压
Spring Boot整合阿里云OSS：企业级文件存储最佳实践
在云原生时代，文件存储已成为现代应用的刚需。阿里云对象存储OSS作为国内市场份额第一的云存储服务，为开发者提供了安全可靠、高扩展的存储解决方案。本文将深入探讨SpringBoot整合OSS的最佳实践。一、为什么选择阿里云OSS？阿里云OSS在以下场景中展现显著优势：海量数据存储：单Bucket支持EB级存储，轻松应对业务增长高并发访问：支持百万级QPS，满足电商大促等高并发场景成本优化：存储费用低
你多久没有认真读一本书了我是巴卡
我九岁博览群书，二十岁达到顶峰。我现在都是看社会人文类的书，例如《知音》《故事会》……往前推三百年，往后推三百年，总共六百年没有人超过我。——凤姐引用凤姐的话，没有嘲讽的意思。现在的人，包括我自己，除了刷手机，恐怕连杂志都很少读了，更别说认真读一本书了。1、大数据下，人越读越窄，越读越傻前段时间，埃航波音737MAX8出事，就在网上跟着读了几篇报道。随后的一段时间，基本打开APP都是关于波音和73
注意力才是我们最值钱的东西心守平凡_王慧超
4月10日晚，罗永浩携手国民神车哈弗品牌完成了第二场带货直播。此次直播共售出11357张2777元的优惠券，预估销售额15.65亿元，创造了汽车直播带货的新纪录。流量时代真的已经来临了，随着互联网的高速发展，越来越多的网络用户增加，我们不得不承认，我们已经进入了一个网络时代，进入了一个流量大数据时代。我们所有想获得的东西都可以通过网络获取，资料、信息、购物，网络正在改变人们的生活方式，正在成为人们
六、深度剖析 Hadoop 分布式文件系统（HDFS）的数据存储机制与读写流程
深度剖析Hadoop分布式文件系统（HDFS）的数据存储机制与读写流程在当今大数据领域当中，Hadoop分布式文件系统（HDFS）作为极为关键的核心组件之一，为海量规模的数据的存储以及处理构筑起了坚实无比的根基。本文将会对HDFS的数据存储机制以及读写流程展开全面且深入的探究，通过将原理与实际的实例紧密结合的方式，助力广大读者更加全面地理解HDFS的工作原理以及其具体的应用场景。一、HDFS概述H
SpringBoot 3.0 挥别 spring.factories，拥抱云原生新纪元 nextera-void java 开发语言 springboot
Hi，各位SpringDevelopers。如果你从SpringBoot1.x或2.x的时代一路走来，那么META-INF/spring.factories这个文件对你来说一定不陌生。它就像是SpringBoot自动配置王国里一位沉默但权势滔天的“老臣”，默默地支撑着整个自动配置体系的运转。然而，在SpringBoot3.0的浪潮中，这位“老臣”被光荣地“劝退”了。这个变化绝非小题大做。它是一次深
云原生环境下的安全控制框架设计 TechVision大咖圈云原生 Kubernetes安全云原生安全安全框架设计零信任微服务安全
在这个容器满天飞、微服务遍地跑的时代，安全问题就像打地鼠游戏一样，刚按下一个又冒出三个。今天我们来聊聊如何在云原生环境中构建一套靠谱的安全控制框架。文章目录引言：云原生时代的安全新挑战云原生安全面临的核心挑战安全控制框架设计原则框架核心组件详解安全控制策略实施最佳实践与案例分析总结与展望引言：云原生时代的安全新挑战还记得以前那种"铁桶阵"式的安全防护吗？外面围一圈防火墙，里面的服务器老老实实待在机
解锁Prompt+DevOps新姿势：终端系统重塑的三大核心策略
文章目录引言：Prompt驱动的DevOps范式迁移核心策略一：智能决策流水线构建横向架构对比纵向实现流程Python实现示例核心策略二：自适应终端部署体系TypeScript客户端实现YAML部署配置模板核心策略三：智能运维闭环构建安全审计实现方案性能对比分析技术前瞻性分析附录：完整技术图谱技术架构部署验证引言：Prompt驱动的DevOps范式迁移在云原生与AI工程化交汇的今天，Prompt技
养老院管理系统基于SpringBoot的养老院管理系统系统设计与实现（源码+论文+部署讲解等）
博主介绍：✌全网粉丝60W+,csdn特邀作者、Java领域优质创作者、csdn/掘金/哔哩哔哩/知乎/道客/小红书等平台优质作者，计算机毕设实战导师，目前专注于大学生项目实战开发,讲解,毕业答疑辅导，欢迎高校老师/同行前辈交流合作✌技术栈范围：SpringBoot、Vue、SSM、Jsp、HLMT、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习、单片机
大数据处理技术：分布式文件系统HDFS 茜茜西西CeCe hdfs hadoop 大数据 HDFS-JAVA接口文件头歌 Java
目录1实验名称：2实验目的3实验内容4实验原理5实验过程或源代码5.1HDFS的基本操作5.2HDFS-JAVA接口之读取文件5.3HDFS-JAVA接口之上传文件5.4HDFS-JAVA接口之删除文件6实验结果6.1HDFS的基本操作6.2HDFS-JAVA接口之读取文件6.3HDFS-JAVA接口之上传文件6.4HDFS-JAVA接口之删除文件1实验名称：分布式文件系统HDFS2实验目的1.理
基于用户画像的商品推荐系统 Dush32 机器学习人工智能 python 推荐算法
随着人工智能和大数据技术的进步，产品推荐系统成为了现代广告与电商平台中不可或缺的部分。通过深度挖掘用户的行为数据，能够为广告主提供精准的用户画像，从而更高效地推荐相关产品，提升购买转化率。本项目基于科大讯飞AI营销云大赛的赛题，目的是利用用户画像进行产品推荐，预测用户是否会购买相应商品。我们使用了机器学习的二分类模型，通过分析用户的性别、年龄、常驻地、机型等信息，来判断用户的付费行为。项目目标：本
InfluxDB 数据模型：桶、测量、标签与字段详解（一）计算机毕设定制辅导-无忧 #InfluxDB db
一、引言**在大数据和物联网蓬勃发展的当下，时间序列数据的处理需求呈爆发式增长。InfluxDB作为一款高性能的开源时序数据库，凭借其卓越的特性，在时序数据库领域占据了重要地位，被广泛应用于各种场景。InfluxDB专为时间序列数据设计，拥有高效的存储和查询性能。它采用独特的存储引擎，能够快速写入大量带有时间戳的数据，并支持灵活的查询操作。其核心设计针对时间序列数据的特点进行了优化，包括时间索引、
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla