pengxin_ce

观点文章｜浅谈云原生软件系统可观测性

CodeWisdom-观点文章

浅谈云原生软件系统可观测性

云原生（Cloud Native）现在已经成为一个很时髦的概念。但凡跟云有一点关系的软件技术似乎不提云原生就落伍了。云原生的主要意思是“云上的原住民”，也就是软件从设计、实现、部署到运行都充分适应云的特点，就跟在某地土生土长、适应本地一切风土人情和生活习惯的本地人一样。与之相对的是那种半路迁移到云上去的软件系统，例如打个war包部署到云虚拟主机上的Web软件系统，这种系统虽然在云上运行但其体系结构以及实现和部署方式都无法充分适应云的特点（例如高度分布式、灵活伸缩、高可用等）。关于云原生的概念有很多解读，比较公认的理解是“微服务+容器化+DevOps+持续交付”。

这两年热起来的另一个与云原生相关的概念是可观测性（Observability）。以微服务体系结构为主要特征的云原生软件系统通过细粒度的服务拆分以及服务的独立开发、交付、部署和伸缩能力极大地降低了单个服务开发的复杂性以及整体系统的可用性和可伸缩性。然而，复杂性并没有消失而是从单个服务上升到了服务间交互层面上。此外，云原生软件系统的运行环境具有高度的动态性、复杂性和不确定性。这些都使得云原生软件系统运维管理成为巨大的挑战，而可观测性正是与之密切相关的一种技术趋势，特别是对于所谓的智能化运维（AIOps）而言。

本文将从云原生软件生态系统的角度谈谈可观测性的问题，其中有不少是“形而上学”的抽象思考。因此，为了方便理解，本文通篇都以大规模城市运行管理来进行类比，就像我们经常用造桥、造房子比喻软件开发一样（当然现在我们也认识到软件开发跟造桥、造房子其实很不一样）。

云原生软件生态系统

大约从十多年前开始，学术界开始经常提到“软件生态系统”的概念，例如安卓软件生态系统、互联网开放平台生态系统等，甚至同属一个领域的软件产品线应用产品及相关软件资产也构成了一个生态系统。这些例子都符合生态系统（Ecosystem）的概念，即共享一个环境的众多有机体相互独立同时又相互依存或是竞争，构成一个动态变化、自主生长、持续演化的完整系统。

大规模云原生软件系统也是一种典型的生态系统。如下图所示，云原生软件系统由众多的业务服务组成，此外还包括文件存储、数据库、网关、服务注册与发布、消息中间件等基础设施服务。从规模上看，企业云原生软件系统（微服务系统）一般包含几十到几百个服务，而大规模互联网在线服务系统可能会包含几千个服务甚至更多。这些服务由不同的软件开发团队负责开发和维护，一些基础设施服务还有可能来自开源社区或其他外部来源。不同的服务之间相互依存并构成了一个有机的整体，例如上层业务服务依赖于下层基础设施服务、业务服务之间通过各种同步和异步通信手段相互调用。另一方面，不同的服务可以独立开发和演化，在运行时相互隔离并可以独立伸缩，表现出较强的独立性。

云原生软件系统之所以会逐渐成为一种复杂生态系统也与系统边界的问题相关。传统的软件系统和软件开发项目都会定义清晰的系统边界。同一个企业内不同的软件产品和软件项目之间可能存在一些公用的软件开发框架或组件，但边界大体上还是清楚的。与传统的软件系统不同，云原生软件系统是一种在云上部署的线上服务系统，其中所实现的各种服务直接体现企业的业务和技术能力并支撑企业的业务运行。因此，系统中所包含的服务随着企业业务的发展而不断增加或调整，同时服务与服务之间也会根据企业的业务需要而不断整合。例如，前几年一度很火的“中台”很大程度上就是将共性的技术或业务能力沉淀为共享的服务，从而支持各种应用服务的快速开发和演化。这些特点使得云原生软件系统内部的应用和系统边界逐渐模糊，新的应用和业务模式不断在已有的服务基础上自然扩展和生长出来。在此过程中，不同业务和产品部门从自己的角度出发自主推动这一演化过程，企业在很大程度上也会鼓励这种自主创新。以上这些都突出体现了生态系统动态变化、自主生长、持续演化的特点。因此，我们可以看到一些互联网企业的在线服务平台已经实现了不同领域业务部门之间的服务广泛连接和互联互通，并产生了包含数万个服务的大规模服务化生态系统。

这一现象可以类比于大规模城市的发展。城市是一种典型的复杂生态系统。生活于同一个城市中的人以及相关的各种组织共享同样的城市环境以及交通、能源、通信、商业等方面的基础设施。这些人和组织相互依存、相互影响，共同构成了城市生产和生活的繁荣景象。另一方面，虽然城市的整体发展规划明确了各方面基础设施的建设目标以及不同区域的功能定位，但一个城市的繁荣很大程度上还是要依靠各个组织和个人充分发挥自身的聪明才智和自主发展意识。同时，城市的发展也是一种渐进式的生长过程。例如，地铁的延伸以及教育和医疗资源的配套会带动居住社区的发展，并进一步带动周边商业服务的发展，而这种变化又会在一定程度上改变城市的交通流量以及水电煤等方面的能源供给需求。

什么是可观测性

可观测性是一个来自于控制理论的概念，被认为是与可控制性相对的一个概念，即通过可观测性了解被控制对象内部的状态、通过可控制性操控被控制对象的行为。维基百科上对于可观测性的解释是“a measure of how well internal states of a system can be inferred from knowledge of its external outputs”[1]，也就是通过关于一个系统的外部输出的知识推断系统的内部状态的能力。

云原生软件系统是一种复杂的分布式系统，其中包含大量的服务，而每个服务又可以动态创建和销毁大量的服务实例。此外，这些服务实例运行在大量的分布式节点之上，涉及计算、存储、网络等各种资源以及操作系统、虚拟机等各种系统软件，整体运行环境十分复杂。因此，如果想了解软件系统的内部运行状况、及时发现各种异常和问题、快速进行问题诊断和故障根因定位，我们必须要依靠各种可观测性手段。对于分布式系统而言，目前公认的可观测性三大支柱是指标（Metrics）、日志（Logging）和链路跟踪（Tracing）。其中，指标是一种可以进行聚合计算（aggregatable）的度量值，例如服务请求失败率、平均响应时间、每秒查询率（QPS，即Queries-Per-Second）等，有些随时间变化的指标还可以作为时序数据进行分析；日志是一种带有时间戳的离散事件，一般由软件系统内部的日志输出语句产生，可以记录异常抛出、收到请求以及内部处理状态变化等有意义的事件；链路轨迹记录外部请求所引发的服务调用链，即请求是如何在系统内部不同服务之间流动的。需要注意的是，指标和日志都需要关注多个不同层次。指标在资源、服务和业务层三个层次上都存在，例如：资源层指标包括CPU和内存占用率、网络带宽等；服务层指标包括接口调用成功率、平均响应时间等；业务层指标包括平均订单量、平均成功交易量等。日志在基础设施层和应用层都存在，前者的例子包括操作系统、虚拟机、容器以及容器编排管理系统（如Kubernetes）所产生的日志，后者则是由应用开发人员所写的日志语句产生的日志。

Peter Bourgon在“Metrics, tracing, and logging”一文中描绘了三者之间的关系[2]，如下图所示。指标、日志、链路轨迹三者之间存在重叠的部分：日志可以与指标相结合，从日志中抽取特定的事件并得到各种聚合数值，例如单位时间内某类事件发生的数量；链路轨迹可以与指标相结合，产生以请求为基础的度量指标，例如服务调用成功率与平均响应时间等；链路轨迹可以与日志相结合，例如在服务调用链上查看由于相关服务调用产生的日志。当然，也可以把三者都结合起来，例如以请求（Request）为单位对各种类型的日志事件进行聚合计数。

可观测性与监控（Monitoring）密切相关但又有所不同。一般认为监控可以用来发现问题，而可观测性则可以帮助我们分析和定位问题。监控一般有着明确的手段和目标，即针对系统某个方面部署相应的监控手段并根据监控结果发现特定类型的问题。设置这些监控往往需要我们对可能发生的问题及其表现形式有比较清晰的认识。而可观测性则是一个系统的一种全面的能力，要求系统能够充分暴露与系统内部状态相关的信息并以一种高效的方式支持对相关信息的访问。因此，系统在设计和实现时就要考虑如何融入可观测性能力，例如采用分布式链路追踪框架、规范化日志输出内容和格式等。当然，各种监控数据也都可以作为可观测性能力的一部分。

还是以大规模城市运行管理来进行类比。很多城市都在道路上安装了交通违章探头，这些探头一般都有着明确的目的，例如发现超速或者闯红灯的违章车辆；而相应的手段也比较明确，例如通过监控视频检测后再人工确认。这种监控一般都会条块分割，各成体系，难以相互打通。例如，公安交管部门出于查处交通违章的目的设置了交通违章探头，出于路况监控的目的设置了交通流量探头；消防部门出于消防设施保障的目的设置了消防水龙头及水压监测传感器。这些监控手段手段和目的都很单一，难以相互融合。与之相比，现在的一些智慧城市建设已经着眼于建立一个统一的监控数据平台，打破各个信息孤岛，实现城市监控数据的大范围按需融合，这就已经是在从传统的监控到系统的可观测性发展了。

为什么可观测性对于

云原生软件系统很重要

可观测性对于软件系统以及软件工程领域都是一个比较新的概念。为什么在传统的单体软件系统中这个概念没有引起大家的注意呢？这主要是由于系统规模、复杂性以及生态化等多个方面的差异造成的。

首先，传统的单体软件系统规模和复杂度没那么高，开发人员可以通过IDE一次性加载全部或部分代码，并使用断点设置、单步调试等方法定位缺陷的根因和位置。云原生软件系统包含大量分布式的服务，难以一次性加载并进行调试，而且大量的服务间跨进程调用也使得单步调试无法进行。

其次，传统的单体软件系统运行环境的复杂性和不确定性没那么高，故障或问题一般都与代码自身或数据相关，较容易在开发环境下重现问题并进行调试。云原生软件系统往往涉及复杂的大规模分布式运行环境而且其中的服务实例可以动态创建和销毁，因此运行时故障或问题可能与非常复杂的环境因素相关，难以在开发环境中重现。

再次，传统的单体软件系统运行时监控和观测手段较为单一，依赖于代码插桩的动态分析手段开销较大因此在生产环境中使用较少，与此同时软件的模块和组件结构不清晰、隐式交互难以捕捉等问题也限制了可观测性手段的作用。云原生软件系统中各个服务实现了物理隔离，服务间通过跨进程通信进行交互，因此服务间边界清晰、服务间交互以一种显式和外化的方式实现。此外，云原生软件系统持续在线运行，同时有着完善的基础设施支持（例如服务网格，即Service Mesh），因此较容易实现分布式链路追踪、指标和日志监控体系等可观测性手段。

最后，传统的单体软件系统可以以一种自顶向下的方式掌握整体体系结构设计并通过静态分析（例如分析模块和组件间依赖关系）和演化分析（例如分析模块和组件间的演化耦合）实现架构看护，从而确保软件实现与高层架构设计保持一致。作为一种复杂的生态系统，云原生软件系统的持续演化难以通过一种自顶向下的方式进行掌控，各个局部的应用及相关服务以一种相对独立和自主的方式演化。例如，一些大规模微服务系统中出现长达四五百跳的服务调用链路以及依赖环路，这并不是因为开发人员技术能力和经验不足，而是由于“只见树木、不见森林”的局部视野带来的问题。此外，各个服务独立开发、部署和运行，因此传统的静态分析和演化分析手段无法有效捕捉到服务之间的依赖和交互关系。

工业界对于云原生软件系统可观测性数据的分析和利用能力在不断提高。四年多前，我们针对工业界微服务系统故障分析与调试开展经验研究时发现[3]大部分企业的分析手段还如下图所示那样，停留在基于命令行工具（例如关键字匹配）的日志分析、日志事件统计等基本分析层面上，少数企业开始使用Zipkin等工具进行链路轨迹的可视化分析。

当前，很多企业都在深入探索云原生软件系统可观测性数据分析方法，其中的一个基本出发点是如何更好地融合指标、日志和链路轨迹三类不同的数据。例如，可以通过在日志中注入Trace ID将链路轨迹与日志关联起来。在分析方法方面，比较常见的一种做法是开发一个融合数据分析平台，通过不同类型数据之间的时空关联以及各种可视化分析手段进行故障分析和根因定位。例如，如下图所示的字节跳动技术团队的分享[4]介绍了如何以链路轨迹作为纽带将指标、日志等不同类型的可观测性数据融合在一起进行故障根因定位：首先通过服务失败率这一指标数据及相关的告警规则发现问题，然后将服务失败与相关的链路轨迹进行关联，接下来工程师查看链路轨迹中的嵌套服务调用并定位源头节点，最后定位到源头节点上的相关日志。此外，还有一些平台在聚合日志分析的基础上，支持工程师通过正则表达式等方式进行日志事件筛选并在此基础上定义各种度量指标。

云原生软件系统可观测性的未来

云原生软件系统可观测性这一概念及相关技术的兴起也许代表着我们看待软件系统的方式发生了一次重要的变化。以前我们虽然也经常说软件系统是一个复杂系统，但一般我们都相信我们可以掌控它的全部运行规律，例如通过阅读代码完全理解软件的运行逻辑、利用本地调试掌握软件的实际运行过程并定位故障位置。云原生软件系统巨大的服务数量、生态化的自主演化、高度动态的运行环境使得我们不再奢望能掌握它的全部运行规律，而是转而对运行态的“活”系统展开观测，通过实时、鲜活的观测数据来“推测”系统的内部状态和行为。甚至于就连系统的演化情况可能也需要通过观测数据来“侧面”了解。例如，系统因为快速上线的促销活动而增加了新的服务或改变了原有的服务调用关系，运维团队可能需要通过观测到的链路轨迹数据的变化来发现（还需要将正常变更与故障导致的变化相区分）；测试团队需要通过观测数据去推测支撑关键业务场景的核心服务链，并对其进行重点测试；系统的最新服务依赖关系和体系结构只能依靠观测数据来动态生成。

去年5月份准备GOPS 全球运维大会（深圳）的报告时，正好看到解放日报上刊登的一篇新闻报道《上海城市运行数字体征系统将上线》[5]，其中包含下面这段内容以及相应的配图。

对城市生命体进行“24小时×365天”的“全时智慧体检”。相较于传统的静态城市运行体征，即将上线的上海城市运行数字体征系统是“活”的，以“实时、鲜活”的多维、多源、多态数据为基础…通过数字体征来呈现城市正在发生什么、需要关注和处置什么…更好地研判城市运行的趋势和规律，及时发现潜在的风险，助推城市管理，将被动处置变为“治未病”…

这段描述与云原生软件系统的可观测体系有异曲同工之处。像上海这样的大规模城市正是一个大规模、复杂生态系统，其演化过程和运行状态由城市中千千万万个具备自主性的个人和组织以及复杂的物理环境共同决定，难以通过自顶向下的规划和设计完全掌控或者通过模拟环境来精确理解。我们能做的只是通过各种各样的观测手段，例如交通、建设、市政、公交、电信、公安等部门的数据以及各种摄像头、传感器的数据，去构建一个城市运行数字体征系统去了解城市运行状况、及时发现甚至预判问题。

与之相比，云原生软件系统的可观测性体系建设还处于初级阶段。目前的企业智能化运维平台还只能初步将指标、日志、链路轨迹数据关联起来，距离深度的数据融合乃至“数字体征系统”的建设还有很远的距离。相关问题以及未来的发展方向可能包括以下几个方面。

首先，我们的观测手段还不够丰富，收集的“活”数据还不够丰富，数据质量还不够高。例如，一些包含遗留服务和技术栈的系统的分布式链路追踪覆盖还不全面；目前的应用日志位置选择以及日志格式和术语使用等方面都缺少统一的标准，导致日志数据质量不高。

其次，观测数据量极大，需要更加高效的采样、压缩和存储技术支持。大规模云原生软件系统的观测数据（特别是日志和链路轨迹数据）规模庞大但同时价值密度较低，需要采用有效的采样和压缩技术提高数据的价值，同时通过高效的存储技术支持各种数据分析需求。

再次，我们的数据融合分析方法和技术还比较初级。对于云原生软件系统的数字体征分析需要融合多维、多源、多态数据，例如不同指标之间的融合分析、指标与日志和链路轨迹的融合分析等。这些方面有一些初步的研究工作，但还不够成熟，所融合的数据类型还比较少、规模还比较小。

最后，观测数据的分析利用还停留在较低的层面上。目前观测数据分析的主要用途仍然是异常检测和根因定位，相当于城市运行管理中的应急处理（例如治安案件处理、火灾告警等）。然而，不管是城市治理还是云原生软件系统运维管理都还有很多中长期问题需要解决。例如，如果一个路口总是发生车祸或者某条道路总是堵车，那就不是应急处理的问题了，而是要检讨交通配套、道路设计等方面是否存在问题。与之相似，如果某个云原生软件系统总是频繁出现某类问题，那么也需要分析一下是否存在架构退化问题（例如循环依赖、链路过长、可用性设计问题）。此外，系统的业务需求状况、服务资产治理（例如重复功能实现）也都可能会越来越依赖于观测数据分析。

总结

越来越多的云原生软件系统会逐步演化成为复杂生态系统，新业务和特性不断生长，系统复杂度不断提高。可观测性已经成为云原生软件系统的一个重要属性。基于可观测性的智能化运维（AIOps）也将继续向纵深发展，在关注应急处理的基础上越来越重视系统的长期健康演化和可持续发展，系统业务及技术运转状况的分析和理解越来越依赖于运行时数据分析。为此，我们需要在当前以应急处理为目的的指标、日志、链路轨迹等观测数据基础上，面向云原生软件系统数字化体征分析的需要实现更加丰富多元的监控数据采集。与此同时，融合数据分析成为新的挑战，需要考虑如何融合指标、日志、链路轨迹等多维、多源、多态运维数据，通过关联分析等手段获得更加全面、准确的运维分析视图。

未来，随着“人机物融合”以及“软件定义一切”的趋势发展，云原生软件技术很有可能会进一步渗透到物理世界与社会空间，与现实世界进一步融为一体。而云原生软件系统的触角也会从云数据中心扩展到边缘和终端设备上，支撑现实世界的正常运转。因此，云原生软件系统的可观测性以及智能化运维未来可能会成为一个越来越重要的问题。

参考文献

[1] Observability. https://en.wikipedia.org/wiki/Observability.

[2] Peter Bourgon. Metrics, tracing, and logging. https://peter.bourgon.org/blog/2017/02/21/metrics-tracing-and-logging.html.

[3] Xiang Zhou, Xin Peng, Tao Xie, Jun Sun, Chao Ji, Wenhai Li, Dan Ding: Fault Analysis and Debugging of Microservice Systems: Industrial Survey, Benchmark System, and Empirical Study. IEEE Trans. Software Eng. 47(2): 243-260 (2021).

[4] 字节跳动技术团队. 分布式链路追踪在字节跳动的实践. https://mp.weixin.qq.com/s/a0Pm26-8toNKz0brrRVG4Q

[5] 解放日报：上海城市运行数字体征系统将上线. http://www.xinhuanet.com/info/2021-05/12/c_139940069.htm

作者简介

彭鑫，复旦大学计算机科学技术学院副院长、软件学院副院长、教授、博士生导师。中国计算机学会软件工程专委会副主任、开源发展委员会常务委员，《Journal of Software: Evolution and Process》联合主编，《ACM Transactions on Software Engineering and Methodology》编委，《软件学报》编委，《Empirical Software Engineering》编委，IEEE软件维护与演化国际会议（ICSME）执委（2017-2020）。2016年获得NASAC青年软件创新奖。主要研究方向包括软件开发大数据分析、软件智能化开发、云原生与智能化运维、人机物融合泛在计算系统、机器人软件工程等。研究工作获得ICSM 2011最佳论文奖、ACM SIGSOFT杰出论文奖（ASE 2018/2021）、IEEE TCSE杰出论文奖（ICSME 2018/2019/2020）、IEEE Transactions on Software Engineering年度最佳论文奖（2018）。带领复旦大学CodeWisdom研究团队开展软件开发大数据分析以及软件智能化开发与运维方面的研究与实践，研究成果在多家大型企业进行了实践应用。

CodeWisdom

Codewisdom平台由复旦大学软件工程实验室运营，提供智能化软件开发平台及线上沙龙相关资讯，关注可了解更多智能化软件开发的最新消息~

Apache Kafka 学习笔记
一、Kafka简介1.1Kafka是什么？Kafka是一个高吞吐、可扩展、分布式的消息发布-订阅系统，主要用于：日志收集与处理流式数据处理事件驱动架构实时分析管道最初由LinkedIn开发，后捐赠给Apache基金会。1.2Kafka的核心特性特性描述高吞吐每秒百万级消息处理能力，依赖顺序写磁盘、批量处理分布式支持水平扩展，多个Broker组成集群持久化消息写入磁盘（通过segmentfiles+
Linux教程（4）----[hive数据仓库工具] .房东的猫 Linux教程（完善中~~）linux
Hive基本概念Hive简介什么是HiveHive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。为什么使用Hive直接使用hadoop所面临的问题人员学习成本太高
Java:对给定的字符串和给定的模式执行Boyer-Moore搜索算法（附带源码） Katie。 Java算法完整教程 java 开发语言
一、项目背景详细介绍在文本处理与信息检索中，需要在海量文本中高效地查找模式串（Pattern）。经典的朴素搜素在最坏情况下时间复杂度为O(N·M)，效率不够高。Boyer–Moore算法则采用“坏字符”与“好后缀”两种启发规则，从模式尾部匹配开始，通常能大幅跳过不可能匹配的位置，平均时间复杂度接近O(N/M)，在实际应用（如grep、数据库索引）中非常高效。本项目旨在用Java实现Boyer–Mo
springboot注册servlet hie98894 spring boot servlet hive
在SpringBoot应用中，虽然SpringMVC已经提供了强大的功能来处理HTTP请求，但在某些情况下，我们可能仍需要直接注册和使用Servlet。本文将详细介绍如何在SpringBoot中注册Servlet。1.什么是Servlet？Servlet是JavaEE中的一种服务器端组件，用于处理HTTP请求和生成响应。Servlet最常见的用途是创建动态Web内容，例如表单处理和数据库查询结果的
Git remote 远程仓库链接管理迹忆客 Linux 服务端 git
SVN使用单个集中仓库作为开发人员的通信枢纽，通过在开发人员的工作副本和中央仓库之间传递变更集来进行协作。这与Git的分布式协作模型不同，后者为每个开发人员提供了自己的仓库副本，并具有自己的本地历史记录和分支结构。用户通常需要共享一系列提交而不是单个变更集。Git允许我们在仓库之间共享整个分支，而不是将变更集从工作副本提交到中央仓库。gitremote命令是负责同步更改的更广泛系统的一部分。通过g
5个坑？1个法则！数据库索引的最左前缀魔法揭秘：从10秒到0.1秒的逆袭！墨瑾轩数据库学习数据库 oracle sql
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣**最左前缀法则——数据库的“最左”情结**问题1：索引明明存在，为什么查询还是慢到怀疑人生？案例：--创建用户表CREATETABLEusers(idINTPRIMARYKEY,nameVARCHAR(50),ageINT,emailVARCHAR(100)
解决SpringBoot 连接数据库失败，报错Error querying database.
在SpringBoot项目中，想连接数据库查询数据时，发现页面报出“WhitelabelErrorPageThelastpacketsentsuccessfullytotheserverwas0millisecondsago.Thedriverhasnotreceivedanypacketsfromtheserver…”的错误，大致意思是：在连接数据库时出现意外，导致无法连接。出现上述情况，极大可
Mybatis与Spring的整合知向谁边
1、MyBatis与Spring整合所需JAR包的种类MyBatis与Spring整合所需JAR包主要包括：Spring框架所需的JAR包、MyBatis框架所需的JAR包、MyBatis与Spring整合的中间JAR、数据库驱动JAR包，以及数据源所需的JAR包。2、MapperFactoryBean和MapperScannerConfigurerMapperFactoryBean是MyBati
零基础搭建免费IP代理池：从原理到实战的保姆级指南傻啦嘿哟关于代理IP那些事儿 tcp/ip 网络协议网络
目录一、代理池的核心价值与底层原理二、环境搭建全流程详解2.1开发环境准备2.2核心组件安装三、核心配置深度解析3.1配置文件精要（setting.py）3.2自定义代理源开发四、核心模块实现原理4.1调度系统架构4.2代理验证算法五、运维实战技巧5.1性能优化策略5.2故障排查手册六、安全加固方案七、扩展升级路径八、典型问题解决方案九、性能基准测试十、合规使用指南一、代理池的核心价值与底层原理在
iOS 审核 4.3 (b) 【审核机制与未上架代码的数据库策略】 976503335 ios flutter swift ios开发 objective-c
提审但未上架的IPA代码是否会被录入苹果特征库?这个问题非常重要,因为这是解决4.3(b)的核心问题1.苹果如何处理未上架的IPA代码？假设1：会录入特征库理由：苹果需要从首次提审就防范“马甲包”，即使未上架，代码特征也可能被记录（尤其是因4.3被拒的应用）。技术上，提取二进制代码特征（如代码结构、第三方库、资源文件哈希等）的成本极低，苹果完全有能力建立全量数据库。问题：未上架的代码量远大于已上架
AI 技术重塑 IT 服务，解锁架构可视化的未来腾讯云开发者人工智能架构
引言在当下时代，企业数字化转型已迈入深水区，传统的IT运维模式正面临着成本升高、效率瓶颈、服务质量难以保障等难题，在此时，架构可视化与AI技术的出现成为企业IT服务管理上新的突破口。架构可视化能够通过图形化手段，将复杂的系统架构直观呈现，提升系统设计的可理解性、可维护性和协作效率，降低认知门槛，帮助团队快速掌握系统全貌。应该如何在多云、混合云的复杂环境中实现统一管理？如何让IT架构从抽象的技术语言
【im】如何解决消息的实时到达问题？ Bogon
TCP长连接的方式是怎么实现“当有消息需要发送给某个用户时，能够准确找到这个用户对应的网络连接”？首先用户有一个登陆的过程：(1)tcp客户端与服务端通过三次握手建立tcp连接；(2)基于该连接客户端发送登陆请求；(3)服务端对登陆请求进行解析和判断，如果合法，就将当前用户的uid和标识当前tcp连接的socket描述符(也就是fd)建立映射关系；(4)这个映射关系一般是保存在本地缓存或分布式缓存
Redis 线上操作最佳实践阿贾克斯的黎明 java redis
在2024年9月19日，Redis作为一种高性能的内存数据库，在许多线上应用中发挥着重要作用。为了确保Redis在生产环境中的稳定运行和高效性能，以下是一些Redis线上操作的最佳实践。一、配置优化1.内存设置-根据实际需求合理设置Redis的内存限制。可以通过maxmemory参数来限制Redis使用的内存大小，避免因内存使用过多导致系统内存不足。-同时，设置合适的内存淘汰策略，如volatil
大模型算法工程师技术路线全解析：从基础到资深的能力跃迁 Mr.小海大模型算法数据挖掘人工智能机器学习深度学习机器翻译 web3
文章目录大模型算法工程师技术路线全解析：从基础到资深的能力跃迁一、基础阶段（0-2年经验）：构建核心知识体系与工程入门数学与机器学习基础编程与深度学习框架NLP与Transformer入门二、进阶阶段（2-4年经验）：深化模型技术与工程落地能力大模型预训练与微调技术预训练原理：数据与任务的协同设计微调工具：参数高效适配与工程优化对齐实践：价值观优化与实证效果分布式训练与框架工具并行策略：多维度协同
Redis-py 实战指南：从安装到向量索引，Python 操作 Redis 全解析佑瞻数据库与知识图谱 redis python 数据库人工智能
在Python开发中，操作Redis数据库是很多场景下的刚需，而redis-py作为Redis官方推荐的Python客户端，更是我们绕不开的工具。但你是否在安装时踩过版本兼容的坑？是否在连接集群或配置TLS时犯过难？甚至想尝试向量索引却不知从何下手？今天我们就从基础到进阶，手把手带你玩转redis-py，让Python操作Redis变得简单又高效。一、redis-py安装：避坑指南首先，我们需要安
Go-Redis × 向量检索实战用 HNSW 在 Redis 中索引与查询文本 Embedding（Hash & JSON 双版本） Hello.Reader 数据库运维缓存技术 golang redis embedding
1.场景与思路痛点：把“文本内容”转成向量后，如何在本地Redis里做近似向量搜索（KNN），而不依赖外部向量数据库？方案：利用HuggingFace模型sentence-transformers/all-MiniLM-L6-v2生成384维Float32向量；借助RediSearch的HNSW索引能力，在Hash或JSON文档里存储&查询向量；用go-redisv9的高阶API（FTCreate
Oracle分区表插入数据库时间时报ORA-14400 Indestructible
使用springdatajpa插入数据时，需要表中的createtime保存为数据库时间，而不是应用服务器时间，实现这个功能只需要在实体类上面加@DynamicInsert就可以了。代码如下：@Entity@Table(name="ENTITY")@DynamicInsertpublicclassEntity{@Column(nullable=false)privateDatecreatetime
AI 智能运维，重塑大型企业软件运维：从自动化到智能化的进阶实践 AI、少年郎人工智能运维自动化
一、引言：企业软件运维的智能化转型浪潮在数字化转型加速的背景下，大型企业软件架构日益复杂，微服务、多云环境、分布式系统的普及导致传统运维模式面临效率瓶颈。AI技术的渗透催生了智能运维（AIOps）的落地，通过机器学习、大模型、智能Agent等技术，实现从"人工救火"到"智能预防"的范式转变。本文结合头部企业实践，解析AI在运维领域的核心应用场景、技术架构及未来趋势，特别针对基础运维中流程重构、技术
Spring AI 概述与功能简介 drebander AI 编程 spring 人工智能 java
SpringAI是一个由Spring团队开发的开源框架，旨在为人工智能（AI）和机器学习（ML）提供一个成熟且高效的开发平台。它将Spring生态系统的设计理念应用于AI开发，尤其强调模块化、可移植性以及简洁的集成。SpringAI提供了丰富的功能，涵盖从AI模型的调用到与数据库的集成等多个方面，帮助开发者构建和管理AI驱动的应用程序。1.SpringAI背景SpringAI的背景源于Spring
RabitQ 量化：既省内存又提性能大禹智库《向量数据库指南》《实战AI智能体》人工智能 AI自动化大禹智库 AI智能体向量数据库
突破高维向量内存瓶颈：MlivusCloudRaBitQ量化技术的工程实践与调优指南作为大禹智库高级研究员，拥有三十余年向量数据库与AI系统架构经验的我发现，在当今多模态AI落地的核心场景中，高维向量引发的内存资源消耗问题已成为制约系统规模化部署的“卡脖子”因素。特别是在大规模图像检索、个性化推荐系统和语义搜索引擎中，动辄数亿级别的向量数据需要实时处理，传统全精度索引方式会让内存资源消耗呈指数级增
python爬虫从入门到精通大模型猫叔 python 爬虫数据库
目录一、正确认识Python爬虫二、了解爬虫的本质1.熟悉Python编程2.了解HTML3.了解网络爬虫的基本原理4.学习使用Python爬虫库三、了解非结构化数据的存储1.本地文件2.数据库四、掌握各种技巧，应对特殊网站的反爬措施1.User-Agent2.Cookies3.IP代理五、学习爬虫框架，搭建工程化的爬虫1.创建Scrapy项目2.创建Spider3.编写Spider4.运行Spi
基于用户画像的商品推荐系统 Dush32 机器学习人工智能 python 推荐算法
随着人工智能和大数据技术的进步，产品推荐系统成为了现代广告与电商平台中不可或缺的部分。通过深度挖掘用户的行为数据，能够为广告主提供精准的用户画像，从而更高效地推荐相关产品，提升购买转化率。本项目基于科大讯飞AI营销云大赛的赛题，目的是利用用户画像进行产品推荐，预测用户是否会购买相应商品。我们使用了机器学习的二分类模型，通过分析用户的性别、年龄、常驻地、机型等信息，来判断用户的付费行为。项目目标：本
从 C# 转 Python 第三天：文件操作、异常处理与错误日志实践 AI、少年郎 java 前端数据库 c#文件操作异常处理
在软件开发的广阔领域中，Python和C#作为两种备受瞩目的编程语言，各自凭借独特的特性和强大的功能，在不同的应用场景中展现出卓越的性能。对于开发者而言，深入理解并熟练掌握这两门语言的核心技能，如文件操作与异常处理，不仅是提升个人编程能力的关键，更是在复杂多变的项目开发中应对各种挑战、确保程序稳定运行的必备条件。在日常的编程工作中，文件操作是实现数据持久化存储、读取配置信息以及处理各种数据文件的基
前端面试专栏-工程化：28.团队协作与版本控制（Git）爱分享的程序员前端面试通关指南 node.js 前端 javascript
欢迎来到前端面试通关指南专栏！从js精讲到框架到实战，渐进系统化学习，坚持解锁新技能，祝你轻松拿下心仪offer。前端面试通关指南专栏主页前端面试专栏规划详情项目实战与工程化模块-团队协作与版本控制（Git）在多人协作的项目中，代码的版本管理是保障开发效率与代码质量的核心环节。Git作为目前最流行的分布式版本控制系统，不仅能追踪代码变更历史，更能通过分支策略、协作流程规范团队工作方式。本文从实战角
Node.js特训专栏-实战进阶：16. RBAC权限模型设计爱分享的程序员 Node.js node.js 安全算法前端
欢迎来到Node.js实战专栏！在这里，每一行代码都是解锁高性能应用的钥匙，让我们一起开启Node.js的奇妙开发之旅！Node.js特训专栏主页专栏内容规划详情我将从RBAC权限模型的基础概念、核心组件讲起，详细阐述其设计原则、数据库模型设计，还会结合代码示例展示在实际开发中的实现方式，以及探讨模型的扩展与优化。RBAC权限模型设计：从理论到实战的完整方案在现代应用系统中，权限管理是保障数据安全
Windows平台下的Git版本控制实践：msysGit安装与使用
本文还有配套的精品资源，点击获取简介：msysGit是为Windows系统打造的Git版本控制系统，它允许用户在本地环境中方便地使用Git进行源代码管理和版本控制。Git是一个分布式版本控制系统，以其快速、高效和灵活性著称。msysGit通过模拟Unix-like环境来兼容Git命令，并提供图形界面工具和与Windows集成的特性，极大地提升了Windows用户的操作体验。本文将详细介绍msysG
InfluxDB 数据模型：桶、测量、标签与字段详解（一）计算机毕设定制辅导-无忧 #InfluxDB db
一、引言**在大数据和物联网蓬勃发展的当下，时间序列数据的处理需求呈爆发式增长。InfluxDB作为一款高性能的开源时序数据库，凭借其卓越的特性，在时序数据库领域占据了重要地位，被广泛应用于各种场景。InfluxDB专为时间序列数据设计，拥有高效的存储和查询性能。它采用独特的存储引擎，能够快速写入大量带有时间戳的数据，并支持灵活的查询操作。其核心设计针对时间序列数据的特点进行了优化，包括时间索引、
Kafka 集群架构与高可用方案设计（一）计算机毕设定制辅导-无忧 #Kafka kafka 架构分布式
Kafka集群架构与高可用方案设计的重要性在大数据和分布式系统的广阔领域中，Kafka已然成为了一个中流砥柱般的存在。它最初由LinkedIn开发，后捐赠给Apache软件基金会并成为顶级项目，凭借其卓越的高吞吐量、可扩展性以及持久性，被广泛应用于日志收集、实时数据处理、流计算、数据集成等诸多关键领域。在日志收集场景下，以大型互联网公司为例，每天都会产生海量的日志数据，如用户的访问记录、系统操作日
2024 年度分布式电力推进（DEP）系统发展探究北京航通天下科技有限公司无人机测试教学培训分布式电推进(DEP)动力系统无人机动力测试系统分布式电推进技术分布式动力系统测试平台 DEP
分布式电力推进（DEP）的发明是为了尝试和改进现代飞机：我们如何提高飞机的效率？提高它的机动性？缩短它的起飞和着陆距离？DEP概念有望在提高性能的同时减少燃料消耗，在我们孜孜不倦地努力使航空业更具可持续性的时代，这是一个有吸引力的前景。在本文中，我们将介绍DEP的工作原理、优缺点以及值得关注的DEP飞机。此外，我们还提供用于测试DEP系统的解决方案。所有内容都包括在下面。目录什么是分布式电力推进（
大数据集成方案对比：Kafka vs Flume vs Sqoop AI天才研究院计算 AI大模型应用入门实战与进阶 Agentic AI 实战大数据 kafka flume ai
大数据集成方案对比：KafkavsFlumevsSqoop关键词：大数据集成、Kafka、Flume、Sqoop、流处理、批量迁移、日志收集摘要：在大数据生态中，数据集成是连接数据源与数据处理平台的关键环节。本文深度对比Kafka、Flume、Sqoop三大主流集成工具，从核心架构、技术原理、适用场景到实战案例展开系统性分析。通过数学模型量化性能差异，结合实际项目经验总结选型策略，帮助开发者根据业
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name

观点文章｜浅谈云原生软件系统可观测性

你可能感兴趣的:(运维,分布式,大数据,编程语言,数据库)