yinlongfei_love

使用 Kubernetes 和 Istio 进行基于容器的全面服务监控

原文链接：https://www.circonus.com/2018/06/comprehensive-container-based-service-monitoring-with-kubernetes-and-istio/

作者：Fred Moyer

译者：殷龙飞

运营容器化基础设施带来了一系列新的挑战。您需要对容器进行测试，评估您的 API 端点性能，并确定您的基础架构中的不良的组件。Istio 服务网格可在不更改代码的情况下实现 API 的检测，并且可以自由的设置服务延迟。但是，你如何理解所有这些数据？用数学的方式，对，就是这样。

Circonus 是 Istio 的第一个第三方适配器。在之前的文章中，我们讨论了第一个用于监视基于 Istio 的服务的 Istio社区适配器。这篇文章将对此进行扩展。我们将解释如何全面了解您的 Kubernetes 基础设施。我们还将解释如何为基于容器的基础架构增加 Istio 服务网格实现。

Istio 概述

Istio 是 Kubernetes 的服务网格，这意味着它负责所有服务之间的通信和协调，就像网络路由软件为 TCP/IP 流量所做的一样。除了 Kubernetes 之外，Istio 还可以与基于 Docker 和 Consul 的服务进行交互。它与 LinkerD 相似，它已经存在了一段时间。

Istio 是由 Google，IBM，思科和 Lyft 的 Envoy 开发的开源项目。该项目已经有一年的历史了，而 Istio 已经进入了大规模生产环境。在这篇文章发布时，当前版本为 0.8。

那么，Istio 如何融入Kubernetes 生态系统？Kubernetes 充当数据层，Istio 充当控制层。Kubernetes 承载应用程序流量，处理容器编排，部署和扩展。Istio 路由应用程序流量，处理策略执行，流量管理和负载均衡。它还处理遥测联合，如指标，日志和跟踪。Istio 是基于容器的基础设施的交叉防护装置和报告部分。

上图显示了服务网格体系结构。Istio 为每项服务使用了一个 envoy sidecar proxy。Envoy 通过 GRPC 调用代理到 Istio Mixer 服务的入站请求。然后，Mixer 应用流量管理规则，并联合请求遥测。Mixer 是 Istio 的大脑。运维人员可以编写 YAML 文件来控制 Envoy 如何重定向流量。他们还可以指定监测信息推送和可观测性系统的遥测技术。可以在运行时根据需要应用规则，而无需重新启动任何 Istio 组件。

Istio 支持多种适配器将数据发送到各种监控工具。包括普罗米修斯，Circonus 或 Statsd。您也可以同时启用Zipkin 和 Jaeger 追踪。而且，您可以把可视化所涉及的服务生成图形。

Istio 易于部署。回想起来，大约7到8个月之前，您必须通过一系列 kubectl 命令将 Istio 安装到 Kubernetes 群集上。你今天仍然可以。但是现在，您只需在 Google Cloud platform，只需点击几下鼠标即可部署启用了 Istio 的Kubernetes 群集，其中包括监视，跟踪和示例应用程序。您可以很快运行起来，然后使用 istioctl 命令开始玩乐。

另一个好处是我们可以从服务中收集数据，而不需要开发人员对他们的服务进行测试以提供数据。这有很多好处。它减少了维护。它消除了代码中的失败点。它提供了供应商不可知的接口，这减少了供应商绑定的机会。

借助 Istio，我们可以部署不同版本的服务并加权它们之间的流量。Istio 本身使用多个不同的 pods 来操作，如下所示：

> kubectl get pods -n istio-system
NAME                     READY STATUS  RESTARTS AGE
istio-ca-797dfb66c5      1/1   Running  0       2m
istio-ingress-84f75844c4 1/1   Running  0       2m
istio-egress-29a16321d3  1/1   Running  0       2m
istio-mixer-9bf85fc68    3/3   Running  0       2m
istio-pilot-575679c565   2/2   Running  0       2m
grafana-182346ba12       2/2   Running  0       2m
prometheus-837521fe34    2/2   Running  0       2m

Istio 不完全是轻量级的。Istio 的强大功能和灵活性来源于一些运维成本。但是，如果您的应用程序中包含多个微服务，那么您的应用程序容器将很快超过系统配置的容器。

服务级别目标

这个服务级别目标的简要概述将为我们如何衡量我们的服务健康状况奠定基础。服务级别协议（SLA）的概念已经存在了至少十年。但就在最近，与服务级别目标（SLO）和服务级别指标（SLI）相关的在线内容数量迅速增加。

除了著名的 Google SRE书以外，两本关于 SLO 的新书即将发布。“站点可靠性工作手册”有关于 SLO 的专门章节，Seeking SRE 有关于由 Circonus 创始人兼首席执行官 Theo Schlossnagle 定义 SLO 目标的章节。我们还建议观看Seth Vargo 和 Liz Fong Jones 的 YouTube 视频 “SLI，SLO，SLA，哦，我的！”，以深入了解 SLI，SLO 和 SLA 之间的差异。

总结一下：SLI 驱动 SLO，通知 SLA。

服务级别指标（SLI）是衡量服务健康状况的指标。例如，我可以有一个 SLI，它表示在过去 5 分钟内，我的第95 个百分点的主页请求延迟应小于 300 毫秒。

服务级别目标（SLO）是 SLI 的目标或指标。我们采用 SLI，并扩展其范围以量化我们期望我们的服务在战略时间间隔内执行的情况。使用前面例子中的 SLI，我们可以说，我们希望满足 SLI 为后续年份窗口的 99.9％设置的标准。

服务级别协议（SLA）是企业与客户之间的协议，定义了未能满足 SLO 的后果。一般来说，您的 SLA 所依据的SLO 将比您的内部 SLO 更宽松，因为我们希望我们的内部面向的目标比我们的外部目标更为严格。

RED 仪表板

SLI 的哪些组合最适合量化主机和服务健康？在过去几年中，出现了一些新兴的标准。最高标准是 USE 方法，RED方法和 Google SRE 手册中讨论的“四个金色信号”。

Brendan Gregg 介绍了USE 方法，该方法旨在根据利用率，饱和度和错误指标量化系统主机的健康状况。对于像CPU 这样的产品，我们可以为用户，系统和闲置百分比使用常见的利用率指标。我们可以使用平均负载量和运行队列进行饱和度的判定。UNIX perf 分析器是测量 CPU 错误事件的好工具。

Tom Wilkie 几年前介绍了 RED方法。用 RED。我们监控请求率，请求错误和请求持续时间。Google SRE 手册讨论了如何使用延迟，流量，错误和饱和度指标。这些“ 四个金色信号 ”以服务健康为目标，与 RED 方法类似，但他添加了饱和度指标。在实践中，可能难以量化服务饱和度。

那么，我们如何监控容器？容器是短期实体。直接监视它们以辨别我们的服务健康状况会出现许多复杂的问题，例如高基数问题。综合监控这些容器的服务输出会更容易和更有效。如果服务是健康的，我们不在乎一个容器是异常。有可能我们的编排框架无论如何都会收获这个容器，并用新的框架取而代之。

让我们考虑如何最好地将 Istio 的 SLI 作为 RED 仪表板的一部分进行集成。为了组成我们的 RED 仪表板，我们来看看 Istio 提供的遥测记录：

请求按响应代码计数
请求时长
请求大小
响应大小
连接收到的字节
连接发送字节
连接时间
基于模板的元数据（度量标签）

Istio 提供了有关它收到的请求，产生响应的延迟和连接级别数据的几个指标。请注意上面列表中的前两项; 我们希望将它们包含在我们的 RED 仪表板中。

Istio 还赋予我们添加度量标签的能力，这就是所谓的尺寸。因此，我们可以通过主机，集群等来分解遥测。我们可以通过获取请求计数的一阶导数来获得每秒请求的速率。我们可以通过请求不成功的请求计数的派生来获得错误率。Istio 还向我们提供每个请求的请求延迟，因此我们可以记录每个服务请求完成的时间。

另外，Istio 为我们提供了一个 Grafana 仪表板，它包含我们想要的部分：

我们想要的组件在上面的屏幕截图中以红色圈起来。我们在左上角的每秒操作请求率，右上角的每秒失败请求数，以及底部的响应时间图。这张图上还有其他几个指标，但让我们仔细看看我们圈出的那些指标：

以上屏幕截图显示了仪表板的速率组件。这非常简单。我们计算返回 200 响应代码的请求数，并绘制一段时间内的速率图。

Istio 仪表板为返回 5xx 错误代码的响应做了类似的操作。在上面的屏幕截图中，您可以看到它如何通过 ingress controller 或应用程序产品页面本身的错误来分解错误。

该屏幕截图显示了请求持续时间图。此图是关于我们服务的健康状况的最丰富信息。这些数据由普罗米修斯监测系统提供，因此我们可以看到请求时间百分点，包括中位数，第90,95和第99百分位。

这些百分比为我们提供了服务如何执行的全面指示。但是，这种方法存在一些值得研究的缺陷。在低活动期间，由于样本数量有限，这些百分位数可能会大幅偏离。这可能会误导您关于这些情况下的系统性能。我们来看看这种方法可能出现的其他问题：

持续问题：

百分位数是固定时间窗口上的聚合指标。
集群健康无法重新汇总百分位数。
百分位不能被平均（这是一个常见的错误）。
这种方法存储的聚合是输出，而不是输入。
用这种方法测量集群 SLI 是很困难的。

百分位数通常比平均数提供更深的洞察力，因为它们用多个数据点而不是一个数据点来表示数值范围。但是像平均值一样，百分位数是一个汇总指标。它们是针对固定数据集在固定时间窗口上计算的。如果我们计算一个集群成员的持续时间百分比，我们不能将其与另一个集群成员合并，以获得整个集群的聚合性能指标。

普遍的误解是百分位可以被平均; 除非产生它们的分布几乎相同的极少数情况除外。如果你只有百分位，而不是源数据，你不知道可能是这种情况。这是一个鸡和鸡蛋的问题。

这也意味着，如果您仅针对单个集群成员衡量基于百分比的性能，则由于缺乏可合并性而无法为整个服务设置服务级别指示符。

由于在固定的时间窗口内只有4个延迟数据点，因此我们设置有意义的 SLI（以及因此，有意义的 SLO ）的能力在此处受到限制。因此，当您使用基于百分位的持续时间指标进行工作时，您必须问自己，您的 SLI 是否真的有很好的 SLI。通过使用数学来确定 SLI，我们可以做得更好，从而全面了解我们的服务的性能和健康状况。

直方图计量数据

以上是使用直方图以微秒为单位显示服务延迟数据的可视化。样本数量位于 Y 轴上，样本值（在本例中为微秒等待时间）位于 X 轴上。这是我们在 Circonus 开发的开源直方图。（请参阅 C 和 Golang 中的开源代码，或者在此处阅读有关直方图的更多信息。）还有一些开源的直方图实现，如 Ted Dunning 的 t-消化直方图和 HDR 直方图。

Envoy 项目最近采用了 Circonus 的对数线性直方图库的 C 实现。这使得 envoy 数据可以作为分布来收集。他们在实施中发现了一个非常小的错误，Circonus 非常乐意修复。这就是开源的美妙之处，由于有更多的人可以查看代码，更多的人可以发现问题，并修正问题，那么随着时间的推移代码将会越来越好。

直方图可合并。只要边界相同，任何两个或更多的直方图可以合并。这意味着我们可以将此分布与其他分布结合起来。可合并度量对于监视和可观察性非常有用。它们允许我们合并来自类似资源的输出，例如服务成员，并获得总体服务指标。

如上图所示，此对数线性直方图包含每个幂为 10 的 90 个容器。您可以看到100,000个到1M个之间的90个容器。在每个 10 的功率下，箱尺寸增加 10 倍。这使得我们能够以高相对精度记录各种各样的值，而不需要提前知道数据分布。让我们看看当我们覆盖一些百分点时，这看起来像什么：

现在您可以看到我们的平均水平，第50百分位（也称为中位数）和第 90 百分位。第 90 百分位是 90％样本低于该值的值。

考虑我们之前的示例 SLI。通过以此格式显示延迟数据，我们可以通过将直方图合并为一个 5 分钟的数据视图，然后计算该分布的第 90 百分位数值，轻松计算服务的 SLI。如果它少于1,000毫秒，我们达到了我们的目标。

上面截图中的 RED 仪表盘持续时间图有四个百分点，第50,90,95和99个。我们也可以覆盖这些分布的百分位数。即使没有数据，我们也可以看到请求分布可能看起来很粗糙的形式，但是这会做出很多假设。要看到基于几个百分点的假设如何误导，我们来看看具有其他模式的分布：

该直方图显示具有两种不同模式的分布。最左边的模式可能是由于缓存服务而产生的快速响应，以及来自磁盘的正确模式。仅仅使用四个百分点来衡量延迟就几乎不可能辨别出这样的分布。这给了我们一个百分点可以掩盖的复杂性的感觉。考虑具有两种以上模式的分配：

此分布至少有四种可见模式。如果我们对全分布进行数学运算，我们会在这里找到 20 多种模式。您需要记录几个百分位以接近上面的延迟分布？关于下面的发行版怎么样？

由许多服务组成的复杂系统将生成无法用百分位准确表示的延迟分布。您必须记录整个延迟分布才能充分表示它。这是将数据的完整分布存储在直方图中并根据需要计算百分位数的优选原因之一，而不是仅存储几个百分点。

这种直方图可视化显示了固定时间窗口上的分布。我们可以存储多个发行版，以了解它随时间变化的情况，如下所示：

这是一个热图，它代表一组随时间变化的直方图。想象一下，这个热图中的每一列都有一个从上面看的单独的条形图，颜色用于指示每个垃圾箱的高度。这是来自 10 个负载均衡器集群的响应延迟的 grafana 可视化。这使我们能够深入了解整个集群的系统行为，一周之内就有超过100万个数据样本。这里的中位数大约在 500 微秒左右，以红色带表示。

以上是另一种类型的热图。此处，饱和度用于指示每个容器的“高度”（较暗的色块更“饱满”）。此外，这次我们在热图上覆盖了一段时间内的百分比计算。百分位数是健壮的度量标准，非常有用，但不是它们自己。我们可以在这里看到，随着延迟分布向上移动，90％以上的百分位数如何增加。

让我们来看看这些基于分布的持续时间图，看看我们是否可以生成比样本 Istio 仪表板更多的信息：

上面的屏幕截图是修改后的 RED 仪表板，显示基于分布的延迟数据。在左下角，我们显示了一个固定时间窗口上的延迟直方图。在它的右边，我们使用热图将分布分解成更小的时间窗口。利用 RED 仪表板的布局，我们可以通过几个小组信息全面了解我们的服务是如何运作的。这个特定的仪表板是使用 Grafana 实现的，它使用 IRONdb时间序列数据库服务，该数据库本地存储等待时间数据作为对数线性直方图。

我们可以进一步扩展这个 RED 仪表板，并将 SLI 覆盖到图表上：

对于速率面板，我们的 SLI 可能会保持每秒最低水平的请求。对于速率面板，我们的 SLI 可能会保持每秒一定数量的错误。正如我们之前研究过持续时间 SLIs，我们可能希望我们的整个服务的第 99 个百分点由多个窗格组成，以在固定窗口内保持一定的延迟。使用存储为直方图的 Istio 遥测技术可以让我们设置这些有意义的服务范围的 SLI。现在我们还有很多工作要做，而且我们可以更好地审问我们的数据（见下文）。

提出正确的问题

所以现在我们已经把这些部分放在一起，并看到了如何使用 Istio 从我们的服务中获取有意义的数据，让我们看看我们可以回答哪些问题。

我们都喜欢能够解决技术问题，但不是每个人都有同样的重点。业务人员想回答关于业务如何的问题。您需要能够回答以业务为中心的问题。让我们来看看我们已经组装的工具集，并将这些功能与业务提出 SRE 的几个问题对齐：

示例问题：

在大促销推广后，有多少用户在周二的速度降低中生气？
我们是否在我们的购物结帐服务中超额配置或者配置不足？

考虑第一个例子。每个人都经历了一次巨大的速度降低。比方说，市场推广做得很大，流量增加了，运行速度降低了，用户抱怨网站速度缓慢。我们如何量化每个人的速度有多慢？有多少用户生气了？比方说，市场营销部门想知道这一点，以便他们可以向受影响的用户发送 10％的折扣电子邮件，同时也希望避免同样问题的再次发生。让我们制作一个 SLI，并假设用户注意到放缓并且在请求花费超过 500 毫秒时生气。我们如何计算有多少用户对这个500毫秒的 SLI 感到愤怒？

首先，我们需要将请求延迟记录为分发。然后我们可以将它们绘制成热图。我们可以使用分布数据来计算超过500ms SLI 的请求的百分比，方法是使用逆百分比。我们将这个答案乘以该时间窗口中的请求总数，并随时间积分。然后我们可以绘制覆盖在热图上的结果：

在此屏幕截图中，我们已经圈出了发生速度降低的热图的一部分。增加的延迟分布是相当缓慢的指示。图中的线表示受到一段时间影响的请求总数。

在这个例子中，我们设法错过了 400 万个请求的 SLI。哎呦。不明显的是右边的两个额外减速，因为它们幅度较小。每个这些花费我们额外 200 万 SLI 违规。哎哟。

我们可以进行这些类型的数学分析，因为我们将数据存储为分布，而不是像百分位数之类的聚合。

我们来考虑另一个常见问题。我的服务是否置备或配置过度？

答案通常“视情况而定”。根据一天中的时间和一周的日子，负载会有所不同，除了因特殊事件而变化之外。那是在我们甚至考虑系统在负载下的行为之前。让我们把一些数学工作，并使用延迟带来可视化我们的系统如何执行：

上面的可视化显示延迟分布随着时间的推移被延迟带分解。这里的频段显示 25ms 到 100ms，100-250ms，250-1000 和 1000ms 以下的请求数。颜色按照绿色显示的快速请求分组，以减慢以红色显示的请求。

这种可视化告诉我们什么？它表明，对我们的服务的请求非常迅速地开始，然后几分钟后快速请求的百分比就会下降，大约 10 分钟后请求的缓慢百分比就会增加。这种模式重复了两次交通会话。那告诉我们关于配置的是什么？它表明，最初服务过度供应，但随后在 10-20 分钟的过程中供应不足。听起来像是自动缩放的好选择。

我们也可以将这种类型的可视化添加到我们的 RED 仪表板。这种类型的数据对业务利益相关者来说非常好而且它不需要大量的技术知识投资来了解对业务的影响。

结论

我们应该监视服务，而不是容器。服务是长期存在的实体，容器不是。您的用户不关心您的容器如何执行，他们关心您的服务如何执行。

你应该记录分布而不是聚合。但是，那么你应该从这些分布产生你的聚合。聚集体是非常有价值的信息来源。但它们无法合并，因此它们不适合进行统计分析。

Istio 免费提供了很多东西。您不必使用代码来编写。您无需从头开始构建高质量的应用程序框架。

使用数学提出并回答有关您的服务的问题，这对业务很重要。就是这一切，对吧？当我们通过回答企业价值观的问题使系统可靠时，我们实现了组织的目标。

k8s:安装 Helm 私有仓库ChartMuseum、helm-push插件并上传、安装Zookeeper 云游 docker helm helm-push
ChartMuseum是Kubernetes生态中用于存储、管理和发布HelmCharts的开源系统，主要用于扩展Helm包管理器的功能核心功能‌集中存储‌：提供中央化仓库存储Charts，支持版本管理和权限控制。‌‌跨集群部署‌：支持多集群环境下共享Charts，简化部署流程。‌‌离线部署‌：适配无网络环境，可将Charts存储在本地或局域网内。‌‌HTTP接口‌：通过HTTP协议提供服务，用户
Kubernetes自动扩缩容方案对比与实践指南浅沫云归后端技术栈小结 kubernetes autoscaling devops
Kubernetes自动扩缩容方案对比与实践指南随着微服务架构和容器化的广泛采用，Kubernetes自动扩缩容（Autoscaling）成为保障生产环境性能稳定与资源高效利用的关键技术。面对水平Pod扩缩容、垂直资源调整、集群节点扩缩容以及事件驱动扩缩容等多种需求，社区提供了HPA、VPA、ClusterAutoscaler、KEDA等多种方案。本篇文章将从业务背景、方案对比、优缺点分析、选型建
【运维实战】解决 K8s 节点无法拉取 pause:3.6 镜像导致 API Server 启动失败的问题 gs80140 各种问题运维 kubernetes 容器
目录【运维实战】解决K8s节点无法拉取pause:3.6镜像导致APIServer启动失败的问题问题分析✅解决方案：替代拉取方式导入pause镜像Step1.从私有仓库拉取pause镜像Step2.重新打tag为Kubernetes默认命名Step3.导出镜像为tar包Step4.拷贝镜像到目标节点Step5.在目标节点导入镜像到containerd的k8s.io命名空间Step6.验证镜像是否导
zookeeper etcd区别 sun007700 zookeeper etcd 分布式
ZooKeeper与etcd的核心区别体现在设计理念、数据模型、一致性协议及适用场景等方面。‌ZooKeeper基于ZAB协议实现分布式协调，采用树形数据结构和临时节点特性，适合传统分布式系统；而etcd基于Raft协议，以高性能键值对存储为核心，专为云原生场景优化，是Kubernetes等容器编排系统的默认存储组件。‌‌1‌‌2‌架构与设计目标差异‌‌ZooKeeper‌。‌设计定位‌:专注于分
在 Linux（openEuler 24.03 LTS-SP1）上安装 Kubernetes + KubeSphere 的防火墙放行全攻略
目录在Linux（openEuler24.03LTS-SP1）上安装Kubernetes+KubeSphere的防火墙放行全攻略一、为什么要先搞定防火墙？二、目标环境三、需放行的端口和协议列表四、核心工具说明1.修正后的exec.sh脚本（支持管道/重定向）2.批量放行脚本：open_firewall.sh五、使用示例1.批量放行端口2.查看当前防火墙规则3.仅开放单一端口（临时需求）4.检查特定
K3s-io/kine项目核心架构与数据流解析富珂祯
K3s-io/kine项目核心架构与数据流解析kineRunKubernetesonMySQL,Postgres,sqlite,dqlite,notetcd.项目地址:https://gitcode.com/gh_mirrors/ki/kine项目概述K3s-io/kine是一个创新的存储适配器，它在传统SQL数据库之上实现了轻量级的键值存储功能。该项目最显著的特点是采用单一数据表结构，通过巧妙的
20250707-3-Kubernetes 核心概念-有了Docker，为什么还用K8s_笔记 Andy杨 CKA-专栏 kubernetes docker 笔记
一、Kubernetes核心概念1.有了Docker，为什么还用Kubernetes1）企业需求独立性问题：Docker容器本质上是独立存在的，多个容器跨主机提供服务时缺乏统一管理机制负载均衡需求：为提高业务并发和高可用，企业会使用多台服务器部署多个容器实例，但Docker本身不具备负载均衡能力管理复杂度：随着Docker主机和容器数量增加，面临部署、升级、监控等统一管理难题运维效率：单机升
20250707-4-Kubernetes 集群部署、配置和验证-K8s基本资源概念初_笔记
一、kubeconfig配置文件文件作用:kubectl使用kubeconfig认证文件连接K8s集群生成方式:使用kubectlconfig指令生成核心字段:clusters:定义集群信息，包括证书和服务端地址contexts:定义上下文，关联集群和用户users:定义客户端认证信息current-context:指定当前使用的上下文二、Kubernetes弃用Docker1.弃用背景原因:
k8s之configmap 西京刀客云原生(Cloud Native)云计算虚拟化 #Kubernetes(k8s)kubernetes 容器云原生
文章目录k8s之configmap什么是ConfigMap？为什么需要ConfigMap？ConfigMap的创建方式ConfigMap的使用方式实际应用场景ConfigMap最佳实践参考k8s之configmap什么是ConfigMap？ConfigMap是Kubernetes中用于存储非机密配置数据的API对象。它允许你将配置信息与容器镜像解耦，使应用程序更加灵活和可移植。ConfigMap以
SkyWalking实现微服务链路追踪的埋点方案 MenzilBiz 服务器运维微服务 skywalking
SkyWalking实现微服务链路追踪的埋点方案一、SkyWalking简介SkyWalking是一款开源的APM(应用性能监控)系统，特别为微服务、云原生架构和容器化(Docker/Kubernetes)应用而设计。它主要功能包括分布式追踪、服务网格遥测分析、指标聚合和可视化等。SkyWalking支持多种语言（Java、Go、Python等）和协议（HTTP、gRPC等），能够提供端到端的调用
Kubernetes 高级调度 01 惊起白鸽450 kubernetes 容器云原生
一、初始化容器（InitContainer）：应用启动前的"预备军"在Kubernetes集群中，Pod作为最小部署单元，往往需要在主容器启动前完成一系列准备工作。例如，配置文件生成、依赖服务检查、内核参数调整等。这些操作若直接嵌入主容器镜像，会导致镜像体积膨胀、安全性降低，甚至引发启动逻辑混乱。初始化容器（InitContainer）的出现，正是为了解决这一痛点。1.1核心概念与特性InitCo
# 深度解析:k8s技术架构从入门到精通
从零开始，带你玩转Kubernetes！不再是"听说很牛逼，但不知道怎么用"的状态文章目录初识K8s：不只是一个"容器编排工具"K8s核心架构：Master和Node的"君臣关系"ControlPlane：大脑中枢的精密运作WorkerNode：真正干活的"打工人"Pod：K8s世界的最小单位Service：让应用"找得到彼此"实战场景：从单体到微服务的华丽转身进阶之路：从入门到精通的修炼指南总结
3-2-1、k8s学习-k8s介绍向新35° 一 be a K8s God kubernetes 学习容器
1、Kubernetes（K8s）详细介绍一、Kubernetes概述Kubernetes是一个开源的容器编排平台，用于自动化部署、扩展和管理容器化应用程序。其名称源于希腊语，意为“舵手”或“飞行员”，象征着对容器化应用的精准控制。核心目标：简化微服务架构下的应用部署与管理，解决容器化应用的服务发现、负载均衡、自动扩缩容、故障恢复等问题。起源：由Google开发（基于内部Borg系统），2014年
【ubuntu24.04】k8s 部署6：calico容器正常启动等风来不如迎风去网络服务入门与实战 kubernetes 容器云原生
参考大神以及tigera官方的calico教程：拥有一个带有Calico的单主机Kubernetes集群后，【k8s】配置calico1：镜像拉取【k8s】master节点重新安装docker-ce本文进一步解决容器启动问题：非常感谢大神的指点：准备Kubernetes集群环境做好了各种配置以后，kube**的镜像起始
云原生周刊：Istio 1.24.0 正式发布
云原生周刊：Istio1.24.0正式发布开源项目推荐KopfKopf是一个简洁高效的Python框架，只需几行代码即可编写KubernetesOperator。Kubernetes（K8s）作为强大的容器编排系统，虽自带命令行工具（kubectl），但在应对复杂操作时往往力不从心。通过Kopf，您可以使用Python轻松实现Kubernetes的复杂操作，包括条件判断、事件触发等，让自定义操作变
异构推理系统动态负载调度与资源分配实战：多节点协同、任务绑定与智能分发策略全解析观熵大模型高阶优化技术专题算法人工智能
异构推理系统动态负载调度与资源分配实战：多节点协同、任务绑定与智能分发策略全解析关键词异构调度、Kubernetes调度器、GPU任务绑定、MIG分配、推理流量调度、服务亲和性、任务隔离、资源优先级、边缘协同、动态算力管理摘要在AI推理系统的生产级部署中，单一自动扩缩容机制已无法满足实际复杂环境中对资源利用率、任务延迟与系统稳定性的多重要求。特别是在GPU/NPU/CPU并存的异构计算集群中，运行
Kubernetes 配置管理伤不起bb kubernetes 容器云原生
目录前言：为什么需要K8s配置管理？一、为什么需要ConfigMap和Secret？二、ConfigMap：非敏感配置的管理工具1.什么是ConfigMap？2.实战：创建ConfigMap的4种方式①基于目录创建（多文件批量导入）②基于单个文件创建（指定key名）③基于ENV文件创建（key=value格式）④基于命令行键值对创建（少量配置）3.实战：在Pod中使用ConfigMap①作为环境变
深度解析：SUSE Harvester私有云平台建设指南
关键词:SUSEHarvester,私有云,HCI,超融合,Kubernetes,KubeVirt,Longhorn,云原生,虚拟化,容器目录导航一、初识SUSEHarvester-私有云的新选择二、核心架构解析-揭开HCI的神秘面纱三、部署实战-从零到一搭建你的私有云四、存储与网络配置-数据的安全港湾五、虚拟机管理-让资源调度更智能六、监控与运维-保驾护航的守护者七、最佳实践-踩坑经验分享八、总
Spring Boot：将应用部署到Kubernetes的完整指南小马不敲代码 SpringBoot spring boot kubernetes 后端
详细介绍如何将一个SpringBoot应用程序部署到Kubernetes集群。从一个基础的SpringBoot应用开始，通过Docker容器化，最后完成Kubernetes集群的部署配置。这个过程将帮助你理解现代云原生应用部署的完整流程。示例项目SpringBoot2.6.13Java8Maven构建工具RESTfulAPI接口标准的项目结构项目结构如下：├──src/│├──main/││├──
k8s深度讲解----宏观架构与集群之脑 - API Server 和 etcd weixin_42587823 云原生 kubernetes 架构 etcd
宏观架构与集群之脑-APIServer和etcd宏观架构：数据中心的操作系统在开始之前，让我们先建立一个高层视角。你可以将Kubernetes想象成一个管理整个数据中心的分布式操作系统。在这个操作系统中：控制平面(ControlPlane)就是它的“内核”，负责管理和决策。工作节点(WorkerNodes)就是它的“CPU和内存”，是真正运行应用程序的地方。我们常用的kubectl就是与这个“内核
容器和 Kubernetes 中的退出码 riverz1227 k8s kubernetes 容器云原生
在Kubernetes中，Pod中容器的退出状态（exitCode）表示容器进程退出时的状态码。这个exitCode通常是应用程序或shell返回的标准UNIX/Linux退出码。理解常见的exitCode有助于我们快速定位容器异常退出的原因。一、常见exitCode及含义（基础类）exitCode含义说明常见原因0成功退出（正常）容器程序已完成任务或被优雅终止1一般性错误（GeneralErro
Kubernetes Pod DNS 配置 riverz1227 k8s k8s
一、概述Kubernetes提供多种DNS策略（dnsPolicy），同时kubelet参数也影响最终的DNS行为。二、dnsPolicy策略说明dnsPolicy含义说明Default使用宿主机的DNS配置（kubelet的--resolv-conf）ClusterFirst优先使用集群DNS（如CoreDNS），仅在无法解析时退回宿主机DNS（默认策略）ClusterFirstWithHost
Kubernetes Ingress 服务发布进阶伤不起bb kubernetes 容器云原生
目录一、核心概念与原理1.Ingress基础概念（1）Ingress的定位（2）Ingress与其他暴露方式对比（3）Ingress组成与分工2.Ingress工作原理（以Nginx为例）3.典型流量访问链路二、IngressNginxController安装（Helm方式）1.环境准备与工具安装2.核心配置文件修改（values.yaml）3.部署与验证命令三、Ingress基础使用：域名绑定服
Kubernetes日志运维痛点及日志系统架构设计（Promtail+Loki+Grafana）
Kubernetes日志运维痛点及日志系统架构设计（Promtail+Loki+Grafana）运维痛点日志采集的可靠性与复杂性pod生命周期短、易销毁容器重启或Pod被销毁后，日志会丢失（除非已持久化或集中采集）。需要侧重于实时采集和转发，而不能依赖节点本地日志。多样化的日志来源与格式应用日志、系统日志、Kubernetes组件日志（如kubelet、kube-apiserver）、中间件日志（
云原生时代的日志管理：ELK、Loki、Fluentd 如何选型？
一、引言在微服务和Kubernetes普及的今天，传统的日志管理方式已经难以应对高并发、分布式架构带来的挑战。随着容器化应用数量激增，日志数据量呈指数级增长，如何高效地收集、存储、查询和分析日志，成为每个团队必须面对的问题。在这样的背景下，ELK（Elasticsearch+Logstash+Kibana）、Loki和Fluentd成为当前主流的日志解决方案。它们各有特色，适用于不同规模和技术栈的
CKA认证 | 使用kubeadm部署K8s集群（v1.26）小安运维日记 Kubernetes CKA 认证培训 kubernetes 容器云原生运维 k8s docker
一、前置知识点1.1生产环境可部署Kubernetes集群的两种方式目前生产部署Kubernetes集群主要有两种方式：①kubeadmKubeadm是一个K8s部署工具，提供kubeadminit和kubeadmjoin，用于快速部署Kubernetes集群。②二进制包从github下载发行版的二进制包，手动部署每个组件，组成Kubernetes集群。这里采用kubeadm搭建集群kubeadm
116、掌握Docker Compose与Kubernetes：Rust应用部署实操多多的编程笔记 Rust之Web开发 docker kubernetes rust
Rust部署与运维：掌握使用DockerCompose、Kubernetes等工具进行应用部署和管理1.引言Rust是一种注重性能、安全和并发的系统编程语言。近年来，随着云计算和微服务架构的普及，如何将Rust应用部署到生产环境中，成为越来越多开发者关注的问题。本文将介绍如何使用DockerCompose和Kubernetes等工具进行Rust应用的部署和管理。2.DockerCompose简介D
开源的服务网格:Istio 深海科技服务行业发展开源 istio 云原生
一、lstio介绍Istio是一个开源的服务网格（ServiceMesh），它为微服务架构中的服务间通信提供了统一的管理、连接、安全、控制和可观测性。在复杂的云原生环境中，尤其是基于Kubernetes的部署中，随着微服务数量的增加，管理它们之间的网络通信会变得异常复杂。Istio就是为了解决这些挑战而设计的。1、为什么需要Istio？在传统的微服务架构中，开发人员需要在每个服务中编写代码来处理服
serviceMesh 学习一切顺势而行 service_mesh 学习 java
根据您已掌握的Docker、Kubernetes及灰度发布等技能，以下是ServiceMesh需要重点掌握的知识体系，分为核心概念、关键技术、实践场景和进阶能力四部分，助您系统化掌握服务网格：一、ServiceMesh核心概念概念说明与K8s的关联数据平面Sidecar代理（如Envoy），拦截服务间流量通过sidecar-injector自动注入到Pod中控制平面管理Sidecar的组件（如Is
Docker 和 Kubernetes 入门到精通：运维工程师的实战笔记 (近5万字) 运维小贺运维 linux docker 容器 kubernetes 云原生 kubelet
文章目录1.Docker1.1Docker是什么？1.1.1容器服务原理1.2Docker的三大概念1.2.1镜像1.2.2容器1.2.3仓库1.2.4总结1.3Docker常用命令1.3.1镜像常用命令1.3.2容器常用命令1.4Dockerfile1.4.1commit的局限1.4.2Dockerfile是什么？1.4.3如何使用Dockerfile制作镜像?1.4.4Dockerfile中常
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end

使用 Kubernetes 和 Istio 进行基于容器的全面服务监控

使用 Kubernetes 和 Istio 进行基于容器的全面服务监控

Istio 概述

服务级别目标

RED 仪表板

直方图计量数据

提出正确的问题

结论

你可能感兴趣的:(做技术的,小笔记,ServiceMesh,kubernetes,Istio)