pucheung

Flink on K8s 在京东的持续优化实践

摘要：本文整理自京东资深技术专家付海涛在 Flink Forward Asia 2021 平台建设专场的演讲。主要内容包括：

基本介绍
生产实践
优化改进
未来规划

一、基本介绍

K8s 是目前业内非常流行的容器编排和管理平台，它可以非常简单高效地管理云平台中多个主机上的容器化应用。在 2017 年左右，我们实时计算是多个引擎并存的，包括 Storm、Spark Streaming 以及正在引入的新一代计算引擎 Flink，其中 Storm 集群运行在物理机上，Spark Streaming 运行在 YARN 上，不同的运行环境导致部署和运营成本特别高，且资源利用有一定浪费，所以迫切需要一个统一的集群资源管理和调度系统来解决这个问题。

而 K8s 可以很好地解决这些问题：它可以很方便地管理成千上万的容器化应用，易于部署和运维；很容易做到混合部署，将不同负载的服务比如在线服务、机器学习、流批计算等混合在一起，获得更好的资源利用；此外，它还具有天然容器隔离、原生弹性自愈的能力，可以提供更好的隔离性与安全性。

经过一系列的尝试、优化和性能对比后，我们选择了 K8s。

2018 年初，实时计算平台开始全面容器化改造；
到 2018 年 6 月，已经有 20% 的任务运行在 K8s 上，从运行结果看，无论是资源的共享能力、还是业务处理能力，以及敏捷性和效率方面都获得了较大提升，初步达到了预期的效果；
到 2019 年 2 月实现了实时计算全部容器化；
之后直到现在，我们在 K8s 的环境也一直在进行优化和实践，比如进行弹性伸缩、服务混部、任务快速恢复能力建设等方面的实践。

全部 on K8s 后收益还是比较明显的：

首先混合部署服务和资源共享能力获得了提升，节省机器资源 30%；
其次，具有更好的资源隔离和弹性自愈能力，比较容易实现根据业务的负载进行资源的弹性伸缩，保证了业务的稳定性；
最后开发、测试、生产一致性的环境，避免环境给整个开发过程带来问题，同时极大提升了部署和运营自动化的能力，降低了管理运维的成本。

京东 Flink on K8s 的平台架构如上图，最下面是物理机和云主机，之上是 K8s，它采用京东自研的 JDOS 平台，基于标准的 K8s 进行了许多定制优化，使之更适应我们生产环境的实际情况。JDOS 大部分运行在物理机上，少部分是在云主机上。再往上是基于社区版 Flink 进行深度定制化后的 Flink 引擎。

最上面就是京东的实时计算平台 JRC，支持 SQL 作业和 jar 包作业，提供高吞吐、低延迟、高可用、弹性自愈易用的一站式海量流批数据计算能力，支持丰富的数据源和目标源，具备完善的作业管理、配置、部署、日志监控和自运维的功能，提供备份回滚和一键迁移的功能。

我们的实时计算平台服务于京东内部非常多的业务线，主要应用场景包括实时数仓，实时大屏、实时推荐、实时报表、实时风控和实时监控以及其他的应用场景。目前我们的实时 K8s 集群由 7000 多台机器组成，线上 Flink 任务数有 5000 多，数据处理峰值可以达到每秒 10 亿多条。

二、生产实践

最开始容器化方案采用的是基于 K8s deployment 部署的 standalone session 集群，这是资源静态分配的模式，如上图所示，需要用户在创建的时候就决定好所需要的管理节点 Jobmanager 的个数和规格 (包括 CPU 的核数、内存和磁盘的大小等)、运行节点 Taskmanager 的个数和规格 (包括 CPU、内存和磁盘大小等)，以及 Taskmanager 包含的 slot 个数。创建集群后，JRC 平台通过 K8s 客户端向 K8s master 发出请求，创建 Jobmanager 的 deployment，这里使用 ZK 保证高可用，使用 HDFS 和 OSS 进行状态存储，集群创建完成后就可以提交任务了。

但是在我们实践的过程中发现该方案存在一些不足，它需要业务提前预估出所需要的资源，对业务不太友好，无法满足灵活多变的业务场景。比如对一些复杂拓扑或者一个集群跑多个任务的场景，业务很难预先精准确定出所需要资源，这时候一般都会先创建出一个较大的集群，这样就会带来一定的资源浪费。在任务运行的过程中，也没有办法根据任务的运行情况，按需进行资源的动态伸缩。

于是我们又对容器化方案进行了升级，支持弹性资源模式。这是采用资源按需分配的方式，如上图所示，它需要用户在创建时指定好所需要管理节点 Jobmanager 的个数和规格，以及运行节点 Taskmanager 的规格，而 Taskmanager 的个数可以不指定。点击创建集群后，JRC 平台会通过 K8s 客户端向 K8s master 发出请求，创建 Jobmanager 的 deployment 以及可选地预创建指定数量 Taskmanager 的 pod。

平台提交任务后，由 JobMaster 通过 JDResourceManager 向 JRC 平台发出申请资源的 rest 请求，然后平台向 K8s master 动态申请资源去创建运行 Taskmanager 的 pod，在运行过程中，如果发现某个 Taskmanager 长时间空闲，可以根据配置动态释放资源。这里通过平台与 K8s 交互进行资源的创建和销毁，主要是为了保证计算平台对资源的管控，同时避免了集群配置和逻辑变化对镜像的影响；通过支持用户配置 Taskmanager 个数进行资源的预分配，可以做到与资源静态分配同样快速的任务提交速度；同时通过定制资源分配策略，可以做到兼容原有 slot 分散分布的均衡调度。

在 Flink on K8s 的环境中，日志和监控指标是非常重要的，它可以帮助我们观察整个集群、容器、任务的运行情况，根据日志和监控快速定位问题并及时处理。

这里的监控指标包括物理机指标 (比如 CPU、内存、负载、网络、连通性、磁盘等指标)、容器指标 (比如 CPU、内存、网络等指标)、JVM 指标和 Flink 指标 (集群指标和任务指标)。其中物理机指标和容器指标是通过 metric agent 采集上报到 Origin 系统，JVM 指标和 Flink 指标是通过 Jobmanager 和 Taskmanager 中定制的 metric reporter 上报到白泽系统，之后统一在计算平台进行监控的查看和告警。

日志采集采用京东的 Logbook 服务，它的基本机制是在每个 Node 上会运行一个 log agent，用于采集指定路径的日志；然后 Jobmanager 或 Taskmanager 会按照指定规则输出日志到指定目录，之后日志就会被自动采集到 Logbook 系统；最后可以通过计算平台进行实时日志和历史日志的检索和查询。

接下来是容器网络的性能问题。一般来说虚拟化的东西都会带来一定的性能损耗，容器网络作为容器虚拟化的一个重要组件，相比物理机网络来说，不可避免地会出现一些性能的损耗。性能的下降程度根据网络插件的不同、协议类型和数据包的大小会有所不同。

如上图所示，是对于跨主机容器网络通信的性能测评。参考基线是 server 和 client 在同一主机上进行通信。从图中可以看到，host 模式取得了接近参考基线的吞吐量和延迟，NAT 和 Calico 有较大的性能损失，这是由于地址转换和网络包路由的开销导致的；而所有 overlay 网络都有非常大的性能损失。总的来说，网络包的封装和解封相比地址转换和路由来说开销更大，那么采用何种网络就需要做一个权衡。比如 overlay 网络由于网络包的封装和解封导致了很大的开销，性能会比较差，但允许更灵活和安全的网络管理；NAT 和主机模式的网络比较容易取得好的性能，但是安全性较差；Routing 网络性能也不错但需要额外的支持。

此外，网络损耗对于 checkpoint 的快慢影响也很大。根据我们对比测试，网络模式不同的情况下，同样的环境下运行同样的任务，采用容器网络任务的 checkpoint 时长比使用主机网络慢了一倍以上。那么怎么解决这个容器网络的性能问题？

一是可以根据机房环境选择合适的网络模式：比如对于我们一些旧的机房，容器网络性能下降特别明显，而且网络的架构也不能升级，采用了主机网络 (如上图所示，在 pod yaml 文件中配置 hostNetwork=true) 来避免损耗的问题，虽说这不太符合 K8s 的风格，但需要根据条件做个权衡；而对于新的机房，由于基础网络的性能提升以及采用了新的高性能网络插件，性能损耗相比主机网非常小，就采用了容器网；
二是尽量不要使用异构网络环境，避免 K8s 跨机房，同时适当调整集群网络的相关参数，增加网络的容错能力。比如可以适当调大akka.ask.timeout 和taskmanager.network.request-backoff.max 两个参数。

下面说一下磁盘的性能问题。容器中的存储空间由两部分组成，如上图所示，底层是只读的镜像层，顶部是可读写的容器层。容器运行的时候涉及到文件的写操作都是在容器层中完成的，这里需要一个存储驱动提供联合文件系统来管理。存储驱动一般来说为空间效率进行了优化，额外的抽象会带来一定的性能损耗 (取决于具体存储驱动)，写入速度要低于本地文件系统，特别是使用了写时复制的存储驱动来说，损耗更大。这对于写密集型的应用来说，会有更大的性能影响。而在 Flink 中，很多地方都涉及到本地磁盘的读写，比如日志输出、RocksDB 读写、批任务 shuffle 等。那么该如何处理来减小影响？

一是可以考虑使用外挂的 Volume，使用本地存储卷，直接写数据到 host fileSystem 来提升性能；
此外也可以调优磁盘 IO 相关参数，比如调优 RocksDB 参数，提升磁盘的访问性能；
最后也可以考虑采用一些存储计算分离的方案，比如使用 remote shuffle，提升本地 shuffle 的性能和稳定性。

在实践过程中经常会发现，很多业务的计算任务配置不合理，占用了过多的资源造成了资源浪费。此外，流量存在波峰波谷，如何在洪峰时自动扩容，在波谷时自动缩容，在减少人工干预、保证业务稳定的同时提高资源利用率，这都涉及到资源弹性伸缩的问题。为此我们开发了弹性伸缩的服务，根据作业运行情况动态调整任务的并行度以及 Taskmanager 的规格，来解决作业吞吐不足、资源浪费等问题。

如上图所示，大致的工作流程如下：首先在 JRC 平台进行任务的伸缩配置，主要包括运行度调整的上下限以及一些伸缩策略的阈值，这些配置都会发送到伸缩服务；伸缩服务运行过程中会实时监测集群和任务的运行指标 (主要是一些 CPU 的使用率和算子的繁忙程度等)，结合伸缩配置和调整策略生成任务调整结果，发送到 JRC 平台；最后 JRC 平台根据调整结果，对集群和任务进行调整。

目前通过该伸缩服务，可以较好地解决一些场景的资源浪费问题，以及任务吞吐与算子并行度呈线性关系条件下的性能问题。不过它还是存在一定的局限性，比如对于外部的系统瓶颈、数据倾斜以及任务本身的性能瓶颈还有无法通过扩并行度提升的场景，不能很好地应对解决。

此外，结合弹性伸缩，我们也进行了一些实时流任务和离线批任务错峰混部的尝试。如上图右所示，在凌晨前后，流任务比较空闲，会缩容释放出一些资源给批任务；之后可以使用这些释放的资源在夜间运行批任务；到了白天批任务运行完释放的资源又可以还给流任务，用于扩容以应对流量洪峰，从而提高资源的整体利用率。

相比物理机或 YARN 环境，Flink on K8s 出现问题以后的排查相对要更困难，因为这里面还涉及到 K8s 许多组件，比如容器网络、DNS 解析、K8s 调度等各方面的问题，都存在一定的门槛。

为了解决这个问题，我们开发了智能诊断的服务，将作业相关的各个维度的监控指标 (包括物理机的、容器的、集群的和任务的指标) 与任务拓扑结合起来并与 K8s 打通，结合 pod 日志和任务日志联合进行分析，并将日常人工运维的一些方法进行归纳总结应用到分析策略中，诊断出作业的问题并给出优化建议。目前支持对任务重启、任务背压、checkpoint 失败、集群资源利用率低等一些常见问题进行诊断，后续会持续丰富和完善。

三、优化改进

在实践的过程中，采用资源静态分配模式的时候，一般都会将 slot 按照 Taskmanager 打散，将耗费资源的算子按照 Taskmanager 分散开来，实现作业的均衡调度，提高作业的性能。

如右上图所示有 2 个 Taskmanager，每个 Taskmanager 有 4 个 slot，1 个作业有 2 个算子 (分别用绿色和红色表示)，每个算子 2 个并行度。在使用默认调度策略 (顺序调度) 的情况下，这个作业的所有算子都会集中在一个 Taskmanager；而如果使用均衡调度，这个作业的所有算子都会按照 Taskmanager 进行横向打散，每个 Taskmanager 都会分到两个算子的一个并行度 (绿色和红色)。

而在采用资源动态分配模式 (native K8s) 的时候，资源是一个个 pod 单独申请创建的，那么这个时候如何实现均衡调度呢？我们采用了在任务调度之前进行资源预分配的方式来解决这个问题。具体过程如下：用户提交作业后，如果开启了资源预分配，JobMaster 不会立即调度任务，而是会向 ResourceManager 一次性预申请作业所需的资源，在所需资源到位后，JobMaster 会得到通知，此时再调度任务就可以做到和静态资源分配模式时同样的均衡调度了。这里还可以给 JobMaster 配置一个超时时间，超时后就走正常任务调度流程，而不会无限地等待资源。

我们进行了真实场景的性能对比，如上图右所示，使用顺序调度的时候作业吞吐量为 5700 万/分钟，而开启了资源预分配和均衡调度后，作业吞吐量为 8947 万/分钟，性能提升了 57%，还是有比较明显的效果的。

我们平台有不少业务采用一个集群运行多个任务的模式，这样就会存在一个 Taskmanager 分布了不同 job 的 Task，从而导致不同 job 之间相互影响。那么如何解决这个问题？

我们定制了 slot 的分配策略，在 Jobmanager 向 ResourceManager 请求 slot 时，如果开启了任务资源隔离，SlotManager 会把已经分配 slot 的 Taskmanager 打上 job 的标签，之后该 Taskmanager 的空闲 slot 只能用于该 job 的 slot 请求。通过将 Taskmanager 按照 job 分组，实现了集群多任务的资源隔离。

如上图右所示，一个 Taskmanager 提供 3 个 slot，有 3 个 job，每个 job 有一个算子，且并行度都为 3 (分别用绿色、蓝色和红色表示)。开启 slot 平铺分散，在隔离前，这三个 job 会共享这三个 Taskmanager，每个 Taskmanager 上都分布了每个 job 的一个并行度。而在开启任务资源隔离后，每一个 job 部将会独占一个 Taskmanager，不会相互影响。

容器环境复杂多变，pod 被驱逐或重启时有发生：比如机器发生硬件故障、docker 故障、节点负载较高等都会导致 pod 被驱逐；进程不健康、进程异常退出、docker 异常重启等也都会导致 pod 重启。此时，会导致任务重启恢复，对业务造成影响。那么如何才能减少对业务的影响？

一个方面是针对容器环境，加快 pod 异常 (被驱逐或重启) 的感知速度，迅速恢复作业。在官方的默认实现中，如果 pod 发生异常，可能会从两个路径感知到：一个是故障 pod 下游算子可能会感知到网络连接的断开，从而引发异常触发 failover；一个是 Jobmanager 会首先感觉到 Taskmanager 心跳超时，此时也会触发 failover。无论是通过哪个路径，所需要的时长都会比超时要多一些，在我们默认系统配置下，所需的时间是 60 多秒。

这里我们优化了 pod 异常感知的速度。在 pod 异常被停止时，默认会有一个 30 秒的优雅停止的时间，此时容器主进程启动脚本会收到来自 K8s 的 TERM 信号，除了做必要的清理动作之外，我们增加了通知 Jobmanager 异常 Taskmanager 的环节；在容器内工作进程 Taskmanager 异常退出的时候，主进程 (这里是启动脚本) 也会感知到，也会通知 Jobmanager 是哪个 Taskmanager 发生了异常。这样一来，Jobmanager 就可以在 pod 异常的时候第一时间得到通知，并及时进行作业的故障恢复。

通过这项优化，测试典型场景下，在集群有空余资源的情况下，任务 failover 的时长从原来的 60 多秒缩短到几秒；在集群中没有空余资源需要等待 pod 重建的情况下，任务 failover 的时长也缩短了 30 多秒，效果还是比较明显的。

另外一个方面是减小 pod 异常对作业的影响范围。虽说社区版在 1.9 之后，提供了基于 region 的局部恢复策略，在 Task 发生故障时，只重启故障 Task 关联 region 内的 Task，在有的场景下可以减小影响。但是很多时候一个作业的算子之间都是 rebalance 或者 hash 等全连接的方式，region 策略也起不到太大作用。为此，我们在 1.10 和 1.12 版本中，开发了基于故障 Task 的单点故障恢复策略，Task 发生故障时只恢复该故障 Task，非故障 Task 不受影响。

如上图所示，这个作业有三个算子 source、map 和 sink。其中 source 和 map 都是 1 个并行度，sink 是 2 个并行度。map 的第一个并行度 map(1/1) 和 sink 的第二个并行度 sink(2/2) 分布在 pod_B 上，在 pod_B 被驱逐的时候，Jobmanager 会检测到 pod_B 异常，之后会在新的 pod_D 上重新部署这两个 Task，记为 map(1/1)’ 和 sink(2/2)’；部署完成后，会通知故障 Task map(1/1) 的下游 sink(1/1) 新的上游 Task map(1/1)’ 已经 ready，然后 sink(1/1) 就会和上游 map(1/1)’ 重新建立连接，进行通信。

在具体实现的时候有以下几点需要注意：

一是故障恢复前，故障 Task 的上游对于待发送数据和下游对于接收的残留数据如何进行处理？这里我们会将上游输出到故障Task数据直接丢弃掉，下游如果收集到不完整的数据也会丢弃掉；
二是上下游无法感知到对方异常时，再恢复的时候如何进行处理？这里可能需要一个强制的更新处理；
三是一个 pod 上分布了多个 Task 的情况，如果该 pod 异常，存在多个故障 Task，这些故障 Task 之间如果存在依赖关系，如何正确地进行处理？这里需要按照依赖关系进行顺序的部署。

通过单点恢复策略，在线应用取得了不错的效果，对作业的影响范围大大减少 (取于具体的作业，能够减少为原来的几十分之一到几百分之一)，避免了业务的断流，同时恢复时长也大大降低 (从典型场景的一分多钟降低到几秒 - 几十秒)。

当然，这个策略也是有代价的，它在恢复的时候会带来少量的丢数，适用于对少量丢数不敏感的业务场景，比如流量业务。

四、未来规划

未来我们会在以下几方面继续探索：

首先是调度优化：
- 一个是 K8s 层面资源调度优化，更高效地管理大数据的在线服务和离线作业，提升 K8s 集群的利用率和运行效率；
- 一个是 Flink 作业调度优化，支持更丰富、更细粒度的调度策略，提升 Flink 作业资源的利用率和稳定性，满足不同的业务场景需要。
其次是服务混部：将不同负载的服务混部在一起，在保证服务稳定的前提下尽量提升资源利用率，使服务器的价值最大化；
然后是智能运维：支持对任务进行智能诊断，并自适应调整运行参数，实现作业的资质，降低用户调优和平台运维的成本；
最后是 Flink AI 的支持：人工智能应用场景中，Flink 在包括特征工程、在线学习、资源预测等方面都有一些独特的优势，后续我们也将在这些场景从平台层面进行探索和实践。

历史推荐

AliExpress 基于Flink的实时数仓建设

Flink 程序设计之道

数仓指标一致性

关于Event-Time 所带来的的问题

不得不掌握的三种BitMap

什么是证书吊销列表？CRL 解释 WoTrusSSL ssl https
数字证书是安全在线互动的支柱，用于验证身份和确保加密通信。但是，当这些证书被盗用或滥用时，必须立即撤销它们以维持信任。这就是证书撤销列表(CRL)的作用所在。CRL由证书颁发机构(CA)维护，对于识别和撤销已撤销的证书，防止其造成危害至关重要。在本指南中，我们将探讨什么是CRL、它们如何运作以及为什么它们对网络安全至关重要。什么是证书吊销列表(CRL)？证书吊销列表(CRL)是证书颁发机构(CA)
k8s:安装 Helm 私有仓库ChartMuseum、helm-push插件并上传、安装Zookeeper 云游 docker helm helm-push
ChartMuseum是Kubernetes生态中用于存储、管理和发布HelmCharts的开源系统，主要用于扩展Helm包管理器的功能核心功能‌集中存储‌：提供中央化仓库存储Charts，支持版本管理和权限控制。‌‌跨集群部署‌：支持多集群环境下共享Charts，简化部署流程。‌‌离线部署‌：适配无网络环境，可将Charts存储在本地或局域网内。‌‌HTTP接口‌：通过HTTP协议提供服务，用户
Android 开源组件和第三方库汇总 gyyzzr Android Android 开源框架
转载1、github排名https://github.com/trending,github搜索：https://github.com/search2、https://github.com/wasabeef/awesome-android-ui目录UIUI卫星菜单节选器下拉刷新模糊效果HUD与Toast进度条UI其它动画网络相关响应式编程地图数据库图像浏览及处理视频音频处理测试及调试动态更新热更新
ARM嵌入式可编程控制器技术开发拉勾科研工作室 arm开发
PLC自动化设计|毕业设计指导|工业自动化解决方案✨专业领域：PLC程序设计与调试工业自动化控制系统HMI人机界面开发工业传感器应用电气控制系统设计工业网络通信擅长工具：西门子S7系列PLC编程三菱/欧姆龙PLC应用触摸屏界面设计电气CAD制图工业现场总线技术自动化设备调试主要内容：PLC控制系统设计工业自动化方案规划电气原理图绘制控制程序编写与调试毕业论文指导毕业设计题目与程序设计✅具体问题可以
理解TCP连接中的进程阻塞与CPU调度机制 109702008 编程 #C语言网络 tcp/ip 网络人工智能
引言在计算机网络通信中，TCP连接的建立是一个经典的三次握手过程。当用户调用connect()函数发起连接时，内核会发送SYN报文并等待对方的SYN-ACK响应。此时，调用进程通常会进入阻塞状态，暂停执行直至连接成功或超时。这一机制看似简单，但其背后的内核实现却涉及进程调度、等待队列管理和CPU资源分配等复杂操作。本文将深入探讨阻塞状态的实现原理，并解析CPU在进程阻塞期间的行为。一、进程阻塞的实
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
php SPOF 贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.什么是单点故障（SPOF）？单点故障指的是系统中某个组件一旦失效，整个系统或服务就会不可用。常见的单点有：数据库、缓存、Web服务器、负载均衡、网络设备等。2.常见单点故障场景只有一台数据库服务器，宕机后所有业务不可用只有一台Redis缓存，挂掉后缓存全部失效只有一台Web服务器，挂掉后网站无法访问只有一个负载均衡节点，挂掉后流量无法分发只有一条网络链路，断开后所有服务失联3.消除单点故障的主
php 高并发下日志量巨大，如何高效采集、存储、分析贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.问题背景高并发系统每秒产生大量日志（如访问日志、错误日志、业务日志等）。单机写入、存储、分析能力有限，容易成为瓶颈。需要支持实时采集、分布式存储、快速检索与分析。2.主流架构方案一、分布式日志采集架构[应用服务器(PHP等)]|v[日志采集Agent（如Filebeat、Fluentd、Logstash）]|v[消息队列/缓冲（如Kafka、Redis、RabbitMQ）]|v[日志存储（如E
计算机网络技术 CZZDg 计算机网络
目录一.网络概述1.网络的概念2.网络发展是3.网络的四要素4.网络功能5.网络类型6.网络协议与标准7.网络中常见的概念8.网络拓补结构二.网络模型1.分层思想2.OSI七层模型3.TCP/IP五层模型4.数据的封装与解封装过程三.IP地址1.进制转换2.IP地址定义3.IP地址组成成分4.IP地址分类5.地址划分6、相关概念一.网络概述1.网络的概念两个主机通过传输介质和通信协议实现通信和资源
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
玩转Docker | 使用Docker部署gopeed下载工具心随_风动玩转Docker docker 容器运维
玩转Docker|使用Docker部署gopeed下载工具前言一、gopeed介绍Gopeed简介主要特点二、系统要求环境要求环境检查Docker版本检查检查操作系统版本三、部署gopeed服务下载镜像创建容器检查容器状态检查服务端口安全设置四、访问gopeed应用五、测试与下载六、总结前言在当今信息爆炸的时代，高效地获取和管理网络资源变得尤为重要。无论是下载大型文件还是进行日常的数据传输，一个稳
Docker指定网桥和指定网桥IP
$dockernetworklsNETWORKIDNAMEDRIVER7fca4eb8c647bridgebridge9f904ee27bf5nonenullcf03ee007fb4hosthostBridge默认bridge网络,我们可以使用dockernetworkinspect命令查看返回的网络信息，我们使用dockerrun命令是将网络自动应用到新的容器Host如果是hosts模式，启动容
UNIX域套接字
1、UNIX域套接字的定义UNIX域套接字是进程间通信（IPC）的一种方式，不涉及网络协议栈，因此在同一台主机上的通信中，它比基于TCP/IP协议的网络套接字更快速、更高效。2、UNIX域套接字的分类字节流套接字（SOCK_STREAM）：提供面向连接的、可靠的数据传输服务。数据报套接字（SOCK_DGRAM）：提供无连接的数据传输服务，数据以独立的数据报形式传输。3、UNIX套接字与TCP/IP
Kimi Chat 1.5 与 2.0 架构升级对比 charles666666 人工智能 transformer 深度学习产品经理 chatgpt
1.5版的MoE架构优化KimiChat1.5采用了优化后的MoE架构，其核心在于“专家网络动态路由”。这一机制类似于快递系统智能选择最优路径，能够根据输入数据的特性动态分配计算资源。这种优化显著提升了模型的计算效率，同时降低了硬件资源的浪费。在实际应用中，这意味着开发者可以在相同的硬件配置下处理更复杂的任务，或者在有限的资源下实现更高的性能。2.0的混合专家系统创新点与1.5版相比，KimiCh
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
[特殊字符] 实时数据洪流突围战：Flink+Paimon实现毫秒级分析的架构革命（附压测报告）——日均百亿级数据处理成本降低60%的工业级方案 Lucas55555555 flink 大数据
引言：流批一体的时代拐点据阿里云2025白皮书显示，实时数据处理需求年增速达240%，但传统Lambda架构资源消耗占比超运维成本的70%。某电商平台借助Flink+Paimon重构实时数仓后，端到端延迟从分钟级压缩至800ms，计算资源节省5.6万核/月。技术红利窗口期：2025年ApachePaimon1.0正式发布，支持秒级快照与湖仓一体，成为替代Iceberg的新范式一、痛点深挖：实时数仓
RocketMQ 之死信队列 firepation RocketMQ rocketmq
在分布式消息系统中，消息的可靠传递和处理至关重要。然而，由于各种原因（如消息处理失败、消费超时等），一些消息可能无法被正常消费。这些无法被消费的消息如果不加以处理，会影响系统的稳定性和数据一致性。为了解决这一问题，RocketMQ提供了死信队列（DeadLetterQueue，DLQ）机制。本文将深入探讨RocketMQ的死信队列，包括其实现原理、应用场景以及使用示例。什么是死信队列？死信队列是一
自动化运维工程师面试题解析【真题】
ZabbixAgent默认监听的端口是A.10050。以下是关键分析：选项排除：C.80是HTTP默认端口，与ZabbixAgent无关。D.5432是PostgreSQL数据库的默认端口，不涉及ZabbixAgent。B.10051是ZabbixServer的默认监听端口，用于接收Agent发送的数据，而非Agent自身的监听端口。ZabbixAgent的配置：根据官方文档，ZabbixAgen
什么是OA系统？使用OA系统对企业有哪些好处？
OA系统（OfficeAutomationSystem），即办公自动化系统，是将现代化办公和计算机网络功能结合起来的一种新型的办公方式。是现代企业管理中一种重要的信息化工具，它通过计算机技术、网络技术和数据库技术等手段，实现企业内部办公流程的自动化和信息化管理。使企业的信息交流更加顺畅，办公流程更加高效，从而提高企业的运营效率和管理水平。一、主要功能1.文档管理文档存储与检索：OA系统可以集中存储
Docker容器底层原理详解：从零理解容器化技术 Debug Your Career 面试 docker 容器 docker java
一、容器本质：一个“隔离的进程”关键认知：Docker容器并不是一个完整的操作系统，而是一个被严格隔离的进程。这个进程拥有独立的文件系统、网络、进程视图等资源，但它直接运行在宿主机内核上（而虚拟机需要模拟硬件和操作系统）。类比理解：想象你在一个办公楼里租了一间独立办公室（容器）。你有自己的桌椅（文件系统）、电话分机（网络）、门牌号（主机名），但共享整栋楼的水电（宿主机内核）和电梯（硬件资源）。办公
.NET 一款基于BGInfo的红队内网渗透工具 dot.Net安全矩阵网络 .net 安全 .netcore web安全矩阵
01阅读须知此文所提供的信息只为网络安全人员对自己所负责的网站、服务器等（包括但不限于）进行检测或维护参考，未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作。利用此文所提供的信息而造成的直接或间接后果和损失，均由使用者本人负责。本文所提供的工具仅用于学习，禁止用于其他方面02基本介绍在内网渗透过程中，白名单绕过是红队常见的技术需求。Sharp4Bginfo.exe是一款基于微软签名工具
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
【运维实战】解决 K8s 节点无法拉取 pause:3.6 镜像导致 API Server 启动失败的问题 gs80140 各种问题运维 kubernetes 容器
目录【运维实战】解决K8s节点无法拉取pause:3.6镜像导致APIServer启动失败的问题问题分析✅解决方案：替代拉取方式导入pause镜像Step1.从私有仓库拉取pause镜像Step2.重新打tag为Kubernetes默认命名Step3.导出镜像为tar包Step4.拷贝镜像到目标节点Step5.在目标节点导入镜像到containerd的k8s.io命名空间Step6.验证镜像是否导
Tomcat：Java Web应用的幕后英雄互联网动态分析 tomcat
在当今数字化浪潮中，Java作为一门成熟且广泛应用的编程语言，支撑着无数企业级应用和互联网服务的稳定运行。而在JavaWeb开发领域，Tomcat无疑是一个举足轻重的存在，它宛如一位默默耕耘的幕后英雄，为众多Web应用提供了可靠的运行环境。Tomcat的起源与发展Tomcat的故事始于1999年，当时SunMicrosystems（后被Oracle收购）与Apache软件基金会合作，旨在为Java
ZooKeeper架构及应用场景详解走过冬季学习笔记 zookeeper 架构分布式
ZooKeeper是一个开源的分布式协调服务，由Apache软件基金会维护。它旨在为分布式应用提供高性能、高可用、强一致性的基础服务，解决分布式系统中常见的协调难题（如配置管理、命名服务、分布式锁、服务发现、领导者选举等）。核心软件架构ZooKeeper的架构设计围绕其核心目标（协调）而优化，主要包含以下关键组件：集群模式(Ensemble):ZooKeeper通常部署为集群（称为ensemble
zookeeper etcd区别 sun007700 zookeeper etcd 分布式
ZooKeeper与etcd的核心区别体现在设计理念、数据模型、一致性协议及适用场景等方面。‌ZooKeeper基于ZAB协议实现分布式协调，采用树形数据结构和临时节点特性，适合传统分布式系统；而etcd基于Raft协议，以高性能键值对存储为核心，专为云原生场景优化，是Kubernetes等容器编排系统的默认存储组件。‌‌1‌‌2‌架构与设计目标差异‌‌ZooKeeper‌。‌设计定位‌:专注于分
如何发现 Redis 中的 BigKey？ sevevty-seven redis bootstrap 数据库
如何发现Redis中的BigKey？Redis因其出色的性能，常被用作缓存、消息队列和会话存储。然而，在Redis的使用过程中，BigKey是一个不容忽视的问题。BigKey指的是存储了大量数据或包含大量成员的键。它们不仅会占用大量内存，还可能导致网络延迟、主从同步延迟，甚至在极端情况下引发Redis服务崩溃。因此，有效地发现和处理BigKey对于维护Redis服务的稳定性和性能至关重要。本文将深
11. TCP 滑动窗口、拥塞控制是什么，有什么区别 yqcoder 前端面试-服务协议 tcp/ip 网络 php
总结滑动窗口：早期网络，通信双方不考虑网络拥挤情况，导致掉包。滑动窗口大小意味着有多少缓冲区接受数据。拥塞控制：防止过多数据注入网络中，拥塞控制是一个全局过程，控制网络流量。区别：滑动窗口解决掉包问题，拥塞控制解决网络拥塞问题。TCP滑动窗口与拥塞控制详解在TCP协议中，为了实现可靠传输和高效通信，引入了两个核心机制：滑动窗口（SlidingWindow）和拥塞控制（CongestionContr
上位机知识篇---Linux中的文件挂载 Atticus-Orion 上位机操作篇 linux 运维网络文件挂载
文章目录前言1.挂载的基本概念文件系统挂载点设备文件2.挂载的命令挂载文件系统示例卸载文件系统示例3.挂载的常用选项示例4.自动挂载（/etc/fstab文件）示例使用UUID挂载5.挂载网络文件系统（NFS）挂载NFS示例6.挂载ISO文件挂载ISO文件示例7.查看已挂载的文件系统8.挂载的注意事项9.挂载的常见问题挂载失败卸载失败10.总结前言在Linux系统中，文件挂载是指将一个文件系统（如
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts

Flink on K8s 在京东的持续优化实践

你可能感兴趣的:(网络,运维,大数据,分布式,编程语言)