NetEaseResearch

网易数帆云原生故障诊断系统实践与思考

Kubernetes 是一个生产级的容器编排引擎，但是 Kubernetes 仍然存在系统复杂、故障诊断成本高等问题。网易数帆旗下轻舟云原生团队在近几年的稳定性保障工作中累计了不少生产实践的经验，我们沉淀并落地了轻舟云原生故障诊断系统来帮助产品评估集群的稳定性并为用户提供优化建议。本文分享了我们在业务落地不同时期稳定性保障的实践，以及我们在集群稳定性保障层面产品化的思考，希望能够给读者朋友带来一些启发。

容器化落地早期（2018 下半年至 2019 上半年）

在 2018 年下半年，网易内部的部分业务开始逐步对应用进行容器化改造并在生产中落地。这个时期业务的使用还远谈不上云原生，很多用户是把容器当作虚拟机在用。我们团队在这个时期的主要职责包括以下几个方面：

保障内部 Kubernetes 集群的稳定性。
解决业务用户在容器化落地过程中遇到的一系列问题。
解决轻舟产品化初期的一系列问题。

早期面临的问题

这个时期我们面临的问题主要集中在两个方面：Kubernetes、Docker、操作系统层面的问题以及用户使用方式不合理导致的问题。

Kubernetes、Docker、操作系统层面的问题是容器化落地早期难以避免的。我们当时内部主要使用的 Kubernetes 版本是 1.11，Docker 版本是 18.06，现在社区中仍然能找到很多那个时期 Kubernetes 和 Docker 相关问题的 Issue。我们内部当时维护的操作系统是 Debian 9 和 Debian 10，而一些较强势的业务对操作系统有硬性要求，集群中的节点使用 CentOS 7 的操作系统。CentOS 7 使用的 3.10 版本内核的 Cgroups 和 Systemd 实现在容器场景下埋了非常多的坑。针对这方面的问题，我们通过内核调参以及为 Kubernetes 和 Docker 打补丁以维护内部版本的方式来避免问题。以 Kernel Memory Accounting 泄漏这个经典问题为例，我们关闭了 Kubelet 和 Docker 中相关的逻辑，并且规定 CentOS 7.7 为最低支持的版本且在启动参数中固化 cgroup.memory=nokmem 选项来规避改问题。

用户使用方式的不合理也导致了非常多问题。早期用户对 Kubernetes 管理工作负载的设计思想不是很了解，加上业务部门的成本压力，很多用户为了应用快速容器化将虚拟机的用法直接搬到了容器上来。有些不规范的实践通过 Kubernetes 提供的机制可以较好的纠正，有些严重的情况则触发了 Docker 和内核在某些特殊场景下的 Bug 影响了集群的稳定性。针对这方面的问题，我们通过为用户分析故障并给出解决方案的方式来帮助用户容器化平滑落地。例如使用探针而不是传统方法对应用进行健康检查，避免大量执行 Exec 进入容器内执行命令而引发容器终止时进程回收的问题。

早期的思考

在 2018 下半年至 2019 上半年这一时期，网易不少业务完成了生产环境大规模容器化落地并且迅速享受到了云原生技术在资源管理和成本控制层面的红利。我们团队在这一过程中积累了许多宝贵的经验，同时欠下了一些技术债：

忽视云原生技术布道的重要性：我们花费了大量时间帮助用户解决不当实践引起的各种问题，这些问题很多是用户可以通过看文档独立解决。但是用户对这些新技术缺少学习动力，并且新接触 Kubernetes 的同事在增长，问题似乎永远解决不完。
缺少团队职责的细分：落地初期许多的问题都是容器化后产生的，而大部分人对云原生技术是比较陌生的，所以很多问题最终都需要我们团队来解决。
不云原生的云原生落地：迫于业务成本压力，业务需要快速完成容器化改造，但是业务用户对该技术缺乏经验。在这样的背景下，我们开发了一些中间层组件帮助用户快速落地，也做了一些不是很云原生的妥协。
没有对集群标准化交付的规范：部分用户使用的是 CentOS 7 操作系统，我们在认识到使用该操作系统运行 Docker 的风险后仍然没有去引导用户在操作系统上的选择，并且在安装操作系统以及内核参数设置这些问题上也缺少把控。

这些技术债无法用对或错去评判，在当时的客观背景下看来是难以避免的，但是这也为我们之后的工作提供了很好的思路。

业务云原生化时期（2019 上半年至 2020 下半年）

由于早期业务在大规模容器化上尝到了甜头，许多业务开始逐步使用 Kubernetes 来编排应用，这一段时间我们管理的集群数量从原来的十多个变成了近百个。而随着 Kubernetes 的进一步推广，公司内部越来越多的人开始学习云原生技术，也有越来越多的 Operator 被部署到集群中。我们团队的职责也变得愈加多样和复杂：

缓解较大规模集群中的稳定性风险。
规范轻舟不同产品团队在 Kubernetes 中各个扩展点的使用。
集群版本管理和维护的问题。
解决业务用户在云原生化过程中遇到的一系列问题。

工作中常见的问题

部分集群连接的 APIServer 客户端数量超过了 4000 个，其中不乏一些用户用脚本对 Pod 资源进行全量 LIST 来获取数据。这些集群的 APIServer 消耗接近 100G 的内存以及 50 核的 CPU 算力，并且 APIServer 所在节点的网卡流量达到了 15G。针对这方面的问题，我们通过分析客户端的的业务类型找出了使用不合理的客户端并进行优化。例如某个 DaemonSet 运行的组件一开始使用了 kube-builder 进行开发且监听了全量的 Node 资源，但是实际上只需要监听本节点 Node 的资源变化，我们使用 client-go 库重写了客户端并且只关注本节点 Node 的资源变化来规避容量问题，并且向轻舟各团队说明了 APIServer 客户端实现上需要注意的事项，借此为契机来推进整体产品的稳定性提升。

轻舟产品中的一些功能实现了 Admission Webhook 进行扩展，但是轻舟当时很多已交付集群的商业化版本中并不包含 Webhook Server 的超时机制，某些 Webhook Server 会在特定场景下卡住无法返回，严重影响的集群稳定性。我们将上游版本中 Webhook 的特性 Cherry Pick 到商业化版本中，并且推动了 Admission Control 这个扩展点使用的规范化，去除了不少产品中不合理的设计和滥用。

最开始我们管理的 Kubernetes 集群并没有很多，所以管理成本是可控的。随着用户的增长，我们需要维护的 Kubernetes 集群越来越多，版本范围也越来越大，包括 1.11 到 1.17 之间的多个版本。早期我们虽然建议用户版本升级时需要进行节点下线再上线的流程，但是刚刚容器化的用户当时难以容忍应用的重建，我们承诺了节点热升级的方案，这些方案也大大增加了我们的管理成本。针对这方面的问题，我们学习了 Red Hat 维护商业化操作系统的策略，通过确定内部维护的 1.17 版本为商业化 Kubernetes 版本，我们将内部版本维护的工作控制在这几个方面：合入上游版本的 Bug 修复以及用户需要的特性对某个商业版本进行维护；标准化某个商业版本到下一个商业版本的升级方案；明确轻舟各组件与 Kubernetes 版本的兼容性矩阵来降低软件管理成本；开发并上线元集群 Operator 方案来将集群管理的工作自动化。这样我们将集群版本管理以及运维的责任都明确到相关团队以及个人，降低了 Kubernetes 集群的管理成本和潜在风险。

随着使用 Kubernetes 编排应用的用户越来越多，我们需要帮助用户解决的问题类型也越来越多，其中包含帮助用户在云原生场景下更好诊断业务应用的问题。例如用户在应用容器化之前常用的 Java 应用诊断方式难以在云原生场景下进行使用，我们开发并在产品上集成了 JVM 内存诊断管理的功能，帮助用户方便的对生产环境的 Java 应用进行诊断。

发展期的思考

在 2019 上半年至 2020 下半年这一时期，我们管理的集群数量增长到了近百个。这个时期我们的工作主要集中在解决集群运维管理的问题以及帮助用户业务更好的实现云原生化。在帮助用户的过程中我们发现了越来越多需要从机制上解决的问题：

因为 Kubernetes 与业务应用之间的关系较紧密，我们需要明确集群稳定性保障以及应用稳定性保障的边界以及有效的评估模型，这种责任边界的不明确带来了交付成本上的增长以及不确定性。
随着云原生技术的发展，用户虽然能够渐渐感受到其在标准化层面带来的优势，但是我们在帮助商业用户解决实际问题上仍然有不少工作需要进行。
稳定性保障工作在网易内部很早就已经积累了一定的基础，并且这些工作是由多个团队完成的。借助云原生的契机，让多个团队形成合作并将以往的经验在商业化产品中进行集成是一个新的挑战。

云原生商业化时期（2020 下半年至今）

2020 下半年开始，网易大部分互联网业务都开始在生产中使用 Kubernetes 来编排应用，我们工作的焦点开始转变为将内部沉淀的能力通过轻舟混合云产品对外进行商业化输出。

商业化中需要解决的问题

商业化场景下需要考虑的问题比在公司内管理多个集群更加复杂多样。在集群稳定性保障层面，有些问题通过报警消息就可以准确的识别，但是商业化场景下很多问题的诊断对基础设施的自动化水平提出了比较大的挑战：

在云原生场景下，用户需要行之有效的手段对业务应用进行排障。例如用户需要在某个报警触发时分析堆的使用状况而不是等到 OOM 发生后才能进行排查。
某些问题的诊断需要采集一些信息，而这些信息具有一定时效性并且采集成本较高，将这些诊断分析流程自动化可以大大提高产品的售后能力。
虽然 APM 和监控能够解决一部分可观测性问题，但是经验告诉我们很多用户业务问题的根本原因是在系统这一层面发现的，可能是基础设施层抖动或者系统设置不合理导致的。我们需要结合用户或轻舟 APM 中的数据与系统层面的数据来打造可落地的故障诊断体系。

如何提高 Kubernetes 集群稳定性保障体系的自动化能力，并借助云原生标准化将多个技术领域内已有的保障能力进行集成是我们团队重点思考的问题。

网易轻舟云原生故障诊断系统的设计

为了解决上述问题，我们团队设计并实现了轻舟云原生故障诊断系统来解决故障现场保留不易、售后技术支持成本高、产品稳定性评估难等问题。发生故障时，一次售后技术支持流程大致如下：

故障发生后用户进行简单的排查，发现难以定位问题。
用户联系售后技术支持同事上报故障。
技术支持同事通过研发同事提供的 FAQ 文档指导用户获取信息。
技术支持同事根据 FAQ 文档对问题进行解答。
问题较复杂，技术支持同事拉入研发同事进行介入。
研发同事向技术支持同事和用户沟通获取有效的上下文信息。
研发同事获取用户环境权限并进行故障诊断。（某些用户环境有比较严格的安全限制，研发同事需要去用户现场进行故障诊断。）
研发同事发现导致故障的原因，输出排查结论以及解决方案。（有时问题复杂度较高或者故障现场没有保留，研发同事难以定位问题。）
技术支持同事负责与用户沟通并给出解决方案。（故障难以定位的情况下需要说服用户。）

在这样的一次流程中涉及到用户、技术支持、研发三个角色，每个角色完成的工作以及工作成本大致如下：

用户
- 发现环境中的故障。（低成本，通常是报警或者业务出现问题。）
- 联系售后技术支持。（低成本，通常是微信或电话联系。）
- 在技术支持的指导下进行简单的信息获取和诊断。（中成本，用户对技术相对陌生导致操作效率低且可能出错。）
技术支持
- 通过 FAQ 文档指导用户获取信息。（中成本，需要指导用户执行相对陌生的操作。）
- 根据 FAQ 文档对问题进行解答。（低成本，技术支持通常具备一定技术背景以及经验。）
- 与用户沟通并给出解决方案。（中成本，尤其是故障难以定位的情况下需要说服用户。）
研发
- 沟通获取有效的上下文信息。（中成本，研发缺少接触用户的经验和用户缺少技术经验导致沟通不畅。）
- 获取用户环境权限并进行故障诊断。（高成本，诊断需要花费很多精力并且有时候需要多个团队的研发介入。）
- 在特殊情况下去用户现场进行故障诊断。（高成本，研发出差是额外的开销。）
- 输出排查结论以及解决方案。（低成本，研发通常只需要给出结论和解决方案的文档。）

这样的一次流程中主要的成本都是由技术支持和研发承担的。作为服务提供方，如果我们能够在这个服务形态下实现一个系统来提高整个流程的自动化程度并且降低上述中高成本工作所带来的开销，那么对轻舟商业化输出的能力无疑是一个巨大的提升。

设计与实现

通过定义 Operation、OperationSet、Trigger 和 Diagnosis 对象，我们对整个稳定性保障流程中不同角色需要处理的问题进行了抽象。整个系统由 Master 和 Agent 组成，并且从 APIServer、Prometheus、Elasticsearch 等组件获取可观测性指标数据以触发一次故障诊断，部署架构如下所示：

网易轻舟云原生故障诊断系统部署架构

Operation 对象

Operation 描述了一个诊断操作以及将其注册到故障诊断系统的方式。一个负责获取 Golang 性能剖析数据的诊断操作可以通过下述 Operation 进行注册：

apiVersion: diagnosis.netease.com/v1kind: Operationmetadata:  annotations:    description: This operation manages actions to profile go programs.    maitainer: APM Team  name: go-profilerspec:  processor: # 注册处理故障诊断请求的服务器，如果未定义服务器的 IP 和 Port 则为故障诊断系统 Agent 内置的处理器。    path: /processor/goprofiler # 故障诊断系统 Agent 会请求该路径来触发故障诊断。    scheme: http # 故障诊断系统 Agent 向该服务器发送 HTTP 请求。    timeoutSeconds: 60 # 故障诊断系统 Agent 等待该服务器返回诊断结果的超时时间为 60 秒。

Operation 的后端是一个实现诊断操作逻辑 HTTP 服务器，不同诊断操作由不同团队各自维护。Operation 对象主要解决了以下问题：

标准化了诊断操作集成到产品的接口，Operation 只需要处理标准格式的 JSON 数据。
为不同团队故障诊断的工作划分了责任边界，各团队可以根据需要负责处理的问题场景实现专业的故障诊断逻辑。
SRE 或者技术支持在管理诊断操作时不需要理解其内部实现细节。
原先积累的基础设施层技术保障能力能够以较低的改造成本接入到 Kubernetes 环境中。

OperationSet 对象

OperationSet 定义了故障诊断的工作流，其中包含表示诊断过程状态机的有向无环图。一次收集 Dockerd 和 Containerd 信息的工作流可以通过下述 OperationSet 表示：

apiVersion: diagnosis.netease.com/v1kind: OperationSetmetadata:  annotations:    description: This operation set collects debugging information for dockerd and containerd.    maitainer: Kubernetes Team  name: docker-debuggerspec:  adjacencyList: # 表示诊断工作流的有向无环图。  - id: 0 # 第一个顶点表示诊断的开始，不包含任何操作。    to:    - 1  - id: 1 # 第二个顶点执行获取 Docker 元信息的操作。    operation: docker-info-collector    to:    - 2  - id: 2 # 第三个顶点执行获取 dockerd goroutine 的操作。    operation: dockerd-goroutine-collector    to:    - 3  - id: 3 # 第四个顶点执行获取 containerd goroutine 的操作。    operation: containerd-goroutine-collector    to:    - 4  - id: 4 # 第五个顶点执行将节点置为不可调度的操作。    operation: node-cordonstatus:  paths: # 记录有向无环图中所有的诊断路径，故障诊断系统 Agent 会按顺序执行诊断路径。  - - id: 1      operation: docker-info-collector    - id: 2      operation: dockerd-goroutine-collector    - id: 3      operation: containerd-goroutine-collector    - id: 4      operation: node-cordon  ready: true # 控制器是否已根据 .spec.adjacencyList 字段生成最新的 .status.paths 字段。

Trigger 对象

Trigger 描述如何通过外部消息来源触发一次诊断。一次复杂的故障诊断通常是由报警触发的，而报警的来源可能是监控系统、APM 系统或者日志。利用 KubeletPlegDurationHigh 报警触发收集 Dockerd 和 Containerd 信息的工作流的 Trigger 如下所示：

apiVersion: diagnosis.netease.com/v1kind: Triggermetadata:  annotations:    description: This trigger collects debugging information for dockerd and containerd on alert KubeletPlegDurationHigh firing.    maitainer: Kubernetes Team  name: kubelet-pleg-duration-highspec:  operationSet: docker-debugger # 触发后运行 docker-debugger 中定义的工作流。  sourceTemplate: # 用于创建诊断的来源模板。    prometheusAlertTemplate: # 利用 Prometheus 报警来创建诊断。      regexp: # 触发诊断的 Prometheus 报警正则表达式。        alertName: KubeletPlegDurationHigh # 触发诊断的 Prometheus 报警为 KubeletPlegDurationHigh。      nodeNameReferenceLabel: node # Prometheus 报警中 node 标签的值是运行诊断的节点名。

研发通过定义诊断流程的 OperationSet 和在问题出现时触发诊断的 Trigger 实现了多个中高成本工作的自动化，轻舟产品的整体售后能力得到了增强：

用户不需要在技术支持的指导下进行简单的信息获取和诊断。
研发不需要沟通获取有效的上下文信息。
大多数场景下研发可以避免获取用户环境权限并进行故障诊断等步骤。

Diagnosis 对象

Diagnosis 是用于管理某个诊断的 API 对象，其中包含了诊断工作流运行的状态。一个表示收集 Dockerd 和 Containerd 信息的 Diagnosis 如下所示：

apiVersion: diagnosis.netease.com/v1kind: Diagnosismetadata:  annotations:    trigger: kubelet-pleg-duration-high    operationSet: docker-debugger  name: kubelet-pleg-duration-high.fc76dbd98  namespace: defaultspec:  nodeName: pri3-k8s1210.jd.163.org # 执行故障诊断的节点，该字段根据 Trigger 的 .spec.sourceTemplate.prometheusAlertTemplate.nodeNameReferenceLabel 设置。  operationSet: docker-debugger # 运行的工作流，该字段根据 Trigger 的 .spec.operationSet 设置。status:  checkpoint: # 记录当前诊断执行操作的检查点，与 OperationSet 的 .status.paths 一致。    nodeIndex: 4    pathIndex: 0  conditions: # 记录当前诊断的状况。  - lastTransitionTime: "2021-04-27T07:52:24Z"    message: Diagnosis is accepted by agent on node pri3-k8s1210.jd.163.org    reason: DiagnosisAccepted    status: "True"    type: Accepted  - lastTransitionTime: "2021-04-27T07:52:27Z"    message: Diagnosis is completed    reason: DiagnosisComplete    status: "True"    type: Complete  operationResults: # 记录诊断运行的结果。    "1": # 记录 Docker 元信息请求的结果。      operation: docker-info-collector      result: '{"ID":"LJM3:UWWT:L6L3:J6RJ:QRB2:NPMT:FXNC:WA6A:S2AN:JNKV:XE6V:HL7C","Containers":167,"ContainersRunning":88,"ContainersPaused":0,"ContainersStopped":79,"Images":80,"Driver":"overlay2","DriverStatus":[["Backing Filesystem","\u003cunknown\u003e"],["Supports d_type","true"],["Native Overlay Diff","true"]],"SystemStatus":null,"Plugins":{"Volume":["local"],"Network":["bridge","host","ipvlan","macvlan","null","overlay"],"Authorization":null,"Log":["awslogs","fluentd","gcplogs","gelf","journald","json-file","local","logentries","splunk","syslog"]},"MemoryLimit":true,"SwapLimit":false,"KernelMemory":true,"CpuCfsPeriod":true,"CpuCfsQuota":true,"CPUShares":true,"CPUSet":true,"IPv4Forwarding":true,"BridgeNfIptables":true,"BridgeNfIp6tables":true,"Debug":false,"NFd":497,"OomKillDisable":true,"NGoroutines":392,"SystemTime":"2021-04-27T16:29:29.283405124+08:00","LoggingDriver":"json-file","CgroupDriver":"cgroupfs","NEventsListener":0,"KernelVersion":"4.15.0-142-generic","OperatingSystem":"Ubuntu 18.04.3 LTS","OSType":"linux","Architecture":"x86_64","IndexServerAddress":"https://index.docker.io/v1/","RegistryConfig":{"AllowNondistributableArtifactsCIDRs":[],"AllowNondistributableArtifactsHostnames":[],"InsecureRegistryCIDRs":["127.0.0.0/8"],"IndexConfigs":{"docker.io":{"Name":"docker.io","Mirrors":["https://docker.mirrors.ustc.edu.cn/"],"Secure":true,"Official":true}},"Mirrors":["https://docker.mirrors.ustc.edu.cn/"]},"NCPU":4,"MemTotal":11645624320,"GenericResources":null,"DockerRootDir":"/data","HttpProxy":"","HttpsProxy":"","NoProxy":"","Name":"pri3-k8s1210.jd.163.org","Labels":[],"ExperimentalBuild":false,"ServerVersion":"19.03.8","ClusterStore":"","ClusterAdvertise":"","Runtimes":{"runc":{"path":"runc"}},"DefaultRuntime":"runc","Swarm":{"NodeID":"","NodeAddr":"","LocalNodeState":"inactive","ControlAvailable":false,"Error":"","RemoteManagers":null},"LiveRestoreEnabled":false,"Isolation":"","InitBinary":"docker-init","ContainerdCommit":{"ID":"7ad184331fa3e55e52b890ea95e65ba581ae3429","Expected":"7ad184331fa3e55e52b890ea95e65ba581ae3429"},"RuncCommit":{"ID":"dc9208a3303feef5b3839f4323d9beb36df0a9dd","Expected":"dc9208a3303feef5b3839f4323d9beb36df0a9dd"},"InitCommit":{"ID":"fec3683","Expected":"fec3683"},"SecurityOptions":["name=apparmor","name=seccomp,profile=default"],"Warnings":["WARNING: No swap limit support"]}'    "2": # 记录 dockerd goroutine 的文件服务器访问地址。      operation: dockerd-goroutine-collector      result: '10.180.156.129:30100/dockerd-goroutine/pri3-k8s1210.jd.163.org/goroutine-stacks-2021-04-27T155225+0800.log'    "3": # 记录 containerd goroutine 的文件服务器访问地址。      operation: containerd-goroutine-collector      result: '10.180.156.129:30100/containerd-goroutine/pri3-k8s1210.jd.163.org/containerd-goroutine-2021-04-27T155225+0800.log'    "4": # 记录将节点置为不可调度的处理结果。      operation: node-cordon      result: 'node/pri3-k8s1210.jd.163.org cordoned'  phase: Succeeded # 记录当前诊断的状态。  startTime: "2021-04-27T07:52:24Z"  succeededPath: # 执行成功的诊断路径。  - id: 1    operation: docker-info-collector  - id: 2    operation: dockerd-goroutine-collector  - id: 3    operation: containerd-goroutine-collector  - id: 4    operation: node-cordon

一次售后技术支持中需要完成的工作

Master

Master 负责管理 Operation、OperationSet、Trigger 和 Diagnosis 对象。当 OperationSet 创建后，Master 会进行合法性检查并基于用户定义生成有向无环图，所有的诊断路径被更新至 OperationSet 的状态中。

Master 会校验 Diagnosis 的 PodReference 或 NodeName 是否存在，如果 Diagnosis 中只定义了 PodReference，则根据 PodReference 计算并更新 NodeName。Master 会查询被 Diagnosis 引用的 OperationSet 状态，如果被引用的 OperationSet 异常，则标记 Diagnosis 失败。Diagnosis 可以由用户直接手动创建，也可以通过配置 Prometheus、Event 或 Elasticsearch 消息模板自动创建。Master 由下列部分组成：

GraphBuilder 根据 OperationSet 中定义的顶点生成有向无环图并计算出所有的诊断路径。
Alertmanager 接收 Prometheus 报警并根据 Trigger 中定义的模板创建 Diagnosis 对象。
Eventer 接收 Kubernetes Event 并根据 Trigger 中定义的模板创建 Diagnosis 对象。
ElasticAlerting 接收 Elasticsearch 报警并根据 Trigger 中定义的模板创建 Diagnosis 对象。

Agent

Agent 负责实际诊断的执行并内置多个常用诊断操作。当 Diagnosis 创建后，Agent 会根据 Diagnosis 引用的 OperationSet 执行诊断工作流，诊断工作流是包括多个诊断操作的集合。Agent 组件由下列部分组成：

Executor 负责执行诊断工作流。Diagnosis 引用的 OperationSet 状态中包含表示诊断工作流的有向无环图和所有的诊断路径。诊断路径表示诊断过程中的排查路径，通过执行某个诊断路径中每个顶点 Operation 的诊断操作可以对问题进行排查。如果某个诊断路径的所有诊断操作均执行成功，则该次诊断被标记为成功。如果所有诊断路径均执行失败，则该次诊断被标记为失败。

KubeletPlegDurationHigh 报警触发诊断时序图

总结

从早期的容器化落地到现在的云原生商业化，我们思考问题的核心一直是帮助用户切实解决云原生落地过程中的痛点。网易轻舟云原生故障诊断系统提供了一套框架来帮助产品打造可靠的稳定性保障体系，通过团队的努力我们提升了帮助用户的效率并降低了管理成本，让用户真正享受到了云原生技术红利的同时也让我们未来可以走的更远。

作者介绍

黄久远，网易数帆资深开发工程师，专注于云原生以及分布式系统等领域，参与了网易云音乐、网易新闻、网易严选、考拉海购等多个用户的大规模容器化落地以及网易轻舟容器平台产品化工作，主要方向包括集群监控、智能运维体系建设、Kubernetes 以及 Docker 核心组件维护等。当前主要负责网易轻舟云原生故障诊断系统的设计、开发以及产品商业化工作。

你可能感兴趣的:(云原生,云原生,Kubernetes,故障恢复,Docker,云计算)

腾讯云技术深度探索：构建高效云原生微服务架构我的运维人生云原生架构腾讯云运维开发技术共享
腾讯云技术深度探索：构建高效云原生微服务架构在当今快速发展的技术环境中，云原生技术已成为企业数字化转型的关键驱动力。腾讯云作为行业领先的云服务提供商，不断推出创新的产品和技术，助力企业构建高效、可扩展的云原生微服务架构。本文将深入探讨腾讯云在微服务领域的最新进展，并通过一个实际案例展示如何在腾讯云平台上构建云原生应用。腾讯云微服务架构概览腾讯云微服务架构基于云原生理念，旨在帮助企业快速实现应用的容
PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
docker igotyback eureka 云原生
Docker容器的文件系统是隔离的，但是可以通过挂载卷（Volumes）或绑定挂载（BindMounts）将宿主机的文件系统目录映射到容器内部。要查看Docker容器的映射路径，可以使用以下方法：查看容器配置：使用dockerinspect命令可以查看容器的详细配置信息，包括挂载的卷。例如：bashdockerinspect在输出的JSON格式中，查找"Mounts"部分，这里会列出所有的挂载信息
react-intl——react国际化使用方案苹果酱0567 面试题汇总与解析 java 开发语言中间件 spring boot 后端
国际化介绍i18n：internationalization国家化简称，首字母+首尾字母间隔的字母个数+尾字母，类似的还有k8s(Kubernetes)React-intl是React中最受欢迎的库。使用步骤安装#usenpmnpminstallreact-intl-D#useyarn项目入口文件配置//index.tsximportReactfrom"react";importReactDOMf
06选课支付模块之基于消息队列发送支付通知消息 echo 云清学成在线 java rabbitmq 消息队列支付通知学成在线
消息队列发送支付通知消息需求分析订单服务作为通用服务，在订单支付成功后需要将支付结果异步通知给其他对接的微服务，微服务收到支付结果根据订单的类型去更新自己的业务数据技术方案使用消息队列进行异步通知需要保证消息的可靠性即生产端将消息成功通知到服务端：消息发送到交换机-->由交换机发送到队列-->消费者监听队列，收到消息进行处理，参考文章02-使用Docker安装RabbitMQ-CSDN博客生产者确
#千锋逆战班郭燕学习的一天开启郭千岁呗
在千锋"逆战"学习云计算第17天加油努力会有好结果复习昨天知识中国加油！武汉加油！千峰加油!我自己加油！
信息系统安全相关概念(上) YuanDaima2048 课程笔记基础概念安全信息安全笔记
文章总览：YuanDaiMa2048博客文章总览下篇:信息系统安全相关概念(下)信息系统安全相关概念[上]信息系统概述信息系统信息系统架构信息系统发展趋势：信息系统日趋大型化、复杂化信息系统面临的安全威胁信息系统安全架构设计--以云计算为例信息系统安全需求及安全策略自主访问控制策略DAC强制访问控制策略MAC信息系统概述信息系统用于收集、存储和处理数据以及传递信息、知识和数字产品的一组集成组件。几
【2023年】云计算金砖牛刀小试6 geekgold 云计算服务器网络 kubernetes 容器
第一套【任务1】私有云服务搭建[10分]【题目1】基础环境配置[0.5分]使用提供的用户名密码，登录提供的OpenStack私有云平台，在当前租户下，使用CentOS7.9镜像，创建两台云主机，云主机类型使用4vCPU/12G/100G_50G类型。当前租户下默认存在一张网卡，自行创建第二张网卡并连接至controller和compute节点（第二张网卡的网段为10.10.X.0/24，X为工位号
Ubuntu18.04 Docker部署Kinship(Django)项目过程 Dante617
1Docker的安装https://blog.csdn.net/weixin_41735055/article/details/1003551792下载镜像dockerpullprogramize/python3.6.8-dlib下载的镜像里包含python3.6.8和dlib19.17.03启动镜像dockerrun-it--namekinship-p7777:80-p3307:3306-p55
docker from指令的含义_多个FROM-含义 weixin_39722188 docker from指令的含义
小编典典什么是基本图片？一组文件，加上EXPOSE端口ENTRYPOINT和CMD。您可以添加文件并基于该基础图像构建新图像，Dockerfile并以FROM指令开头：后面提到的图像FROM是新图像的“基础图像”。这是否意味着如果我neo4j/neo4j在FROM指令中声明，则在运行映像时，neo数据库将自动运行并且可在端口7474的容器中使用？仅当您不覆盖CMD和时ENTRYPOINT。但是图像
Dockerfile FROM 两个 redDelta
Docker相关视频讲解：什么是容器Docker介绍实现"DockerfileFROM两个"的步骤步骤表格步骤操作1创建一个Dockerfile文件2写入FROM指令3构建第一个镜像4创建第二个Dockerfile文件5写入FROM指令6构建第二个镜像7合并两个镜像操作步骤说明步骤1：创建一个Dockerfile文件使用任意文本编辑器创建一个名为Dockerfile的文件。登录后复制#Docker
Dockerfile命令详解之 FROM 清风怎不知意容器化 java 前端 javascript
许多同学不知道Dockerfile应该如何写，不清楚Dockerfile中的指令分别有什么意义，能达到什么样的目的，接下来我将在容器化专栏中详细的为大家解释每一个指令的含义以及用法。专栏订阅传送门https://blog.csdn.net/qq_38220908/category_11989778.html指令不区分大小写。但是，按照惯例，它们应该是大写的，以便更容易地将它们与参数区分开来。(引用
Dockerfile（1） - FROM 指令详解小菠萝测试笔记 docker python java cmd 大数据
FROM指明当前的镜像基于哪个镜像构建dockerfile必须以FROM开头，除了ARG命令可以在FROM前面FROM[--platform=][AS]FROM[--platform=][:][AS]FROM[--platform=][@][AS]小栗子FROMalpine:latest一个dockerfile可以有多个FROM可以有多个FROM来创建多个镜像，或区分构建阶段，将一个构建阶段作为另
【从问题中去学习k8s】k8s中的常见面试题（夯实理论基础）（二十八）向往风的男子 k8s 学习 kubernetes 容器
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
Kubernetes数据持久化看清所苡看轻 kubernetes(k8s)emptyDir HostPath pv pvc kubernetes
在k8s中，Volume（数据卷）存在明确的生命周期（与包含该数据卷的容器组（pod）相同）。因此Volume的生命周期比同一容器组（pod）中任意容器的生命周期要更长，不管容器重启了多少次，数据都被保留下来。当然，如果pod不存在了，数据卷自然退出了。此时，根据pod所使用的数据卷类型不同，数据可能随着数据卷的退出而删除，也可能被真正持久化，并在下次容器组重启时仍然可以使用。从根本上来说，一个数
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Kubernetes部署MySQL数据持久化沫殇-MS Kubernetes MySQL数据库 kubernetes mysql 容器
一、安装配置NFS服务端1、安装nfs-kernel-server：sudoapt-yinstallnfs-kernel-server2、服务端创建共享目录#列出所有可用块设备的信息lsblk#格式化磁盘sudomkfs-text4/dev/sdb#创建一个目录：sudomkdir-p/data/nfs/mysql#更改目录权限：sudochown-Rnobody:nogroup/data/nfs
Kubernetes的3种数据持久化方式 Seal^_^ 【云原生】容器化与编排技术持续集成 #Kubernetes kubernetes 容器云原生 EmptyDir 面试 HostPath
Kubernetes的3种数据持久化方式1.EmptyDir2.HostPath3.PersistentVolume(PV)TheBegin点点关注，收藏不迷路Kubernetes提供了几种数据持久化方式，以满足不同场景的需求：1.EmptyDir用途：临时数据存储，Pod内容器间共享。特点：生命周期与Pod相同，Pod删除时数据也删除。2.HostPath用途：访问宿主机特定文件或目录。特点：增
【Kubernetes】常见面试题汇总（十一） summer.335 Kubernetes kubernetes 容器云原生
目录33.简述Kubernetes外部如何访问集群内的服务？34.简述Kubernetesingress？35.简述Kubernetes镜像的下载策略？33.简述Kubernetes外部如何访问集群内的服务？（1）对于Kubernetes，集群外的客户端默认情况，无法通过Pod的IP地址或者Service的虚拟IP地址：虚拟端口号进行访问。（2）通常可以通过以下方式进行访问Kubernetes集群
k8s中Service暴露的种类以及用法听说唐僧不吃肉 K8S kubernetes 容器云原生
一、说明在Kubernetes中，有几种不同的方式可以将服务（Service）暴露给外部流量。这些方式通过定义服务的spec.type字段来确定。二、详解1.ClusterIP定义：默认类型，服务只能在集群内部访问。作用：通过集群内部IP地址暴露服务。示例：spec:type:ClusterIPports:-port:80targetPo
Kubernetes 自定义控制器开发 IT回忆录 Kubenetes kubernetes
目录前言一、CRD二、创建数据库表（Mysql）二、控制器开发1.使用kubernetes的examplecontroller模板2.在controller.go中新增数据表监听方法3.修改tools工具生成资源对象结构体定义这里记录开发k8s控制器的一般方式，controller开发主要使用k8s提供的client-go库进行。前言Controller监听集群内部资源对象的变化，编辑资源对象(增
用kubedam搭建的k8s证书过期处理方法我滴鬼鬼呀wks k8s 1024程序员节
kubeadm部署的k8s证书过期1、查看证书过期时间kubeadmalphacertscheck-expiration若证书已经过期无法试用kubectl命令建议修改服务器时间到未过期的时间段2、配置kube-controller-manager.yaml文件cat/etc/kubernetes/manifests/kube-controller-manager.yamlapiVersion:v
k8s证书过期问题处理 olina_qin kubernetes 容器云原生
k8s证书过期问题处理opensslx509-in/etc/kubernetes/pki/apiserver.crt-noout-dateskubeadmcertsrenewallsystemctlrestartkubeleopensslx509-in/etc/kubernetes/pki/apiserver.crt-noout-text|grep"NotAfter"cp/etc/kubernet
Kubernetes Ingress 控制器（Nginx）安装与使用教程农优影
KubernetesIngress控制器（Nginx）安装与使用教程kubernetes-ingressNGINXandNGINXPlusIngressControllersforKubernetes项目地址:https://gitcode.com/gh_mirrors/ku/kubernetes-ingress1.项目目录结构及介绍在nginxinc/kubernetes-ingress仓库中，
【K8s】专题十一：Kubernetes 集群证书过期处理方法行者Sun1989 Kubernetes kubernetes 云原生容器
本文内容均来自个人笔记并重新梳理，如有错误欢迎指正！如果对您有帮助，烦请点赞、关注、转发、订阅专栏！专栏订阅入口Linux专栏|Docker专栏|Kubernetes专栏往期精彩文章【Docker】（全网首发）KylinV10下MySQL容器内存占用异常的解决方法【Docker】（全网首发）KylinV10下MySQL容器内存占用异常的解决方法（续）【Docker】MySQL源码构建Docker镜
raksmart洛杉矶云服务器全面解析 rak部落服务器 raksmart洛杉矶云服务器
RAKsmart洛杉矶云服务器是一种高性能的云计算解决方案，专为满足不同业务需求而设计。以下是对RAKsmart洛杉矶云服务器的具体介绍，rak小编为您整理发布raksmart洛杉矶云服务器全面解析。1.线路选择：RAKsmart洛杉矶云服务器提供多种网络线路选项，包括大陆优化线路和CN2ONLY线路。这些线路能够提供更稳定和快速的连接速度，特别适合需要高效数据传输和低延迟的业务环境。2.性能表现
Docker学习十一：Kubernetes概述爱打羽球的程序猿 Docker学习系列 docker kubernetes 学习
一、Kubernetes简介2006年，Google提出了云计算的概念，当时的云计算领域还是以虚拟机为代表的云平台。2013年，Docker横空出世，Docker提出了镜像、仓库等核心概念，规范了服务的交付标准，使得复杂服务的落地变得更加简单，之后Docker又定义了OCI标准，Docker在容器领域称为事实的标准。但是，Docker诞生只是帮助定义了开发和交付标准，如果想要在生产环境中大批量的使
Cloud Native Weekly | 华为云抢先发布Redis5.0，红帽宣布收购混合云提供商 weixin_34302561 数据库 devops 大数据
1——华为云抢先发布Redis5.02——DigitalOceanK8s服务正式上线3——红帽宣布收购混合云提供商NooBaa4——微软发布多项AzureKubernetes服务更新1华为云抢先发布Redis5.012月17日，华为云在DCS2.0的基础上，快人一步，抢先推出了新的Redis5.0产品，这是一个崭新的突破。目前国内在缓存领域的发展普遍停留在Redis4.0阶段，华为云率先发布了Re
安装 `privoxy` 将 Socks5 转换为 HTTP 代理 MonkeyKing.sun 网络
(base)shgbitai@shgbitai-C9X299-PGF:~/tools$curl-xhttp://127.0.0.1:1080https://registry-1.docker.io/v2/curl:(56)ProxyCONNECTaborted(base)shgbitai@shgbitai-C9X299-PGF:~/tools$curl-xhttps://127.0.0.1:108
Halo 开发者指南——容器私有化部署 SHENHUANJIE Docker Halo 华为云 SWR Registry
华为云SWR私有化部署镜像构建dockerbuild-thalo-dev/halo:2.20.0.上传镜像镜像标签sudodockertag{镜像名称}:{版本名称}swr.cn-south-1.myhuaweicloud.com/{组织名称}/{镜像名称}:{版本名称}sudodockertaghalo-dev/halo:2.20.0swr.cn-south-1.myhuaweicloud.co
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D