紫空-NS

k8s中GPU虚拟化工具gpu-manager的安装

gpu-manager安装

概述
准备工作
部署gpu-manager
部署gpu-admission
查看结果
参考

概述

gpu-manager是腾讯的一个开源vGPU应用，具体原理就不介绍了，详见GPUManager虚拟化方案。

本文主要参照腾讯开源vgpu方案gpu-manager安装教程进行安装，并就安装时出现的问题，对其中的部分配置进行了更改，如果根据上述文章安装失败，可以参考本文来进行安装。

准备工作

gpu-manager不提供nvidia容器运行时，需要提前在所有有GPU的节点上安装nvidia驱动。如果集群中之前安装了gpu-operator之类的应用，需要先卸载，否则会因为kubelet占用Xserver进程导致安装过程出现error。具体过程不赘述了，参考如下文章：
超全超详细的安装nvidia显卡驱动教程
Ubuntu安装nvidia驱动
解决centos下安装显卡驱动出现的unable to find the kernel source tree等关于内核版本问题
如何关闭X Server，以避免在更新nVidia驱动程序时出错？

安装完之后重启（没有试过不重启是否可以）并运行如下命令，以初始化/dev下的硬件：

nvidia-smi
nvidia-modprobe -u -c=0

运行后/dev下应该有如下等内容被创建：

[root@xxxxxx dev]# ls /dev|grep nvid
nvidia0
nvidia-caps
nvidiactl
nvidia-uvm
nvidia-uvm-tools

否则容器初始化时会报一个/dev/xxx找不到的错误
（参考：https://blog.csdn.net/JosephThatwho/article/details/107869332）

部署gpu-manager

本文集群中docker的驱动是systemd，而gpu-manager默认为cgroupfs，因此需要修改配置，而更换驱动的配置在gpu-manager较高版本才支持。
并且如果集群版本较高，低版本的gpu-manager会不兼容（本文k8s版本为v1.22.10）。
创建gpu-manager.yaml配置如下：

apiVersion: v1
kind: ServiceAccount
metadata:
  name: gpu-manager
  namespace: kube-system
---
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRoleBinding
metadata:
  name: gpu-manager-role
subjects:
- kind: ServiceAccount
  name: gpu-manager
  namespace: kube-system
roleRef:
  kind: ClusterRole
  name: cluster-admin
  apiGroup: rbac.authorization.k8s.io
---
apiVersion: apps/v1
kind: DaemonSet
metadata:
  name: gpu-manager-daemonset
  namespace: kube-system
spec:
  updateStrategy:
    type: RollingUpdate
  selector:
    matchLabels:
      name: gpu-manager-ds
  template:
    metadata:
      # This annotation is deprecated. Kept here for backward compatibility
      # See https://kubernetes.io/docs/tasks/administer-cluster/guaranteed-scheduling-critical-addon-pods/
      annotations:
        scheduler.alpha.kubernetes.io/critical-pod: ""
      labels:
        name: gpu-manager-ds
    spec:
      serviceAccount: gpu-manager
      tolerations:
        # This toleration is deprecated. Kept here for backward compatibility
        # See https://kubernetes.io/docs/tasks/administer-cluster/guaranteed-scheduling-critical-addon-pods/
        - key: CriticalAddonsOnly
          operator: Exists
        - key: tencent.com/vcuda-core
          operator: Exists
          effect: NoSchedule
      # Mark this pod as a critical add-on; when enabled, the critical add-on
      # scheduler reserves resources for critical add-on pods so that they can
      # be rescheduled after a failure.
      # See https://kubernetes.io/docs/tasks/administer-cluster/guaranteed-scheduling-critical-addon-pods/
      priorityClassName: "system-node-critical"
      # only run node has gpu device
      nodeSelector:
        nvidia-device-enable: enable
      hostPID: true
      containers:
        - image: tkestack/gpu-manager:v1.1.5
          name: gpu-manager
          securityContext:
            privileged: true
          ports:
            - containerPort: 5678
          volumeMounts:
            - name: device-plugin
              mountPath: /var/lib/kubelet/device-plugins
            - name: vdriver
              mountPath: /etc/gpu-manager/vdriver
            - name: vmdata
              mountPath: /etc/gpu-manager/vm
            - name: log
              mountPath: /var/log/gpu-manager
            - name: checkpoint
              mountPath: /etc/gpu-manager/checkpoint
            - name: run-dir
              mountPath: /var/run
            - name: cgroup
              mountPath: /sys/fs/cgroup
              readOnly: true
            - name: usr-directory
              mountPath: /usr/local/host
              readOnly: true
            - name: kube-root
              mountPath: /root/.kube
              readOnly: true
          env:
            - name: LOG_LEVEL
              value: "4"
            - name: EXTRA_FLAGS
              value: "--cgroup-driver=systemd"
            - name: NODE_NAME
              valueFrom:
                fieldRef:
                  fieldPath: spec.nodeName
      volumes:
        - name: device-plugin
          hostPath:
            type: Directory
            path: /var/lib/kubelet/device-plugins
        - name: vmdata
          hostPath:
            type: DirectoryOrCreate
            path: /etc/gpu-manager/vm
        - name: vdriver
          hostPath:
            type: DirectoryOrCreate
            path: /etc/gpu-manager/vdriver
        - name: log
          hostPath:
            type: DirectoryOrCreate
            path: /etc/gpu-manager/log
        - name: checkpoint
          hostPath:
            type: DirectoryOrCreate
            path: /etc/gpu-manager/checkpoint
        # We have to mount the whole /var/run directory into container, because of bind mount docker.sock
        # inode change after host docker is restarted
        - name: run-dir
          hostPath:
            type: Directory
            path: /var/run
        - name: cgroup
          hostPath:
            type: Directory
            path: /sys/fs/cgroup
        # We have to mount /usr directory instead of specified library path, because of non-existing
        # problem for different distro
        - name: usr-directory
          hostPath:
            type: Directory
            path: /usr
        - name: kube-root
          hostPath:
            type: Directory
            path: /root/.kube

主要修改了如下：
更换了高版本镜像

去掉–incluster-mode=true，因为高版本没有该选项
其次如果不指定或者将–logtostderr为true，那么日志就会显示在容器的log（命令行）中，按需指定
最后指定–cgroup-driver为systemd（如果你的驱动是cgroupfs则无需指定）

它会创建daemonset，并在对应搭上了一个标签的node上运行。
所以需要给所有需要调度gpu节点打上标签，如下：

kubectl label node <你的GPU节点> nvidia-device-enable=enable
kubectl label node <你的GPU节点> nvidia-device-enable=enable
...
kubectl apply -f gpu-manager.yaml

如果一切正确的话，守护进程应该在给打了label的节点上正常运行：

部署gpu-admission

gpu-admission的部署按照上述教程（https://www.jianshu.com/p/7d795bc226c7）的来没有问题，不过我做了一些小小的改变
创建gpu-admission.yaml如下：

apiVersion: v1
kind: ServiceAccount
metadata:
  name: gpu-admission
  namespace: kube-system
---
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRoleBinding
metadata:
  name: gpu-admission-as-kube-scheduler
subjects:
- kind: ServiceAccount
  name: gpu-admission
  namespace: kube-system
roleRef:
  kind: ClusterRole
  name: system:kube-scheduler
  apiGroup: rbac.authorization.k8s.io
---
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRoleBinding
metadata:
  name: gpu-admission-as-volume-scheduler
subjects:
- kind: ServiceAccount
  name: gpu-admission
  namespace: kube-system
roleRef:
  kind: ClusterRole
  name: system:volume-scheduler
  apiGroup: rbac.authorization.k8s.io
---
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRoleBinding
metadata:
  name: gpu-admission-as-daemon-set-controller
subjects:
- kind: ServiceAccount
  name: gpu-admission
  namespace: kube-system
roleRef:
  kind: ClusterRole
  name: system:controller:daemon-set-controller
  apiGroup: rbac.authorization.k8s.io
---
apiVersion: apps/v1
kind: Deployment
metadata:
  labels:
    component: scheduler
    tier: control-plane
    app: gpu-admission
  name: gpu-admission
  namespace: kube-system
spec:
  selector:
    matchLabels:
      component: scheduler
      tier: control-plane
  replicas: 1
  template:
    metadata:
      labels:
        component: scheduler
        tier: control-plane
        version: second
    spec:
      serviceAccountName: gpu-admission
      containers:
      - image: thomassong/gpu-admission:47d56ae9
        name: gpu-admission
        env:
          - name: LOG_LEVEL
            value: "4"
        ports:
          - containerPort: 3456
      dnsPolicy: ClusterFirstWithHostNet
      hostNetwork: true
      priority: 2000000000
      priorityClassName: system-cluster-critical
---
apiVersion: v1
kind: Service
metadata:
  name: gpu-admission
  namespace: kube-system
spec:
  ports:
  - port: 3456
    protocol: TCP
    targetPort: 3456
  selector:
    app: gpu-admission
  type: ClusterIP

我为该deploy配置了一个service，之后就配置时就不用通过pod IP访问了（参考了https://cloud.tencent.com/developer/article/1685122）：
为deploy再打一个标签

创建service

kubectl create -f gpu-admission.yaml

创建/etc/kubernetes/scheduler-policy-config.json，如下：

{
    "kind": "Policy",
    "apiVersion": "v1",
    "predicates": [
        {
            "name": "PodFitsHostPorts"
        },
        {
            "name": "PodFitsResources"
        },
        {
            "name": "NoDiskConflict"
        },
        {
            "name": "MatchNodeSelector"
        },
        {
            "name": "HostName"
        }
    ],
    "priorities": [
        {
            "name": "BalancedResourceAllocation",
            "weight": 1
        },
        {
            "name": "ServiceSpreadingPriority",
            "weight": 1
        }
    ],
    "extenders": [
        {
            "urlPrefix": "http://gpu-admission.kube-system:3456/scheduler",
            "apiVersion": "v1beta1",
            "filterVerb": "predicates",
            "enableHttps": false,
            "nodeCacheCapable": false
        }
    ],
    "hardPodAffinitySymmetricWeight": 10,
    "alwaysCheckAllPredicates": false
}

之后的过程与上述教程（https://www.jianshu.com/p/7d795bc226c7）完全一致。
创建/etc/kubernetes/scheduler-extender.yaml

apiVersion: kubescheduler.config.k8s.io/v1alpha1
kind: KubeSchedulerConfiguration
clientConnection:
  kubeconfig: "/etc/kubernetes/scheduler.conf"
algorithmSource:
  policy:
    file:
      path: "/etc/kubernetes/scheduler-policy-config.json"

修改/etc/kubernetes/manifests/kube-scheduler.yaml，修改完后kube-scheduler会自动重启，如下：

apiVersion: v1
kind: Pod
metadata:
  creationTimestamp: null
  labels:
    component: kube-scheduler
    tier: control-plane
  name: kube-scheduler
  namespace: kube-system
spec:
  containers:
  - command:
    - kube-scheduler
    - --authentication-kubeconfig=/etc/kubernetes/scheduler.conf
    - --authorization-kubeconfig=/etc/kubernetes/scheduler.conf
    - --bind-address=0.0.0.0
    - --feature-gates=TTLAfterFinished=true,ExpandCSIVolumes=true,CSIStorageCapacity=true,RotateKubeletServerCertificate=true
    - --kubeconfig=/etc/kubernetes/scheduler.conf
    - --leader-elect=true
    - --port=0
    - --config=/etc/kubernetes/scheduler-extender.yaml
    image: registry.cn-beijing.aliyuncs.com/kubesphereio/kube-scheduler:v1.22.10
    imagePullPolicy: IfNotPresent
    livenessProbe:
      failureThreshold: 8
      httpGet:
        path: /healthz
        port: 10259
        scheme: HTTPS
      initialDelaySeconds: 10
      periodSeconds: 10
      timeoutSeconds: 15
    name: kube-scheduler
    resources:
      requests:
        cpu: 100m
    startupProbe:
      failureThreshold: 24
      httpGet:
        path: /healthz
        port: 10259
        scheme: HTTPS
      initialDelaySeconds: 10
      periodSeconds: 10
      timeoutSeconds: 15
    volumeMounts:
    - mountPath: /etc/kubernetes/scheduler.conf
      name: kubeconfig
      readOnly: true
    - mountPath: /etc/localtime
      name: localtime
      readOnly: true
    - mountPath: /etc/kubernetes/scheduler-extender.yaml
      name: extender
      readOnly: true
    - mountPath: /etc/kubernetes/scheduler-policy-config.json
      name: extender-policy
      readOnly: true
  hostNetwork: true
  priorityClassName: system-node-critical
  securityContext:
    seccompProfile:
      type: RuntimeDefault
  volumes:
  - hostPath:
      path: /etc/kubernetes/scheduler.conf
      type: FileOrCreate
    name: kubeconfig
  - hostPath:
      path: /etc/localtime
      type: File
    name: localtime
  - hostPath:
      path: /etc/kubernetes/scheduler-extender.yaml
      type: FileOrCreate
    name: extender
  - hostPath:
      path: /etc/kubernetes/scheduler-policy-config.json
      type: FileOrCreate
    name: extender-policy
status: {}

该作者修改了3处地方，如下：
启动命令

挂载配置

卷配置

如果正常，修改完之后，调度器会自动重新创建：

如果没有创建，可以手动apply，然后就可以看到错误原因了。

查看结果

至此，集群中应该有如下几类Pod正常运行：

可以查看节点是否存在vGPU资源：

kubectl describe node <你的GPU节点>

可以自己部署个pod测试，如果成功的话，比如pytorch，应该会有如下输出：

（下图为当前分配了多少资源，与上图无关）

另外，本文安装完后容器内无法使用nvidia-smi，不过感觉不影响使用，如果需要该功能，可以参考https://github.com/tkestack/gpu-manager/issues/89

参考

腾讯开源vgpu方案gpu-manager安装教程
GPUManager虚拟化方案
超全超详细的安装nvidia显卡驱动教程
解决centos下安装显卡驱动出现的unable to find the kernel source tree等关于内核版本问题
如何关闭X Server，以避免在更新nVidia驱动程序时出错？
https://github.com/tkestack/gpu-manager/issues/138
https://github.com/tkestack/gpu-manager/issues/151
https://github.com/tkestack/gpu-manager/issues/89

K8S必问面试题之：K8S架构中每个组件的作用运维爱背锅 K8S面试题 kubernetes 架构容器 K8S面试题面试 devops 运维
微信关注运维爱背锅，用通俗易懂的方式教你运维K8S面试题：K8S架构中每个组件的作用大家好！今天我们来聊聊Kubernetes（简称K8S）中各个组件的作用，这是一道必问的面试题——各个组件就像一支分工明确的足球队，有人守门、有人射门，还有人负责喊战术。下面咱们就用“人话”拆解一下这些组件的职责。1.etcd：集群的“八卦的小本本”作用：分布式K-V（键值）存储数据库，专门记录集群的所有“秘密”，
EXILIUM×亚矩云手机：重构Web3虚拟生存法则，开启多端跨链元宇宙自由征途云云321 智能手机重构 web3
在链游与元宇宙赛道竞争加剧的当下，EXILIUM凭借其去中心化开放世界、链上资产确权与玩家自治经济系统，成为Web3原住民逃离“中心化牢笼”的首选之地。然而，其多链交互门槛高、跨设备身份管理复杂、链上安全风险频发等问题，让普通玩家与工作室陷入“自由与风险”的双重困境。亚矩云手机通过云端虚拟化架构、跨链协议兼容与零信任安全体系，为EXILIUM用户提供“链上自由”与“现实可控”的平衡方案，让元宇宙探
Docker 入门教程（七）：容器数据卷千233 Docker（for科研er）docker java eureka
文章目录Docker入门教程（七）：容器数据卷一、为什么需要数据卷？二、三种挂载方式示例：MySQL数据持久化三、数据卷容器模式（旧式技术）Docker入门教程（七）：容器数据卷一、为什么需要数据卷？容器默认的写层具有两个关键缺点：不持久：容器一旦被删除，数据也随之丢失不可共享：每个容器的数据互相隔离为了解决这个问题，Docker提供了数据卷（Volume）机制，将数据从容器中解耦出来，形成独立、
使用 Xinference 命令行工具（xinference launch）部署 Nanonets-OCR-s 没刮胡子 Linux服务器技术人工智能AI 软件开发技术实战专栏 ocr
使用Xinference命令行工具（xinferencelaunch）部署Nanonets-OCR-s一、核心优势与适用场景通过xinferencelaunch命令可直接在命令行完成模型部署，无需编写Python代码，适合快速验证或生产环境批量部署。二、部署步骤：从命令行启动模型1.确认环境与依赖已安装Xinference：pipinstall"xinference[all]"GPU显存≥9GB（
AingDesk开源免费的本地 AI 模型管理工具(搭建和调用MCP) 没刮胡子 Linux服务器技术软件开发技术实战专栏人工智能AI 开源人工智能 AI助手 mcp sse 知识库智能体
说明AingDesk是一款开源免费的本地AI模型管理工具，旨在简化AI模型部署流程并提升用户体验。AingDesk支持本地AI模型及API+知识库搭建。支持知识库、模型API、分享、联网搜索、智能体。✨产品亮点跨平台支持客户端支持Windows、macOS，服务端可通过Docker部署高效下载与网络优化自动选择最优下载线路，支持断点续传，提升大模型部署速度兼容OpenAIAPI格式，方便第三方模型
【Docker基础】Docker容器管理：docker stats及其参数详解 IT成长日记容器技术深度解析与实践 docker 容器运维 docker stats
目录1Docker监控概述2dockerstats基本用法2.1基本命令格式2.2常用操作示例3dockerstats参数详解3.1常用参数说明3.2输出字段解析3.3格式化输出示例4dockerstats工作原理4.1监控数据采集流程4.2数据源解析5常见问题解答5.1为什么CPU使用率会超过100%？5.2内存统计中的cache/buffer包含在哪里？5.3如何监控已停止的容器？6总结1Do
服务网格和 Istio 简介蹇之途容器化微服务 istio kubernetes 服务网格微服务 service mesh
文章目录一、什么是服务网格ServiceMesh1.1主要概念1.1.1、容器组织框架(Containerorchestratiobframework)1.1.2、Service与Service实例(ServiceInstance)1.1.3、Sidecar代理(SidecarProxy)1.1.4、服务发现(Servicediscovery)1.1.5、负载均衡(Loadbalancing)1.
容器化与微服务何遇mirror 服务器容器微服务
目录编辑第一节：容器化与微服务第二节：Docker与Kubernetes的介绍第三节：容器与传统虚拟化的对比第四节：微服务架构与虚拟化实际案例分析第一节：容器化与微服务容器化与微服务概述容器化是一种轻量级的虚拟化技术，它允许开发者将应用程序及其依赖项打包成一个可移植的容器。微服务架构则是一种将大型应用程序分解为小的、独立的服务的方法，这些服务可以独立部署、扩展和维护。容器化的优势轻量级：容器使用共
Aop和Ioc有什么关系？（面试简洁版）乞讨不是罪过面试 java 职场和发展
AOP（面向切面编程）和IoC（控制反转）是Spring框架的两大核心，它们既独立又协作，共同实现松耦合、可扩展的架构设计。以下是它们的核心关系基础关系1.IoC是基石：Spring通过IoC容器（如ApplicationContext）统一管理所有Bean（包括普通业务Bean和AOP代理对象）。没有IoC，AOP无法自动生效。2.AOP是增强：AOP基于IoC管理的Bean，通过动态代理（JD
Unity纹理的性能优化东邪丶游戏开发图形学/渲染 unity 性能优化游戏引擎纹理贴图
https://developer.unity.cn/projects/6482ba86edbc2a116e4f27c1在Unity的储存方式大部分的纹理，Unity都会保存两份像素数据的副本：GPU内存：对应的数据对象为RenderTexture，是渲染所需的数据CPU内存：对应的数据对象为Texture，属于可选数据，又被成为可读纹理，用于读取/写入/控制像素数据在Unity不同位置的像素数据
计算机基础和Java编程的练习题柳依依@ Java入门 java 开发语言
1.计算机的核心硬件是什么？各自有什么用？中央处理器（CPU）：负责执行程序中的指令，进行算术和逻辑运算，是计算机的“大脑”。内存（RAM）：临时存储CPU正在处理的程序和数据，速度快但断电后数据丢失。硬盘（HDD/SSD）：永久存储操作系统、应用程序和用户数据，断电后数据不丢失。主板：连接所有硬件组件，提供数据传输的通道。显卡（GPU）：负责图形渲染，将数字信号转换为图像显示在屏幕上。电源：为计
Docker 方式安装 Zabbix 7.0 LTS 支持版本运维阿峰 Zabbix docker zabbix 容器
文章目录1.介绍（1）zabbix官网可用的docker镜像（2）zabbix镜像常用的挂载点2.安装配置zabbixserver3.配置1.介绍（1）zabbix官网可用的docker镜像在DockerHub中可用的镜像：//zabbixagentzabbix/zabbix-agent//zabbixserverzabbix/zabbix-server-mysqlzabbix/zabbix-se
sentinel 自定义 dashboard 用户名密码运维阿峰 sentinel sentinel python 开发语言
默认情况下，sentineldashboard用户名密码为sentinel/sentinel，这里我使用重写镜像的方式：//定义Dockerfile$catDockerfile#基于现有SentinelDashboard镜像FROMbladex/sentinel-dashboard:1.8.4#重新定义ENTRYPOINT，确保参数顺序正确ENTRYPOINT["java","-Djava.sec
云原生灰度方案对比：服务网格灰度（Istio ）与 K8s Ingress 灰度（Nginx Ingress ）大手你不懂微服务-云原生 Java Java项目实战云原生 istio kubernetes 微服务
服务网格灰度与KubernetesIngress灰度是云原生环境下两种主流的灰度发布方案，它们在架构定位、实现方式和适用场景上存在显著差异。以下从多个维度对比分析，并给出选型建议：一、核心区别对比维度服务网格灰度（以Istio为例）K8sIngress灰度（以NginxIngress为例）架构层级网络层（L7），工作在服务间通信层面边缘网关层，工作在集群入口处流量控制范围服务间的全链路流量集群外部
Python助力自动驾驶：深度学习模型优化全攻略 Echo_Wish Python！实战！python 自动驾驶深度学习
Python助力自动驾驶：深度学习模型优化全攻略说起自动驾驶，大家第一反应往往是“高精地图”“传感器融合”“路径规划”等等，背后真正的“大脑”其实是各式各样的深度学习模型。它们负责感知环境、识别路况、预测行为，甚至实时做出决策。可是，跑在车上的这些模型不仅要精准，还得轻量、实时、稳定，这可不是简单的“丢GPU就能解决”的问题。今天，咱们就从Python开发者的视角，聊聊自动驾驶里深度学习模型的优化
tensorRT 与 torchserve-GPU性能对比 joker-G 计算机视觉 pytorch python
实验对比前端时间搭建了TensorRT、Torchserve-GPU，最近抽时间将这两种方案做一个简单的实验对比。实验数据Cuda11.0、Xeon®62423.1*80、RTX309024G、Resnet50TensorRT、Torchserve-GPU各自一张卡搭建10进程接口，感兴趣的可以查看我个人其他文章。30进程并发、2000张1200*720像素图像的总量数据TensorRT的部署使用
Bitnami Postgresql镜像和Docker官方镜像的区别 MyySophia GP(GreenPlum 大规模并行数据库)docker postgresql 容器
Docker官方PostgreSQL镜像不支持复制。如果您传递任何复制环境变量，这将被忽略。Docker官方镜像支持的唯一环境变量是POSTGRES_USER、POSTGRES_DB、POSTGRES_PASSWORD、POSTGRES_INITDB_ARGS、POSTGRES_INITDB_WALDIR和PGDATA。所有剩余的环境变量都特定于BitnamiPostgreSQL映像。Bitnam
DataX（2）—— 核心流程申尧强 datax
DataX的核心执行流程：初始化阶段创建JobContainer容器（主控进程）加载配置，初始化reader/writer插件准备阶段调用reader/writer的prepare()方法执行数据源和目标端的准备工作任务切分阶段根据channel数切分reader任务根据reader切分结果切分writer任务合并生成最终task配置调度执行阶段分配task到各个taskGroup启动TaskGr
【4.23号更新，docker可用镜像源】2025最新 Docker 国内可用镜像源仓库地址尤物程序猿 docker 容器运维
好久没用docker突然镜像源不能用了，好像是国外封了好多。今天从网上找了可以用的，装载于猫头虎分享：2025最新Docker国内可用镜像源仓库地址（01月01日更新）-腾讯云开发者社区-腾讯云源地址适用于linux系统对于Linux用户，需要手动修改Docker的配置文件来添加镜像源：使用编辑器打开配置文件/etc/docker/daemon.json（如果没有该文件，可以新建一个）。将以下内容
如何设计一个高并发系统？从哪些方面考虑？真IT布道者架构性能优化分布式
核心观点：高并发系统设计需要从架构分层、资源扩展、性能优化、容错机制四个维度综合考量，通过分布式架构和异步化等手段实现系统弹性。一、架构分层设计1.分层解耦接入层：使用Nginx/LVS实现负载均衡，采用DNS轮询或Anycast进行流量分发服务层：微服务架构（如SpringCloud或Kubernetes），服务按功能垂直拆分数据层：读写分离（MySQL主从）+分库分表（ShardingSphe
容器挂载传播模式学习岳来 #容器运维学习 k8s 容器挂载传播
在容器技术中，挂载传播模式（MountPropagationMode）定义了挂载点在主机和容器之间的传播行为。它决定了当主机或容器中的挂载点发生变化时，这些变化是否会影响到其他挂载点。挂载传播模式在多容器共享挂载、动态挂载更新等场景中非常重要。以下是挂载传播模式的详细解释及其分类：1.挂载传播模式的作用挂载传播模式主要用于控制挂载点的变化如何在主机和容器之间传播。例如：当主机上新增一个挂载点时，是
SmartSoftHelp NetCoreApi+MySQL/Oracle/SqlServer 部署Windows/Linux--深度优化版：SmartSoftHelp DeepCore XSuite SmartSoftHelp魔法精灵工作室优化安全科技 mysql oracle sqlserver
NetCoreAPI优势明显：SmartSofHelp菜单之Net9API智能微代码(SmartNetCoreAIDeep)NetCoreAPI与数据库组合在Linux/Windows部署的深度分析一、跨平台部署基础架构对比组合类型Linux部署方案Windows部署方案NetCoreAPI+MySQLDocker+MySQLDockerImageIIS+MySQLInstaller(MSI)Ne
Python collections.abc模块介绍 qq_27390023 python 开发语言
collections.abc是Python标准库中的一个模块，提供了一系列抽象基类（AbstractBaseClasses,ABCs），用于定义和检查容器类型（如序列、映射、集合等）的接口。这些抽象基类为常见的数据结构提供了统一的接口和行为规范，使得开发者可以更方便地实现和使用这些数据结构。1.collections.abc的作用collections.abc模块的主要作用是提供一组抽象基类，用
Alluxio EnterpriseAI on K8s 部署教程 Alluxio kubernetes 容器云原生
AlluxioEnterpriseAIonK8s部署视频教程视频为AlluxioEnterpriseAIonK8s部署视频教程。下面内容将主要介绍如何通过Operator（Kubernetes管理应用程序的扩展）在Kubernetes上安装Alluxio。1.系统要求Kubernetes至少1.19版本的Kubernetes集群，支持特性门控确保集群的Kubernetes网络策略允许应用程序（Al
android launcher3,Android Launcher3 基本功能分析众卡之友 android launcher3
AndroidLauncher3基本功能分析1,界面的布局,从上往下分别为:DeleteDropTarget(应用卸载区域,它是一个DropTarget)Workspace(页面容器,一个页面是一个CellLayout)PageIndicator(指示器,指示workspace当前位于第几个页面)Hotseat(底部图标区域)2,Launcher桌面图标的加载:LauncherApplicatio
AI算力综述和资料整理木鱼时刻人工智能
目录总体介绍计算精度传输协议GPU池化资源调度CUDA技术GPU硬件参考链接总体介绍AI算力是人工智能系统的核心基础设施，涵盖了从计算精度、传输协议到硬件架构的完整技术栈。计算精度混合精度训练原生满血版DeepSeek671B是FP8精度。FP16在训练计算力占比有80-90%，FP32占比10%-20%。大模型训练中通常会用到FP16（半精度浮点数），但并不是只使用FP16，而是采用**混合精度
【PyTorch】2024保姆级安装教程-Python-（CPU+GPU详细完整版）金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 python pytorch 人工智能
【PyTorch】2024保姆级安装教程（CPU+GPU详细完整版）PyTorch是当前最受欢迎的深度学习框架之一。本文将详细讲解在Python环境中安装PyTorch，包括CPU和GPU版本的全方位指南。一、前置环境首先确保已安装Python环境，推荐使用Python3.8或以上版本。验证Python安装：python--versionpip--version推荐使用虚拟环境（如conda或ve
Bootstrap 5学习教程，从入门到精通，Bootstrap 5 侧边栏导航(Offcanvas) 语法知识点及案例（26）知识分享小能手 Bootstrap5 前端开发网页开发 bootstrap 学习前端 typescript javascript html css
Bootstrap5侧边栏导航(Offcanvas)语法知识点及案例一、Offcanvas语法知识点1.基本结构Offcanvas由以下几个主要部分组成：触发按钮（通常带有data-bs-toggle="offcanvas"属性）Offcanvas容器（带有.offcanvas类）关闭按钮（通常放在offcanvas内部）2.核心类.offcanvas:主容器.offcanvas-start/.o
Bootstrap 5学习教程，从入门到精通，Bootstrap 5 滚动监听（Scrollspy）语法知识点及案例代码（25）知识分享小能手网页开发 Bootstrap5 前端开发 bootstrap 学习前端 javascript typescript html css
Bootstrap5滚动监听（Scrollspy）语法知识点及案例代码Bootstrap5的Scrollspy组件允许根据用户的滚动位置自动更新导航链接的激活状态。这对于创建具有固定导航栏的单页网站特别有用，能够提升用户体验和导航的便捷性。一、Scrollspy语法知识点1.基本结构要使用Scrollspy，需要以下几个关键部分：导航栏（Navbar）：包含指向页面不同部分的链接。目标容器（Tar
Web中间件性能调优指南：线程池、长连接与负载均衡的最佳实践编程实战派-李工《Java 负载均衡中间件优化 Tomcat调优 Nginx配置性能工程线程池技术 Keep-Alive优化
目录引言一、Web容器线程池配置不当1.1线程池参数的核心作用与影响1.2线程池大小计算模型1.3动态调优实践二、Keep-Alive机制配置缺陷2.1Keep-Alive的工作原理2.2典型配置问题与影响2.3优化配置建议三、负载均衡策略缺失3.1负载均衡的核心价值3.2主流负载均衡算法对比3.3Nginx关键配置优化四、全链路压测与调优方案4.1压测实施流程4.2典型优化案例4.3持续监控体系
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方