KubeSphere 云原生

使用 GPU-Operator 与 KubeSphere 简化深度学习训练与 GPU 监控

本文将从 GPU-Operator 概念介绍、安装部署、深度训练测试应用部署，以及在 KubeSphere 使用自定义监控面板对接 GPU 监控，从原理到实践，逐步浅析介绍与实践 GPU-Operator。

GPU-Operator简介

众所周知，Kubernetes 平台通过设备插件框架提供对特殊硬件资源的访问，如 NVIDIA GPU、网卡、Infiniband 适配器和其他设备。然而，使用这些硬件资源配置和管理节点需要配置多个软件组件，如驱动程序、容器运行时或其他依赖库，这是困难的和容易出错的。

NVIDIA GPU Operator 由 Nvidia 公司开源，利用了 Kubernetes 平台的 Operator 控制模式，方便地自动化集成管理 GPU 所需的 NVIDIA 设备组件，有效地解决了上述GPU设备集成的痛点。这些组件包括 NVIDIA 驱动程序(用于启用 CUDA )、用于 GPU 的 Kubernetes 设备插件、NVIDIA Container 运行时、自动节点标签、基于 DCGM 的监控等。

NVIDIA GPU Operator 的不仅实现了设备和组件一体化集成，而且它管理 GPU 节点就像管理 CPU 节点一样方便，无需单独为 GPU 节点提供特殊的操作系统。值得关注的是，它将GPU各组件容器化，提供 GPU 能力，非常适合快速扩展和管理规模 GPU 节点。当然，对于已经为GPU组件构建了特殊操作系统的应用场景来说，显得并不是那么合适了。

GPU-Operator 架构原理

前文提到，NVIDIA GPU Operator 管理 GPU 节点就像管理 CPU 节点一样方便，那么它是如何实现这一能力呢？

我们一起来看看 GPU-Operator 运行时的架构图：

通过图中的描述，我们可以知道， GPU-Operator 是通过实现了 Nvidia 容器运行时，以runC作为输入，在runC中preStart hook中注入了一个名叫nvidia-container-toolkit的脚本，该脚本调用libnvidia-container CLI设置一系列合适的flags，使得容器运行后具有 GPU 能力。

GPU-Operator 安装说明

前提条件

在安装 GPU Operator 之前，请配置好安装环境如下：

所有节点不需要预先安装NVIDIA组件(driver,container runtime,device plugin)；
所有节点必须配置Docker,cri-o, 或者containerd.对于 docker 来说，可以参考这里；
如果使用HWE内核(e.g. kernel 5.x) 的 Ubuntu 18.04 LTS 环境下,需要给nouveau driver添加黑名单，需要更新initramfs；

$ sudo vim /etc/modprobe.d/blacklist.conf # 在尾部添加黑名单
blacklist nouveau
options nouveau modeset=0
$ sudo update-initramfs -u
$ reboot
$ lsmod | grep nouveau # 验证nouveau是否已禁用
$ cat /proc/cpuinfo | grep name | cut -f2 -d: | uniq -c  #本文测试时处理器架构代号为Broadwell
16 Intel Core Processor (Broadwell)

节点发现(NFD) 需要在每个节点上配置，默认情况会直接安装，如果已经配置，请在Helm chart变量设置nfd.enabled为false, 再安装;
如果使用 Kubernetes 1.13和1.14, 需要激活 KubeletPodResources；

支持的linux版本

OS Name / Version	Identifier	amd64 / x86_64	ppc64le	arm64 / aarch64
Amazon Linux 1	amzn1	X
Amazon Linux 2	amzn2	X
Amazon Linux 2017.09	amzn2017.09	X
Amazon Linux 2018.03	amzn2018.03	X
Open Suse Leap 15.0	sles15.0	X
Open Suse Leap 15.1	sles15.1	X
Debian Linux 9	debian9	X
Debian Linux 10	debian10	X
Centos 7	centos7	X	X
Centos 8	centos8	X	X	X
RHEL 7.4	rhel7.4	X	X
RHEL 7.5	rhel7.5	X	X
RHEL 7.6	rhel7.6	X	X
RHEL 7.7	rhel7.7	X	X
RHEL 8.0	rhel8.0	X	X	X
RHEL 8.1	rhel8.1	X	X	X
RHEL 8.2	rhel8.2	X	X	X
Ubuntu 16.04	ubuntu16.04	X	X
Ubuntu 18.04	ubuntu18.04	X	X	X
Ubuntu 20.04	ubuntu20.04	X	X	X

支持的容器运行时

OS Name / Version	amd64 / x86_64	ppc64le	arm64 / aarch64
Docker 18.09	X	X	X
Docker 19.03	X	X	X
RHEL/CentOS 8 podman	X
CentOS 8 Docker	X
RHEL/CentOS 7 Docker	X

安装doker环境

可参考 Docker 官方文档

安装NVIDIA Docker

配置 stable 仓库和 GPG key :

$ distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \
&& curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add - \
&& curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list

更新软件仓库后安装nvidia-docker2并添加运行时配置：

$ sudo apt-get update
$ sudo apt-get install -y nvidia-docker2
-----
What would you like to do about it ?  Your options are:
Y or I  : install the package maintainer's version
N or O  : keep your currently-installed version
D     : show the differences between the versions
Z     : start a shell to examine the situation
-----
# 初次安装，遇到以上交互式问题可选择N
# 如果选择Y会覆盖你的一些默认配置
# 选择N后，将以下配置添加到etc/docker/daemon.json
{
  "runtimes": {
      "nvidia": {
          "path": "/usr/bin/nvidia-container-runtime",
          "runtimeArgs": []
      }
  }
}

重启docker:

$ sudo systemctl restart docker

安装Helm

$ curl -fsSL -o get_helm.sh https://raw.githubusercontent.com/helm/helm/master/scripts/get-helm-3 \
   && chmod 700 get_helm.sh \
   && ./get_helm.sh

添加helm仓库

$ helm repo add nvidia https://nvidia.github.io/gpu-operator \
   && helm repo update

安装 NVIDIA GPU Operator

docker as runtime

$ kubectl create ns gpu-operator-resources
$ helm install gpu-operator nvidia/gpu-operator -n gpu-operator-resources --wait

如果需要指定驱动版本，可参考如下：

$ helm install gpu-operator nvidia/gpu-operator -n gpu-operator-resources \
--set driver.version="450.80.02"

crio as runtime

helm install gpu-operator nvidia/gpu-operator -n gpu-operator-resources\
   --set operator.defaultRuntime=crio

containerd as runtime

helm install gpu-operator nvidia/gpu-operator -n gpu-operator-resources\
   --set operator.defaultRuntime=containerd
   
Furthermore, when setting containerd as the defaultRuntime the following options are also available:
toolkit:
  env:
  - name: CONTAINERD_CONFIG
    value: /etc/containerd/config.toml
  - name: CONTAINERD_SOCKET
    value: /run/containerd/containerd.sock
  - name: CONTAINERD_RUNTIME_CLASS
    value: nvidia
  - name: CONTAINERD_SET_AS_DEFAULT
    value: true

由于安装的镜像比较大，所以初次安装过程中可能会出现超时的情形，请检查你的镜像是否在拉取中！可以考虑使用离线安装解决该类问题，参考离线安装的链接。

使用 values.yaml 安装

$ helm install gpu-operator nvidia/gpu-operator -n gpu-operator-resources -f values.yaml

考虑离线安装

应用部署

检查已部署 operator 服务状态

检查 pods 状态

$ kubectl get pods -n gpu-operator-resources
NAME                                                          READY   STATUS      RESTARTS   AGE
gpu-feature-discovery-4gk78                                   1/1     Running     0          35s
gpu-operator-858fc55fdb-jv488                                 1/1     Running     0          2m52s
gpu-operator-node-feature-discovery-master-7f9ccc4c7b-2sg6r   1/1     Running     0          2m52s
gpu-operator-node-feature-discovery-worker-cbkhn              1/1     Running     0          2m52s
gpu-operator-node-feature-discovery-worker-m8jcm              1/1     Running     0          2m52s
nvidia-container-toolkit-daemonset-tfwqt                      1/1     Running     0          2m42s
nvidia-dcgm-exporter-mqns5                                    1/1     Running     0          38s
nvidia-device-plugin-daemonset-7npbs                          1/1     Running     0          53s
nvidia-device-plugin-validation                               0/1     Completed   0          49s
nvidia-driver-daemonset-hgv6s                                 1/1     Running     0          2m47s

检查节点资源是否处于可分配

$ kubectl describe node worker-gpu-001
---
Allocatable:
  cpu:                15600m
  ephemeral-storage:  82435528Ki
  hugepages-2Mi:      0
  memory:             63649242267
  nvidia.com/gpu:     1  #check here
  pods:               110
---

部署官方文档中的两个实例

实例一

$ cat cuda-load-generator.yaml
apiVersion: v1
kind: Pod
metadata:
   name: dcgmproftester
spec:
   restartPolicy: OnFailure
   containers:
   - name: dcgmproftester11
   image: nvidia/samples:dcgmproftester-2.0.10-cuda11.0-ubuntu18.04
   args: ["--no-dcgm-validation", "-t 1004", "-d 120"]
   resources:
      limits:
         nvidia.com/gpu: 1
   securityContext:
      capabilities:
         add: ["SYS_ADMIN"]
EOF

实例二

$ curl -LO https://nvidia.github.io/gpu-operator/notebook-example.yml
$ cat notebook-example.yml
apiVersion: v1
kind: Service
metadata:
  name: tf-notebook
  labels:
    app: tf-notebook
spec:
  type: NodePort
  ports:
  - port: 80
    name: http
    targetPort: 8888
    nodePort: 30001
  selector:
    app: tf-notebook
---
apiVersion: v1
kind: Pod
metadata:
  name: tf-notebook
  labels:
    app: tf-notebook
spec:
  securityContext:
    fsGroup: 0
  containers:
  - name: tf-notebook
    image: tensorflow/tensorflow:latest-gpu-jupyter
    resources:
      limits:
        nvidia.com/gpu: 1
    ports:
    - containerPort: 8

基于 Jupyter Notebook 应用运行深度学习训练任务

部署应用

$ kubectl apply -f cuda-load-generator.yaml 
pod/dcgmproftester created
$ kubectl apply -f notebook-example.yml       
service/tf-notebook created
pod/tf-notebook created

查看 GPU 处于已分配状态:

$ kubectl describe node worker-gpu-001
---
Allocated resources:
  (Total limits may be over 100 percent, i.e., overcommitted.)
  Resource           Requests     Limits
  --------           --------     ------
  cpu                1087m (6%)   1680m (10%)
  memory             1440Mi (2%)  1510Mi (2%)
  ephemeral-storage  0 (0%)       0 (0%)
  nvidia.com/gpu     1            1 #check this
Events:

当有 GPU 任务发布给平台时，GPU 资源从可分配状态转变为已分配状态，安装任务发布的先后顺序，第二个任务在第一个任务运行结束后开始运行：

$ kubectl get pods --watch
NAME             READY   STATUS    RESTARTS   AGE
dcgmproftester   1/1     Running   0          76s
tf-notebook      0/1     Pending   0          58s
------
NAME             READY   STATUS      RESTARTS   AGE
dcgmproftester   0/1     Completed   0          4m22s
tf-notebook      1/1     Running     0          4m4s

获取应用端口信息：

$ kubectl get svc # get the nodeport of the svc, 30001
gpu-operator-1611672791-node-feature-discovery   ClusterIP   10.233.10.222           8080/TCP       12h
kubernetes                                       ClusterIP   10.233.0.1              443/TCP        12h
tf-notebook                                      NodePort    10.233.53.116           80:30001/TCP   7m52s

查看日志，获取登录口令：

$ kubectl logs tf-notebook 
[I 21:50:23.188 NotebookApp] Writing notebook server cookie secret to /root/.local/share/jupyter/runtime/notebook_cookie_secret
[I 21:50:23.390 NotebookApp] Serving notebooks from local directory: /tf
[I 21:50:23.391 NotebookApp] The Jupyter Notebook is running at:
[I 21:50:23.391 NotebookApp] http://tf-notebook:8888/?token=3660c9ee9b225458faaf853200bc512ff2206f635ab2b1d9
[I 21:50:23.391 NotebookApp]  or http://127.0.0.1:8888/?token=3660c9ee9b225458faaf853200bc512ff2206f635ab2b1d9
[I 21:50:23.391 NotebookApp] Use Control-C to stop this server and shut down all kernels (twice to skip confirmation).
[C 21:50:23.394 NotebookApp]
   To access the notebook, open this file in a browser:
      file:///root/.local/share/jupyter/runtime/nbserver-1-open.html
   Or copy and paste one of these URLs:
      http://tf-notebook:8888/?token=3660c9ee9b225458faaf853200bc512ff2206f635ab2b1d9
   or http://127.0.0.1:8888/?token=3660c9ee9b225458faaf853200bc512ff2206f635ab2b1d9

运行深度学习任务

进入jupyter notebook 环境后，尝试进入终端，运行深度学习任务：

进入terminal后拉取tersorflow测试代码并运行：

与此同时，开启另外一个终端运行nvidia-smi查看 GPU 监控使用情况：

利用 KubeSphere 自定义监控功能监控 GPU

部署 ServiceMonitor

gpu-operator帮我们提供了nvidia-dcgm-exporter这个exportor, 只需要将它集成到Prometheus的可采集对象中，也就是ServiceMonitor中，我们就能获取GPU监控数据了:

$ kubectl get pods -n gpu-operator-resources
NAME                                       READY   STATUS      RESTARTS   AGE
gpu-feature-discovery-ff4ng                1/1     Running     2          15h
nvidia-container-toolkit-daemonset-2vxjz   1/1     Running     0          15h
nvidia-dcgm-exporter-pqwfv                 1/1     Running     0          5h27m #here
nvidia-device-plugin-daemonset-42n74       1/1     Running     0          5h27m
nvidia-device-plugin-validation            0/1     Completed   0          5h27m
nvidia-driver-daemonset-dvd9r              1/1     Running     3          15h

可以构建一个busybox查看该exporter暴露的指标:

$ kubectl get svc -n gpu-operator-resources
NAME                                  TYPE        CLUSTER-IP      EXTERNAL-IP   PORT(S)    AGE
gpu-operator-node-feature-discovery   ClusterIP   10.233.54.111           8080/TCP   56m
nvidia-dcgm-exporter                  ClusterIP   10.233.53.196           9400/TCP   54m
$ kubectl exec -it busybox-sleep -- sh
$ wget http://nvidia-dcgm-exporter.gpu-operator-resources:9400/metrics
$ cat metrics
----
DCGM_FI_DEV_SM_CLOCK{gpu="0",UUID="GPU-eeff7856-475a-2eb7-6408-48d023d9dd28",device="nvidia0",container="tf-notebook",namespace="default",pod="tf-notebook"} 405
DCGM_FI_DEV_MEM_CLOCK{gpu="0",UUID="GPU-eeff7856-475a-2eb7-6408-48d023d9dd28",device="nvidia0",container="tf-notebook",namespace="default",pod="tf-notebook"} 715
DCGM_FI_DEV_GPU_TEMP{gpu="0",UUID="GPU-eeff7856-475a-2eb7-6408-48d023d9dd28",device="nvidia0",container="tf-notebook",namespace="default",pod="tf-notebook"} 30
----

查看nvidia-dcgm-exporter暴露的svc和ep：

$ kubectl describe svc nvidia-dcgm-exporter -n gpu-operator-resources
Name:                     nvidia-dcgm-exporter
Namespace:                gpu-operator-resources
Labels:                   app=nvidia-dcgm-exporter
Annotations:              prometheus.io/scrape: true
Selector:                 app=nvidia-dcgm-exporter
Type:                     NodePort
IP:                       10.233.28.200
Port:                     gpu-metrics  9400/TCP
TargetPort:               9400/TCP
NodePort:                 gpu-metrics  31129/TCP
Endpoints:                10.233.84.54:9400
Session Affinity:         None
External Traffic Policy:  Cluster
Events:

配置ServiceMonitor定义清单:

$ cat custom/gpu-servicemonitor.yaml 
apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:
  name: nvidia-dcgm-exporter
  namespace: gpu-operator-resources 
  labels:
     app: nvidia-dcgm-exporter
spec:
  jobLabel: nvidia-gpu
  endpoints:
  - port: gpu-metrics
    interval: 15s
  selector:
    matchLabels:
      app: nvidia-dcgm-exporter
  namespaceSelector:
    matchNames:
    - gpu-operator-resources
$ kubectl apply -f custom/gpu-servicemonitor.yaml

检查 GPU 指标是否被采集到（可选）

将servicemonitor提交给kubesphere平台后，通过暴露prometheus-k8s为NodePort，我们可以在Prometheus的UI上验证一下是否采集到的相关指标：

创建 KubeSphere GPU 自定义监控面板

`KubeSphere 3.0`

如果部署的 KubeSphere 版本是KubeSphere 3.0，需要简单地配置以下几个步骤，便可顺利完成可观察性监控。

首先，登录kubsphere console后，创建一个企业空间名称为ks-monitoring-demo, 名称可按需创建;

其次，需要将ServiceMonitor所在的目标名称空间gpu-operator-resources分配为已存在的企业空间中，以便纳入监控。

最后，进入目标企业空间，在纳管的项目找到gpu-operator-resources, 点击后找到可自定义监控界面, 即可添加自定义监控。

后续版本

后续版本可选择添加集群监控

创建自定义监控

下载dashboard以及配置namespace:

$ curl -LO https://raw.githubusercontent.com/kubesphere/monitoring-dashboard/master/contrib/gallery/nvidia-gpu-dcgm-exporter-dashboard.yaml
$ cat nvidia-gpu-dcgm-exporter-dashboard.yaml
----
apiVersion: monitoring.kubesphere.io/v1alpha1
kind: Dashboard
metadata:
  name: nvidia-dcgm-exporter-dashboard-rev1
  namespace: gpu-operator-resources  # check here
spec:
-----

可以直接命令行apply或者在自定义监控面板中选择编辑模式进行导入：

正确导入后：

在上面创建的jupyter notebook运行深度学习测试任务后，可以明显地观察到相关GPU指标变化：

卸载

$ helm list -n gpu-operator-resources
NAME            NAMESPACE               REVISION        UPDATED                                 STATUS          CHART                   APP VERSION
gpu-operator    gpu-operator-resources  1               2021-02-20 11:50:56.162559286 +0800 CST deployed        gpu-operator-1.5.2      1.5.2     
$ helm uninstall gpu-operator -n gpu-operator-resources

重启无法使用 GPU

关于已部署正常运行的gpu-operator和AI应用的集群，重启GPU主机后会出现没法用上 GPU 的情况，极有可能是因为插件还没加载，应用优先进行了载入，就会导致这种问题。这时，只需要优先保证插件运行正常，然后重新部署应用即可。

GPU-Operator 常见问题

GPU-Operator 重启后无法使用

答：关于已部署正常运行的gpu-operator和 AI 应用的集群，重启 GPU 主机后会出现没法用上 GPU 的情况，极有可能是因为插件还没加载，应用优先进行了载入，就会导致这种问题。这时，只需要优先保证插件运行正常，然后重新部署应用即可。

Nvidia k8s-device-plugin 与 GPU-Operator 方案对比？

我之前针对GPU使用的是 https://github.com/NVIDIA/k8s-device-plugin 和 https://github.com/NVIDIA/gpu-monitoring-tools 相结合的方案来监控 GPU，请问这个方案与 GPU-Operator的方案相比，孰优孰劣一些？

答：个人认为 GPU-Operator 更简单易用，其自带 GPU 注入能力不需要构建专用的 OS，并且支持节点发现与可插拔，能够自动化集成管理 GPU 所需的 NVIDIA 设备组件，相对来说还是很省事的。

有没有 KubeSphere 自定义监控的详细使用教程？

答：可以参考 KubeSphere 官方文档来使用自定义监控。

参考资料

官方代码仓库

GitHub: https://github.com/NVIDIA/gpu-operator
GitLab: https://gitlab.com/nvidia/kubernetes/gpu-operator

官方文档

GPU-Operator 快速入门：https://docs.nvidia.com/datacenter/cloud-native/gpu-operator/getting-started.html#install-nvidia-gpu-operator
GPU-Operator 离线安装指南：https://docs.nvidia.com/datacenter/cloud-native/gpu-operator/getting-started.html#considerations-to-install-in-air-gapped-clusters
KubeSphere 自定义监控使用文档：https://kubesphere.com.cn/docs/project-user-guide/custom-application-monitoring/examples/monitor-mysql/

本文由博客一文多发平台 OpenWrite 发布！

你可能感兴趣的:(kubernetes,gpu,docker)

minikube 的 Kubernetes 入门教程--Dify NightReader minikube kubernetes 容器云原生
Dify是一款开源的大语言模型(LLM)应用开发平台。它融合了后端即服务（BackendasService）和LLMOps的理念，使开发者可以快速搭建生产级的生成式AI应用。即使你是非技术人员，也能参与到AI应用的定义和数据运营过程中。为什么使用Dify？你或许可以把LangChain这类的开发库（Library）想象为有着锤子、钉子的工具箱。与之相比，Dify提供了更接近生产需要的完整方案，Di
本地部署大语言模型-DeepSeek NightReader 语言模型人工智能自然语言处理
DeepSeek是国内顶尖AI团队「深度求索」开发的多模态大模型，具备数学推理、代码生成等深度能力，堪称"AI界的六边形战士"。HosteaseAMD9950X/96G/3.84TNVMe/1G/5IP/RTX4090GPU服务器提供多种计费模式。DeepSeek-R1-32B配置配置项规格要求CPU16核以上（如AMDRyzen9950）内存96GB硬盘960GB显卡24GB+显存（如RTX40
在 MacBook 上设置 DeepSeek R1 (8B) 的 3 个步骤知识大胖 NVIDIA GPU和大语言模型开发教程 deepseek ollama openwebui
简介DeepSeek最近发布了R1模型，该模型在本地AI推理方面表现出色。如果您希望在MacBook上运行它，Ollama提供了一种无缝的方式来下载和管理模型。此外，使用Docker，您可以设置WebUI以方便地与其交互。本指南将引导您逐步完成启动和运行所有操作的过程。推荐文章《24GBGPU中的DeepSeekR1：UnslothAI针对671B参数模型进行动态量化》权重1，DeepSeek类《
【随笔笔记】将mysql数据迁移到群晖NAS QTEASY量化交易随笔笔记笔记 mysql 数据库
将mysql数据迁移到群晖NAS情况和问题前提条件方法1，使用管道方式传递数据方法2，导出数据为文件，复制到NAS上再导入情况和问题原本大量的金融数据保存在电脑本地硬盘的mysql数据库中，随着数据量越来越大，电脑的硬盘吃紧，正好把我的群晖NAS升级到了DS923+并且增加了4T的存储空间，可以使用Docker安装mysql并且存储空间不再是个问题，因此打算将电脑中的数据全部迁移到群晖NAS中。这
DeepSeek 开源周五个开源项目，引领 AI 创新？ LaughingZhu 开源人工智能产品运营前端经验分享
DeepSeek，作为一家领先的中国AI公司，最近在其五天开源周（2025年2月24日至28日）中发布了五个关键项目。这些项目涵盖了AI基础设施、模型训练和数据处理的各个方面，旨在通过透明和社区驱动的创新推动AI发展。这也解释了为什么DeepSeek可以用低成本训练出高质量的模型。Day1:FlashMLA项目介绍FlashMLA是一个为HopperGPU设计的高效解码内核，专门用于大型语言模型（
在 Windows 上安装 Docker 雄哥007 docker 容器运维 windows
1前言要开始使用Docker，您首先需要在开发计算机上安装它。安装类型取决于您的操作系统。Windows10计算机上的安装与WindowsServer计算机上的安装不同。最低系统要求为进行了周年纪念更新的Windows10专业版或企业版（版本1607）、WindowsServer2016或WindowsServer2019。Docker上的Windows容器可以在两种不同的运行时隔离模式下运行：（
如何高效运行 DeepSeek-R1：分步指南知识大胖 NVIDIA GPU和大语言模型开发教程 deepseek janus pro ollama
简介DeepSeek-R1是一个功能强大的开源AI模型，但要高效运行它，需要仔细的硬件选择、优化和部署策略。无论您想在Mac上本地运行它，还是在云GPU上运行它，还是优化性能以供大规模使用，本指南都会逐步引导您完成所有操作。推荐文章《如何在本地电脑上安装和使用DeepSeekR-1》权重1，DeepSeek《Nvidia系列之使用NVIDIAIsaacSim和ROS2的命令行控制您的机器人》权重1
windows环境下，使用docker搭建redis集群一醉千秋 shell docker WebGIS web docker redis 容器
参考：https://blog.csdn.net/weixin_46594796/article/details/137864842https://www.cnblogs.com/niceyoo/p/14118146.html史上最详细Docker搭建RedisCluster集群环境值得收藏每步都有图，不用担心学不会-腾讯云开发者社区-腾讯云一、基础环境描述宿主机：192.168.8.209red
k8s面试题总结（六） a_j58 Kubernetes知识点汇总 kubernetes java 容器
1.说明一下kubernetes和docker的关系Docker的作用容器镜像管理：Docker可以将应用程序及其依赖打包成一个轻量级的、可移植的容器镜像。容器运行时：Docker提供了一个运行时环境，用于在主机上运行容器。Kubernetes的作用kubernetes是一个容器编排平台，主要用于管理大规模的容器化应用程序。Kubernetes和Docker的关系Docker负责容器的底层运行时：
在 Ubuntu20.04 上安装 Docker 并部署 Dify 奕997 ubuntu docker linux
1.安装Docker1.1更新系统软件包列表在终端执行以下命令更新软件包列表：sudoaptupdate1.2安装必要的依赖包为了能够通过HTTPS安装Docker，我们需要先安装一些必备包：sudoaptinstallapt-transport-httpsca-certificatescurlsoftware-properties-common1.3添加Docker官方GPG密钥执行以下命令，将
论文阅读笔记2 sixfrogs 论文阅读笔记论文阅读 cnn
OptimizingMemoryEfficiencyforDeepConvolutionalNeuralNetworksonGPUs1论文简介作者研究了CNN各层的访存效率，并揭示了数据结构和访存模式对CNN的性能影响。并提出了优化方法。2方法介绍2.1Benchmarks数据集：MNIST，CIFAR，ImageNetCNN：AlexNet，ZFNet，VGG2.2实验设置CPU：IntelXe
MinIO上传蹦跑的蜗牛 java
MinIO上传docker搭建minioxml配置文件yml配置文件获取yml配置参数minio配置上传服务类docker搭建minioversion:'3'services:minio:image:minio/minio:RELEASE.2023-04-13T03-08-07Zcontainer_name:minioports:#api端口-"9000:9000"#控制台端口-"9001:900
《AI大模型开发笔记》DeepSeek技术创新点 Richard Chijq AI大模型开发笔记人工智能笔记
一、DeepSeek横空出世DeepSeekV3以颠覆性技术架构创新强势破局！革命性的上下文处理机制实现长文本推理成本断崖式下降，综合算力需求锐减90%，开启高效AI新纪元！最新开源的DeepSeekV3模型不仅以顶尖基准测试成绩比肩业界SOTA模型，更以惊人的训练效率引发行业震动——仅耗费280万H800GPU小时（对应4e24FLOP@40%MFU）即达成巅峰性能。对比同级别Llama3-40
Vulkan：Vulkan与现代GPU架构_2024-07-20_17-11-33.Tex chenjj4003 游戏开发架构 java 开发语言网络服务器 linux 前端
Vulkan：Vulkan与现代GPU架构Vulkan简介Vulkan的历史与发展Vulkan是一个跨平台的2D和3D图形应用程序接口(API)，由KhronosGroup开发。Vulkan的设计旨在提供高性能的图形渲染，同时减少CPU的负载，允许开发者更直接地控制GPU的硬件资源。Vulkan的历史可以追溯到2012年，当时KhronosGroup开始规划一个全新的图形API，旨在解决OpenG
快速上手 Unstructured：安装、Docker部署及PDF文档解析示例大F的智能小课大模型理论和实战 docker pdf 容器
1.核心概念1.1Unstructured简介Unstructured是一个强大的Python库，专注于从非结构化数据中提取和预处理文本信息，广泛应用于PDF、Word文档、HTML等多种格式的文件处理。其核心功能包括分区、清理、暂存和分块，能够将复杂的非结构化文档转换为结构化输出，为后续的自然语言处理任务提供高质量的数据支持。分区功能：Unstructured能够将原始文档分解为标准的结构化元素
Flask在docker中运行 jackson_hou03 flask docker python
Flask在docker中运行FROMpython:3.11ADD./code/codeWORKDIR/codeRUNpipinstall-rrequirements.txt-ihttps://pypi.tuna.tsinghua.edu.cn/simple/CMD["python","/code/main.py"]dockerbuild-texecutor:1.0.0.
软件测试丨Docker容器网络模式详解霍格沃兹测试开发学社测试人社区 docker 网络容器软件测试测试开发
在Docker中，bridge、host和container是三种常见的网络模式，用于定义容器与主机及其他容器之间的网络通信方式。以下是它们的详细说明：1.Bridge模式Bridge模式是Docker默认的网络模式。在这种模式下，Docker会为每个容器创建一个虚拟网络接口，并将其连接到一个名为docker0的虚拟网桥上。容器通过这个网桥与主机和其他容器通信。特点：隔离性：每个容器都有自己的网络
kubernetes源码之kubelet初始化 buppt kubernetes源码学习 kubernetes docker go golang 云原生
从这篇开始阅读一下kubernetes的源码，kubernetes是使用cobra构建的，如果对cobra还不了解的，可以查看我的上篇文章。零基础入门Cobra---kubernetes源码学习必备kubernetes的源码先从kubelet开始看起。kubelet的启动文件在cmd/kubelet/kubelet.go，入口通过app.NewKubeletCommand()初始化了kubelet
【go】以Kubernetes中的 kubelet 为引思考go语言中共享状态的选择还没入门的大菜狗 kubernetes
由于kubelet因为有很多共享状态，所以彻底按照单一职责进行拆分。于是现在总结一下kubelet中关于共享状态的类型、并且选择的原因。KubernetesKubelet共享状态模式的选择策略从您提供的Kubelet代码中，可以看到Kubernetes使用了多种共享状态管理模式。以下是这些模式的选择策略和适用场景：共享状态模式及其选择标准1.集中式管理器模式适用场景：特定领域的复杂状态管理（如Po
redis 快速入门栀夏613 数据库 redis 数据库缓存
目录数据库的分类NoSQL非结构化认识redis特征安装redis单机安装Docker安装redis的基本配置启动redis关闭redisredis开机自启redis客户端redis数据结构介绍基本类型String的基础操作List基本操作Set基本操作SortedSet基本操作Hash基本操作redis通用命令key的层级格式数据库的分类关系型数据库结构化数据表中存储的数据格式是一样的数据与数据
4.Docker容器命令钗头风 Docker docker 容器运维
Docker镜像与容器的理解在学习docker入门过程中有些时候容易把容器和镜像这两个概念记混淆;下面说下我自己的理解不对望指正！有镜像才能创建容器这是根本前提！IMAGE镜像就好比我们的Java实体工程代码;在服务器上这套Java实体代码可以运行启动多份工程。依靠Java实体代码启动的一个个工程就相当于是容器;准备工作：使用dockerpullubuntu命令拉取一个最新的ubuntu镜像;使用
The connection to the server localhost:8080 was refused tianluke9 错误谨记 kubernetes
最近在学习安装Kubernetes集群的时候，安装完执行sudokubectlgetnodes命令出现这个报错：下面是解决方法。Master节点出现这个报错首先需要检查Master安装完Kubernetes后是否执行了下面命令。需要注意到是：如果整个过程都是在普通用户下使用sudo安装，则仍然需要在普通用户下执行了下面命令；如果整个过程都在root用户下安装，则还在root用户下执行了下面命令。m
CIDR转IP段：原理&Java实现伏羲栈 Java tcp/ip java 网络协议
博主简介：CSDN博客专家，历代文学网（PC端可以访问：https://literature.sinhy.com/#/?__c=1000，移动端可微信小程序搜索“历代文学”）总架构师，15年工作经验，精通Java编程，高并发设计，Springboot和微服务，熟悉Linux，ESXI虚拟化以及云原生Docker和K8s，热衷于探索科技的边界，并将理论知识转化为实际应用。保持对新技术的好奇心，乐于分
23道 K8S 面试题奋斗喝咖啡 docker kubernetes 容器
1、k8s是什么？请说出你的了解？答：Kubernetes是一个针对容器应用，进行自动部署，弹性伸缩和管理的开源系统。主要功能是生产环境中的容器编排。K8S是Google公司推出的，它来源于由Google公司内部使用了15年的Borg系统，集结了Borg的精华。2、K8s架构的组成是什么？答：和大多数分布式系统一样，K8S集群至少需要一个主节点（Master）和多个计算节点（Node）。主节点主要
【go语言规范】Kubernetes 中kubelet关于接口的反模式、并且违背单一职责原则还没入门的大菜狗 kubelet
Go接口设计与KubernetesKubelet接口实现分析Go语言的接口理念是"在使用侧定义接口"（interfacesegregationprinciple），而不是让实现者提供接口。但在Kubelet代码中看到的情况确实有些特殊。//SyncHandlerisaninterfaceimplementedbyKubelet,fortestabilitytypeSyncHandlerinterf
【Kubernetes】 Scheduler 的逻辑：从 Predicates/Priorities 到 Filter/Score 还没入门的大菜狗 kubernetes
Kubernetes调度框架的演进：从Predicates/Priorities到Filter/ScoreKubernetes调度框架从传统的Predicates（预选）和Priorities（优选）转变为现代的Filter和Score扩展点是在Kubernetes1.15到1.18这个时期逐步完成的。演进时间线Kubernetes1.15(2019年6月发布)首次引入调度框架（Schedulin
Kubernetes-v1.26.3(kubeadm)部署 wxwopt kubelet
1.k8s基础系统环境配置1.1.环境准备CentOSLinuxrelease7.9.2009(Core)IPHOSTNAME操作系统192.168.10.131k8s-master01CentOS7.9192.168.10.132k8s-master02CentOS7.9192.168.10.133k8s-node01CentOS7.9注意：集群安装时会涉及到三个网段：宿主机网段：就是安装k8s
k8s面试题总结（五） a_j58 Kubernetes知识点汇总 kubernetes 容器云原生
1.考虑一种情况，即公司希望通过维持最低成本来提高其效率和技术运营速度。您认为公司将如何实现这一目标？公司可以通过构建CI/CD管道来实现DevOps方法，但是这里可能出现的一个问题是配置可能需要一段时间才能启动并运行。因此，在实施CI/CD管道之后，公司的下一步应该是在云环境中工作。一旦他们开始处理云环境，他们就可以在集群上安排容器，并可以在Kubernetes的帮助下进行协调。这种方法将有助于
CVAT标注工具使用与功能测试-Windows下（保姆式教程） Barry-mapping docker 计算机视觉 windows
目录一、安装所需要环境1.1、项目介绍（项目下载地址）1.2、Vue环境配置1.3、配置docker(Windows下)二、CVAT安装和使用2.1、CVAT安装2.2、CVAT使用2.2.1、创建用户（account）2.2.2、基本选项设置（Settings）2.2.3、创建工程（Createanewproject）2.2.4、创建任务（Createanewtask）2.2.5、开始标注（St
【k8s面试】超详细kubernetes面试题总结，面试必问!（附200道K8s Docker面试真题+答案详解(1) 2024开发者程序员运维学习面试
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以点击这里获取！一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！******1、**简述ETCD及其特点？etc
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交