贫僧法号一枝花

nvidia-k8s-device-plugin源码分析

1.引言

nvidia-k8s-device-plugin代码由go语言编写，在此确实要赞叹一下go语言的简洁和强大，想必以后会有越来越多的人喜欢上这门语言。

当然，如果想了解一个程序的代码，首先梳理一下每个文件的作用：

1.main.go：作为程序入口

2.nvidia.go：放置所有调用了nvml有关的函数代码

3.watcher.go：定义监视器的代码

4.server.go：实现与k8s-device-plugin有关流程的代码

在server.go中定义了NvidiaDevicePlugin 结构体，该结构体成员作用如下：

type NvidiaDevicePlugin struct {
	devs   []*pluginapi.Device   # api.protobuf里定义的一个数组，每个成员包括设备ID和其health信息
	socket string   # nvidia-device-plugin监听端口路径，实际为/var/lib/kubelet/device-plugins/nvidia.sock

	stop   chan interface{}  # 接受启停命令的管道
	health chan *pluginapi.Device  # 接受不健康设备的管道，发来pluginapi.Device的结构

	server *grpc.Server   # grcpserver，用来保存于kubelet的通讯
}

2.执行逻辑

main.go作为程序入口，首次执行代码逻辑如下。

1.首先加载nvml库，如果没有问题进行下一步，有问题则报错

log.Println("Loading NVML")
	if err := nvml.Init(); err != nil {
		log.Printf("Failed to initialize NVML: %s.", err)
		log.Printf("If this is a GPU node, did you set the docker default runtime to `nvidia`?")
		log.Printf("You can check the prerequisites at: https://github.com/NVIDIA/k8s-device-plugin#prerequisites")
		log.Printf("You can learn how to set the runtime at: https://github.com/NVIDIA/k8s-device-plugin#quick-start")

		select {}
	} 
	defer func() { log.Println("Shutdown of NVML returned:", nvml.Shutdown()) }()

2.获得当前宿主机设备数量，若为0则log出等待信息

log.Println("Fetching d  evices.")
	if len(getDevices()) == 0 {                       
		log.Println("No devices found. Waiting indefinitely.")
		select {}
	}

3.创建对于/var/lib/kubelet/device-plugins/文件夹的fsnotify监视器watcher，监视了所有的文件更改操作。

log.Println("Starting FS watcher.")
	watcher, err := newFSWatcher(pluginapi.DevicePluginPath) //constants.go->"/var/lib/kubelet/device-plugins/"，监视了所有的文件更改操作
	if err != nil {
		log.Println("Failed to created FS watcher.")
		os.Exit(1)
	}
	defer watcher.Close()

4.创建系统调用信号监视器sigs，监视系统调用信号

defer watcher.Close()

	log.Println("Starting OS watcher.")
	sigs := newOSWatcher(syscall.SIGHUP, syscall.SIGINT, syscall.SIGTERM, syscall.SIGQUIT)  //监听信号，将系统的对应信号发送给sigs

5.监视deviceplugin的状态和系统信号，并作出相应反应

for循环L有两个功能块组成：

1）重启模块：

如果是第一次启动则创建新的NvidiaDevicePlugin结构体并填充信息，开启NvidiaDevicePlugin服务，否则停止之前的deviceplugin并重新创建

2）监视器模块：

针对watcher和sigs的传来不同信号的情况针对性处理，直至收到系统发来的停止信号则退出。

	restart := true
	var devicePlugin *NvidiaDevicePlugin

L:
	for {
		if restart {
			if devicePlugin != nil {
				devicePlugin.Stop()
			}
                    //如果还没有创建deviceplugin则创建，否则就停止原来的
			devicePlugin = NewNvidiaDevicePlugin() 
                    //返回一个结构体，里面包含NvidiaDevicePlugin{ devs，socket，stop，health}
			if err := devicePlugin.Serve(); err != nil {    
                    //开启NvidiaDevicePlugin的服务程序，并检查和kubelet的连通性，并
                    //开启健康监测，并向kubelet注册设备
				log.Println("Could not contact Kubelet, retrying. Did you enable the device plugin feature gate?")
				log.Printf("You can check the prerequisites at: https://github.com/NVIDIA/k8s-device-plugin#prerequisites")
				log.Printf("You can learn how to set the runtime at: https://github.com/NVIDIA/k8s-device-plugin#quick-start")
			} else {
				restart = false
			}
		}

		select {
		case event := <-watcher.Events:
			if event.Name == pluginapi.KubeletSocket && event.Op&fsnotify.Create == fsnotify.Create {
				log.Printf("inotify: %s created, restarting.", pluginapi.KubeletSocket)
				restart = true //若有重新创建的行为则重启
			}

		case err := <-watcher.Errors:  //出错则报错
			log.Printf("inotify: %s", err)

		case s := <-sigs:   //若有系统调用信号传来
			switch s {
			case syscall.SIGHUP:  //重启信号
				log.Println("Received SIGHUP, restarting.")
				restart = true
			default:   //其余信号都停止plugin服务
				log.Printf("Received signal \"%v\", shutting down.", s)
				devicePlugin.Stop()
				break L
			}
		}
	}

下面main.go中每个步骤中关键的函数：

分析之前我们先看一下main.go和nvidia.go同时引入的包pluginapi "k8s.io/kubernetes/pkg/kubelet/apis/deviceplugin/v1beta1"

，该路径下有一个api.pb.go和constants.go两个文件，包名同样为v1beta1，api.pb.go为grpc分析api.proto自动生成，constants.go中定义了很多接下来的要用到的常量，列举在这里

// \vendor\k8s.io\kubernetes\pkg\kubelet\apis\deviceplugin\v1beta1\constants.go
package v1beta1

const (
	// Healthy means that the device is healty
	Healthy = "Healthy"
	// UnHealthy means that the device is unhealthy
	Unhealthy = "Unhealthy"

	// Current version of the API supported by kubelet
	Version = "v1beta1"
	// DevicePluginPath is the folder the Device Plugin is expecting sockets to be on
	// Only privileged pods have access to this path
	// Note: Placeholder until we find a "standard path"
	DevicePluginPath = "/var/lib/kubelet/device-plugins/"
	// KubeletSocket is the path of the Kubelet registry socket
	KubeletSocket = DevicePluginPath + "kubelet.sock"
	// Timeout duration in secs for PreStartContainer RPC
	KubeletPreStartContainerRPCTimeoutInSecs = 30
)

var SupportedVersions = [...]string{"v1beta1"}

步骤1：

只有一个nvml.Init()，从字面意思可以知道是nvml进行了一些初始化操作。

步骤2：

1.getDevices()

// nvidia.go
func getDevices() []*pluginapi.Device {
	n, err := nvml.GetDeviceCount()
	check(err)

	var devs []*pluginapi.Device
	for i := uint(0); i < n; i++ {
		d, err := nvml.NewDeviceLite(i)
		check(err)
		devs = append(devs, &pluginapi.Device{
			ID:     d.UUID,
			Health: pluginapi.Healthy,
		})
	}

该函数定义在nvidia.go中，首先其调用了nvml.GetDeviceCount()获得当前宿主机设备数，将所有设备的信息加入devs数组，该数组每个成员是一个pluginapi.Device结构体，其ID被初始化为每个设备的UUID，Health字段初始化为"Healthy"（在constants.go中的const字段定义的Healthy = "Healthy"）

步骤3：

1.newFSWatcher(pluginapi.DevicePluginPath)

该函数定义在watchers.go中，其主要功能是创建一个监视pluginapi.DevicePluginPath路径下的文件变动的watcher并返回，从constants.go中的定义我们可以看到，其监视的路径为/var/lib/kubelet/device-plugins/，即同时监视了kubelet.sock和nvidia.sock

// watchers.go
func newFSWatcher(files ...string) (*fsnotify.Watcher, error) {
	watcher, err := fsnotify.NewWatcher()
	if err != nil {
		return nil, err
	}

	for _, f := range files {
		err = watcher.Add(f)
		if err != nil {
			watcher.Close()
			return nil, err
		}
	}

	return watcher, nil
}

步骤4：

1.newOSWatcher(syscall.SIGHUP, syscall.SIGINT, syscall.SIGTERM, syscall.SIGQUIT)

该函数同样定义在watchers.go中，其返回一个监视系统发来的SIGHUP、SIGINT、SIGTERM、SIGQUIT信号的watcher，该watcher实际上是一个只有一个缓存且成员为os.Signal的chan。main.go的L循环则监视该chan并做出相应的反应，

// watchers.go
func newOSWatcher(sigs ...os.Signal) chan os.Signal {
	sigChan := make(chan os.Signal, 1)
	signal.Notify(sigChan, sigs...)   //sigs:syscall.SIGHUP, syscall.SIGINT, syscall.SIGTERM, syscall.SIGQUIT,监听

	return sigChan
}

步骤5：

1. devicePlugin.Stop()

定义在server.go中，停止grcp服务并清理现场。

// server.go
func (m *NvidiaDevicePlugin) Stop() error {
	if m.server == nil {
		return nil
	}

	m.server.Stop()
	m.server = nil
	close(m.stop)

	return m.cleanup()
}

2.NewNvidiaDevicePlugin()

返回一个结构体，里面包含NvidiaDevicePlugin{ devs，socket，stop，health}，devs是getDevices()返回的devs，socket是server.go中定义的常量serverSock = pluginapi.DevicePluginPath + "nvidia.sock"，即/var/lib/kubelet/device-plugins/nvidia.sock，stop是一个可以接受任何类型输入的无缓存chan，health是可以可以接受*pluginapi.Device类型输入的无缓存chan，其主要作用的及时将不健康的device报告给kubelet。 //待确定

//server.go
func NewNvidiaDevicePlugin() *NvidiaDevicePlugin {
	return &NvidiaDevicePlugin{
		devs:   getDevices(),    //改
		socket: serverSock,
		stop:   make(chan interface{}),
		health: make(chan *pluginapi.Device),
	}
}

3.devicePlugin.Serve()

该函数是main.go中最重要的函数，其负责开启NvidiaDevicePlugin的服务程序，并开启健康监测，并向kubelet注册设备。

首先其调用了NvidiaDevicePlugin结构体的Start()方法，该方法定义在nvidia.go中，作用为开启NvidiaDevicePlugin的服务程序，检查和kubelet的连通性，并开启健康监测。

然后再调用NvidiaDevicePlugin结构体的Register(pluginapi.KubeletSocket, resourceName)方法，两个参数pluginapi.KubeletSocket是constants.go中的常量，值为/var/lib/kubelet/device-plugins/kubelet.sock，而resourceName是该函数中定义的一个常量，为"nvidia.com/gpu"，结合k8splugin的流程我们很容易知道这个函数的作用就是将"nvidia.com/gpu"这个资源类型通过kubelet.sock注册到kubelet上。

// nvidia.go
func (m *NvidiaDevicePlugin) Serve() error {
	err := m.Start()    //开启NvidiaDevicePlugin的服务程序，并开启健康监测
	if err != nil {
		log.Printf("Could not start device plugin: %s", err)
		return err
	}
	log.Println("Starting to serve on", m.socket)

	err = m.Register(pluginapi.KubeletSocket, resourceName)
	if err != nil {
		log.Printf("Could not register device plugin: %s", err)
		m.Stop()
		return err
	}
	log.Println("Registered device plugin with Kubelet")

	return nil
}

接下来我们深入分析Start()方法和Register()方法，这两个是k8s-plugin流程的核心。

首先我们回忆一下kubernetes实现plugin要求设备厂商遵从的机制（参考https://www.kubernetes.org.cn/4391.html）：

厂商自行实现一个管理设备资源的程序，部署到相应的节点上，我们称之为插件；
插件需要向kubelet注册，注册内容包含自己的endpoint(endpoint就是一个用于通信的地址)、version、resource_name和DevicePluginOptions类型的options，而即这个类型仅有pre_start_required一个bool型成员，注释解释的很明白，表示PreStartContainer这个操作是否要在每个container启动前调用，其实就是启动容器前先通知插件做一下准备，多一些扩展性
kubelet连接插件的endpoint，就此kubelet和插件就建立了联系；
kubelet监听/var/lib/kubelet/device-plugins/kubelet.sock(unix sockets)这个地址，插件监听的也是类似的地址，只是地址变成了/var/lib/kubelet/device-plugins/nvidia.sock

这样我们便可以明白Start()方法和Register()方法到底在做些什么

3.1 Start()

首先其调用cleanup()方法删除/var/lib/kubelet/device-plugins/nvidia.sock，接下来进行标准的grpc调用操作，首先绑定服务端程序监听的sock（nvidia.sock），然后注册一个新的grpc_server对象,赋值到NvidiaDevicePlugin的server成员上，然后注册该grpc服务，之后用go关键字起一个独立的监听服务，然后测试一下服务是否正常工作，然后再用go关键字启动独立的健康检测程序。

// server.go
// Start starts the gRPC server of the device plugin
func (m *NvidiaDevicePlugin) Start() error {
	//NvidiaDevicePlugin开启自身的grpc服务端程序
	err := m.cleanup()   //删除文件夹下存在的nvidia.sock
	if err != nil {
		return err
	}

	sock, err := net.Listen("unix", m.socket)   //创建服务端程序监听的sock
	if err != nil {
		return err
	}
	m.server = grpc.NewServer([]grpc.ServerOption{}...)  //注册一个新的grpc_server
	pluginapi.RegisterDevicePluginServer(m.server, m) //将deviceplugin这种类型的grpc服务指定由NvidiaDevicePlugin实现

	go m.server.Serve(sock)   //创建独立服务监听

	// Wait for server to start by launching a blocking connexion
	conn, err := dial(m.socket, 5*time.Second)    //?创建一个 gRPC channel 和服务器交互连接，试一下是否服务器是否创建成功
	if err != nil {
		return err
	}  //出问题则报错
	conn.Close()     //关闭连接

	go m.healthcheck()   //开始健康监测

	return nil
}

3.1.1 healthcheck()

healthcheck()同样定义在server.go中，目前健康检查仅支持xids，其首先定义了xids，是一个成员为pluginapi.Device的chan，然后用go关键字调用watchXIDs(ctx, m.devs, xids)，最后用一个for循环select做检查，若NvidiaDevicePlugin中stop收到信息，则调用cancel()函数并返回，若xids中有信息了，则将调用m.unhealth(dev)将其放入m.health成员管道中。

// server.go
func (m *NvidiaDevicePlugin) healthcheck() {
	disableHealthChecks := strings.ToLower(os.Getenv(envDisableHealthChecks))
	if disableHealthChecks == "all" {
		disableHealthChecks = allHealthChecks   //目前健康检测仅支持xids
	}

	ctx, cancel := context.WithCancel(context.Background())

	var xids chan *pluginapi.Device
	if !strings.Contains(disableHealthChecks, "xids") {
		xids = make(chan *pluginapi.Device)
		go watchXIDs(ctx, m.devs, xids)
	}

	for {
		select {
		case <-m.stop:                    //取消健康检查
			cancel()               
			return
		case dev := <-xids:              
			m.unhealthy(dev)              //如果xids中有内容了，则将其中的设备加入m.healthy中
		}
	}
}

3.1.1.1 watchXIDs(ctx context.Context, devs []*pluginapi.Device, xids chan<- *pluginapi.Device)

首先其调用nvml.RegisterEventForDevice(eventSet, nvml.XidCriticalError, d.ID)为每个设备开启驱动端的健康监测，然后根据驱动返回的设备状态码决定是否要把不健康设备传入NvidiaDevicePlugin的health成员管道中。

// nvidia.go
func watchXIDs(ctx context.Context, devs []*pluginapi.Device, xids chan<- *pluginapi.Device) {
	eventSet := nvml.NewEventSet()
	defer nvml.DeleteEventSet(eventSet)

	for _, d := range devs {    //为每一个devs开启驱动端健康检测
		err := nvml.RegisterEventForDevice(eventSet, nvml.XidCriticalError, d.ID)
		if err != nil && strings.HasSuffix(err.Error(), "Not Supported") {
			log.Printf("Warning: %s is too old to support healthchecking: %s. Marking it unhealthy.", d.ID, err)

			xids <- d
			continue
		}

		if err != nil {
			log.Panicln("Fatal:", err)
		}
	}

	for {
		select {
		case <-ctx.Done():
			return
		default:
		}  //如果工作完成了就退出健康检查

		e, err := nvml.WaitForEvent(eventSet, 5000)
		if err != nil && e.Etype != nvml.XidCriticalError {
			continue
		}  //错误不是致命错误进行新一轮

		// FIXME: formalize the full list and document it.
		// http://docs.nvidia.com/deploy/xid-errors/index.html#topic_4
		// Application errors: the GPU should still be healthy
		if e.Edata == 31 || e.Edata == 43 || e.Edata == 45 {
			continue
		}//健康的
        
		if e.UUID == nil || len(*e.UUID) == 0 {
			// All devices are unhealthy，将所有的设备号都放入xid——channel中并进行下一轮
			for _, d := range devs {
				xids <- d
			}
			continue
		}
        //有错误将所有有错误的设备都放进去
		for _, d := range devs {
			if d.ID == *e.UUID {
				xids <- d
			}
		}
	}
}

3.2 Register(pluginapi.KubeletSocket, resourceName)

Register(kubeletEndpoint, resourceName string)函数首先通过kubelet.sock建立与kubelet的连接，然后调用kubelet的服务端预预先定义的GRPC方法Register(context.Background(), reqt)方法，将pluginapi.RegisterRequest类型的设备信息reqt注册至kubelet，包括：

reqt := &pluginapi.RegisterRequest{
		Version:      pluginapi.Version,  // v1beta1
		Endpoint:     path.Base(m.socket), // /var/lib/kubelet/device-plugins/nvidia.sock
		ResourceName: resourceName,  // nvidia.com/gpu
	}

// server.go
// Register registers the device plugin for the given resourceName with Kubelet.
func (m *NvidiaDevicePlugin) Register(kubeletEndpoint, resourceName string) error {
	conn, err := dial(kubeletEndpoint, 5*time.Second)  //与kubelet建立连接
	if err != nil {
		return err
	}
	defer conn.Close()

	client := pluginapi.NewRegistrationClient(conn)   //获得并注册远程调用的注册方法
	reqt := &pluginapi.RegisterRequest{
		Version:      pluginapi.Version,
		Endpoint:     path.Base(m.socket),
		ResourceName: resourceName,
	} 

	_, err = client.Register(context.Background(), reqt)   //将设备信息注册到kubelet中
	if err != nil {
		return err
	}
	return nil
}

以上便是Nvidia-Device-Plugin中向kubelet注册插件操作、健康检查程序和插件端服务监听的建立过程，那么我们可以发现，上述代码实现了如何让kubelet发现自己，而根据k8s-deviceplugin的流程和proto的定义，k8s要求插件端实现ListAndWatch、Allocate、GetDevicePluginOptions和PreStartContainer四个操作用来被kubelet操作，下面我们看一下这四个方法是如何实现的，当然，他们都定义在server.go中。

1.ListAndWatch()

函数中先将getDeviceCount()函数发现的本机GPU设备发送给kubelet，然后一个for循环，里面的select关键字表明其在监控两个chan，一个是stop信号，另一个是health信号，如果health通道被填入内容，则说明有设备处于不健康的状态，那么将调用Send函数将设备号报告给kubelet。此处有个注释是FIXME，内容是现阶段无法让失效设备恢复，在未来版本应该会改进这个问题

// server.go
func (m *NvidiaDevicePlugin) ListAndWatch(e *pluginapi.Empty, s pluginapi.DevicePlugin_ListAndWatchServer) error {
	s.Send(&pluginapi.ListAndWatchResponse{Devices: m.devs})
    //先将本机初始化检测到的所有健康设备发送给kublet
	for {
		select {
		case <-m.stop:
			return nil
		case d := <-m.health:
			// FIXME: there is no way to recover from the Unhealthy state.
			d.Health = pluginapi.Unhealthy
			s.Send(&pluginapi.ListAndWatchResponse{Devices: m.devs})
		}
	}
}

2.Allocate()

该函数接受kubelet传来的设备分配请求reqs，并返回要在容器中设置的设备的环境变量NVIDIA_VISIBLE_DEVICES的值，其值是由多个设备ID由 ‘,' 连接而成的，结合nvidia-docker的代码我们可以知道，k8s-plugin和nvidia-docker之间的交互是通过环境变量发生的，nvidia-docker中的libnvidia-container的prestarthook在运行时通过容器的环境变量设置来决定mount哪一个设备进入容器，这是一个系统的解决方案问题，所以mount这个动作发生在nvidia-docker而不是k8s这里也情有可原。

// server.go
// Allocate which return list of devices.传回环境变量与nvidia进行交互
func (m *NvidiaDevicePlugin) Allocate(ctx context.Context, reqs *pluginapi.AllocateRequest) (*pluginapi.AllocateResponse, error) {
	devs := m.devs
	responses := pluginapi.AllocateResponse{}
	for _, req := range reqs.ContainerRequests {
		response := pluginapi.ContainerAllocateResponse{
			Envs: map[string]string{
				"NVIDIA_VISIBLE_DEVICES": strings.Join(req.DevicesIDs, ","),
			},
		}

		for _, id := range req.DevicesIDs {
			if !deviceExists(devs, id) {
				return nil, fmt.Errorf("invalid allocation request: unknown device: %s", id)
			}
		}

		responses.ContainerResponses = append(responses.ContainerResponses, &response)
	}

	return &responses, nil
}

3.PreStartContainer()

什么都没有返回，现在应该是还没有实现这个函数的需求

// server.go
func (m *NvidiaDevicePlugin) PreStartContainer(context.Context, *pluginapi.PreStartContainerRequest) (*pluginapi.PreStartContainerResponse, error) {
	return &pluginapi.PreStartContainerResponse{}, nil
}

4.GetDevicePluginOptions()

同样什么都没有返回

// server.go
func (m *NvidiaDevicePlugin) GetDevicePluginOptions(context.Context, *pluginapi.Empty) (*pluginapi.DevicePluginOptions, error) {

	return &pluginapi.DevicePluginOptions{}, nil
}

3.总结

梳理一下nvidia-device-plugin的整体逻辑：

1.getCount()函数通过调用NVML接口，列出当前主机的所有设备信息，从而调用事先定义grpc函数Register()，来向kubelet注册自己。

2.kubelet通过grpc调用nvidia-device-plugin实现的Allocate()函数，向容器注入待分配设备的环境变量信息，容器创建时nvidia-docker通过调用libcontainer的prestartHook获取环境变量信息，在容器中挂载对应的设备。

3.通过调用nvml实现了一个健康检查程序，该健康检查程序负责监控本机GPU设备的健康情况，如果某个设备出了问题，该健康检查程序通过向NvidiaDevicePlugin的health通道发送不健康设备的信息，此时触发ListAndWatch函数的报告程序，将不健康设备健康状态更新为不健康，通过grpc更新设备健康列表并从kubelet.sock发送给kubelet，kubelet收到不健康设备信息后将处理所有受到该设备影响的pod。

4.目前健康检查仅支持xids，且没有支持重新恢复健康状态的设备的重新注册。

如果有错误之处还望指出。

4.参考资料

1.https://www.kubernetes.org.cn/4391.html

2.nvidia-k8s-device-plugin源码：Latest commit 2d56964 on 23 Aug

3.nvidia-docker源码

你可能感兴趣的:(kubernetes,docker,k8s-plugin,kubernetes)

K8S必问面试题之：K8S架构中每个组件的作用运维爱背锅 K8S面试题 kubernetes 架构容器 K8S面试题面试 devops 运维
微信关注运维爱背锅，用通俗易懂的方式教你运维K8S面试题：K8S架构中每个组件的作用大家好！今天我们来聊聊Kubernetes（简称K8S）中各个组件的作用，这是一道必问的面试题——各个组件就像一支分工明确的足球队，有人守门、有人射门，还有人负责喊战术。下面咱们就用“人话”拆解一下这些组件的职责。1.etcd：集群的“八卦的小本本”作用：分布式K-V（键值）存储数据库，专门记录集群的所有“秘密”，
Docker 入门教程（七）：容器数据卷千233 Docker（for科研er）docker java eureka
文章目录Docker入门教程（七）：容器数据卷一、为什么需要数据卷？二、三种挂载方式示例：MySQL数据持久化三、数据卷容器模式（旧式技术）Docker入门教程（七）：容器数据卷一、为什么需要数据卷？容器默认的写层具有两个关键缺点：不持久：容器一旦被删除，数据也随之丢失不可共享：每个容器的数据互相隔离为了解决这个问题，Docker提供了数据卷（Volume）机制，将数据从容器中解耦出来，形成独立、
AingDesk开源免费的本地 AI 模型管理工具(搭建和调用MCP) 没刮胡子 Linux服务器技术软件开发技术实战专栏人工智能AI 开源人工智能 AI助手 mcp sse 知识库智能体
说明AingDesk是一款开源免费的本地AI模型管理工具，旨在简化AI模型部署流程并提升用户体验。AingDesk支持本地AI模型及API+知识库搭建。支持知识库、模型API、分享、联网搜索、智能体。✨产品亮点跨平台支持客户端支持Windows、macOS，服务端可通过Docker部署高效下载与网络优化自动选择最优下载线路，支持断点续传，提升大模型部署速度兼容OpenAIAPI格式，方便第三方模型
【Docker基础】Docker容器管理：docker stats及其参数详解 IT成长日记容器技术深度解析与实践 docker 容器运维 docker stats
目录1Docker监控概述2dockerstats基本用法2.1基本命令格式2.2常用操作示例3dockerstats参数详解3.1常用参数说明3.2输出字段解析3.3格式化输出示例4dockerstats工作原理4.1监控数据采集流程4.2数据源解析5常见问题解答5.1为什么CPU使用率会超过100%？5.2内存统计中的cache/buffer包含在哪里？5.3如何监控已停止的容器？6总结1Do
容器化与微服务何遇mirror 服务器容器微服务
目录编辑第一节：容器化与微服务第二节：Docker与Kubernetes的介绍第三节：容器与传统虚拟化的对比第四节：微服务架构与虚拟化实际案例分析第一节：容器化与微服务容器化与微服务概述容器化是一种轻量级的虚拟化技术，它允许开发者将应用程序及其依赖项打包成一个可移植的容器。微服务架构则是一种将大型应用程序分解为小的、独立的服务的方法，这些服务可以独立部署、扩展和维护。容器化的优势轻量级：容器使用共
Docker 方式安装 Zabbix 7.0 LTS 支持版本运维阿峰 Zabbix docker zabbix 容器
文章目录1.介绍（1）zabbix官网可用的docker镜像（2）zabbix镜像常用的挂载点2.安装配置zabbixserver3.配置1.介绍（1）zabbix官网可用的docker镜像在DockerHub中可用的镜像：//zabbixagentzabbix/zabbix-agent//zabbixserverzabbix/zabbix-server-mysqlzabbix/zabbix-se
sentinel 自定义 dashboard 用户名密码运维阿峰 sentinel sentinel python 开发语言
默认情况下，sentineldashboard用户名密码为sentinel/sentinel，这里我使用重写镜像的方式：//定义Dockerfile$catDockerfile#基于现有SentinelDashboard镜像FROMbladex/sentinel-dashboard:1.8.4#重新定义ENTRYPOINT，确保参数顺序正确ENTRYPOINT["java","-Djava.sec
云原生灰度方案对比：服务网格灰度（Istio ）与 K8s Ingress 灰度（Nginx Ingress ）大手你不懂微服务-云原生 Java Java项目实战云原生 istio kubernetes 微服务
服务网格灰度与KubernetesIngress灰度是云原生环境下两种主流的灰度发布方案，它们在架构定位、实现方式和适用场景上存在显著差异。以下从多个维度对比分析，并给出选型建议：一、核心区别对比维度服务网格灰度（以Istio为例）K8sIngress灰度（以NginxIngress为例）架构层级网络层（L7），工作在服务间通信层面边缘网关层，工作在集群入口处流量控制范围服务间的全链路流量集群外部
Bitnami Postgresql镜像和Docker官方镜像的区别 MyySophia GP(GreenPlum 大规模并行数据库)docker postgresql 容器
Docker官方PostgreSQL镜像不支持复制。如果您传递任何复制环境变量，这将被忽略。Docker官方镜像支持的唯一环境变量是POSTGRES_USER、POSTGRES_DB、POSTGRES_PASSWORD、POSTGRES_INITDB_ARGS、POSTGRES_INITDB_WALDIR和PGDATA。所有剩余的环境变量都特定于BitnamiPostgreSQL映像。Bitnam
【4.23号更新，docker可用镜像源】2025最新 Docker 国内可用镜像源仓库地址尤物程序猿 docker 容器运维
好久没用docker突然镜像源不能用了，好像是国外封了好多。今天从网上找了可以用的，装载于猫头虎分享：2025最新Docker国内可用镜像源仓库地址（01月01日更新）-腾讯云开发者社区-腾讯云源地址适用于linux系统对于Linux用户，需要手动修改Docker的配置文件来添加镜像源：使用编辑器打开配置文件/etc/docker/daemon.json（如果没有该文件，可以新建一个）。将以下内容
如何设计一个高并发系统？从哪些方面考虑？真IT布道者架构性能优化分布式
核心观点：高并发系统设计需要从架构分层、资源扩展、性能优化、容错机制四个维度综合考量，通过分布式架构和异步化等手段实现系统弹性。一、架构分层设计1.分层解耦接入层：使用Nginx/LVS实现负载均衡，采用DNS轮询或Anycast进行流量分发服务层：微服务架构（如SpringCloud或Kubernetes），服务按功能垂直拆分数据层：读写分离（MySQL主从）+分库分表（ShardingSphe
SmartSoftHelp NetCoreApi+MySQL/Oracle/SqlServer 部署Windows/Linux--深度优化版：SmartSoftHelp DeepCore XSuite SmartSoftHelp魔法精灵工作室优化安全科技 mysql oracle sqlserver
NetCoreAPI优势明显：SmartSofHelp菜单之Net9API智能微代码(SmartNetCoreAIDeep)NetCoreAPI与数据库组合在Linux/Windows部署的深度分析一、跨平台部署基础架构对比组合类型Linux部署方案Windows部署方案NetCoreAPI+MySQLDocker+MySQLDockerImageIIS+MySQLInstaller(MSI)Ne
Alluxio EnterpriseAI on K8s 部署教程 Alluxio kubernetes 容器云原生
AlluxioEnterpriseAIonK8s部署视频教程视频为AlluxioEnterpriseAIonK8s部署视频教程。下面内容将主要介绍如何通过Operator（Kubernetes管理应用程序的扩展）在Kubernetes上安装Alluxio。1.系统要求Kubernetes至少1.19版本的Kubernetes集群，支持特性门控确保集群的Kubernetes网络策略允许应用程序（Al
Docker安装Mysql、配置文件挂载、修改Mysql编码武昌库里写JAVA 面试题汇总与解析课程设计 spring boot vue.js java 学习
1.下载mysql镜像dockerpullmysql:5.72.查看镜像dockerimages3.启动mysql镜像#1.设置端口映射3306:3306、#2.设置文件挂载#3.设置mysql密码为“root”sudodockerrun-p3306:3306--namemysql\-v/mydata/mysql/mysql-files:/var/lib/mysql-files\-v/mydata
Docker-compose部署nacos集群及nginx实现负载均衡超级无敌约翰大王 nacos docker-compose docker 容器运维
目录一、环境二、部署过程1.docker和docker-compose部署2.拉取镜像3.创建网络4.创建目录5.启动数据库并导入sql6.启动7.配置nginx代理总结一、环境主机：centos7.9docker版本：24.0.6docker-compose版本：2.23.1nacos镜像版本：2.1.1数据库镜像版本：Mariadb10.5.16nginx镜像版本：1.24.0二、部署过程1.
ZooKeeper的使用和基于Curator的JavaAPI操作 Ruined_ofJoker java-zookeeper zookeeper 数据库
Docker下使用ZooKeeper在/usr/local/zookeeper目录下保存ZooKeeper数据与数据卷卷cd/usr/local&&mkdirzookeeper&&cdzookeepermkdirdata开始部署部署命令dockerrun-d-eTZ="Asia/Shanghai"-p2181:2181-v$PWD/data:/data--namezookeeper--restar
docker-compose部署nacos 青春不流名 docker 容器运维
1、docker-compose内容高版本的nacos使用docker启动，需要将所有的端口放开，仅仅开放8848端口，spring-boot客户端获取nacos配置的时候，可能取到的内容为空。version:'3'#定义自定义网络，确保服务间通信和外部访问networks:seata-network:driver:bridgeservices:mysql:image:mysql:8.0.33co
Docker 从入门到精通：运维工程师的容器化生存指南大模型大数据攻城狮运维 docker 容器 k8s 运维面试 dockerfile 虚拟化
目录第1章：Docker是什么？为什么它能改变运维的游戏规则？第2章：Docker安装与环境准备第3章：Docker常用命令入门第4章：Dockerfile的初探第5章：Docker网络的那些事儿第6章：数据持久化：让容器数据不“失忆”第7章：DockerCompose：多容器的“交响乐指挥家”第8章：进阶命令与运维技巧第9章：Docker与CI/CD：让部署快如闪电第10章：容器监控：让你的Do
【容器化技术 Docker 与微服务部署】详解架构学院 Java成神之路-架构师进阶 Java成神之路-JAVA入门 docker 微服务容器分布式中间件架构
容器化技术Docker与微服务部署无套路、关注即可领。持续更新中关注公众号：搜【架构研究站】回复：资料领取，即可获取全部面试题以及1000+份学习资料一、容器化技术概述（一）概念容器化技术是一种操作系统级别的虚拟化方法，它允许将应用程序及其依赖项（如运行时环境、系统工具、库等）打包成一个独立的、可移植的单元，这个单元就是容器。容器在运行时与宿主机共享操作系统内核，但又能在用户空间实现进程、网络、文
互联网大厂Java面试实战：严肃面试官与搞笑谢飞机的三轮提问 Fu Dun Yao Java场景面试宝典 Java 面试 JUC JVM 多线程线程池 HashMap
互联网大厂Java面试实战：严肃面试官与搞笑谢飞机的三轮提问本文通过一个面试故事，展示了互联网大厂Java求职者与严肃面试官的对话。面试官就Java核心技术、JUC、JVM、多线程、线程池、HashMap、ArrayList、Spring及相关框架、分布式技术、消息队列、中间件、数据库、Linux、Docker、设计模式及DDD等多个技术点，分三轮提问。求职者谢飞机偶尔能准确回答简单问题获得认可，
一招搞定自动化！手把手教你用Docker部署n8n工作流神器
摘要本文详解如何通过两条Docker命令快速搭建n8n自动化工作流平台，揭秘数据持久化的关键配置，助你轻松实现跨平台自动化操作，文末附赠实践小贴士。命令全解析1.数据存储奠基者dockervolumecreaten8n_data创建名为n8n_data的持久化存储卷用于保存工作流配置、密钥等关键数据️避免容器销毁时数据丢失（重要安全措施）2.容器启动魔法师dockerrun-it--rm--nam
关于docker的一些实践
{"registry-mirrors":["https://docker.registry.cyou","https://docker-cf.registry.cyou","https://dockercf.jsdelivr.fyi","https://docker.jsdelivr.fyi","https://dockertest.jsdelivr.fyi","https://mirror.al
【通过pip安装 Open-WebUI 快速使用入门】慕慕涵雪月光白 llama 代理模式
OpenWebUI是一个可扩展、功能丰富且用户友好的自托管AI平台，旨在完全离线操作。它支持各种LLM运行器，如Ollama和OpenAI兼容的API，内置RAG推理引擎，使其成为强大的AI部署解决方案。使用Docker快速入门如果Ollama在您的计算机上，请使用以下命令：dockerrun-d-p3000:8080--add-host=host.docker.internal:host-gat
【docker】离线部署docker-compose
简介记录一下安装docker-compose的步骤，首先表示安装的系统是centos，docker已经安装好了，本文采用的是离线安装的方式。网上使用的在线安装由于github网络时好时坏，所以只能采用离线安装的方式。参考文档。步骤1.进入到官网官网的链接是https://github.com/docker/compose/releases/tag/v2.18.1。注意这里的是2.18.1版本，可以
docker 命令 X1A0RAN docker 容器
镜像#1.查看镜像#列出所有本地镜像：dockerimages#列出详细信息：dockerimages--digests#查看特定镜像的详细信息：dockerinspect#2.拉取镜像#从DockerHub或其他注册中心拉取镜像：#dockerpull:#3.构建镜像#从Dockerfile构建镜像：dockerbuild-t:.#4.删除镜像#删除特定镜像：dockerrmi#强制删除镜像（如
nvidia-container-runtime离线包安装说明：快速部署NVIDIA容器环境盛罡城Rachel
nvidia-container-runtime离线包安装说明：快速部署NVIDIA容器环境【下载地址】nvidia-container-runtime离线包安装说明此项目为无网络环境下的用户提供了nvidia-container-runtime的离线安装包，极大简化了安装流程。通过简单的解压缩和rpm包安装，用户可以快速完成环境配置。安装完成后，仅需重启Docker容器即可生效。项目特别适合网络
科伦坡证券交易所（CSE）定制的全栈系统开发报告 Ashlee_guweng22346 python java perl docker 数据结构 emacs 算法
“全自动化交易平台”（CSE主席瓦吉拉·库拉提拉卡评价）的进化——订单处理延迟1Tbps）。容器化微服务：iSulad轻量容器引擎（内存开销6MB）实现Kubernetes秒级扩容，资源利用率提升70%，故障切换时间10ms，错失套利窗口。方案：鲲鹏低延迟引擎+InfiniBand网络。结果：时延降至0.5ms，套利收益年化提升22%。
docker网络_docker之间的网络协议 2401_89224733 网络 docker 网络协议
一、docker网络模式docker0网络docker容器的虚拟网关loopback:回环网卡、TCP/IP网卡virtualbridge:linux自身继承了一个虚拟化功能(kvm架构)，是原生架构的一个虚拟化平台，安装了一个虚拟化平台之后就会系统就会自动安装虚拟网卡。安装workstation(虚拟化平台)之后，会在网络适配器中会多出VMnet1VMnet8VMnet0)docker0:容器的
如何在 Manjaro Linux 上安装 Docker 容器
在ManjaroLinux上通过DockerHub安装、创建和运行Docker容器的简单步骤，以便在虚拟环境中使用各种应用程序。使用虚拟机有其自身的优势，它能够更好地利用硬件资源，节省成本和空间。然而，在传统虚拟机上运行每一个应用程序不仅耗时，还需要更多的资源。为了解决这一问题，Docker应运而生。它使我们能够在名为容器的虚拟化环境中即时运行应用程序。这些容器可以相互构建并相互通信……例如，这些
docker-compose配置文件解析疯狂吧小飞牛 docker 容器运维
原文地址：docker-compose配置文件解析–无敌牛欢迎参观我的个人博客：无敌牛–技术/著作/典籍/分享等我们在把服务docker化的时候，不仅需要把各个服务做成docker镜像，还需要编辑各个服务之间的启动方式。对于不需要暴露的端口，还需要通过虚拟网桥的方式，保证各个服务之间的正常通讯。这就需要用到docker-compose工具，并且需要编辑对应的DockerCompose配置文件来控制
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &