shuai_wow

Kubernetes平台配置Tensorflow的GPU集群

注：宿主机操作系统为Centos 7.4

安装nvidia驱动：

CentOS 7.4 Nvidia显卡安装步骤，Ubuntu 16.04安装见 Ubuntu 16.04 安装Nvidia 驱动：

1 在英伟达官网下载相应驱动：

http://www.nvidia.com/Download/index.aspx?lang=en-us

本文以Centos 7.4系统下为TeslaK40c安装cuda 8.0套件对应的nvidia驱动为例，按下图选择。

该驱动对应的下载链接如下：

http://us.download.nvidia.com/XFree86/Linux-x86_64/384.66/NVIDIA-Linux-x86_64-384.66.run

2 屏蔽默认带有的nouveau：

$ sudo vim /lib/modprobe.d/dist-blacklist.conf

将nvidiafb注释掉。

#blacklist nvidiafb

然后在文件尾添加以下语句：

blacklist nouveau

options nouveau modeset=0

对Ubuntu，修改/etc/modprobe.d/blacklist-nouveau.conf文件，在文件尾添加同样的内容

3 重建initramfs image步骤：

$ sudo mv /boot/initramfs-$(uname -r).img/boot/initramfs-$(uname -r).img.bak

$ sudo dracut /boot/initramfs-$(uname-r).img --force

对Ubuntu：

sudo update-initramfs -u

4 修改运行级别为文本模式：

$ sudo systemctl set-defaultmulti-user.target

可用以下指令查看是否设置成功（后面的数字为3即可，第一个数字是上次的设置）：

$ runlevel

对Ubuntu：

sudo /etc/init.d/lightdm stop
sudo init 3

5 重新启动, 使用root用户登陆：

$ sudo reboot

6 进入下载的驱动所在目录：

$ sudo chmod +x NVIDIA-Linux-x86_64-384.66.run

$ sudo ./NVIDIA-Linux-x86_64-384.66.run

安装过程中，选择accept，其余默认选择yes，安装DKMS内核模块和32位兼容库。

7 重新启动：

$ sudo reboot

8 验证，结果如下图则成功：

$ nvidia-smi

备注：

通过该方式安装nvidia驱动，卸载方式如下：

$ sudo ./NVIDIA-Linux-x86_64-384.66.run --uninstall

选择yes，出现error不影响，继续执行。卸载完后重启。

安装cuda和cuDNN：

1下载cuda Toolkit安装包：

https://developer.nvidia.com/cuda-80-ga2-download-archive

选择runfile（local），如下：

链接：

https://developer.nvidia.com/compute/cuda/8.0/Prod2/local_installers/cuda_8.0.61_375.26_linux-run

2安装指令如下：

$ sudo sh cuda_8.0.61_375.26_linux-run

出现readme，按q退出。安装选项如下，注意不要安装nvidia驱动！！！

如需卸载cuda，可执行(其他版本类似)

$ sudo /usr/local/cuda-8.0/bin/uninstall_cuda_8.0.pl

3下载cuDNN安装包，需要注册（这里选用cudnn-8.0-linux-x64-v6.0版，下载的后缀名可能不一样，直接改成.tgz就可以）：

https://developer.nvidia.com/cudnn

4 解压生成cuda文件夹：

$ tar -zxvf cudnn-8.0-linux-x64-v6.0.tgz

5 拷贝文件到CUDA安装目录：

$ sudo cp cuda/include/cudnn.h /usr/local/cuda/include

$ sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64

$ sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda/lib64/libcudnn*

6 配置环境变量：

$ vim ~/.bashrc

添加以下内容：

export CUDA_HOME=/usr/local/cuda

export PATH=/usr/local/cuda/bin:$PATH

export LD_LIBRARY_PATH=/usr/local/cuda/lib:/usr/local/cuda/lib64:$LD_LIBRARY_PATH

7执行以下指令：

$ source ~/.bashrc

8 验证，结果显示PASS则cuda安装成功：

$ cd~/NVIDIA_CUDA-8.0_Samples/1_Utilities/deviceQuery/

$ make

$ cd ~/NVIDIA_CUDA-8.0_Samples

$ ./bin/x86_64/linux/release/deviceQuery

备注：

1 若提示以下错误：

“error：unable tofind the kernel source tree for the currently running kernel. please make sureyou have installed the kernel source files for your kernel and that htey areproperly configured; on red hat linux system, for example, be sure you have the'kernel-source' or 'kernel-devel' RPM installed. if you know the correct kernelsource files are installed ,you may specify the kernel source path with the'--kernel-source-path' command line option.“

执行以下指令安装kernel-devel包：

$ sudo yum install kernel-devel-$(uname -r)

2 报错“Error: Package:1:nvidia-kmod-375.51-2.el7.x86_64 (cuda) Requires: dkms“

安装dkms依赖：

$ sudo yum install epel-release

$ sudo yum install dkms

3 卸载cuda：

$ sudo sh cuda_8.0.61_375.26_linux-run--uninstall –silent

$ sudo rm -rf /usr/local/cuda*

验证：

$ nvcc --version

如果提示：bash: nvcc: command not found...则卸载成功。

配置Kubernetes：

下面的方式是使用alpha.kubernetes.io/nvidia-gpu，后面部分介绍使用从kubernetes v1.8引入的deviceplugin的方式。

1 开启Accelerators:

在kubernetes的kube-apiserver.service、kube-controller-manager.service、kube-scheduler.service、kubelet.service、kube-proxy.service服务配置文件（重点是kubelet.service文件，node节点只需要重启kubelet和kube-proxy服务）中加入“--feature-gates=Accelerators=true”，配置文件类似下图：

2 Kubernetes服务重启：

重启以上各服务（只需要重启本节点的服务即可）：
$ sudo systemctl stop kubelet kube-proxy kube-apiserver kube-controller-manager kube-scheduler
$ sudo systemctl start kubelet kube-proxy kube-apiserver kube-controller-manager kube-scheduler
$ sudo systemctl status kubelet kube-proxy kube-apiserver kube-controller-manager kube-scheduler
若以上各服务的status均为active（running），则启动成功。

3 查看该节点（12.12.10.14）的资源是否包含GPU：

$ kubectl describe node 12.12.10.14

如上图，Capacity中的alpha.kubernetes.io/nvidia-gpu不为0说明Kubernetes发现了该节点上的GPU资源（若alpha.kubernetes.io/nvidia-gpu为0，可以尝试重装nvidia驱动或者再次重启kubelet服务。一般节点重启后会找不到GPU 资源，先运行一下GPU再重启kubelet服务就好，原因没有搞清楚，但实践证明是起作用的。。。）。

4 配置yaml文件：

apiVersion: v1
kind: Pod 
metadata:
  name: gpu-pod
spec: 
  containers: 
  - name: gpu-container
    image: tensorflow/tensorflow:1.4.1-gpu
    env:
    - name: LD_LIBRARY_PATH
      value: /usr/local/nvidia/lib64:/usr/local/cuda-8.0/lib64
    resources: 
      limits: 
        alpha.kubernetes.io/nvidia-gpu: 1
    volumeMounts:
    - mountPath: /data
      name: data
    - mountPath: /usr/local/nvidia/lib64
      name: nvidia
    - mountPath: /usr/local/cuda-8.0/lib64/libcuda.so
      name: libcuda-so
    - mountPath: /usr/local/cuda-8.0/lib64/libcuda.so.1
      name: libcuda-so-1
    - mountPath: /usr/local/cuda-8.0/lib64/libcuda.so.384.66
      name: libcuda-so-384-66
  volumes:
  - name: data
    hostPath:
      path: /home/shuai/data
  - name: nvidia
    hostPath:
      path: /usr/local/nvidia
  - name: libcuda-so
    hostPath:
      path: /usr/lib64/libcuda.so
  - name: libcuda-so-1
    hostPath:
      path: /usr/lib64/libcuda.so.1
  - name: libcuda-so-384-66
    hostPath:
      path: /usr/lib64/libcuda.so.384.66

如果使用私有docker-registry，需要在k8s中添加secret：

$ rm -rf ~/.docker/config.json
$ kubectl create secret docker-registry docker-hosted --docker-server=12.12.10.13:1234 --docker-username=admin --docker-password=admin123 [email protected]

其中，docker-hosted为secret名字，docker-server为私有docker-registry的ip+port。然后在yaml文件中加入secret。

  imagePullSecrets:
  - name: docker-hosted

如果有多个不同docker-registry，可以一起都添加进来，imagePullSecrets和container并列。如果镜像较大，有时会出现：

Failed to pull image "myregistry.azurecr.io/my-image:latest": rpc error: code = Canceled desc = context canceled

的情况，这是由于镜像拉取超时造成的，在kubelet中加入：

--image-pull-progress-deadline=60m

上面的参数设置超时时间为60分钟。

a) 建议使用1.4.1-gpu版本的tensorflow镜像，latest-gpu使用cuda 9.0，会有很多不兼容;
b) GPU资源相关部分为alpha.kubernetes.io/nvidia-gpu;
c) 除此之外，还需要指定容器内的LD_LIBRARY_PATH 环境变量的值，否则默认镜像内的LD_LIBRARY_PATH可能不包含挂载点，导致程序找不到libcuda.so文件
d) 还有volumes部分对应的是宿主机上的路径，volumeMounts部分对应容器内的挂载点。其中，data文件夹用于存放程序代码以及训练数据，cuda的so文件和nvidia的so文件在宿主机上的具体路径要根据实际情况而定。这里由于cuda只需要用到libcuda，因此只挂载单个文件。需要用到的nvidia的so文件不太清楚有哪些，所以全部挂载进去。
$ sudo mkdir /usr/local/nvidia
$ sudo cp /usr/lib64/*nvidia* /usr/local/nvidia/
$ sudo cp -r /usr/lib64/nvidia /usr/local/nvidia/
需要注意的是，前面安装驱动的方法会把so文件装到/usr/lib64文件夹内，但是直接挂载/usr/lib64整个文件夹会导致libc冲突，建议如果直接挂在文件夹的话，将相关so文件复制到其他新建文件夹在进行挂载。

5 创建pod：

在任意节点上执行：
$ kubectl create -f tf-gpu.yaml
当有多个节点具有GPU资源时，不一定在执行命令的节点上运行容器，可以通过dashboard查看。

6 进入容器：

在容器运行的节点上执行：
$ docker ps
可以看到容器的CONTAINER ID，如dba2998c91ab
然后执行以下指令进入容器，其中dba是CONTAINER ID的前3位：
$ docker exec -it dba bash

7 运行tensorflow程序：

以data文件夹中的mnist.py程序（程序内容见附录）为例：
root@gpu-pod:/notebook# python /data/mnist.py
若无报错，且tensorlfow输出内容包括与以下内容相似的语句则证明容器内可以运行GPU版的tensorflow了。

DevicePlugins的方式：

1. 除nvidia驱动外，还要在各个节点安装nvidia-docker2，安装方法见：https://github.com/NVIDIA/nvidia-docker，如果docker 的版本较低，可能会出现nvidia-docker2无法安装的情况，这样只安装nvidia-container-runtime也是可以的，安装方法：docker 1.12.6 使用GPU。

2.在各个节点的kubelet服务中开启DevicePlugins特征。

$ sudo vim /etc/systemd/system/kubelet.service

然后加入：“--feature-gates=DevicePlugins=true”：

重启kubelet服务：

$ sudo systemctl daemon-reload
$ sudo systemctl restart kubelet

3.使用DevicePlugins的方式，申请GPU资源时，要用nvidia.com/gpu。

可以看到，DevicePlugins只用声明nvidia.com/gpu即可，不需要将宿主机的cuda库等映射到容器内，使用起来相当简单。

参考资料：

1.http://wap.sciencenet.cn/blogview.aspx?id=1003625

2.https://community.mellanox.com/docs/DOC-2911#jive_content_id_Required_Software

3.https://kubernetes.io/cn/docs/tasks/manage-gpus/scheduling-gpus/

4.https://zhuanlan.zhihu.com/p/27376696

附录：

mnist.py

from __future__ import absolute_import
from __future__ import division
from __future__ import print_function

import argparse
import sys
import tempfile

from tensorflow.examples.tutorials.mnist import input_data

import tensorflow as tf

FLAGS = None


def deepnn(x):
  """deepnn builds the graph for a deep net for classifying digits.
  Args:
    x: an input tensor with the dimensions (N_examples, 784), where 784 is the
    number of pixels in a standard MNIST image.
  Returns:
    A tuple (y, keep_prob). y is a tensor of shape (N_examples, 10), with values
    equal to the logits of classifying the digit into one of 10 classes (the
    digits 0-9). keep_prob is a scalar placeholder for the probability of
    dropout.
  """
  # Reshape to use within a convolutional neural net.
  # Last dimension is for "features" - there is only one here, since images are
  # grayscale -- it would be 3 for an RGB image, 4 for RGBA, etc.
  with tf.name_scope('reshape'):
    x_image = tf.reshape(x, [-1, 28, 28, 1])

  # First convolutional layer - maps one grayscale image to 32 feature maps.
  with tf.name_scope('conv1'):
    W_conv1 = weight_variable([5, 5, 1, 32])
    b_conv1 = bias_variable([32])
    h_conv1 = tf.nn.relu(conv2d(x_image, W_conv1) + b_conv1)

  # Pooling layer - downsamples by 2X.
  with tf.name_scope('pool1'):
    h_pool1 = max_pool_2x2(h_conv1)

  # Second convolutional layer -- maps 32 feature maps to 64.
  with tf.name_scope('conv2'):
    W_conv2 = weight_variable([5, 5, 32, 64])
    b_conv2 = bias_variable([64])
    h_conv2 = tf.nn.relu(conv2d(h_pool1, W_conv2) + b_conv2)

  # Second pooling layer.
  with tf.name_scope('pool2'):
    h_pool2 = max_pool_2x2(h_conv2)

  # Fully connected layer 1 -- after 2 round of downsampling, our 28x28 image
  # is down to 7x7x64 feature maps -- maps this to 1024 features.
  with tf.name_scope('fc1'):
    W_fc1 = weight_variable([7 * 7 * 64, 1024])
    b_fc1 = bias_variable([1024])

    h_pool2_flat = tf.reshape(h_pool2, [-1, 7 * 7 * 64])
    h_fc1 = tf.nn.relu(tf.matmul(h_pool2_flat, W_fc1) + b_fc1)

  # Dropout - controls the complexity of the model, prevents co-adaptation of
  # features.
  with tf.name_scope('dropout'):
    keep_prob = tf.placeholder(tf.float32)
    h_fc1_drop = tf.nn.dropout(h_fc1, keep_prob)

  # Map the 1024 features to 10 classes, one for each digit
  with tf.name_scope('fc2'):
    W_fc2 = weight_variable([1024, 10])
    b_fc2 = bias_variable([10])

    y_conv = tf.matmul(h_fc1_drop, W_fc2) + b_fc2
  return y_conv, keep_prob


def conv2d(x, W):
  """conv2d returns a 2d convolution layer with full stride."""
  return tf.nn.conv2d(x, W, strides=[1, 1, 1, 1], padding='SAME')


def max_pool_2x2(x):
  """max_pool_2x2 downsamples a feature map by 2X."""
  return tf.nn.max_pool(x, ksize=[1, 2, 2, 1],
                        strides=[1, 2, 2, 1], padding='SAME')


def weight_variable(shape):
  """weight_variable generates a weight variable of a given shape."""
  initial = tf.truncated_normal(shape, stddev=0.1)
  return tf.Variable(initial)


def bias_variable(shape):
  """bias_variable generates a bias variable of a given shape."""
  initial = tf.constant(0.1, shape=shape)
  return tf.Variable(initial)


def main(_):
  # Import data
  mnist = input_data.read_data_sets(FLAGS.data_dir)

  # Create the model
  x = tf.placeholder(tf.float32, [None, 784])

  # Define loss and optimizer
  y_ = tf.placeholder(tf.int64, [None])

  # Build the graph for the deep net
  y_conv, keep_prob = deepnn(x)

  with tf.name_scope('loss'):
    cross_entropy = tf.losses.sparse_softmax_cross_entropy(
        labels=y_, logits=y_conv)
  cross_entropy = tf.reduce_mean(cross_entropy)

  with tf.name_scope('adam_optimizer'):
    train_step = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy)

  with tf.name_scope('accuracy'):
    correct_prediction = tf.equal(tf.argmax(y_conv, 1), y_)
    correct_prediction = tf.cast(correct_prediction, tf.float32)
  accuracy = tf.reduce_mean(correct_prediction)

  graph_location = tempfile.mkdtemp()
  print('Saving graph to: %s' % graph_location)
  train_writer = tf.summary.FileWriter(graph_location)
  train_writer.add_graph(tf.get_default_graph())

  with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    for i in range(20000):
      batch = mnist.train.next_batch(50)
      if i % 100 == 0:
        train_accuracy = accuracy.eval(feed_dict={
            x: batch[0], y_: batch[1], keep_prob: 1.0})
        print('step %d, training accuracy %g' % (i, train_accuracy))
      train_step.run(feed_dict={x: batch[0], y_: batch[1], keep_prob: 0.5})

    print('test accuracy %g' % accuracy.eval(feed_dict={
        x: mnist.test.images, y_: mnist.test.labels, keep_prob: 1.0}))

if __name__ == '__main__':
  parser = argparse.ArgumentParser()
  parser.add_argument('--data_dir', type=str,
                      default='/data/MNIST_data',
                      help='Directory for storing input data')
  FLAGS, unparsed = parser.parse_known_args()
  tf.app.run(main=main, argv=[sys.argv[0]] + unparsed)

redis架构系列——Cluster集群模式详解庄隐 #组件 redis 架构
设计的主要特点和基本原理Redis集群目标高性能和线性可扩展性，最多可达1000个节点。没有代理，使用异步复制，并且不对值执行合并操作。可接受的写入安全程度：系统尝试（尽最大努力）保留来自与大多数主节点连接的客户端的所有写入。通常，有一些小窗口可能会丢失确认的写入。当客户端位于少数分区中时，丢失确认写入的窗口会更大。可用性：Redis集群能够在大多数主节点可访问的分区中继续存在，并且每个主节点至少
Redis Cluster集群详解高冷小伙 redis 数据库缓存
数据分片（Sharding）哈希槽（HashSlot）机制：集群将数据划分为16384个哈希槽，每个键通过CRC16(key)%16384计算归属的槽。槽分配给多个主节点，每个节点负责一部分槽（例如：3节点集群中，每个节点可能管理约5461个槽）。动态槽分配：节点增减时，槽可动态迁移，支持在线扩容/缩容（如CLUSTERADDSLOTS命令）。跨槽操作限制：事务、Lua脚本需确保所有键在同一槽（可
redis集群迅速搭建（个人学习和测试用） yinhezhanshen redis 学习 java
笔者使用ubuntu操作系统下载redis地址：Indexof/releases/，选择最新的版本下载。解压后进入目录，直接make就可以编译。编译成功后在src目录下会生成redis-server和redis-cli可执行文件。进入redis目录下的utils/create-cluster目录，执行./create-clusterstart,快速启动6个实例zy@zy-VirtualBox:~/
[k8s源码]9.workqueue weixin_45396500 k8s源码 java 开发语言
client-go是一个库，提供了与KubernetesAPI服务器交互的基础设施。它提供了诸如Informer、Lister、ClientSet等工具，用于监听、缓存和操作Kubernetes资源。而自定义控制器则利用这些工具来实现特定的业务逻辑和自动化任务。业务逻辑实现：client-go不包含特定的业务逻辑。自定义控制器允许实现特定于您的应用程序或需求的逻辑。扩展Kubernetes：通过自
策略模式环境类的实现方式对比 -代号9527 JavaDev 策略模式
文章目录1、策略模式2、聚合策略类实现方式一3、聚合策略类实现方式二4、对比5、补充：ApplicationContextAware接口1、策略模式近期工作中，需要处理4.x和5.x两个版本的数据，所以自然想到的是策略模式，写一个抽象类，然后两个版本分别实现抽象类，以后也好扩展。publicinterfaceClusterMetaDataProcessor{voidprocessData();}p
作为一名测试工程师如何学习Kubernetes(k8s)技能网络安全小宇哥学习 kubernetes 容器计算机网络 web安全安全 dubbo
前言Kubernetes(K8s)作为云原生时代的关键技术之一，对于运维工程师、开发工程师以及测试工程师来说，都是一门需要掌握的重要技术。作为一名软件测试工程师，学习Kubernetes是一个有助于提升自动化测试、容器化测试以及云原生应用测试能力的重要过程。以下是一个系统性的学习路径和建议：一、了解基础概念1）容器技术：学习Docker等容器技术的基础知识，了解容器的基本概念、镜像、容器运行与管理
深入理解 Kubernetes 命名空间：高效管理与隔离资源的关键简单简单小白 kubernetes 贪心算法 java
深入理解Kubernetes命名空间：高效管理与隔离资源的关键目录深入理解Kubernetes命名空间：高效管理与隔离资源的关键什么是命名空间？命名空间的作用1.资源隔离2.多租户支持3.资源管理和策略控制4.简化管理创建和使用命名空间命名空间与集群中的其他资源结语在Kubernetes(k8s)中，命名空间（Namespace）是资源隔离和组织管理的核心概念之一。本文将详细探讨命名空间的作用，以
Kubernetes 从入门到精通：解锁容器编排的终极指南 [特殊字符] a小胡哦 kubernetes 容器云原生
为什么需要Kubernetes？Kubernetes（简称K8s）是容器编排领域的王者，它能帮你：自动扩缩容：流量激增时自动扩展应用实例（HorizontalPodAutoscaler）自愈能力：崩溃的容器秒级重启，节点故障自动迁移（Self-Healing设计）服务发现：动态管理微服务通信（Service机制）存储编排：一键挂载云存储/本地磁盘（PersistentVolumes）跨环境部署：一
【YashanDB 知识库】yasboot 集群状态命令登录失败问题数据库程序员
【标题】yasboot集群状态命令登录失败问题【问题分类】功能使用【关键字】yasboot、集群状态、无效用户名/密码、sys用户、null密码【问题描述】用户在执行yasbootclusterstatus-cyashan-d命令时遇到错误，系统提示“invalidusername/password,usersyscan'tloginwithnullpassword”，表明sys用户无法使用空密码
AI人工智能机器学习之聚类分析 rockfeng0 人工智能机器学习 sklearn
1、概要本篇学习AI人工智能机器学习之聚类分析，以KMeans、AgglomerativeClustering、DBSCAN为例，从代码层面讲述机器学习中的聚类分析。2、聚类分析-简介聚类分析是一种无监督学习的方法，用于将数据集中的样本划分为不同的组（簇），使得同一组中的样本相似度较高，而不同组之间的样本相似度较低。sklearn.cluster提供了多种聚类算法K均值聚类（K-MeansCl
Cassini_Network-Aware Job Schedulingin Machine Learning Clusters 一只积极向上的小咸鱼机器学习人工智能
这篇论文介绍了CASSINI，一种用于机器学习（ML）集群的网络感知作业调度器。研究背景背景介绍:这篇文章的研究背景是深度学习数据集和模型规模的不断增长，对高效GPU集群的需求日益增加。分布式机器学习训练工作负载的通信开销占据了训练迭代时间的很大一部分，而现有的ML调度器往往忽略了ML训练作业的通信模式。研究问题:该问题的研究目标是开发一种简单而有效的方法，能够在网络链路中高效地放置多个ML作业，
深入探讨K8s资源管理和性能优化磐基Stack专业服务团队 Kubernetes kubernetes 性能优化容器
#作者：曹付江文章目录前言：1．监控Kubernetes集群的资源利用率1.1Prometheus1.2Kubernetes度量服务器1.3Grafana1.4自定义指标2.识别资源瓶颈2.1.监控工具2.2.性能剖析2.3Kubernetes事件和日志2.4.群集自动扩展2.5.负载测试3.扩展应用程序以提高性能3.1.水平Pod自动缩放器(HPA)3.2.垂直PodAutoscaler(VPA
运维案例之记一次Kubernetes集群证书过期或延期操作处理实践指南全栈工程师修炼指南云原生落地实用指南 kubernetes 运维 docker 容器云原生
欢迎关注「WeiyiGeek」公众号点击下方卡片即可关注我哟!设为「星标⭐」每天带你基础入门到进阶实践再到放弃学习！涉及网络安全运维、应用开发、物联网IOT、学习路径、个人感悟等知识“花开堪折直须折，莫待无花空折枝。”作者主页：[https://www.weiyigeek.top]作者博客：[https://blog.weiyigeek.top]作者答疑学习交流群：
Kubernetes (K8S) 高效使用技巧与实践指南挣扎与觉醒中的技术人 kubernetes 容器云原生网络
Kubernetes（K8S）作为容器编排领域的核心工具，其灵活性和复杂性并存。本文结合实战经验，从运维效率提升、生产环境避坑、核心功能应用等维度，总结高频使用技巧与最佳实践，分享如何快速掌握K8S。一、kubectl高效操作技巧1.自动补全与上下文切换kubectl是操作K8S的核心命令行工具，通过以下配置可大幅提升操作效率：#Bash自动补全source快速切换目标集群。2.YAML模板生成与
Kubernetes 1.29升级至1.31版本笔记 zkyqss 云计算笔记 kubernetes 云原生
一、概述之前安装了kubernetes1.29（参见：使用kubeadm安装Kubernetes1.29）。本次计划将该集群升级为1.31版本。Kubernetes版本表示方式：Kubernetes版本表示为x.y.z，其中x是主版本，y是次版本，z是补丁版本。建议升级顺序在Kubernetes中，推荐的升级方法是逐步升级，即一次升级一个次版本。本次集群升级策略1.29升级至→1.30，然后1.3
在k8s中，如何在argocd中添加proxy 网络飞鸥 kubernetes argocd 容器
在Kubernetes的ArgoCD中添加代理（Proxy）设置，你可以从多个层面进行操作，下面分别介绍不同组件设置代理的方法。1.ArgoCDServer代理设置ArgoCDServer负责提供WebUI和API服务，要为其设置代理，可以通过修改ArgoCDServer的部署配置来实现。步骤：编辑ArgoCDServer部署kubectleditdeploymentargocd-server-n
高版本k8s文件无法识别镜像虚魍 kubernetes 容器运维 linux 云计算
Kubernetes1.24正式移除了dockershim组件，意味着原生Docker容器运行时不再直接支持。集群管理员需要迁移至其他兼容的容器运行时，如containerd或CRI-O。高版本k8s不在支持docker运行容器运行服务，而使用ctr命令来识别pod文件的镜像。-----如有问题，请提醒，我会及时改正。解决yaml文件识别不到镜像：方法一：手动拉取，上传先拉取相应镜像：docker
docker-compose -volumes 两种不同定义方式胖胖胖胖胖虎 Docker docker hadoop big data
学习docker-compose部署hadoop集群、看到docker-compose一种不同volumes定义方式version:"3"services:namenode:image:bde2020/hadoop-namenode:2.0.0-hadoop2.7.4-java8volumes:-namenode:/hadoop/dfs/nameenvironment:-CLUSTER_NAME=
必知必会！如何在Kubernetes中管理Configurations和Secrets 硅基创想家 #Kubernetes实战与经验 kubernetes 容器云原生
在Kubernetes中，管理配置和机密信息对于确保应用程序的灵活性、安全性和易于部署至关重要。当应用程序依赖于配置或敏感数据（如API密钥、密码和环境变量）时，Kubernetes提供了将这些数据与应用程序代码分离的工具。Kubernetes中的ConfigMaps（配置映射）和Secrets（机密）使得动态管理和更新这些配置成为可能，让您的应用程序能够在不直接在容器中硬编码信息的情况下进行适配
云平台结合DeepSeek的AI模型优化实践：技术突破与应用革新荣华富贵8 程序员的知识储备1 经验分享
云平台与AI模型的深度结合已成为推动人工智能技术落地的重要驱动力。DeepSeek（深度求索）作为前沿AI模型的代表，通过与云计算的深度融合，在技术架构和应用场景层面实现了突破性进展。以下从技术突破和应用革新两个维度进行系统解析：---###**一、技术突破：云原生AI架构的进化**####1.**弹性算力调度体系**-**动态资源分配**：基于Kubernetes的智能调度器实现GPU资源的细粒
Oracle 高可用性与数据保护鱼弦人工智能时代 oracle 数据库
Oracle高可用性与数据保护介绍Oracle提供了一系列高可用性和数据保护技术，以确保数据库系统在各种故障情况下继续运行，并保护数据免受损坏或丢失。这些技术包括集群与实时应用集群(RAC)、数据卫士(DataGuard)和闪回技术。集群与实时应用集群(RAC)基本概念RAC：RealApplicationClusters允许多个服务器同时访问一组Oracle数据库实例。通过这种方式，RAC提供了
腾讯云容器与Serverless的融合：探索《2023技术实践精选集》中的创新实践虎头金猫云原生云原生 docker serverless 容器运维运维开发腾讯云
腾讯云容器与Serverless的融合：探索《2023技术实践精选集》中的创新实践文章目录腾讯云容器与Serverless的融合：探索《2023技术实践精选集》中的创新实践引言《2023腾讯云容器和函数计算技术实践精选集》整体评价特色亮点分析Serverless与Kubernetes的融合FinOps在资源配置优化中的应用云监控Barad的云原生实践对云计算领域的贡献和影响阅读体验分享案例的实用性
四、spark集群架构 weixin_34411563 大数据开发工具
spark集群架构官方文档：http://spark.apache.org/docs/latest/cluster-overview.html集群架构我们先看这张图这张图把spark架构拆分成了两块内容：1）spark应用程序：即左边的DriverProgram这块;2）spark集群：即右边的ClusterManager和另外两个WorkerNode;这样的结构，我们大概可以猜测一下spark是
Spark Standalone集群架构 htfenght spark spark
北风网spark学习笔记SparkStandalone集群架构SparkStandalone集群集群管理器，clustermanager：Master进程，工作节点：Worker进程搭建了一套Hadoop集群（HDFS+YARN）HDFS：NameNode、DataNode、SecondaryNameNodeYARN：ResourceManager、NodeManagerSpark集群（Spark
Spark----Spark 在不同集群中的架构 XiaodunLP Spark
Spark注重建立良好的生态系统，它不仅支持多种外部文件存储系统，提供了多种多样的集群运行模式。部署在单台机器上时，既可以用本地（Local）模式运行，也可以使用伪分布式模式来运行；当以分布式集群部署的时候，可以根据自己集群的实际情况选择Standalone模式（Spark自带的模式）、YARN-Client模式或者YARN-Cluster模式。Spark的各种运行模式虽然在启动方式、运行位置、调
使用kuboard管理kubernetes集群终端行者 Kubernetes kubernetes 容器云原生
官网：https://kuboard.cn/learning/准备一台新的服务并安装docker[root@docker-server~]#dockerrun-d--restart=unless-stopped--name=kuboard-p80:80/tcp-p10081:10081/tcp-eKUBOARD_ENDPOINT="http://192.168.209.176:80"-eKUBOA
centos-stream9/7如何安装kubenetes1.28版本？如何添加集群节点与token过期如何重新生成？终端行者 Kubernetes centos kubernetes
Kubernetes集群部署零、版本信息操作系统：CentosStream9、Centos7通过k8s版本：1.26.11.28.2本文档未使用docker,使用containerd从版本1.24开始已经去掉默认对docker的支持，需要使用go编译安装cri-dockerd，通信变得复杂，新版本不推荐使用docker运行时一、Kubernetes集群部署方式方式1.minikubeMinikub
对比学习小综述 wintercoming111 学习
对比学习的目标是将相似样本的表示（Representation）拉近，不相似样本的表示拉远。通过数据增强、损失函数、表示学习目标等步骤实现。分类（1）基于单视角的方法（InstanceDiscrimination）典型代表：SimCLR,MoCo特点：将每个样本视为一个独立类，无需额外的标注信息。适用场景：数据无标注或弱标注的场景。（2）基于聚类的方法（Clustering-BasedContra
解决 kubeasz 安装k8s集群跨节点pod 无法使用cluster ip通讯问题 CHEN_RUI_2200 k8s运维 kubernetes docker 容器
问题描述使用kubeasz搭建k8s集群后使用的配置文件#'etcd'clustershouldhaveoddmember(s)(1,3,5,...)[etcd]192.168.xx.22#masternode(s)[kube_master]192.168.xx.22#worknode(s)[kube_node]192.168.xx.9192.168.xx.22#[optional]harbors
从入门到放弃之生产环境基于Kubernetes V1.21.10搭建高可用集群收破烂的小白 docker linux kubernetes
1.资源规划名称系统配置IP组件k8s-master01CentOS7.94核8G500G存储172.16.97.27kube-apiserverkube-controller-managerkube-scheduleretcdk8s-master02CentOS7.94核8G500G存储172.16.97.28kube-apiserverkube-controller-managerkube-s
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分