wangke0809

搭建多人共用的GPU服务器

- - - 背景
    - 需求
    - 调研
    - 安装
    - 配置
      - 配置LXD
      - 配置网桥
      - 新建容器
      - 安装驱动
      - 配置显卡
      - 共享目录
      - nvidia-uvm
      - 桌面环境
      - CUDA与cuDNN
      - 其他
    - 总结
    - 参考

背景

目前实验室GPU使用情况是：大部分同学的配有单台1080/TITAN Xp。后来购入了两台4卡的机器，老师的意思是希望可以作为服务器使用，能够多人同时使用，互不影响。于是便开始了本次折腾，记录采坑经历。

通过本文，多卡读者可以实现分配每块GPU给特定同学使用，也可以多人共用多块GPU。单卡读者可以实现多人共用一块GPU。

需求

说需求之前先来列一下机器配置：

CPU: i7-6850K CPU
内存：DDR4 2400Hz 32G *4
存储：512G SSD *1 + 4TB 机械 *3
显卡：TITAN Xp *4

需求很明显：像使用一台带有GPU的自己的机器一样使用服务器。

具体来说要满足：

不同用户之间不能相互影响且可以同时使用
用户要能方便地访问自己的“机器”
用户有所有权限
用户不被允许直接操作宿主机
灵活配置GPU，可以每一分一块GPU，只有一个人用的时候可以用四块。
上网方便，使用自己的校园网帐号上网，可以使用IPV6

调研

首先可以肯定，Ubuntu多用户下可能存在误删其他同学文件，所需软件版本不兼容，GPU使用需要代码中指定等问题。

经过多方调研对比，在此省略xx字，最终选择使用LXD来搭建容器，实现上述需求。

我主要看好LXD：

相比LXC更简单，功能更强大
相比部署应用用的Docker更时候做操作使用的容器
相比KVM更轻便
支持GPU等设备Passthrough
调研过程中看到的资料足够满足我实现上述需求
支持RESTful API

所以整体思路是通过LXD容器实现多用户共用GPU服务器。

主要参考文献见文章最后一章节。

安装

安装过程主要安装了
- ZFS 用于管理物理磁盘，支持LXD高级功能
- LXD 实现虚拟容器
- bridge-utils 用于搭建网桥

sudo apt install zfs
sudo apt -t xenial-backports install lxd
sudo apt install bridge-utils

配置

配置LXD

sudo lxd init,按照提示，这里我选择将第一块1TB的机械硬盘通过ZFS作为容器的存储后端。当提示是否创建bridge时，选择否。lxd init创建的bridge每个容器通过宿主机用NAT上网，我更希望每个人分配一个IP，通过自己的校园网上网。如果不需要，请选择是并忽略下一个章节。

配置网桥

修改/etc/network/interfaces，内容如下：

auto lo
iface lo inet loopback

auto br0
iface br0 inet dhcp
   bridge_ports enp14s0

iface enp14s0 inet manual

其中enp14s0可通过ifconfig查看网卡信息得到。

配置LXDlxc network attach-profile br0 default eth0。配置完成后需要重启下机器。

新建容器

如果你网速可以:lxc launch ubuntu:xenial yourContainerName可以试试直接下载，100M多点。

如果有网速不行建议添加清华大学的镜像，并且IPV6正好免校园网流量：

lxc remote add tuna-images https://mirrors.tuna.tsinghua.edu.cn/lxc-images/ --protocol=simplestreams --public
lxc image list tuna-images:

之后使用lxc launch tuna-images:biasOrfootprint yourContainerName新建容器。

安装驱动

lxc exec yourContainerName bash可进入容器bash，在容器中显卡驱动不需要安装内核文件，只需要sudo sh /NVIDIA-Linux-x86_64-xxx.xx.run --no-kernel-module进行安装。

配置显卡

为容器添加所有GPU: lxc config device add yourContainerName gpu gpu。

添加指定GPU： lxc config device add yourContainerName gpu0 gpu id=0

共享目录

lxc config set yourContainerName security.privileged true
lxc config device add privilegedContainerName shareName disk source=path1 path=path2

path1为宿主机路径，path2为容器内路径。

nvidia-uvm

兴冲冲的装好环境，发现TensorFlow无法使用显卡，原因是宿主机没有/dev/nvidia-uvm设备，需要通过以下命令挂载设备：

/sbin/modprobe nvidia-uvm
D=`grep nvidia-uvm /proc/devices | awk '{print $1}'`
mknod -m 666 /dev/nvidia-uvm c $D 0

挂载设备到容器：

lxc config device add yourContainerName nvidia-uvm unix-char path=/dev/nvidia-uvm

桌面环境

考虑到需要桌面环境的同学，我们通过VNC访问桌面环境。首先尝试的配置Ubuntu自带桌面，多次尝试失败，后来选择使用gnome桌面。

# 可选 --no-install-recommends 安装不必要组建
apt install ubuntu-desktop gnome-panel gnome-settings-daemon metacity nautilus gnome-terminal vnc4server -y

在~/.vnc/xstartup文件中加入:

gnome-panel &
gnome-settings-daemon &
metacity &
nautilus &

然后即可使用vnc4server，VNC具体使用不再赘述。

CUDA与cuDNN

CUDA与cuDNN安装本质上来讲只是解压文件（头文件，动态库等），所以我把不同版本的CUDA与cuDNN安装到了公共磁盘上，这个公共磁盘通过配置文件默认挂载到所有容器，其他同学在使用时按需添加环境变量和动态库路径即可。

其他

我整体的解决方案是把配置好的容器做成镜像，后续创建从这个镜像创建。这个镜像配置了SSH,VNC,普通用户等。

第二块硬盘通过ZFS管理zpool create A-pool /dev/sdb。通过配置文件挂载到容器。CUDA和cuDNN安装在这里。后续拷贝大型数据集也可以直接通过物理机拷贝。

上网处理可以通过VNC打开浏览器上网外，用上了之前写的一个Python登录校园网的库，可以通过脚本登录网络。

GPU默认通过配置文件挂载到容器。LXD相关操作见参考中的[3]，用到了编辑配置文件，快照，镜像等相关操作，本文没有细说。

写份使用说明，并告知用户一定要修改默认SSH和VNC密码。

因为有RESTful API，所以可以做个WEB管理系统，后来发现了lxdui还挺好用：

由于加载镜像拖慢速度，对代码简单进行了修改备用。后续准备基于lxdui增加权限控制等功能，每个用户可以方便的对自己的容器进行控制，快照等。

总结

本次折腾完美解决了需求，每个人通过SSH + VNC使用完全属于自己的机器，作为宿主机的管理员，我深知责任重大，更应该严守宿主机密码，常常以删除容器来威胁舍友，耐心帮助同学。

此外，有RESTful API还能做很多好玩的事情。

参考

[1] https://blog.yangl1996.com/2018/01/11/gpu-passthrough-for-lxc.html
[2 ]https://abcdabcd987.com/setup-shared-gpu-server-for-labs/
[3] https://linux.cn/article-7618-1.html

你可能感兴趣的:(ML&DL)

ML&DL：《Hyperparameter tuning for machine learning models机器学习模型的超参数调优》翻译与解读一个处女座的程序猿精选(人工智能+区块链)ML DL 机器学习超参数调优
ML&DL：《Hyperparametertuningformachinelearningmodels机器学习模型的超参数调优》翻译与解读目录《Hyperparametertuningformachinelearningmodels机器学习模型的超参数调优》翻译与解读Modelvalidation模型验证
ML&DL：机器学习和深度学习中超参数优化的简介、评估指标、过拟合现象、常用的调参优化方法之详细攻略一个处女座的程序猿精选(人工智能+区块链)AI ML 机器学习深度学习超参数优化
ML&DL：机器学习和深度学习中超参数优化的简介、评估指标、过拟合现象、常用的调参优化方法之详细攻略目录机器学习和深度学习中超参数优化的简介、评估指标、过拟合现象、常用的调参优化方法
ML&DL - TensorFlow2.1快速入门学习笔记05——卷积神经网络 Jason - Lee #TensorFlow2.1
ML&DL-TensorFlow2.1快速入门学习笔记05——卷积神经网络第五讲卷积神经网络5.1卷积计算过程5.2感受野5.3全零填充5.4TensorFlow实现卷积计算层5.5批标准化(BatchNormalization,BN)5.6池化5.7舍弃Dropout5.8卷积神经网络卷积是什么？5.9CIFAR10数据集5.10卷积神经网络搭建示例5.11LeNet、AlexNet、VGGNe
11.19 谁要陪我吃火锅
今日目标：不带电脑回寝室。在实验室完成任务.项目切割完成翻译1200差了300项目推进完成ML&DL完成阅读完成
ML&DL - TensorFlow2.1快速入门学习笔记04——神经网络八股扩展 j.Lee. #TensorFlow 系列笔记 tensorflow 神经网络
ML&DL-TensorFlow2.1快速入门学习笔记04——神经网络八股扩展第四讲神经网络八股扩展4.1自建数据集4.2数据增强4.3断点续训保存模型读取模型4.4参数提取4.5acc&loss可视化4.6应用程序：给图识物Reference第四讲神经网络八股扩展在上一讲中介绍了使用tf.keras搭建神经网络的“六步法”：importtrain,testmodel=tf.keras.model
【ML&DL】logistics regression理解夏洛的网机器学习深度学习
以前有学过linearclassification、linearregression和logisticsregression，这次做一下总结，并主要推导一下交叉熵损失函数的由来和梯度下降法。一、概述开头先祭出林轩田老师讲义中的一张图PLA、LinearRegression到logisticsregression的区别。误差函数由0/1误差演变为均方误差到交叉熵误差。1.1PLA/PocketPLA
ML&DL - PyTorch系列学习笔记06——PyTorch进阶教程 J - Lee #PyTorch系列学习笔记神经网络深度学习 python
ML&DL-PyTorch系列学习笔记06——PyTorch进阶教程06PyTorch进阶教程6.1BroadcastingBroadcasting操作的实际意义实现Broadcasting操作的前提条件6.2Tensor拼接与拆分拼接切分6.3基本数学运算add+/minus-/multiply×/divide÷matmul@高维矩阵乘法规则power**/sqrt/rsqrtExp/log/l
ML&DL - TensorFlow2.1快速入门学习笔记 Jason_Lee_ Released tensorflow
ML&DL-TensorFlow2.1快速入门学习笔记第一讲神经网络计算1.1人工智能三学派1.2神经网络设计过程梯度下降法梯度下降法的缺点1.3张量(Tensor)1.张量2.数据（张量）类型3.张量生成1.4TensorFlow2常用函数（1）强制转换数据类型，最大、最小值，平均值，求和axis参数：可训练参数tf.VariableTensorFlow中的数学运算数据/标签对数据集构建1.5T
ML&DL 回顾 xiaorun
https://github.com/zhourunlai/deep-learning-demodeeplearningDemoWunderlist[]1.MachineLearningYearning[]2.DeepLearningBook(感谢北京大学张志华团队的翻译工作，中文版点击这里)一、记录深度学习例子：名称目录Caffe[dir]TensorFlow[dir]Theano[dir]Ke
一个实例掌握tensorflow版本 LSTM（持续更新） Mingjoy 机器学习笔记 pandas
基于LSTM的大规模资金流入流出的大数据预测实例目录：一：数据预处理二：构建神经网络三：训练神经网络（神经网络的保存）四：使用LSTM算法进行预测（神经网络的恢复）前言：作为一名大二的学生，接触ML&DL的时间也还没超过一年，写下博客只是用于记录自己的学习成果，以方便日后查找、应用，水平及其有限，不讳言很多东西都是CTRL+C、CTRL+V的，但我会尽量写下我在学习过程中遇到的难点或者说是困惑点吧
数学-ML&DL中遇到的各种矩阵 JaYiFen 机器学习深度学习数学
【持续更新中...】参考的博客、资料在文末给出了目录目录1.affinitymatrix（关联矩阵）一句话描述例子2.邻接矩阵一句话描述性质例子3.相似矩阵基本思想4.拉普拉斯矩阵5.GramMatrix(格拉姆矩阵）定义应用6.协方差矩阵1.affinitymatrix（关联矩阵）一句话描述关联矩阵就是描述图【有向图或者无向图】中点与边的关系的矩阵【每一行代表一个节点，每一列代表一条边，在无向图
Mac 下安装Tensorflow进行ML&DL(运用Virtualevn) chzylucky Tensorflow DeepLearing Mac Virtualevn MachingLearning DeepLearning
Mac下安装Tensorflow进行ML&DLTensorflow官网：Tensorflow里面是英文，英文好的小伙伴推荐直接先阅读官网，里面会介绍相关的各种的安装方法。（如下）个人推荐在Mac上用virtualevn安装（也是官网推荐的安装方法）1、virtualevn简介：virtualevn是一个虚拟的python运行环境，是与其他python开发相隔离的。在安装virtualevn的过程中
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b <br>c: %c <br>d: %d <bf>f: %f', 80,80, 80, 80); echo '<br />'; printf('%0.2f <br>%+d <br>%0.2f <br>', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他