(作者:陈玓玏)
项目地址:
https://github.com/tencentmusic/cube-studio
或者查看
https://gitee.com/data-infra/cube-studio/blob/master/install/README.md
想要部署机器学习平台,但平台对机器还是有一定要求的,所以在腾讯云购买了一台服务器,配置信息如下,以避免在部署过程中因为机器的性能问题而部署失败。
购买完成后,直接登录服务器,是酱紫的
打开机器学习平台的主页,网比较好就看https://github.com/tencentmusic/cube-studio,网不太好就看https://gitee.com/data-infra/cube-studio,滑到平台部署那个位置,直接看怎么部署!部署流程和所需环境在install/readme.md中。
基础环境依赖
docker >= 19.03
kubernetes = 1.18
kubectl >=1.18
cfs/ceph 挂载到每台机器的 /data/k8s/
单机 磁盘>=500G 单机磁盘容量要求不大,仅做镜像容器的的存储
控制端机器 cpu>=16 mem>=32G
任务端机器,根据需要自行配置
在一台全新的服务器上,我们需要先安装docker和k8s,由于rancher能管理k8s集群,我们直接安装rancher。
#设置docker存储库
sudo apt-get update
sudo apt-get install \
ca-certificates \
curl \
gnupg \
lsb-release
#添加官方秘钥
sudo mkdir -p /etc/apt/keyrings
curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /etc/apt/keyrings/docker.gpg
#稳定存储库
echo \
"deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.gpg] https://download.docker.com/linux/ubuntu \
$(lsb_release -cs) stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
#安装docker
sudo apt-get update
#查看存储库中的可用版本,因为我们需要19.03以上的docker
apt-cache madison docker-ce
sudo apt-get install docker-ce=5:19.03.15~3-0~ubuntu-focal docker-ce-cli=5:19.03.15~3-0~ubuntu-focal containerd.io docker-compose-plugin
有时候会出现这样的错误
Err:5 https://download.docker.com/linux/ubuntu focal/stable amd64 docker-ce-cli amd64 5:19.03.15~3-0~ubuntu-focal
Could not wait for server fd - select (11: Resource temporarily unavailable) [IP: 13.249.171.37 443]
是网络的问题,重新运行一遍就好了。
接下来测试一下
表明安装成功了。
sudo docker run -d --privileged --restart=unless-stopped -p 443:443 rancher/rancher:v2.5.2
安装完成后,使用公网ip+443端口打开rancher页面。
设置密码,去掉allow collection of anonymous statistics,勾选上I agree to the Terms and Conditions for using Rancher。
进入rancher后,add cluter,后面可以在右下角选择把语言切换成中文。
选择自定义
修改yaml文件,在kube_api部分用以下替换,并新增下面的kubelet部分,注意空格要对齐哦
kube_api:
always_pull_images: false
pod_security_policy: false
service_node_port_range: 10-32767
extra_args:
service-account-issuer: kubernetes.default.svc
service-account-signing-key-file: /etc/kubernetes/ssl/kube-service-account-token-key.pem
kubelet:
extra_binds:
- '/data:/data'
主机选项把以上三个角色都勾选,并复制下面的命令,到服务器中执行,点击完成。
这样就表示集群和机器都准备好啦!
四、安装cube-studio
接下来下载cube-studio,我下载的是master分支
git clone https://gitee.com/data-infra/cube-studio.git
点击进入集群
打开kubeconfig文件
点击左下方的复制到剪贴板,在服务器中切换到/cube-studio/install/kubernetes目录下,新增一个config文件,将复制的内容添加到config文件中,并执行以下命令:
sudo sh start.sh 172.16.0.13
这里的ip记得改成你的内网ip。
运行结束后,打开外网ip,比如我的是159.75.206.154,打开http://159.75.206.154,还需要移动一下命名空间,
能打开http://外网ip即为成功,不成功可以在rancher中查看一下是哪个组件安装失败,有时候是因为网络问题拉取镜像失败,可以重新拉取一次(github时行时不行的),或者需要手动拉取,或提bug给开源项目。
参考链接:
https://docs.docker.com/engine/install/ubuntu/
https://gitee.com/data-infra/cube-studio/tree/master
http://docs.rancher.cn/docs/rancher2.5/quick-start-guide/deployment/quickstart-manual-setup/_index