helm部署ceph在k8s上做分布式存储

进大厂,身价翻倍的法宝来了!

主讲内容:docker/kubernetes 云原生技术,大数据架构,分布式微服务,自动化测试、运维。

视频地址:ke.qq.com/course/419718


全栈工程师开发手册 (作者:栾鹏)
架构系列文章

ceph架构

参考:https://www.cnblogs.com/luohaixian/p/8087591.html
https://blog.csdn.net/qq_23348071/article/details/71618903

安装前准备

先在k8s上机器上拉取镜像

docker pull docker.io/ceph/daemon:tag-build-master-luminous-ubuntu-16.04
docker pull docker.io/kolla/ubuntu-source-kubernetes-entrypoint:4.0.0
docker pull docker.io/port/ceph-config-helper:v1.7.5
docker pull quay.io/external_storage/rbd-provisioner:v0.1.1
docker pull docker.io/alpine:latest

对k8s机器的硬盘进行分区和格式化
参考:https://www.cnblogs.com/zishengY/p/7137671.html
这个建了两个分区 /dev/vdb1 35G 和/dev/vdb2 5G
不分区也可以,ceph会自动分区为两个。

并且删除之前的安装要删除之前的历史遗留信息,rm -rf /var/lib/ceph-helm

[外链图片转存失败(img-A0BJPIvD-1565423749026)(http://docs.ceph.com/docs/mimic/_images/ditaa-2452ee22ef7d825a489a08e0b935453f2b06b0e6.png)]

安装并使用Helm

参考:https://blog.csdn.net/luanpeng825485697/article/details/80873236

要在本地运行Tiller并将Helm连接到它,请运行如下命令(此命令会在Kubernetes集群部署一个tiller实例):

$ helm init

ceph-helm项目默认使用本地的Helm repo来存储charts。要启动本地Helm repo服务器,请运行:

$ helm serve &  
$ helm repo add local http://localhost:8879/charts

添加Ceph-Helm charts到本地repo

$ git clone https://github.com/ceph/ceph-helm
$ cd ceph-helm/ceph
$ make

配置Ceph集群

创建一个包含Ceph配置的ceph-overrides.yaml文件。这个文件可能存在于任何地方,本文档默认此文件在用户的home目录中。

$ cat ~/ceph-overrides.yaml
network:
  public:  172.16.0.0/24     # 主机机器的ip  而不是k8s集群的ip范围
  cluster:   172.16.0.0/24     # 必须与public相同

osd_devices:
  - name: dev-sdd   
    device: /dev/vdb      # 使用前或者重新安装前都要mkfs.ext4   /dev/vdb格式化,会自动分为两个分区
    zap: "1"
  - name: dev-sde
    device: /dev/sde
    zap: "1"

storageclass:
  name: ceph-rbd
  pool: rbd
  user_id: admin                         # 如果不用这个名称要自己创建秘钥

注意 如果未设置日志(journal)设备,它将与device设备同位置。另ceph-helm/ceph/ceph/values.yaml文件包含所有可配置的选项。

创建Ceph 集群的namespace

默认情况下,ceph-helm组件在Kubernetes的ceph namespace中运行。如果要自定义,请自定义namespace的名称,默认namespace请运行:

$ kubectl create namespace ceph

配置RBAC权限

Kubernetes> = v1.6使RBAC成为默认的admission controller。ceph-helm要为每个组件提供RBAC角色和权限:

$ kubectl create -f ~/ceph-helm/ceph/rbac.yaml

rbac.yaml文件假定Ceph集群将部署在ceph命名空间中。

给Kubelet节点打标签

需要设置以下标签才能部署Ceph集群:

ceph-mon=enabled
ceph-mgr=enabled
ceph-osd=enabled
ceph-rgw=enabled 
ceph-mds=enabled 
ceph-osd-device-=enabled

ceph-osd-device-标签是基于我们的ceph-overrides.yaml中定义的osd_devices名称值创建的。从我们下面的例子中,我们将得到以下两个标签:ceph-osd-device-dev-sdb和ceph-osd-device-dev-sdc。

每个 Ceph Monitor节点:

$ kubectl label node  ceph-mon=enabled ceph-mgr=enabled ceph-rgw=enabled ceph-mds=enabled 

每个 OSD node节点:

$ kubectl label node  ceph-osd=enabled ceph-osd-device-dev-sdb=enabled ceph-osd-device-dev-sdc=enabled

Ceph 部署

运行helm install命令来部署local仓库的Ceph:

$ helm install --name=ceph local/ceph --namespace=ceph -f ~/ceph-overrides.yaml

helm install的输出显示了将要部署的不同类型的资源。

将使用ceph-rbd-provisioner的Pod创建ceph.com/rbd类型的名为ceph-rbd的StorageClass。这允许创建PVC时自动提供RBD。第一次挂载时,RBD设备将被格式化(format)。所有RBD设备都将使用ext4文件系统。

helm部署ceph在k8s上做分布式存储_第1张图片

在创建成功后磁盘将被划分为两块,Ceph disk in creation和Ceph Journal

其中ceph.com/rbd不支持fsType选项。默认情况下,RBD将使用镜像格式2和镜像分层特性。可以在values文件中覆盖以下storageclass的默认值:

storageclass:
  name: ceph-rbd
  pool: rbd
  user_id: admin
  user_secret_name: pvc-ceph-client-key
  image_format: "2"
  image_features: layering

安装中需要先运行秘钥创建的pod,再创建使用秘钥的pod,不过可能不按这个顺序,所以若安装中有些pod提示没有秘钥,则需要把没有秘钥的pod手动删除自动启。还有拉取镜像时间比较久,所以你可以提前拉取docker.io/kolla/ubuntu-source-kubernetes-entrypoint:4.0.0镜像

使用下面的命令检查所有Pod是否正常运行。这可能需要几分钟时间:

$ kubectl -n ceph get pods

注意 因为我们没有用ceph-rgw = enabled或ceph-mds = enabled 给节点打标签(ceph对象存储特性需要ceph-rgw,cephfs特性需要ceph-mds),因此MDS和RGW Pod都处于pending状态,一旦其他Pod都在运行状态,请用如下命令从某个MON节点检查Ceph的集群状态:(注意ceph-mon-xxxx是你自己的ceph-mon的pod的名称)

$ kubectl -n ceph exec -ti ceph-mon-xxxx -c ceph-mon -- ceph -s

配置一个POD以便从Ceph申请使用一个持久卷

~/ceph-overwrite.yaml中定义的k8s用户创建一个密钥环,并将其转换为base64:

进入mon的pod
$  kubectl -n ceph exec -ti ceph-mon-xxxx -c ceph-mon /bin/bash
在pod中调用查询秘钥,并转为base64编码
# ceph auth get-or-create-key client.k8s mon 'allow r' osd 'allow rwx pool=rbd'  | base64
QVFCLzdPaFoxeUxCRVJBQUVEVGdHcE9YU3BYMVBSdURHUEU0T0E9PQo=
# exit

编辑ceph namespace中存在的用户secret:

$ kubectl -n ceph edit secrets/pvc-ceph-client-key

将base64值复制到key位置的值并保存::

apiVersion: v1
data:
  key: QVFCLzdPaFoxeUxCRVJBQUVEVGdHcE9YU3BYMVBSdURHUEU0T0E9PQo=
kind: Secret
metadata:
  creationTimestamp: 2017-10-19T17:34:04Z
  name: pvc-ceph-client-key
  namespace: ceph
  resourceVersion: "8665522"
  selfLink: /api/v1/namespaces/ceph/secrets/pvc-ceph-client-key
  uid: b4085944-b4f3-11e7-add7-002590347682
type: kubernetes.io/rbd

假如我们需要创建一个在default namespace中使用RBD的Pod。我们需要从ceph namespace复制secret到default namespace:

先删除之前创建的
$ kubectl delete secret pvc-ceph-client-key -n default
复制秘钥到default命名空间
$ kubectl -n ceph get secrets/pvc-ceph-client-key -o json | jq '.metadata.namespace = "default"' | kubectl create -f -
secret "pvc-ceph-client-key" created
查询秘钥是否正确创建
$ kubectl get secrets
 NAME                  TYPE                                  DATA      AGE
 default-token-r43wl   kubernetes.io/service-account-token   3         61d
 pvc-ceph-client-key   kubernetes.io/rbd                     1         20s

创建并初始化RBD池:

每个池中不能超过200个,所以创建数目为128,或者64都行。rbd为pool的名称
$ kubectl -n ceph exec -ti ceph-mon-xxxx -c ceph-mon -- ceph osd pool create rbd 128
pool 'rbd' created
$ kubectl -n ceph exec -ti ceph-mon-xxxxx -c ceph-mon -- rbd pool init rbd

重要:重要的 Kubernetes使用RBD内核模块将RBD映射到主机。Luminous需要CRUSH_TUNABLES 5(Jewel)。这些可调参数的最小内核版本是4.5。如果您的内核不支持这些可调参数,请运行ceph osd crush tunables hammer。默认相关参数也可以在value中查询到。

重要:由于RBD映射到主机系统上。主机需要能够解析由kube-dns服务管理的ceph-mon.ceph.svc.cluster.local名称。要获得kube-dns服务的IP地址,运行kubectl -n kube-system get svc/kube-dns

创建一个PVC:

$ cat pvc-rbd.yaml
kind: PersistentVolumeClaim
apiVersion: v1
metadata:
  name: ceph-pvc
spec:
  accessModes:
   - ReadWriteOnce
  resources:
    requests:
       storage: 2Gi
  storageClassName: ceph-rbd
$ kubectl create -f pvc-rbd.yaml
persistentvolumeclaim "ceph-pvc" created
$ kubectl get pvc
NAME       STATUS    VOLUME                                     CAPACITY   ACCESSMODES   STORAGECLASS   AGE
ceph-pvc   Bound     pvc-1c2ada50-b456-11e7-add7-002590347682   20Gi       RWO           ceph-rbd        3s

检查集群上是否已创建RBD:

    $ kubectl -n ceph exec -ti ceph-mon-xxxxx -c ceph-mon -- rbd ls
    kubernetes-dynamic-pvc-1c2e9442-b456-11e7-9bd2-2a4159ce3915

    $ kubectl -n ceph exec -ti ceph-mon-xxxxx -c ceph-mon -- rbd info kubernetes-dynamic-pvc-1c2e9442-b456-11e7-9bd2-2a4159ce3915
    rbd image 'kubernetes-dynamic-pvc-1c2e9442-b456-11e7-9bd2-2a4159ce3915':
        size 20480 MB in 5120 objects
        order 22 (4096 kB objects)
        block_name_prefix: rbd_data.10762ae8944a
        format: 2
        features: layering
        flags:
        create_timestamp: Wed Oct 18 22:45:59 2017

或者也可以直接在k8s的dashboard中看到自动创建了pv和pvc

创建一个使用此PVC的Pod:

$ cat pod-with-rbd.yaml
kind: Pod
apiVersion: v1
metadata:
  name: mypod
spec:
  containers:
    - name: busybox
      image: busybox
      command:
        - sleep
        - "3600"
      volumeMounts:
      - mountPath: "/mnt/rbd"
        name: vol1
  volumes:
    - name: vol1
      persistentVolumeClaim:
        claimName: ceph-pvc
        
$ kubectl create -f pod-with-rbd.yaml
pod "mypod" created

检查Pod:

$ kubectl get pods
NAME      READY     STATUS    RESTARTS   AGE
mypod     1/1       Running   0          17s
$ kubectl exec mypod -- mount | grep rbd
/dev/rbd0 on /mnt/rbd type ext4 (rw,relatime,stripe=1024,data=ordered)

日志

可以通过kubectl logs [-f]命令访问OSD和Monitor日志。Monitors有多个日志记录流,每个流都可以从ceph-mon Pod中的容器访问。

在ceph-mon Pod中有3个容器运行:ceph-mon,相当于物理机上的ceph-mon.hostname.log,cluster-audit-log-tailer相当于物理机上的ceph.audit.log,cluster-log-tailer相当于物理机上的ceph.log或ceph -w。每个容器都可以通过--container或-c选项访问。例如,要访问cluster-tail-log,可以运行:

$ kubectl -n ceph logs ceph-mon-cppdk -c cluster-log-tailer

常见问题

mon空间不足

  cluster:
    id:     90537626-d087-4a1f-b3ef-e82e68cc0e1a
    health: HEALTH_WARN
            Reduced data availability: 152 pgs inactive
            Degraded data redundancy: 152 pgs undersized
            3 slow requests are blocked > 32 sec
            mon master2 is low on available space
 
  services:
    mon: 1 daemons, quorum master2
    mgr: master2(active)
    mds: cephfs-1/1/1 up  {0=mds-ceph-mds-666578c5f5-z4f8w=up:creating(laggy or crashed)}
    osd: 1 osds: 1 up, 1 in
 
  data:
    pools:   4 pools, 152 pgs
    objects: 0 objects, 0 bytes
    usage:   118 MB used, 35703 MB / 35821 MB avail
    pgs:     100.000% pgs not active
             152 undersized+peered

所mon节点的磁盘空间不足,查询一下说mon节点是部署在主机上的,查了一下云主机,40G的存储已经使用了39G,所以清理了一下。

如果有问题,我们可以进入ceph-mon的pod,在进入ceph-mon的容器,执行ceph相关的命令。

helm部署ceph在k8s上做分布式存储_第2张图片

too few PGs per OSD (24 < min 30)

因为每个ods上要求至少有30个pgs。

查看一个当前pool的信息ceph osd pool ls detail

pool 1 '.rgw.root' replicated size 3 min_size 2 crush_rule 0 object_hash rjenkins pg_num 8 pgp_num 8 last_change 3 owner 18446744073709551615 flags hashpspool stripe_width 0 application rgw
pool 2 'cephfs_data' replicated size 3 min_size 2 crush_rule 0 object_hash rjenkins pg_num 8 pgp_num 8 last_change 5 flags hashpspool stripe_width 0 application cephfs
pool 3 'cephfs_metadata' replicated size 3 min_size 2 crush_rule 0 object_hash rjenkins pg_num 8 pgp_num 8 last_change 5 flags hashpspool stripe_width 0 application cephfs

我这里有三个pool。

查询每个pool的详细信息(这里查询名为cephfs_data的pool的信息)

# ceph osd pool get cephfs_data all

size: 3
min_size: 2
crash_replay_interval: 0
pg_num: 8
pgp_num: 8
crush_rule: replicated_rule
hashpspool: true
nodelete: false
nopgchange: false
nosizechange: false
write_fadvise_dontneed: false
noscrub: false
nodeep-scrub: false
use_gmt_hitset: 0
auid: 18446744073709551615
fast_read: 0
root@master2:/# ceph osd pool get .rgw.root all^C
root@master2:/# ceph osd pool get cephfs_data all
size: 3
min_size: 2
crash_replay_interval: 0
pg_num: 8
pgp_num: 8
crush_rule: replicated_rule
hashpspool: true
nodelete: false
nopgchange: false
nosizechange: false
write_fadvise_dontneed: false
noscrub: false
nodeep-scrub: false
use_gmt_hitset: 0
auid: 0
fast_read: 0

发现pg_num和pgp_num为8,

我们修改一下,把这个增大

解决办法:修改默认pool rbd的pgs

ceph osd pool set cephfs_data pgp_num 16
ceph osd pool set cephfs_data pg_num 16

ok,此问题解决。可以在helm中的value.yaml文件搜索pg_num,修改值,这样部署时就可以按照设定的值设定pool

pgs没有激活

# ceph -s
Reduced data availability: 32 pgs inactive
Degraded data redundancy: 32 pgs undersized

160 undersized+peered

通过命令查询具体的原因

ceph pg dump_stuck stale
ceph pg dump_stuck inactive
ceph pg dump_stuck unclean

发现大面积的

4.3f    undersized+peered [0]          0    [0]              0 
4.3e    undersized+peered [0]          0    [0]              0 
4.3d    undersized+peered [0]          0    [0]              0 
4.3c    undersized+peered [0]          0    [0]              0 
...

peered是主要问题。执行如下命令修复。把每个pool的min_size设置为1

ceph osd pool ls detail
ceph osd pool set rbd min_size 1
ceph osd pool set cephfs_data  min_size 1
ceph osd pool set cephfs_metadata  min_size 1
ceph osd pool set .rgw.root  min_size 1

这里先解释min_size的作用,在ceph中,它的全名叫做osd_pool_default_min_size,这里大家就会问了,不是还活着一个呢吗,为什么就不能读取内容了,因为我们设置的min_size=2,在ceph中的意义就是,如果存活数少于2了,比如这里的1 ,那么ceph就不会响应外部的IO请求。

因为min_size=1时,只要集群里面有一份副本活着,那就可以响应外部的IO请求。

所以如果存在pgs处于degraded状态,可以查看每个pool的状态,然后修改min_size。这个也可以在values.yaml文件中修改。

创建pv和pvc成功,但是挂载不成功

pvc 和 pv 正常创建但是挂不上去,考虑可能是 kubernetes 这边调用 ceph 有问题,就将集群内所有 host 的 ceph-common 包升级到对应的版本,解决了这个问题。如果遇到这个问题,不妨一试。我 host 的 ceph-common是之前对接 j 版 ceph 时安装, 现在安装的 l 版

参考:https://segmentfault.com/a/1190000015806843

你可能感兴趣的:(架构,微服务架构)