大鹿小野

rook-ceph osd down问题排查

rook ceph osd 异常(down)问题排查

初始化问题显现，如下：

[root@rook-ceph-tools-78cdfd976c-dhrlx /]# ceph osd tree
ID   CLASS  WEIGHT    TYPE NAME         STATUS  REWEIGHT  PRI-AFF
 -1         15.00000  root default                               
-11          3.00000      host master1                           
  4    hdd   1.00000          osd.4         up   1.00000  1.00000
  9    hdd   1.00000          osd.9       down         0  1.00000
 14    hdd   1.00000          osd.14        up   1.00000  1.00000

在检查ceph集群状态，发现： 37 daemons have recently crashed

[root@rook-ceph-tools-78cdfd976c-dhrlx osd]# ceph -s
  cluster:
    id:     f65c0ebc-0ace-4181-8061-abc2d1d581e9
    health: HEALTH_WARN
            37 daemons have recently crashed

  services:
    mon: 3 daemons, quorum a,c,g (age 9m)
    mgr: a(active, since 13d)
    mds: 1/1 daemons up, 1 hot standby
    osd: 15 osds: 14 up (since 10m), 14 in (since 2h)

  data:
    volumes: 1/1 healthy
    pools:   4 pools, 97 pgs
    objects: 20.64k objects, 72 GiB
    usage:   216 GiB used, 14 TiB / 14 TiB avail
    pgs:     97 active+clean

  io:
    client:   8.8 KiB/s rd, 1.2 MiB/s wr, 2 op/s rd, 49 op/s wr

判断这里显示的应该是历史故障信息，查看历史crash：

ceph crash ls-new
2022-05-13T01:46:58.600474Z_11da8241-7462-49b5-8ab6-83e96d0dd1d9

查看crash日志

ceph crash info 2022-05-13T01:46:58.600474Z_11da8241-7462-49b5-8ab6-83e96d0dd1d9

2393> 2020-05-13 10:24:55.180 7f5d5677aa80 -1 Falling back to public interface
-1754> 2020-05-13 10:25:07.419 7f5d5677aa80 -1 osd.2 875 log_to_monitors {default=true}
-1425> 2020-05-13 10:25:07.803 7f5d48d7c700 -1 osd.2 875 set_numa_affinity unable to identify public interface 'eth0' numa node: (2) No such file or directory
-2> 2020-05-13 10:25:23.731 7f5d4436d700 -1 rocksdb: submit_common error: Corruption: block checksum mismatch: expected 717694145, got 2263389519  in db/001499.sst offset 43727772 size 3899 code = 2 Rocksdb transaction: 
-1> 2020-05-13 10:25:23.735 7f5d4436d700 -1 /home/jenkins-build/build/workspace/ceph-build/ARCH/x86_64/AVAILABLE_ARCH/x86_64/AVAILABLE_DIST/centos7/DIST/centos7/MACHINE_SIZE/gigantic/release/14.2.9/rpm/el7/BUILD/ceph-14.2.9/src/os/bluestore/BlueStore.cc: In function 'void BlueStore::_kv_sync_thread()' thread 7f5d4436d700 time 2020-05-13 10:25:23.733456
/home/jenkins-build/build/workspace/ceph-build/ARCH/x86_64/AVAILABLE_ARCH/x86_64/AVAILABLE_DIST/centos7/DIST/centos7/MACHINE_SIZE/gigantic/release/14.2.9/rpm/el7/BUILD/ceph-14.2.9/src/os/bluestore/BlueStore.cc: 11016: FAILED ceph_assert(r == 0)

 ceph version 14.2.9 (581f22da52345dba46ee232b73b990f06029a2a0) nautilus (stable)
 1: (ceph::__ceph_assert_fail(char const*, char const*, int, char const*)+0x14a) [0x56297aa20f7d]
 2: (()+0x4cb145) [0x56297aa21145]
 3: (BlueStore::_kv_sync_thread()+0x11c3) [0x56297af95233]
 4: (BlueStore::KVSyncThread::entry()+0xd) [0x56297afba3fd]
 5: (()+0x7e65) [0x7f5d537bfe65]
 6: (clone()+0x6d) [0x7f5d5268388d]

     0> 2020-05-13 10:25:23.735 7f5d4436d700 -1 *** Caught signal (Aborted) **
 in thread 7f5d4436d700 thread_name:bstore_kv_sync

 ceph version 14.2.9 (581f22da52345dba46ee232b73b990f06029a2a0) nautilus (stable)
 1: (()+0xf5f0) [0x7f5d537c75f0]
 2: (gsignal()+0x37) [0x7f5d525bb337]
 3: (abort()+0x148) [0x7f5d525bca28]
 4: (ceph::__ceph_assert_fail(char const*, char const*, int, char const*)+0x199) [0x56297aa20fcc]
 5: (()+0x4cb145) [0x56297aa21145]
 6: (BlueStore::_kv_sync_thread()+0x11c3) [0x56297af95233]
 7: (BlueStore::KVSyncThread::entry()+0xd) [0x56297afba3fd]
 8: (()+0x7e65) [0x7f5d537bfe65]
 9: (clone()+0x6d) [0x7f5d5268388d]
 NOTE: a copy of the executable, or `objdump -rdS ` is needed to interpret this.

问题原因是一个“rocksdb: submit_common error: Corruption: block checksum mismatch: expected 717694145, got 2263389519 in db/001499.sst offset 43727772 size 3899 code = 2 Rocksdb transaction”，assert出错，OSD程序就一直启动不了。那么如何解决这个block mismatch问题呢？

问题分析

上面这个问题里的一个关键字是rocksdb，这是什么呢？Ceph的文件存储引擎默认是filestore，为了改善性能，如今改为了bluestore，而bluestore引擎的metadata就存放在rocksdb中。这说明：Ceph的文件存储引擎bluestore的元数据损坏了！

解决步骤

直接恢复是恢复不回来了，于是删掉这个对应的OSD，再重新加回来。

1，查看当前OSD的状态

[root@rook-ceph-tools-7bbsyszux-584k5 /]# ceph osd status
+----+------+-------+-------+--------+---------+--------+---------+----------------+
| id | host |  used | avail | wr ops | wr data | rd ops | rd data |     state      |
+----+------+-------+-------+--------+---------+--------+---------+----------------+
| 0  | ai05 |  299G | 3426G |    0   |     0   |    5   |   382k  |   exists,up    |
| 1  | ai05 |  178G | 3547G |    0   |    18   |    2   |  1110k  |   exists,up    |
| 2  | ai03 |  108G | 3617G |    0   |   944   |    5   |  84.0k  |   exists,up    |
| 3  | ai01 |  438G | 3287G |    0   |   763   |    7   |   708k  |   exists,up    |
| 4  | ai03 |  217G | 3508G |    0   |   339   |    7   |  63.6k  |   exists,up    |
| 5  | ai02 |  217G | 2576G |    1   |  10.9k  |    6   |   403k  |   exists,up    |
| 6  | ai04 |  300G | 3425G |   15   |   100k  |    7   |   161k  |   exists,up    |
| 7  | ai03 |  109G | 3616G |    0   |     0   |    0   |     0   |   exists,up    |
| 8  | ai02 |  246G | 3479G |    1   |  23.6k  |    2   |   813k  |   exists,up    |
| 9  |      |  0    | 0     |    0   |   0     |   0    |     0   | autoout,exists |
| 10 | ai03 |  136G | 3589G |    0   |   741   |    4   |   679k  |   exists,up    |
| 11 | ai03 |  162G | 3563G |    0   |  22.2k  |    4   |   824k  |   exists,up    |
| 12 | ai03 | 55.7G | 3670G |    0   |     0   |    2   |   952k  |   exists,up    |
| 13 | ai01 |  194G | 3531G |    0   |   130k  |    3   |  37.9k  |   exists,up    |
+----+------+-------+-------+--------+---------+--------+---------+----------------+

2，把出问题的OSD标记为out

[root@rook-ceph-tools-7gemfield-584k5 /]# ceph osd out osd.9
osd.2 is already out.

3、查找出OSD对应的磁盘

[root@master1 ~]# kubectl get po rook-ceph-osd-9-7dd6fc544c-4vhtm -n rook-ceph -o yaml |grep UUID
    - name: ROOK_OSD_UUID
      -o xtrace\n\nOSD_ID=\"$ROOK_OSD_ID\"\nOSD_UUID=052383d6-90ca-4ea1-a9c0-bcb0c43d8317\nOSD_STORE_FLAG=\"--bluestore\"\nOSD_DATA_DIR=/var/lib/ceph/osd/ceph-\"$OSD_ID\"\nCV_MODE=lvm\nDEVICE=\"$ROOK_BLOCK_PATH\"\n\n#
      \"$OSD_ID\" \"$OSD_UUID\"\n\n\t# copy the tmpfs directory to a temporary directory\n\t#

[root@master1 ~]#  lsblk |grep -C2 052383d6
rbd8                                                                                                  251:128  0     5G  0 disk /var/lib/kubelet/pods/7b39990a-ea1c-4f00-a767-a9fbc4a19ecd/volumes/kubernetes.io~csi/pvc-f78f0dd9-188c-4d02-aed0-03f25ed4d0a0/mount
vdc                                                                                                   252:32   0     1T  0 disk 
└─ceph--66c4c661--cf98--417b--afda--f79c3de1204c-osd--block--052383d6--90ca--4ea1--a9c0--bcb0c43d8317 253:3    0  1024G  0 lvm  
rbd12                                                                                                 251:192  0    10G  0 disk /var/lib/kubelet/pods/bfc62153-6844-498c-92f0-e86d09e8a7cc/volumes/kubernetes.io~csi/pvc-051b9632-fe52-4201-9572-79a75793ffb5/mount
rbd6                                                                                                  251:96   0     5G  0 disk /var/lib/kubelet/pods/b36acdab-1a0c-4ce4-b5a6-7aca039514ed/volumes/kubernetes.io~csi/pvc-7f6a160b-0e8e-46f8-989e-531667a13a3a/mount

检查哈是否有硬件报错，如下没发现具体的硬件报错

[root@master1 ~]#  dmesg |grep vdc
[    2.630026] virtio_blk virtio3: [vdc] 2147483648 512-byte logical blocks (1.10 TB/1.00 TiB)

检查对应osd的相关信息

[root@rook-ceph-tools-78cdfd976c-dhrlx /]# ceph device ls-by-daemon osd.9
DEVICE           HOST:DEV     EXPECTED FAILURE
4033036832428-3  master1:vdc

4，检查确认磁盘是否正确**

要细致，别删错硬盘。

gemfield@ai04:~$ sudo hdparm -I /dev/vdc | grep 4033036832428-3
        Serial Number:      4033036832428-3

5，purge掉osd.2**

得加上–force

[root@rook-ceph-tools-7bb5797c8-ns4bw /]# ceph osd purge osd.9 --force
[root@rook-ceph-tools-7bb5797c8-ns4bw /]# ceph auth del osd.9   #清理认证信息

6，清除OSD的Pod**

未设置的removeOSDsIfOutAndSafeToRemove: false，所以坏掉的OSD不会被自动删除，需要手动清除掉rook-ceph-osd-9：

[root@master1 ~]#  kubectl -n rook-ceph delete deployment rook-ceph-osd-9
deployment.apps "rook-ceph-osd-9" deleted

7，彻底清理掉vdc**

[root@master1 ~]#  DISK="/dev/vdc"
[root@master1 ~]#  sudo sgdisk --zap-all $DISK
[root@master1 ~]#  sudo dd if=/dev/zero of="$DISK" bs=1M count=100 oflag=direct,dsync
#注如果是ssd盘请用  blkdiscard /dev/vdc
[root@master1 ~]#  ls /dev/mapper/ceph-*
/dev/mapper/ceph--971efece--8880--4e81--90c6--621493c66294-osd--data--7775b10e--7a0d--4ddd--aaf7--74c4498552ff
/dev/mapper/ceph--a7d7b063--7092--4698--a832--1cdd1285acbd-osd--data--ec2df8ee--0a7a--407f--afe3--41d045e889a9

#清理掉lvm的残余,删除对应的逻辑卷
[root@master1 ~]#  sudo dmsetup remove /dev/mapper/ceph--a7d7b063--7092--4698--a832--1cdd1285acbd-osd--data--ec2df8ee--0a7a--407f--afe3--41d045e889a9

#查看还剩余一个
[root@master1 ~]#  ls /dev/mapper/ceph-*
/dev/mapper/ceph--971efece--8880--4e81--90c6--621493c66294-osd--data--7775b10e--7a0d--4ddd--aaf7--74c4498552ff

#确保/dev下还剩一个
[root@master1 ~]#  ls -l /dev/ceph-*
total 0
lrwxrwxrwx 1 root root 7 May 15 20:14 osd-data-7775b10e-7a0d-4ddd-aaf7-74c4498552ff ->

[root@master1 ~]# partprobe /dev/vdc

上述操作完成后执行reboot操作

8、重启ceph operator调度，使检测到格式化后的osd硬盘，osd启动后ceph集群会自动平衡数据

kubectl rollout restart deploy rook-ceph-operator -n rook-ceph

该操作会重新去检查和调度rook-ceph的创建过程

等完成后在检查集群状态

[root@master1 ~]# kubectl get po -n rook-ceph 
NAME                                                READY   STATUS      RESTARTS   AGE
csi-cephfsplugin-6rrgv                              3/3     Running     15         167d
csi-cephfsplugin-6t7kg                              3/3     Running     15         167d
csi-cephfsplugin-7ksh2                              3/3     Running     15         167d
csi-cephfsplugin-mr5z7                              3/3     Running     21         167d
csi-cephfsplugin-provisioner-7bcbf457c5-hv5nv       6/6     Running     284        167d
csi-cephfsplugin-provisioner-7bcbf457c5-qk9t6       6/6     Running     23         45d
csi-cephfsplugin-zsf6w                              3/3     Running     30         167d
csi-rbdplugin-5tsqc                                 3/3     Running     19         167d
csi-rbdplugin-8d6m5                                 3/3     Running     15         167d
csi-rbdplugin-998lx                                 3/3     Running     15         167d
csi-rbdplugin-jx676                                 3/3     Running     30         167d
csi-rbdplugin-njmtd                                 3/3     Running     21         167d
csi-rbdplugin-provisioner-69f65b7897-jh88t          6/6     Running     54         45d
csi-rbdplugin-provisioner-69f65b7897-qxpdr          6/6     Running     65         45d
rook-ceph-crashcollector-master1-84899f577b-fnf5f   1/1     Running     3          45d
rook-ceph-crashcollector-master2-6f7c4fb8d5-lzkf7   1/1     Running     3          45d
rook-ceph-crashcollector-master3-695b549f6b-gtpx7   1/1     Running     3          128d
rook-ceph-crashcollector-node1-67458cc896-pf6nx     1/1     Running     3          49d
rook-ceph-crashcollector-node2-5458f6f68c-nsd84     1/1     Running     3          42d
rook-ceph-mds-myfs-a-58f484bd6b-wxzts               1/1     Running     86         45d
rook-ceph-mds-myfs-b-669b684d78-mqfct               1/1     Running     13         128d
rook-ceph-mgr-a-85954dfbc5-zxtmk                    1/1     Running     8          128d
rook-ceph-mon-a-5ff4694d9-dc6v6                     1/1     Running     4          54m
rook-ceph-mon-c-868f4547cc-s97vv                    1/1     Running     12         167d
rook-ceph-mon-g-fb46bdf77-g5k98                     1/1     Running     10         49d
rook-ceph-operator-74646576d7-bkcq7                 1/1     Running     0          67m
rook-ceph-osd-0-5d94784b45-xr5fr                    1/1     Running     6          51d
rook-ceph-osd-1-98b84c76-5w6s8                      1/1     Running     4          42d
rook-ceph-osd-10-75c65bc759-wkzjz                   1/1     Running     4          42d
rook-ceph-osd-11-855495cf97-dvwp9                   1/1     Running     7          51d
rook-ceph-osd-12-7d55b9ddbd-hqbb4                   1/1     Running     10         49d
rook-ceph-osd-13-6bfc5b744-mhxw9                    1/1     Running     13         167d
rook-ceph-osd-14-7cd656d799-shtnr                   1/1     Running     118        45d
rook-ceph-osd-2-56c45f9db4-lzgbn                    1/1     Running     9          49d
rook-ceph-osd-3-6d9bdb7fd6-r6cgw                    1/1     Running     13         167d
rook-ceph-osd-4-5c8fb468c7-c6v9x                    1/1     Running     61         45d
rook-ceph-osd-5-85b7ff6578-zjgmw                    1/1     Running     6          51d
rook-ceph-osd-6-67dfcbc7c9-5vtjx                    1/1     Running     5          42d
rook-ceph-osd-7-5d86487c7-dnmkv                     1/1     Running     9          49d
rook-ceph-osd-8-5648594c55-gs7bb                    1/1     Running     13         167d
rook-ceph-osd-9-7dd6fc544c-7pw8t                    1/1     Running     0          16s
rook-ceph-osd-prepare-master1-qh9j9                 0/1     Completed   0          58m
rook-ceph-osd-prepare-master2-2d9q7                 0/1     Completed   0          58m
rook-ceph-osd-prepare-master3-pndv9                 0/1     Completed   0          58m
rook-ceph-osd-prepare-node1-5dbdq                   0/1     Completed   0          58m
rook-ceph-osd-prepare-node2-4lk9l                   0/1     Completed   0          58m
rook-ceph-tools-78cdfd976c-dhrlx                    1/1     Running     3          45d

[root@rook-ceph-tools-78cdfd976c-dhrlx /]# ceph -s
  cluster:
    id:     f65c0ebc-0ace-4181-8061-abc2d1d581e9
    health: HEALTH_OK

[root@rook-ceph-tools-78cdfd976c-dhrlx /]# ceph osd tree
ID   CLASS  WEIGHT    TYPE NAME         STATUS  REWEIGHT  PRI-AFF
 -1         15.00000  root default                               
-11          3.00000      host master1                           
  4    hdd   1.00000          osd.4         up   1.00000  1.00000
  9    hdd   1.00000          osd.9         up   1.00000  1.00000
 14    hdd   1.00000          osd.14        up   1.00000  1.00000
 -7          3.00000      host master2                           
  0    hdd   1.00000          osd.0         up   1.00000  1.00000
  5    hdd   1.00000          osd.5         up   1.00000  1.00000
 11    hdd   1.00000          osd.11        up   1.00000  1.00000
 -9          3.00000      host master3                           
  3    hdd   1.00000          osd.3         up   1.00000  1.00000
  8    hdd   1.00000          osd.8         up   1.00000  1.00000
 13    hdd   1.00000          osd.13        up   1.00000  1.00000
 -5          3.00000      host node1                             
  2    hdd   1.00000          osd.2         up   1.00000  1.00000
  7    hdd   1.00000          osd.7         up   1.00000  1.00000
 12    hdd   1.00000          osd.12        up   1.00000  1.00000
 -3          3.00000      host node2                             
  1    hdd   1.00000          osd.1         up   1.00000  1.00000
  6    hdd   1.00000          osd.6         up   1.00000  1.00000
 10    hdd   1.00000          osd.10        up   1.00000  1.00000

此时rook-ceph集群恢复正常

字节跳动离职后，转行学起了AI大模型！该说不说，真的香！！小城哇哇人工智能 AI大模型语言模型 agi ai LLM 转行
个人自我介绍鄙人出生于南方小乡镇，为了走出小镇，在当地够拼够努力，不是自夸，确确实实也算得上“别人家的小孩”，至少在学习这件事情少，没有要家里人操过心。高考特别顺利，一个老牌985，具体哪个学校就不说了，不想给母校丢脸。毕业后，也算是“风光”地进入了字节跳动。做的是运维测试。在职期间刚入职的时候真的信心满满⛽️，但才3天就感受到了互联网头部公司的强度不是一般的大。明面上的早十晚八工作制完全不存在，
python列表添加元素的三种方法定义集合数据对象_python 学习第三天可迭代对象（列表，字典，元组和集合）... weixin_39852491
列表，字典，元组和集合列表list列表是由一系列特定元素组成的，元素和元素之间没有任何关联关系，但他们之间有先后顺序关系列表是一种容器列表是序列的一种列表是可以被改变的序列Python中的序列类型简介（sequence）字符串（str）列表（list）元组（tuple）字节串（bytes）字节数组（bytearray）创建空列表的字面值L=[]#L绑定空列表创建非空列表：L=[1,’two’,3,
Docker搭建开源Web云桌面操作系统Puter和DaedalOS 没刮胡子 Linux服务器技术 Linux 1024程序员节 puter 云桌面云桌面操作系统 daedalOS web操作系统
文章目录Puter操作系统说明基于Docker启动Puter操作系统拉取镜像运行容器基于Docker-Compose启动Puter操作系统创建目录编写docker-compose.yml运行在本地直接运行puter操作系统puter界面截图puter个人使用总结构建自己的Puter镜像daedalos基于web的操作系统说明技术特点核心功能使用场景基于docker运行daedalos拉取镜像运行容
kibana第一次连接elasticsearch出现问题1：Unable to retrieve version information from Elasticsearch nodes. 皮卡兔子屋 elasticsearch docker
问题描述elasticsearch容器正常运行，在启动kibana容器后打开对应连接，出现错误：kibanaserverisnotreadyyet.通过docker命令查看kibana日志：dockerlogskibana显示错误为：[ERROR][elasticsearch-service]UnabletoretrieveversioninformationfromElasticsearchno
2025最新docker教程（四）嘿rasa 2025最新教程系列 docker eureka 容器
Docker客户端docker客户端非常简单,我们可以直接输入docker命令来查看到Docker客户端的所有命令选项。runoob@runoob:~#docker可以通过命令dockercommand--help更深入的了解指定的Docker命令使用方法。例如我们要查看dockerstats指令的具体使用方法：runoob@runoob:~#dockerstats--help容器使用获取镜像如果
交换机救命命令手册：华为 & 思科平台最全运维指令速查表 IT程序媛-桃子数通华为认证服务器运维
引言：这是一份救命的交换机运维秘籍在交换机配置与故障排查过程中，不论你是初入网络世界的小白，还是年资数年的资深工程师，总会遇到那些“关键时刻靠得住的命令”。这篇文章，我将整理一份覆盖华为+思科双平台的实战命令手册，从最基础的设备状态查看，到VLAN、STP、防环、LACP、QOS、抓包、限速、安全加固等操作，通通囊括。关键时刻，拿来即用，就是这篇的全部意义。01️⃣基础生存命令：先活下来再说场景华
Kubernetes 资源管理实战：合理配置 CPU 与内存请求和限制 XMYX-0 K8S kubernetes 容器
文章目录Kubernetes资源管理实战：合理配置CPU与内存请求和限制理解Kubernetes中的资源请求与限制资源请求（Requests）资源限制（Limits）单位解析案例分析：20GB服务器与两个服务的内存配置是否有必要设置如此高的内存限制？如何合理配置？补充知识点：监控与自动扩缩容监控工具自动扩缩容（Autoscaling）总结Kubernetes资源管理实战：合理配置CPU与内存请求和
C++中的三个交换函数swap、swap_ranges、iter_swap 爱听雨声的北方汉轻轻松松学C++c++
有三个交换函数，swap、swap_ranges、iter_swap其中需要注意的是容器和数组虽然都可以充当存放元素的数据类型，但是两个不同的概念，之间的区别是可以将容器看成基本的数据类型，可以像处理基本的数据类型一样来处理容器，比如直接赋值，或者当成参数传递给函数做形参；但是数组有所不同，数组是一个包括有很多元素的数据类型，不能像处理基本数据类型那样直接对数组进行操作，需要借助指针。所以之间的区
Redis桌面工具:Tiny RDM 微刻时光微秒速递 redis 数据库缓存笔记
1.TinyRDM介绍TinyRDM（TinyRedisDesktopManager）是一个现代化、轻量级的Redis桌面客户端，支持Linux、Mac和Windows操作系统。它专为开发和运维人员设计，使得与Redis服务器的交互操作更加便捷愉快。TinyRDM提供了丰富的Redis数据操作功能，具备现代化的界面设计和良好的用户体验，使得Redis的管理和运维变得更加简单高效。2.核心功能极致轻
SpringCloud框架下的注册中心比较：Eureka与Consul的实战解析耶耶Norsea 网络杂烩 spring cloud
摘要在探讨SpringCloud框架中的两种注册中心之前，有必要回顾单体架构与分布式架构的特点。单体架构将所有业务功能集成在一个项目中，优点是架构简单、部署成本低，但耦合度高。分布式架构则根据业务功能对系统进行拆分，每个模块作为独立服务开发，降低了服务间的耦合，便于升级和扩展，然而其复杂性增加，运维、监控和部署难度也随之提高。关键词SpringCloud,注册中心,单体架构,分布式架构,服务拆分一
使用Docker部署RabbitMQ 九思x docker rabbitmq 容器
第一步：安装RabbitMQ#1.拉取镜像dockerpullrabbitmq:3.12.0-management#2.启动容器（开放端口+数据持久化）dockerrun-d\--name=share_rabbitmq\-p5672:5672\#AMQP协议端口-p15672:15672\#管理界面端口-v/opt/rabbitmq/data:/var/lib/rabbitmq\#数据持久化目录r
Spring Boot拦截器（Interceptor）与过滤器（Filter）深度解析：区别、实现与实战指南 QQ828929QQ spring boot 后端 java
SpringBoot拦截器（Interceptor）与过滤器（Filter）深度解析：区别、实现与实战指南一、核心概念对比1.本质区别维度过滤器（Filter）拦截器（Interceptor）规范层级Servlet规范（J2EE标准）SpringMVC框架机制作用范围所有请求（包括静态资源）只处理Controller请求依赖关系不依赖Spring容器完全集成SpringIOC容器执行顺序最先执行（
Kubernets命名空间忍界英雄 docker k8s
Kubernets命名空间什么是命名空间命名空间（Namespace）是一种用于组织和隔离Kubernetes资源的机制。在Kubernetes集群中，命名空间将物理集群划分为多个逻辑部分，每个部分都拥有自己的一组资源（如Pod、Service、ConfigMap等），彼此之间互不干扰，实现资源的隔离管理。不仅Kubernetes具备命名空间的概念，在Docker等容器技术中，也通过命名空间（Na
操作系统高频（一）线程与进程 HUZ_小Z 开发语言操作系统课程设计笔记经验分享
操作系统高频（一）线程与进程1.什么是线程？进程，线程，彼此有什么区别？⭐⭐⭐进程进程（Process）是计算机中的程序关于某数据集合上的一次运行活动，是系统进行资源分配的基本单位。是操作系统结构的基础。进程是线程的容器。程序是指令、数据及其组织形式的描述，进程是程序的实体。线程线程是操作系统最小的运算调度单位。线程包含在进程中，是进程中实际执行任务的单位。在一些操作系统中，线程也被称为轻量级进程
k8s--集群内的pod调用集群外的服务 IT艺术家-rookie k8s与docker容器技术 kubernetes 容器云原生
关于如何让同一个局域网内的Kubernetes服务的Pod访问同一局域网中的电脑上的服务。可能的解决方案包括使用ClusterIP、NodePort、HeadlessService、HostNetwork、ExternalIPs，或者直接使用Pod网络。每种方法都有不同的适用场景，需要逐一分析。例如，ClusterIP是默认的，只能在集群内部访问，所以可能需要其他方式。NodePort会在每个节点
运维面试题（七） a_j58 运维
1.statefulset用来管理有状态的应用程序，有状态是什么意思？每一个pod都有一个固定的网络标识符，在整个生命周期中不会改变。每个实例都可以拥有自己的持久化存储卷，即使容器被删除并重新创建，存储卷仍然存在。StatefulSet确保了Pod按照顺序启动、更新和终止。2.主键是什么，它与索引有什么关系？主键确保表中每一行数据都可以被唯一标识，避免数据重复。主键通常会自动创建一个唯一索引，加快
云原生工程师必修课：如何揪出“假忙真闲”的应用元凶 YAMLMaster 面试题 kubernetes 运维开发 devops
Tagamanent,Spain引言这是一个再经典不过的面试题了，希望大家能学到精髓。开始介绍在分布式系统和高并发场景中，高负载（HighLoad）与低使用率（LowUtilization）的共存矛盾是运维和开发者的常见挑战。这种问题往往隐蔽性强，传统监控指标难以直接定位根因。本文从系统层、应用层、架构层多维度拆解，提供一套完整的排查与优化方法论。核心概念厘清•负载（Load）：系统当前待处理任务
k8s运维设置Pod实现JVM内存根据容器内存动态调整风行無痕 K8S kubernetes jvm 容器
一、实现方式推荐方案：利用JVM容器感知特性，按比例动态分配。适用场景‌：动态根据Pod内存限制自动分配堆内存，无需硬编码参数Java要求：Java8u191+或Java11+Java8u191+或Java11+支持通过-XX:InitialRAMPercentage替代-Xms，根据容器内存限制自动计算堆内存。在容器环境变量中配置-XX:MaxRAMPercentage=75.0，使JVM根据容
MongoDB慢日志查询及索引创建 laolitou_1024 中间件微服务数据库 mongodb
MongoDB的慢日志（SlowQueryLog）对于运维和程序员来说都非常重要，因为它直接关系到数据库的性能和应用程序的稳定性。以下分享介绍下MongoDB慢日志查询及索引创建相关的一些笔记。一，准备1.使用db.currentOp()实时监控db.currentOp()可以查看当前正在执行的操作，适合捕捉瞬时的高CPU操作。db.currentOp()示例：过滤长时间运行的操作db.curre
微服务即时通信系统---（五）框架学习 YangZ123123 微服务即时通信系统学习微服务算法
目录ODB介绍安装build2安装odb-compiler安装ODB运行时库安装mysql和客户端开发包安装boostprofile库安装总体打包安装总体卸载总体升级头文件包含和编译时指明库ODB常见操作介绍类型映射ODB编程类与接口介绍mysql连接池对象类mysql客户端操作句柄类mysql事务操作类针对可能为空的字段封装的类似于智能指针的类型针对查询结果所封装的容器类和条件类mysql操作句
阿里云在使用 Docker 过程中踩过的坑 weixin_34293059 运维
昨天下午朋友在微信上丢给我一条新闻，看看，我们阿里云支持Docker企业版了。我打开一看，果然，阿里云发布了飞天敏捷版，开始支持企业级的Docker容器。美国中部时间4月19日，阿里云在容器技术大会DockerCon2017上正式推出了ApsaraStackAgility，也就是飞天的敏捷版。Docker公司首席执行官BenGolub在大会上宣布了ApsaraStackAgility的正式发布，这
CPU占用率飙升至100%：是攻击还是正常现象？群联云防护小杜安全问题汇总 ddos 安全 waf 服务器 cpu 占用被攻击
在运维和开发的日常工作中，CPU占用率突然飙升至100%往往是一个令人紧张的信号。这可能意味着服务器正在遭受攻击，但也可能是由于某些正常的、但资源密集型的任务或进程造成的。本文将探讨如何识别和应对服务器的异常CPU占用情况，并通过Python脚本示例，提供一种监控和诊断CPU占用率的方法。一、CPU占用率100%：攻击or正常？1.1攻击迹象持续性高占用：如果CPU占用率长时间保持在100%，且没
MotionLayout（二）：MotionLayout是什么？MotionLayout调试技巧、KeyFrame关键帧等等前期后期 android kotlin 学习
一、MotionLayout是什么？●定位：AndroidJetpack中的高级布局容器，继承自ConstraintLayout。●核心功能：通过状态（State）和过渡（Transition）定义复杂的界面动画，支持手势交互、路径动画等。●优势：简化动画开发流程，替代传统Animator或TransitionManager，适合处理多视图联动、复杂转场效果。1.1应用场景使用MotionLayo
一文读懂 Linux 下 Docker 搭建及简单应用 Waitccy linux docker 运维服务器
一、引言在Linux系统的运维与开发场景中，Docker凭借其高效的容器化技术，极大地简化了应用部署与管理流程。它打破了传统环境配置的复杂性，实现应用及其依赖的封装，确保在不同环境中稳定运行。本文将详细介绍在Linux系统下搭建Docker的步骤，并通过几个简单应用示例，带你快速上手Docker。二、Linux下Docker搭建（一）准备工作系统要求：建议使用主流的Linux发行版，如Ubuntu
微服务 - 中级篇编程在手天下我有微服务架构云原生
微服务-中级篇一、微服务架构深化（一）服务拆分原则（二）服务通信方式二、微服务技术选型（一）开发框架（二）容器技术三、微服务实践与优化（后续会详细分析）一、微服务架构深化（一）服务拆分原则1.业务功能内聚性核心概念是将逻辑上紧密关联的业务功能组合在一个微服务中。以电商系统为例，用户管理模块包含用户注册、登录、个人信息修改、密码重置等功能。这些功能围绕用户实体展开，相互之间存在紧密的业务逻辑联系。将
Docker 容器基础技术：namespace 寻雾&启示 docker 容器运维
在容器内进程是隔离的，比如容器有自己的网络和文件系统，容器内进程的PID为1，这些都是依赖于Linuxnamespace所提供的隔离机制。本篇我们来了解下Linux有哪些namespace，以及它们是如何实现隔离的。文中案例代码均由ChatGPT生成，在Linux内核5.15.0-124-generic，ubuntu22.04LTS系统上测试通过。namespace类型每个进程都有自己所属的nam
使用kubeadm部署高可用IPV4/IPV6集群---V1.32
使用kubeadm部署高可用IPV4/IPV6集群https://github.com/cby-chen/Kubernetes开源不易，帮忙点个star，谢谢了k8s基础系统环境配置配置IP#注意！#若虚拟机是进行克隆的那么网卡的UUID和MachineID会重复#需要重新生成新的UUIDUUID和MachineID#UUID和MachineID重复无法DHCP获取到IPV6地址sshroot@1
基于AWS Endpoint Security（EPS）的自动化安全基线部署 weixin_30777913 云计算 aws python 安全架构
设计AWS云架构方案实现基于AWSEndpointSecurity(EPS)的自动化安全基线部署，AMSAdvanced（AWS托管服务）环境会为所有新部署的资源自动安装EPS监控客户端，无需人工干预即可建立统一的安全基线。这种自动化机制特别适用于动态扩缩的云环境，确保新启动的EC2实例、容器等终端设备从初始状态即受保护，以及具体实现的详细步骤和关键代码。以下是基于AWSEndpointSecur
AIOps：解决企业IT挑战的智能利器雅菲奥朗认证培训 AIOps SRE 可观测性
前言：在当今数字化的时代，企业IT基础设施和应用程序规模不断扩大，面临着日益复杂的挑战。在这种情况下，AIOps人工智能运维成为解决企业IT运维困境的智能利器。AIOps与可观测性密切相关，可观测性是实现AIOps的基础。通过收集、监视和理解系统数据，AIOps能够自动化运维任务、实时监控系统状态、预测潜在问题，从而提高效率和稳定性。AIOps尤其适用于IT运维部门，这是一个迫切需要此类技术的群体
第十八章：模板的多态力量_《C++ Templates》notes 郭涤生 c/c++c++开发语言笔记
模板的多态力量一、动态多态vs静态多态二、奇异递归模板模式（CRTP）三、策略模式（编译期策略选择）关键要点总结第一部分：多选题(10题)第二部分：设计题(5题)答案与详解多选题答案：设计题参考答案1.编译期策略选择器2.类型安全访问者模式3.概念约束数学库4.编译期工厂模式5.静态多态容器测试说明一、动态多态vs静态多态核心概念：动态多态：基于虚函数和继承体系，函数调用在运行时决定（通过虚函数表
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在

rook-ceph osd down问题排查

rook ceph osd 异常(down)问题排查

问题分析

解决步骤

你可能感兴趣的:(运维,容器,kubernetes)