1、虚拟机迁移失败??
(1)、检查虚拟机是否挂载本地ISO镜像,如果有正在挂载ISO镜像,请先把ISO镜像卸载,再做迁移。
(2)、检查该虚拟机是否映射本地USB设备,如果有挂载USB设备,请先把USB映射删除后,再做迁移。
2、如何卸载虚拟机映射的USB设备??
(1)、查看虚拟配置文件,获取USB设备,如下图
201901071.png
(2)、关闭虚拟机,然后在接待你后台使用命令qm set {vm id} -delete 'usbX’删除USB映射
201901072.png
3、虚拟机显示红色的"X"号告警,怎么办??
在web管理,选择"数据中心"-"HA"把对应的VM id的HA 条目删除即可。
4、添加虚拟磁盘,在虚拟机中未显示该磁盘??
添加卷后需要在计算机的磁盘管理中发现并格式化后才能正常使用。
5、proxmox VE集群节点之间失联??
检查主机corosync服务是否正常,若该服务没有启动,采用systemctl start corosync.sefvice服务
6、Proxmox VE节点corosync服务启动失败??
检查节点的hosts文件配置是否正确
7、Ceph提示错误“patial read (500)”??
重启ceph服务:systemctl restart cehp
重启pvedeamon服务:systemctl restart pvedaemon
8、重启之后NFS存储无法自动挂载??
(1)、后台检查NFS服务是否正常,检查NFS挂载目录是否正常,在后台使用mount命令手动挂载NFS目录
(2)、如果之前使用ceph-fuse命令挂载是无法实现系统重启后存储自动挂载,更改挂载命令为fuse-mount即可得到解决
9、虚拟机分配主机USB加密狗设备后,在设备管理中出现黄色感叹号无法使用??
(1)、将USB加密狗穿透到虚拟机后,需要安装USB加密狗驱动后才可以使用。
10、Proxmox VE集群添加新节点后,新节点没有自动挂载RBD存储??
(1)、编辑RBD存储,在“节点”处添加新的节点
2019012001.png
11、虚拟机启动、删除出现任务错误提示“VM is locked(clone)”??
(1)、在后台执行命令“qm unlock { vm ID}”解除锁定。
12、如何把某节点的虚拟机强制移动到其他节点??
(1)、例:将虚拟机从节点node02迁移节点node01
命令如下:
mv /etc/pve/nodes/node02/qemu-server/101.conf /etc/pve/nodes/node01/qemu-server/
(2)、当某个节点宕机后,如何将宕机上的虚拟机,强制迁移到其他正常节点,请参考下面链接:
https://forum.proxmox.com/threads/2-node-cluster-failed-vm-migration-and-recovery.30818/
13、在web界面创建PAM类型用户,创建用户密码提示失败怎么办??
2019012002.png
(1)、首先要创建属于是PAM的用户,您需要先在后台使用useradd {用户名}命令创建该用户,然后再到web界面创建同样名字的pam用户,最后在web界面上修改密码。
注释:在web界面可以创建PAM用户,但到节点后台查看用户并没有创建的用户。
14、在Promox VE的web界面,有个节点点击其他功能菜单时不断弹出验证框??
(1)、该节点与集群其他节点时间有差异,需要调整时间后才能正常。
15、XFS文件系统损坏,如何修复??
(1)、假设系统因意外断电导致/dev/sdc1的XFS文件系统损坏,开机出现如下error提示;
2019012003.png
检查文件系系统:首先确保umount,再使用xfs_check /dev/sdc{分区};echo $?命令,返回0提示正常。
(2)、使用xfs_metadump和xfs_mdrestore命令,您可以创建受影响的分区的元数据映像,并对映像执行强制修复,而不是分区本身。这样做的好处是能够在分区上强制修复之前看到损坏的数据,同时,xfs_metadump工具保存元数据,一旦修复失败,最起码可以恢复到修复之前的状态。
当集群全部服务器突然掉电的时候,可能会导致集群中有一部分OSD里面的OSDdmp出现没刷到硬盘上的情况。
(1)、查看正常的OSD的OSDdmp文件,例如查看OSD 3(正常)的DIR_5目录下的文件
root@node01# ls /var/lib/ceph/osd/ceph-3/current/meta/DIR_5/ -l
total 108
-rw-r–r-- 1 root root 33540 Aug 15 17:07 osdmap.749__0_AC955525__none
-rw-r–r-- 1 root root 33540 Aug 15 17:07 osdmap.750__0_AC956B85__none
-rw-r–r-- 1 root root 33540 Aug 15 17:07 osdmap.751__0_AC956B55__none
(2)、查看OSD 4 (异常)的DIR_5目录下的文件,可以看到OSD 4的OSDdmp文件不全。
root@node01:/# ls /var/lib/ceph/osd/ceph-4/current/meta/DIR_5/ -l
total 36
-rw-r–r-- 1 root root 33540 Aug 15 17:07 osdmap.751__0_AC956B55__none
(3)、进入正常的OSD的meta目录,把该目录下的文件拷贝到损坏的OSD 的meta目录下
例如:
cp -a /var/lib/ceph/osd/ceph-3/current/meta/* /var/lib/ceph/osd/ceph-4/current/meta
(4)、重启故障的osd服务即可。
17、ceph分布式存储报错:HEALTH WARN APPLICATION not enable on 1 pool(s)
2019012004.png
(1)、执行ceph osd pool application enable {pool-name} {app-name}可以解决。
例子:ceph osd pool application enable yhz rbd
18、Proxmox VE登录到Web界面,出现提示Connection refused(595)错误信息,如何解决呢??
2019-01-07_160725.png
排查思路:
1、首先查看corosync 服务、pvedaemon服务、pve-cluster服务是否正常,如果服务正常,观察物理服务器后台load值负载情况
2、如果服务器后台Load值负载很高,说明磁盘已经出现阻塞导致Load值负载过高。
处理方法:
1、是因为pve-cluster服务异常,导致文件系统读写阻塞,需要重启pve-cluster服务即可。