umad_open_port failed for device mlx4_0 port 1

umad_open_port failed for device mlx4_0 port 1


infiniband驱动出现未知因素导致部分服务不可启动。
开机失败:ib subnet manager failed
而且启动opensm服务---service opensmd start失败
# srp_daemon -e -o
 umad_open_port failed for device mlx4_0 port 1
解决:
卸载infiniband驱动重新安装,并rm -r /lib/modules/2.6.18-308.el5/extra/mlnx-ofa_kernel -rf

卸载(重点关注mlnx)
/usr/sbin/ofed_uninstall.sh
或--执行安装包的uninstall.sh
# ./uninstall.sh
# rm -r /etc/infiniband -rf

重启机器,检查模块和进程
# reboot

# lsmod |grep ml
# ps -ef | grep ml

查看模块列表
# modprobe -l |grep ml
这时候发现仍然存在mlnx相关的信息

把mlnx-ofa_kernel文件夹删除
rm -r /lib/modules/2.6.18-308.el5/extra/mlnx-ofa_kernel -rf


重新安装infiniband驱动(安装步骤在下面的链接)

http://blog.csdn.net/debimeng/article/details/75271248

你可能感兴趣的:(infiniband报错,mlx4_0,port,1,umad_open_port,srp_daemon,-e,-o不可用,service,opensmd,star,Linux-报错)