根治SAP PI/XI集群故障

时间:10月13日

地点:移动数据中心

实施人员:徐建明

实施内容:

1、更换Intel芯片以太网卡,并配置驱动及offload、RSS禁用项。将此网卡作为群集public网络。(此步骤解决上次报错中的服务器集成网卡资源PI双机联机的切换负载故障)

2、在上一步成功后刷新集成网卡固件至当前最新版本,由版本527刷新到539。刷新成功。(此步骤解决上次报错中存在的固件与驱动不匹配报错信息)

3、将PI双机联机、当前群集资源按照最佳配置为1号机运行:PI,MSCS资源,2号机运行:PI,Oracle资源。并在13日进行了如下测试:

a、MSCS资源切换测试,切换和回切各5次。

b、Oracle资源切换测试,切换和回切各5次。

c、PI资源切换测试,切换和回切各5次。

以上测试和频率旨在考察更换网卡和固件刷新后的private及public(主要是public因为PI和Oracle等资源主要依赖public进行队列通信)是否正常,是否会导致群集切换带来的资源负载高引发的群集故障及系统报错。测试结果:正常无报错。

4、用户方工程师W在相关文档的参考下,自己操作进行AIX HACMP环境下的存储扩容。扩容步骤正确,但有如下问题。后经我调试解决。

a、HACMP环境操作不熟练,亟需得到更深入的AIX和HACMP培训。

b、当年的HACMP实施没有文档,而维护HACMP最基本的了解主备盘顺序未知,亟需在未来的维护中得到规范化的小机及存储维保管理。

c、HACMP配置有隐患:基于MPIO协议配置的部分盘,而不是AIX推荐的SAS协议。

d、小机有一台的网卡没有工作在千兆速率上,正常千兆速率应该是亮橙色,而不是绿色。

e、EMC配置aix HACMP有配置错误,属于EMC安装和规划范畴,目前无法修改必须停机重新设计,成本较大。带来的影响是产生“贵盘”disk3,导致扩容HACMP有警告报错,目前不影响系统,但对未来坏盘重新划盘扩容有影响,目前扩容为disk9。亟需得到深入的存储配置保障。

f、在配置过程中发现重启HACMP导致小机的部分网络路由丢失,发现是没有使用inittable方式,导致没有永久写入AIX,此问题已经教用户方工程师C解决。

你可能感兴趣的:(SAP)