生产环境中 Oracle EPM Interactive Reporting 大量报表Schedule (计划)被置非激活状态

问题背景

2017年圣诞夜刚过,收到其他同事的紧急呼叫,称大量最终用户报告,在 Oracle EPM Interactive Reporting 11.1.2.X中有大量生产报表任务的Schedule (计划)被置非激活状态,他们无法收到报告,业务陷入停顿。


排查过程

经过问题核实,公司内部的AD活动目录服务器在周末该问题发生前发生数小时的故障,联想到Oracle EPM会周期性地将已经离职人员设置的报表任务的Schedule (计划)标记为非激活状态(inactive)状态。初步判断这是这起事故的根源。


恢复步骤

由于正处在圣诞假期,大量人员休假,无法 手动将所拥有(owne)报表任务的Schedule (计划)重新设置为激活状态,为了快速恢复服务,采用以下命令访问IR Repository 数据库,采用SQLPLUS 批量更新报表任务的Schedule (计划)


==========

 --将最近2天变更的报表任务的Schedule 重新激活。

UPDATE V8_SCHEDULEDTASK SET HOLD = 0 WHERE LAST_MOD_DATE >=  (SYSDATE - 2)

COMMIT;

==========

快速测试后,部署该修复到生产环境,经检查,受影响报表任务的Schedule (计划)恢复状态。


分析总结

作为公司信息基础架构的核心部分,AD服务塌机确实不应该,作为应用管理人员,可以对V8_SCHEDULEDTASK进行定期的报告,例如如果某一时段大量的Schedule状态被操作,可以加入Email警告。从而避免要等到最终用户报告才知道故障发生。


另一方面,EPM的这个特性比较两难,一方面我们希望EPM Shared Service 与AD服务器保持近实时的同步,例如当加入新用户或应用角色时,能尽快生效。但如果AD发生故障时,上述例如 Schedule失效的问题也会实时发生。所以建议在EPM配置AD时,建议配置成AD的负载均衡域名,当一个AD站点发生主机或者网络故障,可以自动切换到另外的AD服务器,从而保证该问题不会发生。






你可能感兴趣的:(生产环境中 Oracle EPM Interactive Reporting 大量报表Schedule (计划)被置非激活状态)