Oracle Server一台价值百万的服务器内存更换过程

数据库代码敲多了,看乏了吧!

带各位DBA看看你们的数据库运行在什么样的硬件上。

1、故障现象

事发时2号位置报警

Oracle Server一台价值百万的服务器内存更换过程_第1张图片

登录ILO发现内存报警

Oracle Server一台价值百万的服务器内存更换过程_第2张图片

查看详细信息

Oracle Server一台价值百万的服务器内存更换过程_第3张图片

查看详细报警

Oracle Server一台价值百万的服务器内存更换过程_第4张图片

2、关于ORACLE 服务器DIMM 备用

默认情况下在 Oracle ILOM 中启用 DIMM 备用。由 DIMM 提供的物理地址空间由于性能原因而交错。在完全配置的服务器中,支持 16 向和 15 向交错。这意味着,如果您从中启动系统或 PDomain 的服务器上的其中一个 CMIOU 上存在不可用的 DIMM,则该 CPU 节点仍可提供 15 个 DIMM 的物理地址空间而不必降至 8 向交错,8 向交错仅提供 8 个 DIMM 的物理地址空间。

此外,为了最大限度地提高系统可用性,如果在系统运行时诊断出一个 DIMM 发生了故障,则内存会通过将故障 DIMM 的内容分配到其他 15 个 DIMM 来动态地从 16 向交错切换到 15 向交错。要启用这种重新分配,平台固件必须为一个 DIMM 的内容保留空间。结果,尽管将 DIMM 配置为 16 向交错,但是系统只能使用 15 个 DIMM 的物理地址空间。

DIMM 备用在各个 CPU 节点(即 CMIOU)上启用。因此,在完全装载的 SPARC M7-8 服务器(包含两个 PDomain)上,每个 PDomain 中最多可以有 4 个 DIMM 发生故障,服务器上总共可以有 8 个 DIMM 发生故障。对于具有一个 PDomain 的 SPARC M7-8 服务器,每个 DCU 中最多可以有 8 个 DIMM 发生故障,而对于 SPARC M7-16 多主机服务器,每个 DCU 中最多可以有 4 个 DIMM 发生故障,因此服务器上总共可以有 16 个 DIMM 发生故障。

注 -  DIMM 备用在完全填充的 CMIOU 上默认处于启用状态。DIMM 备用在半填充的 CMIOU 上未启用。如果系统在引导时或运行时必须取消配置某个 DIMM,则会将关联的故障视为不可维修故障,因此不会发出维修通知。所以,如果取消配置了某个 DIMM,则在另一个 DIMM 发生故障之前无需更换该 DIMM。如果系统必须在半填充的 CMIOU 上取消配置某个 DIMM,将会发出维修通知。

3、服务器关机下电

由于SPARC M7-8服务器CPU共线程数太多了,计算资源十分的充足,一般这种机器都做了虚拟化,solaris上一般叫ldom

我这里共2台物理主机,每1台上运行4个虚拟机,运行Oracle 12.2 的RAC。

先对虚拟机里的系统进行关机,再在物理机上查看虚拟机状态

root@solaris-up:~# ldm ls

NAME STATE FLAGS CONS VCPU MEMORY UTIL NORM UPTIME
primary active -n-cv- UART 16 64G 0.1% 0.1% 76d 21h 42m
ldm1 active -t---- 5000 320 896G 0.0% 0.0% 3m
ldm2 active -t---- 5001 224 448G 0.0% 0.0% 1m
ldm3 active -t---- 5002 192 384G 0.0% 0.0% 3m
ldm4 active -t---- 5003 80 210G 0.0% 0.0% 3m

执行命令关闭LDOM虚拟机

root@solaris-up:~# ldm stop ldm1 && ldm stop ldm2 && ldm stop ldm3 && ldm stop ldm4
Remote graceful shutdown or reboot capability is not available on ldm1
LDom ldm1 stopped
Remote graceful shutdown or reboot capability is not available on ldm2
LDom ldm2 stopped
Remote graceful shutdown or reboot capability is not available on ldm3
LDom ldm3 stopped
Remote graceful shutdown or reboot capability is not available on ldm4
LDom ldm4 stopped

确认状态都为bond。

root@solaris-up:~# ldm ls

NAME STATE FLAGS CONS VCPU MEMORY UTIL NORM UPTIME
primary active -n-cv- UART 16 64G 0.1% 0.1% 76d 21h 43m
ldm1 bound ------ 5000 320 896G
ldm2 bound ------ 5001 224 448G
ldm3 bound ------ 5002 192 384G
ldm4 bound ------ 5003 80 210G

准备关机更换内存

主机执行init0关机

登录到ILO管理系统里,关闭主机

-> stop /System

Are you sure you want to stop all of the configured hosts on the system (y/n) y
Stopping /System
stop:
/HOST0: Stopping
/HOST1: Stopping

4、拆下CMMIOU

根据之前的报警确认是CMMIOU2里的内存故障,这里可以在背面检查CMMIOU2的报警灯是否亮起,确认好位置

Oracle Server一台价值百万的服务器内存更换过程_第5张图片

按下图的方法拆下CMMIOU

Oracle Server一台价值百万的服务器内存更换过程_第6张图片

5、更换内存

找到、按下并按住 CMIOU 上的蓝色故障提醒按钮。

亮起的绿色故障提醒电源 LED 表示有电 可用于点亮有故障的 DIMM LED。任何有故障的 DIMM 都由 DIMM 插槽旁边的琥珀色 LED,直到您松开按钮。

确认主板上的内存位置和报错的位置一致,直接更换内存就行

Oracle Server一台价值百万的服务器内存更换过程_第7张图片

现场进行更换

Oracle Server一台价值百万的服务器内存更换过程_第8张图片

内存长这个样子,这一批用的时三星的DDR4内存条32G

Oracle Server一台价值百万的服务器内存更换过程_第9张图片

6、设备开机

-> start /System

Are you sure you want to start all of the configured hosts on the system (y/n)? y
Starting /System
start:
/HOST0: Starting
/HOST1: Starting

等待设备加电自检,时间会很长,一般在1小时-1.5小时左右。当然也可以取巧把检测都关了,试过最快15分钟开机。。。。

Oracle Server一台价值百万的服务器内存更换过程_第10张图片

最后打开虚拟机完成更换

怎么样,看完了是不是非常简单!!

参考

SPARC M8 and SPARC M7 Servers Administration Guide

SPARC M8 and SPARC M7 Servers Service Manual

Oracle® ILOM 配置和维护管理员指南

也欢迎关注我的公众号【徐sir的IT之路】,一起学习!

————————————————————————————
公众号:徐sir的IT之路
CSDN :徐sir(徐慧阳)-CSDN博客
墨天轮:徐sir的个人主页 - 墨天轮
PGFANS:PGFans问答社区:全球唯一的PostgreSQL中文技术交流社区

————————————————————————————

Oracle Server一台价值百万的服务器内存更换过程_第11张图片

你可能感兴趣的:(系统集成,oracle,数据库,运维)