AD&EXCHANGE
异地恢复
故障描述:
PDC
安装系统的两块
SCSI
磁盘(
RAID1
)同时红灯,此服务器安装
win2ksvrSP4+exchange2003SP2
,同时集
5
中
FSMO
角色于一身;另有一台虚机
BDC
,但
PDC
离线时
BDC
无法单独完成域验证工作(可能是复制有问题)。
1、
确定恢复方式:
A、
使用
BDC
恢复:
BDC
虽然有
DC
的基础,虚机恢复也方便,
AD
管理器连接到本机可以看到
AD
数据库正常,但是其本身先天不足(不能单独验证),而且我们最终的目的是要恢复
exchange
,它没有这些数据,所以放弃。
B、
使用
PDC
的服务器就地恢复:由于
exchange
的数据盘是单独的
RAID5
,没有受到系统
RAID1
崩盘的影响,数据应该没有问题,上面还有每天的系统状态和邮箱存储组的单独备份。这应该作为第一个恢复方案,即使恢复不成功,也可以将备份复制出来到其他机器做并行恢复测试。但问题是:原先的
RAID1
使用
2
块
32GB SCSI
,坏掉之后只能用
72GB
替代,硬件基础发生了改变,给恢复带来困难。另外,
PDC
本身是大块头服务器
+RAID
,不能使用
GHOST
这些工具,如果恢复失败,就必须重新安装系统,恢复非常耗费时间。
C、
使用
PDC
的备份数据异机恢复:利用
B
方案在安装系统补丁或进行配置的时候复制
exchange
原始数据库日志及数据库备份到
PC
机,使用
PC
机与
PDC
并行恢复测试。虽然是异机恢复,但
PC
机可以使用
GHOST
备份系统,恢复效率比服务器高。
D、
修复
RAID1
系统盘来引导系统:由于没有系统分区的全盘备份,
PDC
又进行了硬件的改动,所以可能前面三种方案都行不通。最坏的情况下,送
RAID1
的磁盘修理,然后引导系统。
2、
恢复步骤
A、
执行
B
方案,重新插入两块
72GB SCSI
磁盘,保留原来的
RAID1
的设置,划分与原系统一致的分区,安装系统,加载阵列卡驱动,到自动重启的时候找不到
boot device
。只得
remove RAID1
,然后重建
RAID1
,安装系统,加载阵列卡驱动,到选择安装分区的时候,发现
RAID1
排在
RAID5
之后,第一个分区卷标为
G
,
F3
退出
F8
调整
PORT
顺序,再次安装。进系统后,设置于原
PDC
一致的
IP
、计算机名、网卡顺序等,安装补丁,顺便复制相关备份到
PC
机。重启
F8
进目录恢复模式,运行
ntbackup
,找到最近的一个系统状态备份,在选项中选择“强制替换本地文件”,开始还原。因为硬件改变,按照
MS KB
的提示,完成后不重启,运行
regedit
,进入
HKLM-system-service-ntfrs-Parameters-Backup/Restore-Process at Startup
,设置
BurFlags=D4
,用于恢复后的
sysvol
和
netlogo
的自动重建。由于是全新的系统,无需执行授权恢复(
authoritative restore
,
restore database
)。重启,进入正常模式、安全模式、目录恢复模式都蓝屏,提示
inaccessible boot device
。查找
KB
,估计是磁盘类型或者驱动的问题,执行就地升级恢复系统,故障依旧;重新安装系统再次还原,故障依旧;安装
/
修复复制文件提示加载第三方驱动请按
F6
时按
F7
更改电源模式,故障依旧;故障恢复控制台使用
repair
目录下的
system
替换当前
driver
下的
system
文件,进入系统登陆界面之前自动重启。多次尝试,耗时
12
小时没有进展,放弃。
B、
执行方案
C
,在
PC
机(
via
芯片组,
PCI video BUS
,
SATA harddisk
)上安装无修改的
windows2000server
,安装
SP4
,为节约时间未安装其他
hotfix
,
ghost
备份后重启到目录恢复模式,恢复系统状态,注册表修改为
D4
,重启。不报希望,却进到了桌面,提示发现新硬件,全部
ESC
,网络标示处已经显示原
PDC
的计算机名及“因为这是一台域控制器”,小心翼翼的高兴。没有
AD
用户管理器?运行
MMC
添加一个,连接到本地域控制器,看到
AD
数据库的内容都在,赶紧重启,在没有做任何动作之前做个
ghost
。重启,进入设备管理器,发现多个原
PDC
上的设备存在,如
HP smartarry 6400 controllor
等,通通卸载,重新启动,安装
PC
机的驱动,重启,耗时
10
多分钟进入系统,手动安装其他设备的驱动(光驱驱动总找不到,不管了,时间就是生命,反正有网络了,共享网络光驱)。
NIC
驱动装好后与其他服务器互
ping
一下,通畅,通过
ISA
验证上网正常,说明
AD
已经在工作了,备份系统状态,重启,
GHOST
备份一个。
C、
这个时候可以小小的松一口气了,毕竟
AD
恢复了,网络就可以用了,
ERP/MIS
就可以用了,而且恢复邮件的难度相对要低一些(备份完整,恢复时间也可以长一些)。对原
PDC
安装干净系统备用,同时做恢复邮件之前的准备工作:设置
IP
地址、检查
DNS
服务器上的记录、根据日志排错、安装所有补丁(使用平常积攒了比较完整
hotfix
的
360
),安装
IIS
及
SMTP
等服务。最重要的是,对新
PDC
做新
BDC
以防恢复邮件的时候新
PDC
崩溃。(
*
恢复
PDC
期间同事在
BDC
上尝试
FSMO
夺权,但总提示找不到域)做新
BDC
时提示找不到域唯一标识,检查发现
5
种
FSMO
都在
BDC
上(它不是复制不正常吗?),转移到新
PDC
上,然后在新
BDC
的工作组状态下直接
dcpromo
,重启后设置
IP
及更新
DNS
记录,安装补丁及等待
3
台
DC
同步,最后做个备份,顺便温习一下
exchange
恢复步骤。
D、
备份好目前的
AD
系统状态及系统盘之后,将
exchange
复制到本地磁盘,运行
exchange\i386\bin
中的
dcdiag
和
netdiag
,然后是
forestprep
和
domainprep
,注意看有没有错误提示,若有先排除。然后运行
exchange\i386\setup /disasterrecovery
进行
exchange
的灾难恢复安装,这个过程可能要很久。如果安装过程中停止,可以结束进程,然后检查应用程序日志,可能是需要的组件没有安装或有错误(如
dotnetframwork
),安装这些组件后,再次运行灾难恢复安装,重复这个过程直到正常安装完成为止。之后安装
exchange
的
SP
(若有的话),否则恢复数据库时会提示找不到
exchange
。恢复安装之后可以在
exchange
系统管理器中看到原
PDC
上的存储组,但数据库处于开机不自动装载的状态,恢复数据库之前请先确认个数据库的“允许被覆盖”选项选中。这里有
2
种恢复方式:第一种,使用备份
+
日志恢复,运行
ntbackup
,选择要还原的
exchange
存储组,点击开始还原,在日志文本框中输入
exchange
日志的位置及选中“还原上次备份集”,开始恢复。完成后,运行
eseutil /cc
工具对数据库备份进行校验,
essutil /ml/mh
多数据库及日志进行检查,如果一切正常,还要等待
exchange
重放日志。第二种,由于原
PDC
的数据库和日志未收到破坏,可以将这些数据库和日志存放到原数据库所在的磁盘和目录,然后直接
amount
数据库,成功后注意要取消“开机时不自动装载”。
E、
邮件数据库恢复成功后,需要检查
sysvol
和
netlogon
有否正常共享(运行
net share
)。若文件夹不存在,请手动建立文件夹或者从
BDC
进行
copy
(丢失权限,或者可以磁带等备份再还原?)若文件夹存在只是没有共享,请运行
regedit
,进入
HKLM-system-service-ntfrs-Parameters-Backup/Restore-Process at Startup
,设置
BurFlags=D4
,然后重新启动
ntfrs
服务和
netlogon
服务。如果组策略打不开提示没有权限或者找不到路径,则时因为
netlogon
下的
{GUID}
和
AD
用户管理器中
policies
不一致造成的,可以手动建立文件夹,然后再重启服务。另外还要检查
POP3
、
SMTP
、
HTTP
等访问是否正常。最后还有设置备份计划及安装反垃圾邮件软件和杀毒软件。
3、
经验总结
A、
因为
windows
文件系统太过庞大及复杂,而
AD
又采用不规则的数据结构,导致
AD
的恢复带有很大的偶然性,应该在恢复中不断总结经验教训,多参考
MS KB
,做重要操作之前进行备份。
B、
使用兼容性较好的
PC
机进行
AD
异机恢复,比在服务器上进行异机恢复速度更快(可以使用
ghost
工具来备份恢复系统,多硬盘之间复制比较快),成功的可能性也更大(服务器的总线结构复杂,驱动复杂,经常要求安装各种特定的驱动,这些驱动可能在部分资源缺失或者错误的时候导致系统无法启动)。
C、
如果
AD
或者
exchange
的数据很大,
PC
机可以作为过渡,恢复成功第一个
DC
后,在服务器上建立
BDC
然后夺权,安装
exchange
恢复邮件数据。
D、
善于使用搜索引擎和
MS KB
,但没有哪个教程或者步骤是完全适合自己的故障的,因为每个网络环境、硬件环境及故障情况总是各有差异,所以多参考
KB
并结合自己的实际进行分析以解决问题。
E、
由于许多中文
KB
是机器自动翻译的,基本上看不懂,而英文版本则描述得最准确,所以具备一定的英文阅读能力是非常重要的。
F、
备份千日,用在一时。完善的备份机制是故障恢复的基础。
用到的KB和文章:
重建SYSVOL和NETLOGON共享:http://bbs.winos.cn/viewthread.php?tid=27409&extra=page%3D1%26amp%3Bfilter%3Ddigest&page=1 http://myhat.blog.51cto.com/391263/139479
无法装入数据库并收到事件 9518 和 455:
http://support.microsoft.com/kb/294367/zh-cn
如何在单个站点中恢复 Exchange 2000 Server 或 Exchange Server 2003 上的信息存储:
http://support.microsoft.com/kb/313184/zh-cn
在还原失败并出现错误信息 c1041724 后装入数据库:http://support.microsoft.com/kb/253931/zh-cn
如何重新生成 SYSVOL 树和域中的内容:http://support.microsoft.com/kb/315457/zh-cn
如何在 Windows 2000 中恢复已删除的域控制器计算机帐户:
http://support.microsoft.com/kb/248132/
如何在具有不同硬件配置的计算机上执行 Active Directory 的灾难恢复:http://support.microsoft.com/kb/263532/zh-cn
STOP: 0x0000007B"Inaccessible_Boot_Device"-:http://support.microsoft.com/kb/126423/zh-cn
http://support.microsoft.com/kb/329898/zh-cn
如何将 Exchange 2003 移动到新的硬件上并保持相同的服务器名: http://support.microsoft.com/kb/822945/zh-cn
如何在 Windows 2000 中对域控制器执行授权还原:http://support.microsoft.com/kb/241594/zh-cn
如何在 Windows 2000 中使用备份程序备份和还原系统状态:http://support.microsoft.com/kb/240363/zh-cn
如何在单个站点中恢复 Exchange 2000 Server 或 Exchange Server 2003 上的信息存储:http://support.microsoft.com/kb/313184/zh-cn