先说结果,步骤为:


1)由job code查找报错的server name(production server)

2)在backup server上查找这个server备份任务用到的dg成员

3)通过命令查找dg备份任务的log

4)如果是因为pre脚本失败,手动执行分离,执行后其实任务就copy正常了

5)通知chops rerun job。

*********************************************************************************

详细步骤如下:

1)在表格中查找job code所属的server,在邮件中查找这个server,能找到alert的邮件,有报错的内容,或者在下面的第三步中找到。

2)在备份服务器(gdc jdc各两台,装dp的)的/opt/omni/lbin/SHELL/conf/ 路径下:ls |grep [server name ],可以找到和这个server相关的备份任务,如下图:

wKiom1apr7aiZQTVAAANbfqoCEg741.png

包含三个类型的任务,然后more一下任意一个,可以看到实际的dg,如下图:

wKiom1apsBmixIcKAAAHd7ZW_y0136.pngnim80201_vg1_pgmt01就是actual dg.只有一个,有时有很多个,理论上要一个一个的按下面第3)条的命令看看是哪个dg出的问题。

2016/02/24更新:

上面是DGC/DRC的处理方法。

2016/05/30更新:

GDC/DRC详细做法:

先说几个路径的功能:

1)/omni_shared/script/JP ->里面是job code, 例如GRW01A,这里面的内容有需要调用哪个datalist,主机名,load+mode, load有low,medium,high,备份mode有full还是incremtal,如下图:split job 报错的trouble shooting过程_第1张图片

2)/omni_shared/etc_opt_omni_server/datalist ->这里面就是datalist,里面描述了备份哪个raw disk device,用哪个driver,以及是physical 带库还是vtl带库。 ./cs |grep [datalist]

3)/opt/omni/lbin/SHELL/conf ->这里面是data list的信息,cat的话里面是DG信息,如下图:


split job 报错的trouble shooting过程_第2张图片

4)/omni_shared/script/conf -> 这里面也是datalist信息,cat的话里面是load+mode信息,如下图:

split job 报错的trouble shooting过程_第3张图片


所以逻辑是通过jobcode调用datalist,然后datalist调用dg信息.

下面是知道Jobcode之后的处理流程:

1)找到dalalist  ->cs->omni

2)  看上面的输出有可能只显示一个DG是precopy,但是需要去上面的3)那里查找所有DG信息,然后symclone -g [dg] que, 看是否precopy

3) 其实产生precopy的原因是split的job没有执行,要去server07上查看第5个path:

 /usr/local/admin/bc/jp ->这下面是server的名字,确定server的名字可以去上面3)路径下查DG,看DG前缀就是server name,然后cd进【server name】,下面是syn和split的job code,这些job syn/split上面3)路径下的所有DG,可以"./ [job code]"看是否能正常运行,如果正常运行,而且

symclone -g [dg] que是copied状态,说明是chow没有调用里面的job,因为如果手动是正常的。

************************************************************************************

在JDC,datalist=jobcode,不能按上面在路径下more datalist的方法,要用

                                       symdg list|grep -i [vg]

来查找dg.


3)查看dg是pre copy还是copied,通过命令:symclone -g [dg name] que,例如:

gepbkp05:/ # symclone -g gct9d201_vg1_pgmt_01 que

 Device Group (DG) Name: gct9d201_vg1_pgmt_01

DG's Type             : REGULAR

DG's Symmetrix ID     : 000298700592

          Source Device                   Target Device            State     Copy

--------------------------------- ---------------------------- ------------ ----

               Protected Modified                Modified

Logical   Sym  Tracks    Tracks   Logical   Sym  Tracks   CGDP SRC <=> TGT  (%)

--------------------------------- ---------------------------- ------------ ----

gct9d201* 1A49         0        0 gct9d201* 1D0A        0 XXXX PreCopy      100

gct9d201* 1A4A         0        0 gct9d201* 1D0B        0 XXXX PreCopy      100

Total           -------- --------                --------

  Track(s)             0        0                       0

  MB(s)              0.0      0.0                     0.0


4)如果显示是precopy的状态,说明copy还未分离,需要手动分离。命令为:

symclone -g [dg name ] activate -nop

其实执行完毕这个分离命令后,再按照symclone -g [dg name] que查找能发现状态已经改成copy了,但是还是需要通知chops rerun这个job,因为只有分离了才能开始copy,这个报错属于还没开始备份呢就报错了,通知rerun后,用./cs也能看到在跑了,有process了。