集群下处理请求的时序问题

一、环境介绍

所述软件为WEB产品,为一个整体解决方案的中间层,具体为同一套软件部署在多台服务器,相互之间可以组成集群,以共同处理用户请求。对上层调用者来说,其中有一台为主,其余为备。对下层中的某一个被管理者来说,该集群中某一台为主控,其他服务器可以是它的备控,上层和下层认为的主不一定相同。

二、问题描述

本次的问题出在被管理单位的主控和备控之间。

在主控上发出请求时,业务处理流程为:
    1.清空本服务器的缓存
    2.清空集群的共享缓存
    3.下发请求指令给下层被管理者
    4.在此下发略作改动的请求指令给下层
    5.下层被管理者将按指令处理后的结果给共享缓存
    6.从共享缓存中取出结果,返回用户
需要说明的是:
    本服务器的缓存,为本服务器所有实例共享,所以每一个新的请求都应清空该缓存
    集群的共享缓存,为该集群内所有服务器共享,具体有数据同步的模块负责。对于新的请求也应清理该缓存

在被控上走此流程时出现异常:
    只有改动后的请求指令对应的结果,没有改动前对应的结果

三、定位问题

主控与被控部署在两台服务器上,但使用的是同一套软件。当请求传给备控时,备控无法直接将指令下发给下层设备,必须通过主控间接得到结果。
原流程中的步骤3和4具体逻辑为:判断是否是主控,若是,直接处理,若不是,将数据重新封装为一个实体,通过调用主控中同样的对外接口,将请求转交给主控,主控处理后将结果再封装,返回给备控。
简单以线程说明:

备控中的处理线程:1 —— 2 —— 3(主控起一新的线程t1) —— 4(主控再起一新的线程t2) —— 5 —— 6
主控中的处理线程t1:        1 —— 2 —— 3 —— 4 —— 5 —— 6
主控中的处理线程t2:                              1 —— 2 —— 3 —— 4 —— 5 —— 6

可以看到,每新起一个线程,都会执行清理缓存操作,使有效的数据丢失。
具体来说,备控中的步骤4,多余且将本地缓存和共享缓存都删除。
主控t2线程完全多余,其步骤4会将之前的共享缓存都删除。所以最后得到的结果就只剩t2的步骤4得到的结果。在此之前的都将被覆盖。

四、解决方法

需要说明的是,主控和备控使用的软件是一样的,备控的请求传给主控时,就相当于在主控中重新执行了该请求。解决的依据是我可以得到两个标记:
标记一:在步骤3或4中的方法,我可以在执行这个步骤后得到一个信息:isSelf,这个请求是本服务器处理,即本服务器为主控时返回true;需要转交给主控处理,即本服务器为备控时,返回false。说明每次执行该步骤isSelf都会更新,即备控执行后返回false,并将请求移交给主控,主控再执行时返回true。
标记二:可以通过一个接口isQuery(),得到请求的来源,当是直接从前端获取到的时候,为true,当请求是被备控转交过来时,为false。
处理方式:
执行流程不变,只是在其中几步上加上判断条件:
步骤2加上限定,只有在请求是前端直接给的,即isQuery()为true时,才执行步骤1,清除共享缓存。保证共享缓存在一次请求中只被清理一次,且是在最初时被清理。
步骤4加上限定,只有从步骤3中得到的isSelf为true(表明,步骤3的确是被本服务器处理的)时,才执行步骤4,否则跳过。

修改后最终结果:
当请求直接发给主控时,所有条件都满足,顺序执行
当请求发给备控时,备控执行至步骤3,跳过步骤4,5,6,等待主控返回结果;当请求有备控转交给主控时,主控只会执行步骤1,跳过步骤2,执行3,4,5,6,得到结果,至于结果是封装返回给备控,还是其他处理,不需关心。

你可能感兴趣的:(主备,时序)