- 通常,多语言多系统之间的集成是个大问题,一般来说,人们多半会采用WebService的方式来处理此类集成问题,但不管采用何种风格的 WebService,如RPC风格,或者REST风格,其本身都有一定的复杂性。相比之下,Gearman也能实现类似的作用,而且更简单易用。
- 一个Gearman请求的处理过程涉及三个角色:Client -> Job -> Worker。
- Client:请求的发起者,可以是C,PHP,Perl,MySQL UDF等等。
- Job:请求的调度者,用来负责协调把Client发出的请求转发给合适的Work。
- Worker:请求的处理者,可以是C,PHP,Perl等等。
- 因为Client,Worker并不限制用一样的语言,所以有利于多语言多系统之间的集成
-
-
- gearman另一个应用方面是负载分担,你可以将worker放在不同的服务器(或者一些列服务器)上,比如你的php程序需要图片转换,但是不希望本 地服务器有太多的这样图片转换的进程,那么你可以建立一系列服务器,在上面加载worker处理图片转换。这样你的web服务器将不受图片转换的影响,同 时你得到了负载均衡的功能,因为jobserver会在请求到来的时候,将这个请求发给空闲的worker.同样对于多核的服务器,你可以在同一机器上创 建同样数目的worker.你可能担心,jobserver处于一个中心,那么这会是一个单点的瓶颈,如果死了,会怎么样?对于这样的情况,你可以运行多 个jobserver。这样如果一个jobserver down了,client和worker会自动迁移到另一台jobserver上。
从08年开始,所谓的云计算开始流行起来,什么分布式计算模型、分布式消息队列、分布式存储系统各种新鲜事物。
gearman,从名字上看叫做“齿轮工”,就是通过齿轮把不同的组件组合在一起。通常,多语言多系统之间的集成是项目开发中一个比较头疼的问题。一般会采用RPC风格或者是REST风格的WebService。但是总感觉比较麻烦。gearman就应运而生了,作为一个任务分发架构,它能够轻松的将前端的任务通过Job Server分发给后端的Worker处理。Gearman请求的处理过程涉及三个角色:Client -> Job Server -> Worker。
Client:请求的发起者,可以是C,PHP,Perl,MySQL UDF等等。
Job Server:请求的调度者,用来负责协调把Client发出的请求转发给合适的Worker。
Worker:请求的处理者,可以是C,PHP,Perl等等。
工作原理图:
工作流:
因为Client,Worker并不限制用一样的语言,所以有利于多语言多系统之间的集成。
甚至我们通过增加更多的Worker,可以很方便的实现应用程序的分布式负载均衡架构。
关于gearman的分布式任务处理:
1. 其实每一个任务处理的时间并没有降低,相反会稍稍有所增加,主要是数据在网络上传输的一些时间。
2. 前端Client(通常是web服务器)的负载降低了,但是转移到了后端Worker上。
计算不可能凭空消失,只不过从一台机器转移到了另外一台机器。
3. 同步方式的话,前端Client(通常是Web服务器)等待的时间与后端Worker的数量与当前任务数有关。如果任务数量<=Worker数量,前端Client等待的时间约等于一个任务处理的时间。
但是当任务数>=Worker数量时,就会出现某些Client等待的情况,某个Client只有等到一个空闲的Worker,才会将任务交给它进行处理。
设想一下,在任务数<=Worker数量的时候,使用gearman是可以提高响应时间的。如果采用单机话,N个任务还是在一台机器上运行,每个任务需要
现在有N个任务(Client),M个Worker,每个任务执行时间为t。如果不是用gearman的话,需要的时间为N*t,平均等待时间为N*t/2。
如果使用了gearman的话,并且N<=M,需要的时间为t,平均等待时间为t;如果N>M的话,需要的时间为(N/M)*t or (N/M+1)*t。
test.sh
#!/bin/sh
sleep 10
echo "TEST"
开启2个Worker
./gearman -w -f test /home/wangyao/test.sh
开启3个Client:
date;./gearman -f test;date
三个结果分别为:
--------------------------------------------
Wed Mar 17 14:41:31 CST 2010
TEST
Wed Mar 17 14:41:41 CST 2010
--------------------------------------------
Wed Mar 17 14:41:32 CST 2010
TEST
Wed Mar 17 14:41:42 CST 2010
--------------------------------------------
Wed Mar 17 14:41:34 CST 2010
TEST
Wed Mar 17 14:41:51 CST 2010
--------------------------------------------
可以看出前两个Client的任务都用了10s,但是第3个任务却花了17s。主要在于当第3个任务执行的时候,没有空闲的Worker执行任务,必须等到一个Worker空闲下来,最先空闲的Worker要在14:41:41,在这个时刻执行第3个任务,现在已经过去了7s,再需要10s完成任务,因此第3个任务最终用了17s。
4. 异步方式的话,任务交给后端Worker后,前端Client就返回了,这样用户体验比较好。但是,存在任务执行失败或者是任务结果反馈的问题。
一般采用数据库作为存储,将任务执行的状态信息、结果等存入数据库;前端Client定期检查数据库中的结果,再进一步进行操作,是向用户呈现结果还是重新执行任务。
一个应用实例:
Client将log发送到专门的log服务器:
tail -f access_log | gearman -h host -f logger
可能会有多个log服务器,log服务器将接受到的log信息写入到一个文件中:
gearman -w -h host -f logger > log_file
进行分布式grep,需要在每台log服务器设置一个function:
gearman -w host -f logger1 ./dgrep.sh
#!/bin/sh
read pattern
grep $pattern log_file
相应的在其他log服务器上创建logger2,logger3等。
现在,日志已经在日志服务器上了。我们在其他机器上,想对日志进行分布式的grep。只需要作为一个client,调用worker logger1、logger2、logger3等。
gearman -h host -f logger1 -f logger2 -f logger3 KEYWORD
这就可以可以在所有的机器上grep KEYWORD了。
这种方法不是很灵活,每台机器设置一个func,对上层不透明。
总体来看,gearman适合于那种task数量远远大于worker数量的应用。理论上来看,将计算开销转移到Worker上,从而实现任务的并发执行,表现为client计算负载减轻,用户的等待时间减少。
对Client而言是task,对于Worker而言是job。
后记:管理工具
Gearman-Monitor
GearmanManager