首先想到的最简单的使用shell脚本,大概思路:
ps -ef | grep “$1″ | grep -v “grep” | wc –l 是获取 $1 ($1 代表进程的名字)的进程数,脚本根据进程数来决定下一步的操作。通过一个死循环,每隔 1 秒检查一次系统中的指定程序的进程数,这里也可使用crontab来实现。
这种方法比较土,还是可以基本解决问题,但是有1s的延迟,笔者在应用中未采用这种方法,有关这个shell脚本,请参看文章后面的附件代码。
笔者最终采用的exec+fork方式来实现的,具体思想如下:
1,exec函数把当前进程替换为一个新的进程,新进程由path或file参数指定。可以使用exec函数将程序的执行从一个程序切换到另一个程序;
2,fork函数是创建一个新的进程,在进程表中创建一个新的表项,而创建者(即父进程)按原来的流程继续执行,子进程执行自己的控制流程;
3,wait 当fork启动一个子进程时,子进程就有了它自己的生命周期并将独立运行,我们可以在父进程中调用wait函数让父进程等待子进程的结束;
相信介绍到这里,读者已经能够想到解决方法了:1)首先使用fork系统调用,创建子进程,2)在子进程中使用exec函数,执行需要自动重启的程序,3) 在父进程中执行wait等待子进程的结束,然后重新创建一个新的子进程。
使用方法:
#./portmap 需要监控的程序的路径
#args portmap 需要的参数
$ ./supervisor ./portmap args.....
代码如下:
/** supervisor
* author: liyangguang ([email protected])
* date: 2011-01-21 21:04:01
* changes * 1, execl to execv
*/
#include
#include
#include
#include
#include
#include
#include
int main(int argc,char **argv){
int ret, i, status;
char*child_argv[100]= {0};
pid_t pid;
if(argc < 2){
fprintf(stderr,"Usage:%s \n", argv[0]);
return-1;
}
for(i = 1; i< argc;++i){
child_argv[i-1]= (char *)malloc(strlen(argv[i])+1);
strncpy(child_argv[i-1], argv[i], strlen(argv[i]));
child_argv[i-1][strlen(argv[i])]= '\0';
}
while(1){
pid = fork();
if(pid == -1){
fprintf(stderr,"fork() error.errno:%d error:%s\n", errno, strerror(errno));
break;
}
if(pid == 0){
ret = execv(child_argv[0],(char**)child_argv);
//ret = execl(child_argv[0], "portmap", NULL, 0);
if(ret < 0){
fprintf(stderr,"execv ret:%d errno:%d error:%s\n", ret, errno, strerror(errno));
continue;
}
exit(0);
}
if(pid > 0){
pid = wait(&status); fprintf(stdout,"wait return");
}
}
return0;
}
shell脚本方式的代码如下:
# 函数: CheckProcess
# 功能: 检查一个进程是否存在
# 参数: $1 --- 要检查的进程名称
# 返回: 如果存在返回0, 否则返回1.
#------------------------------------------------------------------------------
CheckProcess()
{
# 检查输入的参数是否有效
if [ "$1" = "" ];
then
return 1
fi
#$PROCESS_NUM获取指定进程名的数目,为1返回0,表示正常,不为1返回1,表示有错误,需要重新启动
PROCESS_NUM=`ps -ef | grep "$1" | grep -v "grep" | wc -l`
if [ $PROCESS_NUM -eq 1 ];
then
return 0
else
return 1
fi
}
# 检查test实例是否已经存在
while [ 1 ] ; do
CheckProcess "test"
CheckQQ_RET=$?
if [ $CheckQQ_RET -eq 1 ];
then
# 杀死所有test进程,可换任意你需要执行的操作
killall -9 test
exec ./test &
fi
sleep 1
done
转自:http://yaronspace.cn/blog/archives/1095