这几天需要用PHP写一个定时抓取网页的服务器应用. 在网上搜了一下解决办法, 发现OSchina的 一个问题的解答很精彩(值得一看,谢谢大牛们的精彩回答O(∩_∩)O~), 提出几种解决办法.现总结如下.
一. 简单直接不顾后果型
1
2
3
4
5
6
7
|
ignore_user_abort();
//关掉浏览器,PHP脚本也可以继续执行.
set_time_limit(0);
// 通过set_time_limit(0)可以让程序无限制的执行下去
$interval
=60*30;
// 每隔半小时运行
do
{
//ToDo
sleep(
$interval
);
// 等待5分钟
}
while
(true);
|
缺点: 启动之后,便无法控制, 除非终止 PHP 宿主. 不要采用这样方法, 除非你是黑客.
二. 简单可控型
config.php
1
2
3
|
<?php
return
1;
?>
|
cron.php
1
2
3
4
5
6
7
8
9
|
ignore_user_abort();
//关掉浏览器,PHP脚本也可以继续执行.
set_time_limit(0);
// 通过set_time_limit(0)可以让程序无限制的执行下去
$interval
=60*30;
// 每隔半小时运行
do
{
$run
=
include
'config.php'
;
if
(!
$run
)
die
(
'process abort'
);
//ToDo
sleep(
$interval
);
// 等待5分钟
}
while
(true);
|
通过 改变config.php 的 return 0 , 来实现停止程序. 一个可行的办法是config.php文件和某个特殊表单交互, 通过HTML页面设置一些变量来进行配置
缺点: 占系统资源, 长时间运行,会有一些意想不到的隐患。比如内存管理方面的问题 .
三. 简单改进型
1
2
3
4
5
6
7
8
9
|
<?php
$time
=15;
$url
=
"http://"
.
$_SERVER
[
'HTTP_HOST'
].
$_SERVER
[
'REQUEST_URI'
];
/*
function
*/
sleep(
$time
);
file_get_contents
(
$url
);
?>
|
php脚本sleep 一段时间之后通过访问自身的方式继续执行. 就好像接力赛跑一样..这样就能保证每个PHP脚本执行时间不会太长. 也就不受time_out的限制了.
因为每一次一次循环php文件都是独立执行,所以这种方法,避免了time_out的限制. 但是最好和上边一样 加上控制代码. cofig.php , 以便能够终止进程.
四. cronTab 型
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
|
cControlJobNum(1);
while
(true)
{
<your code>
<动态sleep>
}
function
cControlJobNum(
$job_limit
) {
$cmd
= @popen(
"ps -ef | grep '{$_SERVER['SCRIPT_FILENAME']}' | grep -v grep | wc -l"
,
'r'
);
$num
= @
fread
(
$cmd
, 512);
$num
+= 0;
@pclose(
$cmd
);
if
(
$num
>
$job_limit
)
{
exit
;
}
return
true;
}
|
程序中通过 popen 来判断运行进程的数量,来控制并发
五.采用 BAE或者SAE上的 cron 服务来做.
六.买个vps,用crontab