PHP抓取网页内容汇总2

又看到了一些BAIDU空间上的有关抓取网页内容的文章,汇总一下。
======================================================================
http://hi.baidu.com/yihongnet/blog/item/420af050f6f6d35a1138c214.html
/**
* 实现从指定url抓取页面回来,自己修改url_info可以随意抓取别的页面
* 使用方法1: 从浏览器上输入本php文件的路径可以执行
* 使用方法2: 采用命令行方式执行 比如 c:/php5/php -f c:/getpage.php
* 抓取结果: 会在当前目录下生成一个抓取结果页面test.html
*
* Author: Michael
* HomePage:http://www.toplee.com
*/
$url_info = array(
       'timeout' => 5,
       'hostname'   => 'www.1caipiao.com',
       'port'    => 80,
       'uri'    => '/zoushi/ln35x7.asp',
       );
     
$status_line = '';
$fp = openUrl($url_info,$status_line);
if ($status_line == "200 OK") {
$content = getUrlData($fp);
writeToFile('test.html',$content);
echo "Get page ok! Please open test.html to see the result!/r/n";
echo "Any question, ask Michael For help!/r/n";
} else {
echo "Get page failed! Please check your url_info paramters and try again!/r/n";
}
/////////////// 下面是用到的三个函数 ////////////////////
function openUrl($url_data,&$status_line)
{
if (!isset($url_data['hostname']) || !$url_data['hostname'] || !isset($url_data['uri']) || !$url_data['uri'])
       return false;
if (!isset($url_data['port']))
       $url_data['port'] = 80;
if (!isset($url_data['timeout']))
       $url_data['timeout'] = 5;
$errno = '';
$errstr = '';
if (isset($url_data['proxy_host']) && $url_data['proxy_host']) {
       if (!isset($url_data['proxy_port']))
         $url_data['proxy_port'] = 80;
       $fp = @fsockopen($url_data['proxy_host'],$url_data['proxy_port'], $errno,$errstr,$url_data['timeout']);
       $uri = 'http://'.$url_data['hostname'].':'.$url_data['port'].$url_data['uri'];
       $hostname = $url_data['hostname'];
} else {
       $fp = @fsockopen($url_data['hostname'], $url_data['port'], $errno, $errstr, $url_data['timeout']);
       $uri = $url_data['uri'];
       $hostname = $url_data['hostname'];
}
if (!$fp)
       return false;
$method = ((isset($url_data['method']) && $url_data['method']) ? strtoupper($url_data['method']) : 'GET');
if ($method == 'GET') {
       fputs($fp, "GET $uri HTTP/1.0/r/nHost: $hostname/r/nUser-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows 98)/r/nConnection: close/r/n/r/n");
} elseif ($method == 'POST') {
       $len = strlen($url_data['content']);
       $post = "POST $uri HTTP/1.0/r/nHost: $hostname/r/nContent-Type: application/x-www-form-urlencoded/r/nContent-Encoding: chunked/r/nContent-Length: $len/r/nUser-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows 98)/r/nConnection: close/r/n/r/n";
       //echo $post;
       fputs($fp, $post);
       if (isset($url_data['content']))
         fputs($fp, $url_data['content']);
}
$status_line = '';
$count = 0;
while (!feof($fp)) {
       $count ++;
       $data = trim(fgets($fp,4096));
       if ($count == 1) {
         ereg("^HTTP/[0-9].[0-9] ([^/r/n]+)", $data, $regs);
         $status_line = $regs[1];
       }
       if ($data == "") break;
}
return $fp;
}
function getUrlData(&$fp, $code=0)
{
if ( !$fp ) return '';
$data = "";
while ( !feof($fp) ) $data .= fgets($fp, 4096);
fclose($fp);
if ($code < 0)
       return base64_decode($data);
elseif ($code == 0)
       return $data;
else
       return chunk_split(base64_encode($data));
}
function writeToFile($file,$content,$mode='w')
{
$oldmask = umask(0);
$fp = fopen($file, $mode);
if (!$fp) return false;
@fwrite($fp,$content);
@fclose($fp);
@umask($oldmask);
return true;
}
?>
这个程序实际上还是不错的,试了一下,代码也大致看了眼,感觉不错,只是不能过滤掉HTML标记。
======================================================================
http://hi.baidu.com/leaf2006/blog/item/edfe104cfe5a41fdd72afc04.html
抓取和分析一个文件是非常简单的事。这个教程将通过一个例子带领你一步一步地去实现它。让我们开
始吧!
  首先,我首必须决定我们将抓取的URL地址。可以通过在脚本中设定或通过$QUERY_STRING传递。为了简
单起见,让我们将变量直接设在脚本中。

  第二步,我们抓取指定文件,并且通过file()函数将它存在一个数组里。

  好了,现在在数组里已经有了文件了。但是,我们想分析的文本可能不全在一行里面。为了解决这个文
件,我们可以简单地将数组$lines_array转化成一个字符串。我们可以使用implode(x,y)函数来实现它。如
果在后面你想用explode(将字符串变量数组),将x设成"|"或"!"或其它类似的分隔符可能会更好。但是出于
我们的目的,最好将x设成空格。y是另一个必要的参数,因为它是你想用implode()处理的数组。

  现在,抓取工作就做完了,下面该进行分析了。出于这个例子的目的,我们想得到在到
之间的所有东西。为了分析出字符串,我们还需要叫做正规表达式的东西。
(.*)", $lines_string, $head); ?>
  让我们看一下代码。正如你所见,eregi()函数按下面的格式执行:
eregi("(.*)", $lines_string, $head);
  "(.*)"表示所有东西,可以解释为,"分析在和间的所以东西"。$lines_string是我们正
在分析的字符串,$head是分析后的结果存放的数组。
  最后,我们可以输数据。因为仅在和间存在一个实例,我们可以安全的假设数组中仅存
在着一个元素,而且就是我们想要的。让我们把它打印出来吧。
(.*)", $lines_string, $head); echo $head[0]; ?>

  这就是全部的代码了。
PS: 如果要抓整个页面 将上边代码中的《HEAD》修改成 html
这篇文章基本上是一步一步的讲解,所用的代码和网上流传的一样。
只是对于截取head这部分,我一直没有测试成功,不知道是怎么回事。

======================================================================
http://hi.baidu.com/prestohuan/blog/item/091195ca5bcaaa80c9176872.html
使用PHP简单网页抓取和内容分析
没事的时候想抓取点网页看看,也不太懂,只是玩玩,写了点代码,聊以娱乐
稍微有点意义的函数是:get_content_by_socket(), get_url(), get_content_url(), get_content_object 几个函数,也许能够给你点什么想法。

//获取所有内容url保存到文件
function get_index($save_file, $prefix="index_"){
    $count = 68;
    $i = 1;
    if (file_exists($save_file)) @unlink($save_file);
    $fp = fopen($save_file, "a+") or die("Open ". $save_file ." failed");
    while($i<$count){
        $url = $prefix . $i .".htm";
        echo "Get ". $url ."...";
        $url_str = get_content_url(get_url($url));
        echo " OK/n";
        fwrite($fp, $url_str);
        ++$i;
    }
    fclose($fp);
}
//获取目标多媒体对象
function get_object($url_file, $save_file, $split="|--:**:--|"){
    if (!file_exists($url_file)) die($url_file ." not exist");
    $file_arr = file($url_file);
    if (!is_array($file_arr) || empty($file_arr)) die($url_file ." not content");
    $url_arr = array_unique($file_arr);
    if (file_exists($save_file)) @unlink($save_file);
    $fp = fopen($save_file, "a+") or die("Open save file ". $save_file ." failed");
    foreach($url_arr as $url){
        if (empty($url)) continue;
        echo "Get ". $url ."...";
        $html_str = get_url($url);
        echo $html_str;
        echo $url;
        exit;
        $obj_str = get_content_object($html_str);
        echo " OK/n";
        fwrite($fp, $obj_str);
    }
    fclose($fp);
}
//遍历目录获取文件内容
function get_dir($save_file, $dir){
    $dp = opendir($dir);
    if (file_exists($save_file)) @unlink($save_file);
    $fp = fopen($save_file, "a+") or die("Open save file ". $save_file ." failed");
    while(($file = readdir($dp)) != false){
        if ($file!="." && $file!=".."){
            echo "Read file ". $file ."...";
            $file_content = file_get_contents($dir . $file);
            $obj_str = get_content_object($file_content);
            echo " OK/n";
            fwrite($fp, $obj_str);
        }
    }
    fclose($fp);
}
//获取指定url内容
function get_url($url){
    $reg = '/^http:////[^//].+$/';
    if (!preg_match($reg, $url)) die($url ." invalid");
    $fp = fopen($url, "r") or die("Open url: ". $url ." failed.");
    while($fc = fread($fp, 8192)){
        $content .= $fc;
    }
    fclose($fp);
    if (empty($content)){
        die("Get url: ". $url ." content failed.");
    }
    return $content;
}
//使用socket获取指定网页
function get_content_by_socket($url, $host){
    $fp = fsockopen($host, 80) or die("Open ". $url ." failed");
    $header = "GET /".$url ." HTTP/1.1/r/n";
    $header .= "Accept: */*/r/n";
    $header .= "Accept-Language: zh-cn/r/n";
    $header .= "Accept-Encoding: gzip, deflate/r/n";
    $header .= "User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Maxthon; InfoPath.1; .NET CLR 2.0.50727)/r/n";
    $header .= "Host: ". $host ."/r/n";
    $header .= "Connection: Keep-Alive/r/n";
    //$header .= "Cookie: cnzz02=2; rtime=1; ltime=1148456424859; cnzz_eid=56601755-/r/n/r/n";
    $header .= "Connection: Close/r/n/r/n";
    fwrite($fp, $header);
    while (!feof($fp)) {
        $contents .= fgets($fp, 8192);
    }
    fclose($fp);
    return $contents;
}
//获取指定内容里的url
function get_content_url($host_url, $file_contents){
    //$reg = '/^(#|javascript.*?|ftp:////.+|http:////.+|.*?href.*?|play.*?|index.*?|.*?asp)+$/i';
    //$reg = '/^(down.*?/.html|/d+_/d+/.htm.*?)$/i';
    $rex = "/([hH][rR][eE][Ff])/s*=/s*['/"]*([^>'/"/s]+)[/"'>]*/s*/i";
    $reg = '/^(down.*?/.html)$/i';
    preg_match_all ($rex, $file_contents, $r);
    $result = ""; //array();
    foreach($r as $c){
        if (is_array($c)){
            foreach($c as $d){
                if (preg_match($reg, $d)){ $result .= $host_url . $d."/n"; }
            }
        }
    }
    return $result;
}
//获取指定内容中的多媒体文件
function get_content_object($str, $split="|--:**:--|"){   
    $regx = "/href/s*=/s*['/"]*([^>'/"/s]+)[/"'>]*/s*(.*?)/i";
    preg_match_all($regx, $str, $result);
    if (count($result) == 3){
        $result[2] = str_replace("多媒体: ", "", $result[2]);
        $result[2] = str_replace("
", "", $result[2]);
        $result = $result[1][0] . $split .$result[2][0] . "/n";
    }
    return $result;
}
?>
时间关系,以后再测试这些代码。大致看了下,应该不错,看上去有过滤HTML标记的功能,只是还不知道效果如何。
======================================================================

你可能感兴趣的:(PHP)