php 一个简单的采集

//抓取网页使用的是PHPcurl扩展,不支持该扩展的环境,请使用file_get_contents($url);
function wuai_zhuazhua($url){//抓取指定url的源代码
    $ch=curl_init();
    curl_setopt($ch,CURLOPT_URL,$url);
    curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
    $html=curl_exec($ch);
    //此处省略了错误处理过程:curl_errno($ch)
    curl_close($ch);
    return $html;
}

function wuai_tiqu($str,$start="container\">",$end="</div>"){//提取指定范围的文本
    $startnum=strpos($str,$start);
    $str=substr($str,$startnum+strlen($start));
    $endnum=strpos($str,$end);
    $str=substr($str,0,$endnum-strlen($str));
    return strip_tags($str);//过滤html标记,若不需要,请去掉strip_tags
}
$url="http://www.baidu.com";
$str=wuai_tiqu(wuai_zhuazhua($url),"<body>","</body>");
echo $str;

你可能感兴趣的:(php 一个简单的采集)