PHP小偷原理

snoopy是一个php类,用来模仿web浏览器的功能,它能完成获取网页内容和发送表单的任务。

官方网站 http://snoopy.sourceforge.net/


    下面是它的一些特征:
1、方便抓取网页的内容
2、方便抓取网页的文字(去掉HTML代码)
3、方便抓取网页的链接
4、支持代理主机
5、支持基本的用户/密码认证模式
6、支持自定义用户agent,referer,cookies和header内容
7、支持浏览器转向,并能控制转向深度
8、能把网页中的链接扩展成高质量的url(默认)
9、方便提交数据并且获取返回值
10、支持跟踪HTML框架(v0.92增加)
11、支持再转向的时候传递cookies


下面是简单的例子,比如说我们抓取百度的文字

<?php

include  "Snoopy.class.php" ; 
$snoopy  = new  Snoopy ; 
$snoopy -> fetchtext ( "http://www.baidu.com" ); 
echo  $snoopy -> results ; 

echo "<br/><font color='red'>上面是抓取网址上面的文字,下面这个却是抓取网址上面的链接地址</font><br/>";
$snoopy -> fetchlinks("http://www.baidu.com");
print_r( $snoopy -> results);
?> 

 

运行出的结果为:

百度一下,你就知道 body{margin:4px 0}p{margin:0;padding:0}img{border:0}td,p,#u{font-size:12px}#b,#u,#l td,a{font-family:arial}#kw{font:16px Verdana;height:1.78em;padding-top:2px}#b{height:30px;padding-top:4px}#b,#b a{color:#77c}#u{padding-right:10px;line-height:19px;text-align:right;margin:0 0 3px !important;margin:0 0 10px}#sb{height:2em;width:5.6em}#km{height:50px}#l{margin:0 0 5px 15px}#l td{padding-left:107px}p,table{width:650px;border:0}#l td,#sb,#km{font-size:14px}#l a,#l b{margin-right:1.14em}a{color:#00c}a:active{color:#f60}#hp{position:absolute;margin-left:6px}#lg{margin:-26px 0 -44px}#lk{width:auto;line-height:18px;vertical-align:top}form{position:relative;z-index:9} 登录新 闻网 页贴 吧知 道MP3图 片视 频设置高级空间 hao123 | 更多>> 把百度设为主页加入百度推广 | 搜索风云榜 | 关于百度 | About Baidu?009 Baidu 使用百度前必读 京ICP证030173号 
上面是抓取网址上面的文字,下面这个却是抓取网址上面的链接地址Array ( [0] => http://passport.baidu.com/?login&tpl=mn [1] => http://news.baidu.com [2] => http://tieba.baidu.com [3] => http://zhidao.baidu.com [4] => http://mp3.baidu.com [5] => http://image.baidu.com [6] => http://video.baidu.com [7] => http://www.baidu.com/gaoji/preferences.html [8] => http://www.baidu.com/gaoji/advanced.html [9] => http://hi.baidu.com [10] => http://www.hao123.com [11] => http://www.baidu.com/more/ [12] => http://utility.baidu.com/traf/click.php?id=215&url=http://www.baidu.com [13] => http://e.baidu.com [14] => http://top.baidu.com [15] => http://home.baidu.com [16] => http://ir.baidu.com [17] => http://www.baidu.com/duty/ [18] => http://www.miibeian.gov.cn ) 

 

你可能感兴趣的:(PHP,框架,浏览器,百度,HP)