关于爬虫及蜘蛛的几点见解

做数据驱动型的网站,数据、信息就是你的命根子,一旦你的数据被盗取或被非法使用,对你的损失是不可估量的。人家可以飞快的山寨一个网站出来让你痛不欲生。

首先简单解释一下爬虫、蜘蛛:

就是由某些人写出一个小程序,不断模拟浏览器请求你的页面,然后抓取相应的数据。蜘蛛则是搜索引擎抓取你的网页数据的工具。原理与爬虫类似。

统计代码一般不记录爬虫、蜘蛛等:

搜索引擎的蜘蛛基本不解析执行页面上的script脚本代码,因为脚本太复杂,解析起来效率太低。蜘蛛每天要抓上百万的页面,效率很重要。
另外蜘蛛抓取是按域名来的,换句话说蜘蛛的抓取是有选择的,会针对不同域名,其抓取频率也不同,统计代码用的不是贵站的域名,所以当蜘蛛抓取统计代码的时候是在cnzz.com域名下,所以是cnzz.com的抓取频率,并不代表贵站被蜘蛛抓取的频率。有的统计宣称在贵站网页上放他们域名的链接等就可以统计蜘蛛抓取,基本是忽悠您给他加友链,为他提高pr呢。
蜘蛛会通过网页的链接发现别的网站,但是这仅是发现(新网站入库),在抓取的时候,还是会保持内聚性,深入抓取内容。至于发现的新网站,会派发给后续蜘蛛任务。
第三,蜘蛛抓取针对不同资源的抓取频率也是不同的,同一个页面上的正文和图片等,蜘蛛抓取频率是不一样的。搜索引擎公司都为不同类型的资源配备不同类型的专有蜘蛛,绝对不是胡子眉毛一把抓的。
统计代码能记录的爬虫、蜘蛛

有一些人会使用模拟浏览器的方法来请求,包括你的所有脚本。完全模拟用户操作,这样的爬虫力量很强,几乎无法发现。注意防守了。例如某些插件就有这个效果。


解决爬虫的方法还是在自己的程序上做文章比较现实,做好良好的统计策略,和防爬策略才是关键。

你可能感兴趣的:(爬虫)