对于防采集的一个思路

最近,网络采集技术很是流行,利用采集技术,可以直接将其它站点的所有数据以及文件全都存入自己的数据库和目录。

这个技术的出现,确实让很多站长为之振奋,于是天空下载站 网易动画频道.....甚至是微软msdn教程无一幸免,全部成为被采集的对象。

很是不幸,本人的blog居然也被某采集狂盯上,以致iis数直接超出本人的小站的极限,到现在还是不能访问,刚才搜了一下防采集的相关资料,大体有下面几种方法

1判断HTTP_REFERER
2网页加密
3网址加密
4生成图片
5加入版权
6使用多模板

这几种方法除了使用多模版,我觉得其它几种都不太好,都不同程度的把搜索引擎都防住了,所以我针对这些也想了一种思路

由于采集程序大都采集得很快,一般1-2秒钟就能采集一个页面  对于多线程的甚至是每一秒就能采到数个页面,所以我们可以采用论坛发帖时间限制的方法,判断用户访问两个页面之间的间隔,对它进行限制,当然也有一下人看到一批好的文章可能喜欢同一时间打开很多窗口,那么可能对于这部分人也限制住了

所以我们可以扩大时限  如:判断1分钟内打开的页面是否超过20,如果超过这个数量,叶面就会显示其它的内容,或是警告信息,或是其它的欺骗性内容

这是大体思路,还有很多地方有待完善   如对于搜索蜘蛛的例外,以及算法的实现等等,等有空再详细写出相关代码

你可能感兴趣的:(ASP,加密,搜索引擎,多线程,数据库,iis,网易)