MJ12bot蜘蛛爬取怎么屏蔽?

这两天在检查蜘蛛爬取记录的时候,发现了MJ12bot这个蜘蛛。

要是随便爬爬我也就认了,关键是这个爬虫爬起来太疯狂。

几分钟几十分钟之内爬我几十上百次。

是可忍孰不可忍,我决定对它下手。

可是又不敢下手,生怕这是国内按个搜索引擎的爬虫,万一不小心把它给封了不久不太好了。

在网上查了下,这个蜘蛛是国外的一个站长工具,就类似于我们在国内使用的5118、站长之家之类的,主要针对的用户是国外。

那我还怕个鬼呀,说封就封。((本文由咸鱼成长记www.xianyublog.com原创,转载请注明出处。))

虽然第一次终究是因为没有找到wordpress模板中的robots.txt文件而告终,但是当我再次看到这个爬虫疯狂爬取的时候,更坚定了要封掉它的原因。

原来wordpress模板中的robots.txt文件是虚拟的,也就是我们能够访问,但是在网站根目录下是找不到的。

为了解决这个问题,找到了一款wordpress插件,叫 Robots.txt编辑器 ,直接在网站后台输入查找,在搜索得到的结果中安装启用。

MJ12bot蜘蛛爬取怎么屏蔽?_第1张图片

然后在robots.txt文件里网站地图上方加这么一句话就行了,像上图那样。

具体的原理比较复杂,应该是位置越靠前的范围并被当做位置靠后的命令的基础,也就是包含与被包含的关系。这么写就行了,如果想要探究蜘蛛应该怎么写的话,搜一搜教程,应该会有很多。

禁止MJ12bot爬虫爬取以后,这个家伙隔一会就访问一下robots.txt,想看看是不是可以爬取了。

简直太天真了。

先封它一段时间,等以后有机会再把它从小黑屋里放出来吧。

而且,这种方法在我们屏蔽搜索引擎蜘蛛爬取动态链接的时候也很有帮助。

在对网站内容进行伪静态设置后,由于蜘蛛同时抓取了静态链接和动态链接,有可能对造成收录重复页面的情况,对网站SEO不利。

这个时候,我们就可以在robots.txt协议中加一些限制,禁止搜索引擎抓取动态链接,将重复收录的问题解决。

需要注意的一点是,如果在robots协议中添加了禁止抓取或者允许抓取的文件或范围的话,最好在百度站长平台里验证一下,这样就可以让百度蜘蛛知道什么事儿能干,什么事儿不能干了。

更多关于网站运营、抖音运营、网上赚钱教程的精彩内容,请百度 咸鱼成长记 进行查看,希望能对您有所帮助。

你可能感兴趣的:(MJ12bot蜘蛛爬取怎么屏蔽?)