robots禁止抓取代码问题参考!

1月份中旬,我负责的一个网站,网站流量突然下降了至5分之一的流量。于是我查询下了百度收录量。发现这个网站网站收录页面数量为9000多,之前为13万多。难怪流量下降这么明显。这个网站是一个论坛,7月份对它进行了静态化处理。当时上线后不久,网站收录正常,没有大面积减少的迹象。由于任务繁重,加上每天对网站的数据进行观察也没有明显的流量下降的迹象。

1月份中旬才下降明显。通过对收录的页面的观察,我发现,百度只收录了网站的8080端口页面,而且几乎只收录了动态地址,对于静态地址几乎没有收录。谷歌查询收录量,竟然为0.

这就让人费解了。我可是从来没遇到过这样的问题,当时刚好ZAC在PHPWIND在线访谈,于是我就问了他这个问题。他当时的回答也没有解决我的问题。可能这个问题在其他地方很少出现过吧。通过对问题一个一个的排查,不久,我终于找到了问题所在。原来,在8月份,技术修改了robots.txt文件。当时语法是这样的:

#

# robots.txt for Discuz! Board

# Version 6.0.0

#

User-agent: *

Disallow: /

Disallow: /admin/

Disallow: /api/

Disallow: /attachments/

Disallow: /customavatars/

Disallow: /images/

Disallow: /forumdata/

Disallow: /include/

Disallow: /ipdata/

Disallow: /templates/

Disallow: /plugins/

Disallow: /mspace/

Disallow: /wap/

Disallow: /admincp.php

Disallow: /ajax.php

Disallow: /digest.php

Disallow: /logging.php

Disallow: /member.php

Disallow: /memcp.php

Disallow: /misc.php

Disallow: /my.php

Disallow: /pm.php

Disallow: /post.php

Disallow: /register.php

Disallow: /rss.php

Disallow: /search.php

Disallow: /seccode.php

Disallow: /topicadmin.php

Disallow: /space.php

不知道大家有没有发现上面的语法错误,其实错误已经很明显了。就是第一条语句有错。不应该是Disallow: /

而是Allow:/ 或者这句话就干脆不写,直接删除这条语句。别小看这多写的3个字母,却让搜索引擎的蜘蛛从此不再抓取你的网页。网站收录量变开始慢慢下降,知道从搜索引擎数据库中删除。例如谷歌几乎等于删除这个网站的页面。让百度蜘蛛误认为只有抓8080端口页面才允许抓取。而实际上8080端口是无法访问的。为了最大的减少损失,我于是叫技术立刻恢复对8080端口的访问。几天后,流量有所上升,网站收录量恢复到2万多,但是离13万相差甚远。谷歌收录也有2万多,收录很正常。但是百度仍然只收录8080端口,偶尔收录下默认端口,而且动态的占大多数,静态的占及少数。通过论坛管理员的后台数据显示,网站整体的流量几乎下降了3分之2.

目前问题还在处理中,希望能早日恢复流量。总结:作为一名SEO,对于网站的robots.txt一定要定期检查一次,建议1个月一次,同时对技术人员进行SEO相关的培训。让技术人员了解基本的SEO知识。最好制定技术部门的SEO规范。让大家有个参考。

     DICK发表此文章时间2011-02-17:欢迎转载!本文地址:http://www.huyong.org.cn/564.html

你可能感兴趣的:(robots禁止抓取代码问题参考!)