通过四家B2C网站的Robots.txt窥视其SEO、WPO思路


LightintheBox

lightinthebox在SEO方面公认的国内翘楚,其robots.txt文件很长,只能截取一部分。屏蔽了部分缓存及用户隐私页面。屏蔽了几乎所有的国内的搜索引擎以及一些无用的比价网站的蜘蛛,同时用了Sitemap:URL 语句来强调网站地图。

 

Dealextreme

Dealextreme屏蔽了国内的三大蜘蛛,搜搜、搜狗和有道,没有屏蔽百度。屏蔽了用户隐私文件及一部分功能性文件。

 

Newegg

Newegg接纳所有蜘蛛,屏蔽了用户隐私文件,并且有Sitemap: URL 地图定义。

 

Amazon

Amazon是所有B2C里面WPO和用户体验最好的。除了屏蔽部分隐私或干扰重点内容的目录外,还专门针对google蜘蛛进行了定义。最后同样有网站地图。

 

综合结论:

1. robots.txt文件能管理蜘蛛爬行规则,对于页面种类比较多的B2C网站意义重大。

2. 为了防止页面不可预知的安全性泄露问题(如google将用户信息放到搜索结果中),B2C网站通常将用户隐私有关的部分屏蔽。

3. 可以通过SEO屏蔽不重要页面,从而改善SEO的目录权重结构,弱化次要页面,取消可能高度重复的内容。

4. 通过sitemap能够定义网络地图的URL,虽然这并不是必要的,但对地图一定会起到强调的作用。相反的思路,如果你不想强调某个地图,也可以在robots.txt中删除地图URL。

5. 英文网站通常会屏蔽中国的蜘蛛,如baiduspider或sosospider

 

作者: 谭砚耘@用户体验与可用性设计-科研笔记

版权属于: 谭砚耘 (TOTHETOP至尚国际  )

版权所有。转载时必须以链接形式注明作者和原始出处

如果你希望与作者交流,请发送邮件到 tanyanyun/at/163.com 别忘了修改小老鼠

你可能感兴趣的:(seo,蜘蛛,B2C,robots,WPO)