从Robots协议看奇虎360与百度的互联网战争

导读:从今天9月份开始,奇虎360与百度公司的互联网搜索大战再掀波澜。近日,百度公司起诉奇虎360违反国际互联网公认的“Robots协议”,强行抓取、复制其网站内容构成侵权,向奇虎360索赔经济损失1亿元,而奇虎360认为,百度是滥用“Robots协议”或利用这一协议排斥竞争对手,欲垄断市场。在这场互联网战争的背后是商业的较量,更是搜索市场的蛋糕的利益驱动,也是无形营销的一种体现。在这场战争中,一直没有离开“Robots协议”这个话题,在这里,我们即将揭开“Robots协议”的神秘面纱。

1、Robots协议时什么样的协议

Robots协议,也称爬虫协议或者机器人协议,它的全称是“网络爬虫排除标准”,英文为:Robots Exclusion Protocol。互联网上的站点通过Robots协议,告诉搜索引擎哪些页面是可以抓取的,哪些页面不能抓取。

Robots协议是国际互联网界通行的道德规范,基于以下原则建立:
(1)、搜索技术应服务于人类,同时尊重信息提供者的意愿,并维护其隐私权;
(2)、网站有义务保护其使用者的个人信息和隐私不被侵犯。

2、Robots协议的具体工作原理及介绍

Robots协议是在一个robots.txt文件中定义的。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件,robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。百度官方建议,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。

3、目前搜索引擎市场有哪些蜘蛛程序在运行呢

google蜘蛛:Googlebot、百度蜘蛛:Baiduspider、baiduspider、360蜘蛛:360Spider、sogou蜘蛛:Sogou Web Spider、yahoo蜘蛛:Yahoo!slurp、alexa蜘蛛:ia_archiver、bing蜘蛛:MSNbot、altavista蜘蛛:scooter、lycos蜘蛛:lycos_spider_(t-rex)
alltheweb蜘蛛:fast-webcrawler、inktomi蜘蛛:slurp、Soso蜘蛛:Sosospider、Google Adsense蜘蛛:Mediapartners-Google、有道蜘蛛:YoudaoBot

4、常见网站的Robots协议是怎样的

(1)、例如taobao:
User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /

(2)、移动互联百科博客:

User-agent: *
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-includes
Disallow: /?s=
Sitemap: http://www.mbaike.net/sitemap.xml
Sitemap: http://www.mbaike.net/sitemap.xml.gz

(3)、禁止某个搜索引擎的访问
User-agent: BadBot
Disallow: /

(4)、允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt” file)
User-agent: *
Allow: /

5、Robots协议怎样产生的

robots.txt并不是某一个公司制定的,而是早在20世纪93、94年就早已出现,当时还没有Google。真实Robots协议的起源,是在互联网从业人员的公开邮件组里面讨论并且诞生的。即便是今天,互联网领域的相关问题也仍然是在一些专门的邮件组中讨论,并产生(主要是在美国)。

1994年6月30日,在经过搜索引擎人员以及被搜索引擎抓取的网站站长共同讨论后,正式发布了一份行业规范,即robots.txt协议。在此之前,相关人员一直在起草这份文档,并在世界互联网技术邮件组发布后,这一协议被几乎所有的搜索引擎采用,包括最早的altavista,infoseek,后来的google,bing,以及中国的百度,搜搜,搜狗等公司也相继采用并严格遵循。

Robot,又称Spider,是搜索引擎自动获取网页信息的电脑程序的通称。Robots协议的核心思想就是要求Robot程序不要去检索那些站长们不希望被直接搜索到的内容。将约束Robot程序的具体方法规范成格式代码,就成了Robots协议。一般来说,网站是通过Robots.txt文件来实现Robots协议。

自有搜索引擎之日起,Robots协议已是一种目前为止最有效的方式,用自律维持着网站与搜索引擎之间的平衡,让两者之间的利益不致过度倾斜。它就像一个钟摆,让互联网上的搜索与被搜索和谐相处。
 

总结:通过上面对于“Robots协议”知识的恶补,我们现在已经知道的“Robots协议”是什么、达到什么目的、以及互联网公司的“Robots”之争的缘由了。

你可能感兴趣的:(移动互联,Robots协议)