蜘蛛侠的入侵:互联网公司robots协议法律指南

蜘蛛侠的入侵:互联网公司robots协议法律指南
律匠Matt
​https://zhuanlan.zhihu.com/p/24562168?utm_source=wechat_session&utm_medium=social&utm_oi=57846897049600&from=singlemessage&isappinstalled=0
法律 话题的优秀回答者

文一
Robots和蜘蛛侠

Robots.txt自1994年诞生以来一直默默地维系着互联网搜索市场的道德水准。它的全称是“网络爬虫排除标准”,即网站通过在根目录设置Robots.txt,来告诉搜索引擎能不能以及如何让其搜索蜘蛛爬取网站内容。根目录实际上就像是WINDOWS系统中的A\B\C\D盘,这样的放置能让蜘蛛进入网站第一时间就首先读取ROBOTS.TXT文档中的内容,从而判断自己能否再行往子目录中搜索抓取内容。

每一家搜索公司其实都养着一只“蜘蛛侠”,百度蜘蛛叫Baiduspider,谷歌蜘蛛叫googlebot,360蜘蛛叫360Spider,这些蜘蛛每天都迅速地活跃在互联网上,不停地抓取互联网内容,并供用户点击搜索后形成结果。Robots协议被认为像酒店房间的“请勿打扰”和“请即打扫”警示牌,告知酒店员工能否进入房间。

文二
被审判的蜘蛛侠们

ROBORTS争议第一案:BE违规抓取eBay内容。Bidder’s Edge(简称BE)成立于1997年,是专门提供拍卖信息的聚合网站。BE利用“蜘蛛”抓取来自eBay等各个大型拍卖网站的商品信息,放在自己的网站上供用户浏览,并获得可观的网站流量。虽然eBay早已设置了robots协议禁止BE蜘蛛的抓取,但BE却无视这个要求。受理此案的美国联邦法官Ronald M. Whyte在经过多方调查取证后做出裁定,认定BE侵权成立,禁止了BE在未经eBay允许的情况下,通过任何自动查询程序、网络蜘蛛等设置抓取eBay的拍卖内容。

而在另一个审理结果恰相反的案件,即Field v. Google案。Google允许网络使用者获得Field发布在自己网站上的51部作品,并且这些作品以缓存的方式呈现在Google搜索引擎上,Field认为此行为侵犯其复制权和传播权。最终,审理法院驳回原告诉讼请求,认为原告作者未在其网站设置Robots协议,即视为允许搜索引擎使用,因此搜索引擎的抓取和使用不违法。

2013年发生在中国的3B大战,亦是中国互联网公司关于ROBOTS协议的经典战役。百度公司认为奇虎公司违反搜索引擎的机器人协议(Robots协议),擅自抓取、复制原告网站并生成快照向用户提供,而奇虎公司当庭辩称百度滥用Robots协议,以设置robots.txt文件为手段排斥同业竞争者,以达到限制同业竞争者正当竞争的目的。法院经审理认为,Robots协议被认定为搜索引擎行业内公认的、应当被遵守的商业道德,被告奇虎公司在推出搜索引擎的伊始阶段没有遵守百度网站的Robots协议,其行为明显不当,应承担相应的不利后果。

在2016年,大众点评网(即原告汉涛公司)称,自2012年以来,百度公司未经许可在百度地图、百度知道中大量抄袭、复制大众点评网的用户点评信息,直接替代大众点评网向用户提供内容,这样就让百度公司迅速获得用户和流量;还使用了大众点评网的图文标识,使得相关公众对服务来源产生误认,属于擅自使用知名服务特有名称的不正当竞争行为。法院判决(一审)指出,本案中百度的搜索引擎抓取涉案信息虽未违反Robots协议,但这并不意味着它可以任意使用这些信息,应当本着诚实信用的原则和公认的商业道德,合理控制来源于第三方网站信息的使用范围和方式,故判百度赔偿232万(原大众点评起诉标的9000万)。

文三
Robots.TXT在互联网商战中的意义

ROBOTS协议可以使用的商业攻防想象空间非常大,作为互联网公司,一定要善于使用ROBOTS协议,那么,对于互联网公司而言,ROBOTS协议可以构建哪些攻防手法:

1.优质内容形成封闭商业生态

人人都说2016年是原创内容生产之年,以后的商业市场上,内容为王。所以大家其实也看到,特别是微信公众号自运营以来,产生了海量的原创内容,这对于任何一个搜索引擎来说,都是令人垂涎三尺的优劣产品,但大家有没有发现,通过百度是很难搜索到微信公众号文章的。同样,对于封闭的知乎也一样,百度同样是不同搜索到的。

而对于搜狗而言,其通过和微信以及知乎的联合合作,为微信和知乎单独设置搜索点击,这个功能就吸引了大量的搜索用户。这背后的功臣,就是隐藏在微信、百度以及搜狗搜索背后的ROBOTS协议,这个协议禁止百度蜘蛛抓取微信和知乎中的内容并显示在用户搜索结果中。当然,网传百度暗中破坏了ROBOTS协议规则,对微信公号内容进行了抓取,不知有没有后续交涉。

https://www.zhihu.com/robots.txt

User-agent: *

Crawl-delay: 10

2.禁止商业比价的形成

互联网电子商务的发展,形成了诸多的比价软件,通过比价软件,可以直接将各个平台的同类商品信息进行抓取并分析,从而向消费者提示货比三家的结果。这虽然给消费者很大的好处,但实际上却会让一些电商公司瞬间倒闭或形成巨大的威胁。所以,像淘宝网,2008年开始就禁止百度蜘蛛抓取淘宝网上的商品信息,还有京东网的ROBOTS协议也在2011年开始禁止一淘网抓取其页面上的商品信息。

3.防止实质性替代

搜索爬虫通过对特定网站的内容抓取,很容易造成抓取内容后构建的新页面效果对原网站形成“实质性替代”,从而让原网站失去用户访问的价值,这在大众点评网和爱帮网不正当竞争案件中可见一斑。大众点评网的经营者,即上海汉涛信息咨询有限公司将竞争对手爱帮聚信(北京)科技有限公司诉至法院,认为爱帮公司经营的爱帮网通过大量复制大众点评网站内容,获取不当的浏览量和竞争优势,索赔人民币900万元。法院认为爱帮网的行为事实上造成爱帮网向网络用户提供的涉案点评内容对大众点评网的相应内容的市场替代,对汉涛公司的利益产生实质性损害。另外,如网页快照也容易形成实质性替代。

4.防止流量负担

任何一家网站都需要有域名以及网络空间,而网络空间可以以实体服务器,也可以是现在流行的云空间,但不论如何,当网站访问量大,以及被用户频繁访问后,其带宽,空间都会形成流量负担,甚至瘫痪,这也是为什么12306网站老是会在过年期间无法访问的原因。所以,当有一个搜索爬虫经常访问你的网站来抓取内容时,自然而然就会造成流量拥挤,从而让真实的用户难以访问。所以,BOBOTS协议中就有Crawl-delay参数设置,用于调节蜘蛛的访问频率。

文四
ROBOTS.TXT设置的法律指引

ROBOTS协议从来都没有成为任何一个国家的法律,但大家同样需要共同遵守,因为这是一个商业市场中公认的商业道德,而我国法律保护商业道德。

你可能感兴趣的:(爬虫)