本文转自微信公众号: 咸鱼普拉思
作者:不二辰
随着大数据的火热,数据相关行业竞争不仅“蒸蒸日上”,爬虫之间的战争也越发地激烈。一篇《你的爬虫会送老板进监狱吗?》在程序猿圈子里被大量转载,甚至有的程序员因为非法获取数据的新闻从而放弃了这一行当。那么,爬虫是什么,它会是悬在程序员头上的达摩克利斯之剑吗?
网络爬虫(英语:web crawler),也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。通俗来讲,爬虫就是一项计算机技术,方便用户自动化、高效率地浏览互联网并从互联网上获取数据。最早的爬虫程序是1994年休斯敦大学的Eichmann开发的RBSE。著名的谷歌公司使用的Google Crawler是当时还是斯坦福大学生Brin和Page在1998年用Python开发的。(见罗刚《网络爬虫全解析:技术、原理与实践》,电子工业出版社,第65-66页。)
爬虫作为一种计算机技术就决定了它的中立性,因此爬虫本身在法律上并不被禁止,但是利用爬虫技术获取数据这一行为是具有违法甚至是犯罪的风险的。所谓具体问题具体分析,正如水果刀本身在法律上并不被禁止使用,但是用来捅人,就不被法律所容忍了。
既然我们说爬取数据是有可能触犯法律的,那么我们就需要拆开分析一下到底什么情况下会被法律所制裁。爬取数据操作分为爬取的行为
和爬取获得的数据
两方面,我们将分别论述。
1. 爬取行为的法律风险
1.1 民事风险
爬虫目前能造成的技术上影响在于野蛮爬取,即多线程爬取
,从而导致网站瘫痪
或不能访问,这也是大多数网络攻击所使用的方法之一。
由于爬虫会批量访问网站,因此许多网站会采取反爬措施。例如:1.IP频率、流量限制;2.请求时间窗口过滤统计;3.识别爬虫等。
但这些手段都无法阻止爬虫开发人员优化代码、使用多IP池等方式规避反爬措施,实现大批量的数据抓取。由于网络爬虫会根据特定的条件访问页面,因而爬虫的使用将占用被访问网站的网络带宽并增加网络服务器的处理开销,甚至无法正常提供服务。在《反不正当竞争法》第十二条第二款
中我们可以发现,法律会对爬虫的这种行为进行规制。
即经营者不得利用技术手段,通过影响用户选择或者其他方式,实施下列妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为:…(四)其他妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为。
虽然上述规定是兜底条款,但其体现了法律禁止通过技术手段进行对他人非法干绕的总体原则。
因此,如果网站运营者已经采取了一定的反扒措施,而爬虫开发人员基于经营的目的、强行突破网站运营者采取的反爬措施,并客观上导致了网站无法正常运行
,则很有可能构成上述规定所表述的不正当竞争行为。
但是在此种情况下鉴别爬虫者身份仍然是追责的一大阻碍,很多网站由于反爬机制落后,因而在法院诉讼中无法举证证明爬虫者因而得不到法院的支持。(见北京知识产权法院 (2016)京73民终588号案件)
1.2 刑事风险
强行突破某些特定的反爬技术措施,还会构成形式犯罪的行为。
《刑法》第二百八十五条规定,违反规定侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的,不论情节严重与否,构成非法侵入计算机信息系统罪。《刑法》第二百八十六条还规定,违反国家规定,对计算机信息系统功能进行删除、修改、增加、干扰,造成计算机信息系统不能正常运行,后果严重的,构成犯罪,处五年以下有期徒刑或者拘役;后果特别严重的,处五年以上有期徒刑。而违反国家规定,对计算机信息系统中存储、处理或者传输的数据和应用程序进行删除、修改、增加的操作,后果严重的,也构成犯罪,依照前款的规定处罚。
如上所述规定,爬虫开发者在获取数据过程中,一旦突破某些技术防护措施并且操作不当,造成严重后果
的,将会构成犯罪,面临牢狱之灾。
2. 爬取特定类型的信息的法律风险
凡是能够被电子化记录的都是数据,数据分为两大类。
第一类:非个人数据(non-PII,non-personally identifiable information)即此类数据与个人信息无关(此处需注意,与个人信息无关不代表与个人无关,而是说不涉及个人隐私或者不能识别到具体个人)。此类数据通常是公开数据(当然也有作为国家秘密、商业秘密而采取保密措施不公开的秘密数据和秘密信息),因此不适用个人信息保护方面的法律法规。如企业工商注册信息、裁判文书(因涉密或个人隐私不公开的除外)、天气气象数据、环境监测数据、地理测绘、总体性的人口数据、网站访问记录等。
第二类:个人数据(PII,personally identifiable information)。即此类数据与个人信息有关,数据的来源是个人信息,且能够或可能识别到个人。其中又包括两类:
1.已识别个人身份数据(personally identified information)。此类数据完全适用个人数据保护的相关法律法规。如姓名、家庭住址、电话号码等能够确定识别、关联到特定个人的数据,需符合个人数据保护法全部合规要求,包括知情同意、允许用户访问和更正、数据处理正当合法、目的限制、保障安全等。
2.可能识别个人身份的数据(personally identifiable information)。此类数据结合业务场景,灵活适用个人数据保护的相关法律法规。如业务场景中,识别风险较高,可按照第二类数据的合规性要求处理,需满足全部合规要求;如识别风险较低,则可选择部分适用。
2.1 个人信息(PII)的爬取
对于PII信息,其关键点在于用户授权,用户未授权或者授权不充分带来的法律风险很大。
2.1.1 不正当竞争风险
例如新浪微博和脉脉发生的案件,一个因为开放API爬取数据引发的案子。
2014年8月,当时刚刚起步的职场社交软件“脉脉”与新浪微博微博闹掰了。脉脉上线之初,曾与新浪微博合作,脉脉的新用户可以通过微博帐号和个人帐号注册登录脉脉,用户注册时还要想陌陌上传手机通讯录联系人。随后,新浪微博发现,脉脉用户的“一度人脉”中,直接显示大量非脉脉用户的微博头像、名称、职业、教育等个人信息。2015年3月,微博主体公司将脉脉主体公司告上法庭。
原来用户使用微博登录脉脉并上传个人通讯录之后,大量非脉脉用户的微博头条、昵称、职业、教育等信息出现在脉脉上,而这些信息并不在微博与脉脉开放API协议中,并且微博停止脉脉所有的接口权限后,脉脉依然在抓取相关数据,微博认为脉脉通过非法手段获取信息。最终法院判决脉脉停止不正当竞争行为
,并赔偿损失。
这个案件中,法院确立了一个原则,即平台要获取用户信息必须获得授权,平台之间通过开放API获取数据必须经过“用户授权-网站授权-用户授权”的规则
。
法律声明-禁止爬虫采集条款示例
2.1.2 侵犯隐私权风险
例如(2015)西民初字第28460号
:王刃与北京奇虎科技有限公司隐私权纠纷案件中,原告王刃因个人手机登记为所投资公司联系电话,被奇虎科技360手机卫士标记手机号码功能标记显示为公司号码,导致原告王刃手机被被叫方误认为是诈骗电话,因之以侵犯隐私权起诉360手机安全卫士所属公司奇虎科技。
在该案件中,法院提出,“被告出示的证据可以证明原告所使用的号码已经在企业黄页被公开披露,原告在工商行政管理机关登记企业信息时,亦将该手机号码予以登记,以备信息查阅。被告通过大数据比对功能,确定该手机号码与浙江维特网络信息有限公司合肥分公司相对应,并进行标记,其信息并无错误,且软件标记的企业信息,而非公民个人信息。被告已证实其获取手机号码对应的标记信息均来源于公开渠道,因此亦不能认定被告标记号码的行为侵犯了其隐私权”。同时,法院还认为:“对于360手机卫士软件中主动标记企业信息的功能,本院认为仍存在一定改进之处,我国小微企业的业主为工作方便、节约资源,将私人电话作为办公电话使用是普遍情况,这并不意味着手机号码被登记在工商行政管理机关后,就专用于商务。如非号码所有人主动申请标记,建议针对被标记号码采取短信确认的方式,对所有人有所提示,有助于其获得相应知情权”。
因而我们可以知道,本案确立了公开获取数据的合法性
,但又要求数据服务方对个人信息标记使用应获得用户同意,也即重申了“默示同意”的许可方式,同时又强调了“用户同意”即用户授权的原则。
2.1.3 刑事风险
爬取个人信息还有可能会面临牢狱之灾,《中华人民共和国刑法》第二百五十三条之一所涉的“侵犯公民个人信息罪”
及第二百八十六条之一所涉的“拒不履行信息网络安全管理义务罪”
就是爬虫在个人信息爬取过程中经常触碰到的“红线”
。
同时,与《网络安全法》同日实施的最高人民法院、最高人民检察院《关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》也明确了情节严重的几种类型:
1、非法获取、出售或者提供行踪轨迹信息、通信内容、征信信息、财产信息五十条以上的;——高度敏感信息
2、非法获取、出售或者提供住宿信息、通信记录、健康生理信息、交易信息等其他可能影响人身、财产安全的公民个人信息五百条以上的;——敏感信息
3、非法获取、出售或者提供第三项、第四项规定以外的公民个人信息五千条以上的便构成“侵犯公民个人信息罪”所要求的“情节严重”。
此外,未经被收集者同意,即使是将合法收集的公民个人信息向他人提供的
,也属于刑法第二百五十三条
之一规定的“提供公民个人信息”
,可能构成犯罪。
例如(2016)浙0602刑初1145号
案中,当事人就采用非法手段获取淘宝和支付宝中的个人信息,并提供、转售给他人,非法获利了巨额的财产。
2.1.4 行政处罚风险
《网络安全法》第六十四条规定,违反本法第四十四条规定,窃取或者以其他非法方式获取、非法出售或者非法向他人提供个人信息,尚不构成犯罪的,由公安机关没收违法所得,并处违法所得一倍以上十倍以下罚款,没有违法所得的,处一百万元以下罚款。
即便是非法获取数据的严重性没有达到入罪的标准,但是大概率上也会被行政机关进行处罚的,并且额度还不低,通常都以“万”
来计,就算程序员收入高,也受不了这种程度的处罚吧。
2.1.5 总结
爬取涉及个人信息的数据总体风险较高
,如果爬取数据没有获得用户授权
(包括通过API接口爬取数据的情况)则存在侵犯人格权(民法总则已经明确个人信息权是一种人格权)的风险。
同时,爬取存在竞争关系平台上的数据时,还可能因实质替代获取不正当竞争优势、干扰或破坏他人网络服务的正常运行,涉嫌不正当竞争;更严重的是
,还可能因非法获取公民个人信息、非法侵入计算机信息系统、非法获取计算机信息系统数据等涉嫌犯罪,招致刑罚。
2.2 non-PII的爬取
对于这类数据的爬取,目前市面上通常的做法都是爬取公开数据,例如靠爬虫发家的“聚信立”公司。爬取这类数据的风险系数相对较低,毕竟通常不会涉及个人隐私与个人信息,但也并非毫无风险。可能会有哪些风险呢?
2.2.1 著作权侵权风险
就著作权本身而言,无论是文章、图片、视频、用户评论以及网站自身的数据库,都有可能在具备独创性的情况下构成著作权法保护的作品。对这些信息的获取,是否构成著作权侵权需要拆分分析:
1)在访问页面的行为下,由于爬虫是模仿人工访问机制进行页面访问操作的,因而该访问行为不会构成侵权,但如上述分析,如果该访问行为造成被访问页面反爬措施失效或者网站瘫痪,则会构成侵权。
2)对于数据保存而言,从著作权的角度上来说,抓取行为是对信息的复制,因此该行为有可能侵犯著作权人的复制权。
3)就数据提取和使用行为而言,如果爬取的数据被用于展示在公开的网站或者渠道,则会侵犯著作权人的信息网络传播权。
大众点评网诉爱帮网的诉讼中,大众点评网在前两轮诉讼中就是以爱帮网侵犯原告享有著作权的商户介绍和点评为由,起诉了爱帮网,最终以爱帮网停止使用该作品胜诉。(2010)海民初字第4253号
2.2.2 不正当竞争风险
同样是大众点评网,在2016年还起诉了百度,原因是百度未经许可,使用爬虫技术从大众点评网上大量获取用户点评信息,用于自家的百度地图及百度知道产品。
最终一审判决认定百度构成不正当竞争行为,停止侵权并赔偿323万元
。有图有真相:
也即,如果公司业务中存在可能爬取竞争对手数据的情况,要格外注意这项风险。法院会首先判断双方是否存在竞争关系,进而判断爬取数据的一方是否存在“不劳而获”和“搭便车”的行为。如果是,就是上面的结果。
2.2.3 刑事风险
1 侵犯著作权罪
根据《中华人民共和国刑法》第二百一十七条规定,侵犯著作权罪是指以营利为目的,未经著作权人许可复制发行其文字、音像、计算机软件等作品,出版他人享有独占出版权的图书,未经制作者许可复制发行其制作的音像制品,制作、展览假冒他人署名的美术作品,违法所得数额较大或者有其他严重情节的行为。
案例:2014年3月,被告人何某设立“车城小说”网站,其通过租赁海外服务器并运行其从互联网上下载的“关关采集”抓取软件,在未获起点中文网许可
的情况下,擅自抓取、复制650部文字作品,存储于自己的服务器上,供“车城小说”网站用户免费阅读。
何某通过在“车城小说”网站网页内刊登广告获取广告收益,非法营利数额达人民币19万余元。法院认定,何某抓取并通过信息网络传播作品的数量高于法定追诉标准的500件,且营利数额超过5万元,构成侵犯著作权罪,判处有期徒刑1年,并处罚金10万元。
(2015)闵刑(知)初字第59号
2 非法侵入计算机信息系统罪
根据《刑法》第二百八十五条规定,违反规定侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的,不论情节严重与否,构成非法侵入计算机信息系统罪。
案例:在严某犯非法侵入计算机信息系统罪一案中,严某是一位协警,通过侵入警局内网,获取并篡改数据,达到非法获利的目的,触犯了“非法侵入计算机信息系统罪”,锒铛入狱。
(2014)广利州刑初字第260号
3 非法获取计算机信息系统数据罪
《刑法》第二百八十五条还规定,违反规定侵入普通的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据的,情节严重的,构成非法获取计算机信息系统数据罪。
案例:南京同享网络法定代表人张某、副总经理沈某组织员工编写模拟程序,非法获取掌门科技“WIFI万能钥匙”数据库内的WIFI热点密码数据案,最终法院认定构成非法获取计算机信息系统数据罪,上述两人最终被判刑三年并处罚金。
(2015)杨刑初字第232号
4 总结
爬取non-PII数据总体风险较低,但仍不要大意。
轻则可能构成侵犯著作权
(在被爬取的数据具有独创性构成作品的情况下),如果有竞争关系,还可能因实质替代获取不正当竞争优势、干扰或破坏他人网络服务的正常运行,涉嫌构成不正当竞争;
重则可能因绕开技术措施非法获取数据,涉嫌侵犯商业秘密(严重情形涉及刑事责任),涉嫌构成非法侵入计算机信息系统、非法获取计算机信息系统数据罪
等罪。
敲黑板!!重点来了!!!
如前面所述,爬虫所带来的风险
主要有:
其中,第3类风险主要来自于通过规避反爬虫措施抓取到了互联网上未被公开的信息。
因此,爬虫开发者在使用爬虫时应注意
:
robots
协议;本文来自微信公众号咸鱼普拉思。