本文为您分享一个最近的爬虫相关的案件,并从商业,技术和法律的角度做出分析。最后给出一些规避爬虫法律风险的要点。
2021年6月3号,河南省的一家法院宣判了一个关于爬虫的案子:
来看一下整个案件的过程:
黎某2018年1月15日成立了浏阳市泰创网络科技有限公司
逯某受雇于这家公司,月薪是1万元。
“点评:拿着卖白菜的钱,承担着卖白粉的风险!兄弟,你有这技术本领,你来杭州啊!随便哪里也可以找个年薪二十多万的工作吧。
“有人通过淘宝数据接口,在7月6日至7月13日,平均每天爬取500万次,共爬取3500万条数据。
经发接入调查后,发现逯某电脑上有11.8亿条数据。逯某供述:
2021年6月3号,一审以侵犯公民信息罪分别判决老板和程序员3年6个月,3年3个月。
前面我已经评价过这个程序员是:
“拿着卖白菜的钱,承担着卖白粉的风险!
这个老板也完全可以用这句话评价!
自2019年11月份至2020年7月份利用该信息盈利,共获利34万元。
“点评:拿着卖白菜的钱,承担着卖白粉的风险!老板,你付出这么多,注册公司,招聘员工,购置服务器,估计还要购买代理IP等,关键是还触犯法律,9个月的时间,就获利34万元啊?
来看一下他们的商业模式:
淘宝客的人群是非常庞大的,也有很多人赚了大钱,举两个例子:
淘宝客本身肯定是不违法的,但现在赚钱要靠信任,要靠影响力。比如直播也是一种信任和影响力。单纯靠暴力获取数据,简单粗暴的发消息推广已经行不通了。
我认为这个老板的关键问题之一是不懂法律,才会用这么高的代价获取了并不高的利润。法律问题本文后面会讨论。
淘宝的难爬是出了名的。怎么月薪一万的程序员就这么轻松的每天爬取500万条数据呢?
逯某的交代是这样的:
网上有些文章直接指责淘宝:这听起来实在太奇葩了,淘宝竟然对自己用户的数据不设防?
淘宝作为国内顶尖的电商平台,聚集了最顶尖的人才。安全性上它们肯定是考虑到的,也肯定做了数据安全上的防范。那么问题怎么出现的呢?
麦叔的判断是:这是一个跨部门协调过程中出现的漏洞,属于系统论的问题!
我们来看几个要点
而聪明的逯某就把二者连在了一起,比较轻松的抓取了大量数据。当然他肯定也应用了IP代理等技术防止被封IP。
给淘宝或者类似平台一个建议:招聘一个首席信息安全官(ISO),他负责站在全局上看数据问题,防止这种跨部门协调出现的漏铜。
淘宝的安全人员不承认他们的接口有漏铜,他认为逯某是通过破解接口的形式进行加密数据的爬取。
如果是破解接口,那属于破坏计算机信息系统罪,但最终法院判处的是:侵犯公民信息罪。
这说明几个点:
所以我们再来看一下和爬虫最相关的两个罪:
如果老板黎某或者逯某懂得这些法律,我想他们不至于为了这点利润铤而走险,最后陷入牢狱之灾。
两个犯罪分子入狱了,相关的淘宝部门可能也会影响绩效和奖金。那淘宝公司有责任吗?不管什么原因,公司没有保管好用户的信息,让罪犯有机可乘,公司是很有很大的责任的。
美国和欧洲在信息安全保护上比我们做的要更好一些,如果是在美国和欧洲,公司也会面临一大笔罚款。也希望国内的个人信息保护法律尽快完善起来。
爬虫学习者最常问的问题之一:这个能爬吗?
下面我告诉大家不能爬的三条红线:
1.个人信息
本案就是和个人信息相关的。个人敏感信息是不能碰触的红线。
2.商业秘密
中国有句老话叫做:民不告,官不究。所有一些爬虫就算数据量大点,可能也没事。但如果你爬取别人的商业秘密,影响了别人的财路,人家肯定会告你的。
3.国家秘密
这个不用多说,触犯国家秘密肯定不行的。
这3条一定不能爬,其他要具体情况具体分析,但爬虫本身不违法,不用过于担心。
学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!
Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
工欲善其事必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。
我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
保证100%免费
】