月薪1万的程序员,爬淘宝被判3年,又是爬虫的锅

本文为您分享一个最近的爬虫相关的案件,并从商业,技术和法律的角度做出分析。最后给出一些规避爬虫法律风险的要点。

案件简介

2021年6月3号,河南省的一家法院宣判了一个关于爬虫的案子:

  • 两名犯罪分子(一个老板,一个程序员)爬取了淘宝近11亿8千万条数据。
  • 数据涉及到用户uid,淘宝昵称,用户手机号等敏感信息。
  • 两人都以侵犯公民信息罪被判处3年6个月,3年3个月

月薪1万的程序员,爬淘宝被判3年,又是爬虫的锅_第1张图片

月薪1万的技术高手

来看一下整个案件的过程:

  • 黎某2018年1月15日成立了浏阳市泰创网络科技有限公司

  • 逯某受雇于这家公司,月薪是1万元。

“点评:拿着卖白菜的钱,承担着卖白粉的风险!兄弟,你有这技术本领,你来杭州啊!随便哪里也可以找个年薪二十多万的工作吧。

  • 2020年8月14日,淘宝报警称:

“有人通过淘宝数据接口,在7月6日至7月13日,平均每天爬取500万次,共爬取3500万条数据。

  • 经发接入调查后,发现逯某电脑上有11.8亿条数据。逯某供述:

    • 他从2019年11月开始用自己研发的爬虫爬取淘宝数据,共爬取5000万条。
    • 他电脑上的11.8亿条数据中,很多是从其他地方下载的。
  • 2021年6月3号,一审以侵犯公民信息罪分别判决老板和程序员3年6个月,3年3个月。

商业分析

前面我已经评价过这个程序员是:

“拿着卖白菜的钱,承担着卖白粉的风险!

这个老板也完全可以用这句话评价!

自2019年11月份至2020年7月份利用该信息盈利,共获利34万元

“点评:拿着卖白菜的钱,承担着卖白粉的风险!老板,你付出这么多,注册公司,招聘员工,购置服务器,估计还要购买代理IP等,关键是还触犯法律,9个月的时间,就获利34万元啊?

来看一下他们的商业模式:

  • 这家公司是一家淘宝客公司。
  • 淘宝客的商业模式就是把淘宝上的商品链接推广给用户,只要有人点击推广链接产生购买就可以获得佣金
  • 逯某通过爬虫抓取用户信息,交给黎某,黎某把商品链接推广给这些用户,希望产生购买。

淘宝客的人群是非常庞大的,也有很多人赚了大钱,举两个例子:

  • 淘客公园的老胡通过淘宝客至少赚了3亿的佣金。
  • 在某个内部分享会上,一个很低调的小姑娘,说她做淘宝客多的时候每天可以赚一两万。

淘宝客本身肯定是不违法的,但现在赚钱要靠信任,要靠影响力。比如直播也是一种信任和影响力。单纯靠暴力获取数据,简单粗暴的发消息推广已经行不通了。

我认为这个老板的关键问题之一是不懂法律,才会用这么高的代价获取了并不高的利润。法律问题本文后面会讨论。

技术分析

淘宝的难爬是出了名的。怎么月薪一万的程序员就这么轻松的每天爬取500万条数据呢?

逯某的交代是这样的:

  • 通过淘宝商品详细信息接口和淘宝信息分享接口,可以爬取淘宝客户的淘宝数字ID和淘宝昵称
  • 通过淘宝分享接口可以爬取淘宝客户手机号信息。

网上有些文章直接指责淘宝:这听起来实在太奇葩了,淘宝竟然对自己用户的数据不设防?

淘宝作为国内顶尖的电商平台,聚集了最顶尖的人才。安全性上它们肯定是考虑到的,也肯定做了数据安全上的防范。那么问题怎么出现的呢?

麦叔的判断是:这是一个跨部门协调过程中出现的漏洞,属于系统论的问题!

我们来看几个要点

  • 淘宝详细信息接口,和淘宝分享接口从微服务的角度一定属于不同的微服务,简单说是不同的团队开发的。
  • 淘宝详细接口:并没有提供手机号等私密信息,所以他们认为接口没问题。
  • 淘宝分享接口:只有通过数字ID才能获取手机号码,但别人不应该有那么多数字ID,所以他们认为也没问题。
  • 这两个部门可能不会相互沟通,连在一起看数据风险。

而聪明的逯某就把二者连在了一起,比较轻松的抓取了大量数据。当然他肯定也应用了IP代理等技术防止被封IP。

给淘宝或者类似平台一个建议:招聘一个首席信息安全官(ISO),他负责站在全局上看数据问题,防止这种跨部门协调出现的漏铜。

法律分析

淘宝的安全人员不承认他们的接口有漏铜,他认为逯某是通过破解接口的形式进行加密数据的爬取。

如果是破解接口,那属于破坏计算机信息系统罪,但最终法院判处的是:侵犯公民信息罪

这说明几个点:

  • 爬虫本身肯定是不违法的,就算你使用了一定的技术手段加快抓取,防止被封等也问题不大。
  • 本案中违法的是抓取了公民的敏感信息!这是爬虫的红线之一。
  • 适当抓取不违法,但是抓取过程中造成了对方系统故障,就属于破坏计算机信息系统罪

所以我们再来看一下和爬虫最相关的两个罪:

  • 侵犯公民信息罪
  • 破坏计算机信息系统罪

如果老板黎某或者逯某懂得这些法律,我想他们不至于为了这点利润铤而走险,最后陷入牢狱之灾。

两个犯罪分子入狱了,相关的淘宝部门可能也会影响绩效和奖金。那淘宝公司有责任吗?不管什么原因,公司没有保管好用户的信息,让罪犯有机可乘,公司是很有很大的责任的。

美国和欧洲在信息安全保护上比我们做的要更好一些,如果是在美国和欧洲,公司也会面临一大笔罚款。也希望国内的个人信息保护法律尽快完善起来。

这个能爬吗?

爬虫学习者最常问的问题之一:这个能爬吗?

下面我告诉大家不能爬的三条红线:

1.个人信息

本案就是和个人信息相关的。个人敏感信息是不能碰触的红线。

2.商业秘密

中国有句老话叫做:民不告,官不究。所有一些爬虫就算数据量大点,可能也没事。但如果你爬取别人的商业秘密,影响了别人的财路,人家肯定会告你的。

3.国家秘密

这个不用多说,触犯国家秘密肯定不行的。

这3条一定不能爬,其他要具体情况具体分析,但爬虫本身不违法,不用过于担心。

关于Python技术储备

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

二、学习软件

工欲善其事必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。

三、入门学习视频

我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。

月薪1万的程序员,爬淘宝被判3年,又是爬虫的锅_第2张图片

四、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

五、面试资料

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。


这份完整版的Python全套学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

你可能感兴趣的:(爬虫,python,数据挖掘)