上面这个公号「涩郎」,是我的一个备用号,为了防止万一哪天大号失联,平时一周我也会发三篇左右的我的思考,读书笔记,认知感悟等文章,带领大家一起探索精神与财务自由之路。
大家好,我是校长。
昨天早上的时候,看到一条新闻,是关于爬虫的,我之前不是写过一篇文章《灰产值不值得做》吗?当时提到了爬虫这件事,我说爬虫即使你爬的是公开数据,也有可能被认定为破坏计算机系统罪。
没错,我找到案例了,昨天看新闻的时候,刷到了一个“网络爬虫” 失控,CTO 和程序员双双涉刑的案例。
01
事情是这样的
一个叫 KG 的互联网科技公司,是专门为按揭贷款购房的客户提供赎楼及债务置换贷款等服务的一家公司。
这个业务需要经常性地访问政府居住证网站,查询房产地址、房屋编码和学区房的使用情况,用于做房产的市场评估和客户风险评估。
但是呢,手动查询多么费事啊,挺累的,所以,公司产品组经过讨论,决定采用技术爬虫的方式,自动查询服务,这多省事啊。
2017 年 12 月,公司 CTO 安排新来的程序员负责这个项目,要求他研发一个自动定时抓取的小程序,主要用来查询、下载网上的数据。
2018 年 1 月,项目经理给程序员一个抓取数据的程序源代码,程序员开始修改。
2018 年 3 月,小程序被部署在阿某云服务器上自动运行,其内置的 “网络爬虫” 可以:
链接某市居住证网站,也就是某市公安局人口管理处的居住证系统;
可以在某市居住证网站上查询到房产地址、房屋编码等对应的资料;
软件对网站访问量能达到每小时数十万次。
查询的信息都被下载保存到公司购买的阿某云服务器上。
02
出事了
但是,不巧出事了,2018 年 4 月 27 日 10:43-12:00 左右,居住证系统的承建单位发现系统出现宕机现象,追踪到请求应用服务器端口编号,但因日志缺失而无法定位 IP 来源,当时怀疑是人为攻击。
2018 年 5 月 2 日 10:00-12:00 左右,系统再次遭遇攻击,这次管理人员成功地截取了 IP 地址并报案。
这时候,公司里的人还不知道出事了,到了晚上,阿里云公司的客户给公司打电话,说服务器 IP 被网警锁定了,让他们公司赶紧联系网警,公司 CEO 赶紧联系公司程序员,发现政府居住证网站增加了验证码,爬虫程序没有更新,造成了错误的攻击行为。
影响面还挺大的, 毕竟这个网站很多政府单位和公司,用户都需要上去查询,由于攻击行为,导致网站卡顿,甚至无法访问。
居住证系统受攻击瘫痪期间:
软件对某市居住证系统查询访问量为每秒 183 次,共计查询信息约 151 万条次,窃取大量建筑物编码数据,造成政府信息泄露;
所有居住证办理、居住登记申报、信息查询、对外服务功能均无法正常工作,影响面极广;
市民无法办理居住证和居住登记,相关生产生活秩序受到严重影响。
这么一看,事是不是挺大的?
03
被抓了
公司的 CTO 和程序员纷纷被捕,针对这次事件,以及从公司搜查到的程序源代码以及公司所获取的房产信息等,司法鉴定意见确认:
网站遭受自动化程序攻击。
IPXXXX 对居住证服务器的持续大量的访问造成了平台在…… 期间无法正常对外提供服务,服务器无法正常运行。
CTO 的辩解如下:
通过 CTO 的辩解我们得知,爬取的信息是公开的,且并没有利用爬取的信息获取利益,另外还推脱了一下责任,让程序员背锅,是自己不是执行者,主要是程序员负责。
CTO 辩解推脱说:自己也知道 “从技术上来讲,如果超过服务器承载能力的查询肯定会引起系统卡顿或瘫痪”,但因不清楚网站和系统的承载能力,加上心存侥幸,就只是口头提醒同事在服务器晚间相对空闲的时候去查询,控制一下频率。
04
判决了
二者对指控的罪名没有异议,只想得到轻判,为了得到轻判,CTO 说:我只是授权程序员开发爬虫程序,知识一次性爬取,并没有要求每天自动爬取,所以自己不是主犯。
程序员同学们,看到了吗?如果你们公司有给你下达爬虫任务,你完全可以以违法为由拒绝,否则,你会背锅的。
最后的判决,当然了,认定 CTO 是主犯,程序员是从犯,所以,CTO 被判了 3 年,程序员被判了一年半。
05
我想说
通过这个案例我只是想说:
爬虫的风险非常大,非常大,别看你爬取的数据是公开的,且你没有利用爬取的数据获益,都极有可能被判定为破坏计算机系统罪。原因很简单,因为你不知道你爬虫的网站承受能力有多大,万一你爬虫的网站承载力很低,一分钟爬个几百次都能挂,你不就是身处危险之中了吗?你就造成了破坏计算机系统罪。
爬虫的主动权可能在你手里,但是,服务器崩溃的主动权还真不一定在你手里。
请大家仔细查看下方截图,关于破坏计算机系统罪的规定。
最后,友情提醒一下:远离爬虫,谨防犯罪。
点击下方公众号卡片,关注我
在公众号对话框,回复关键字 “1024”
免费领取副业赚钱实操教程