做爬虫合不合法?爬取什么内容是合法的?

做爬虫合不合法?这得分情况而定,最近有程序员因为做爬虫而被刑侦的报道,相信很多人都已经知道了。但是爬虫本身这个岗位是合法的,只是有的公司用错了地方。那么爬取什么内容是合法的?什么内容是违法的呢?根据《中华人民共和国网络安全法》的最新规定,爬取涉及个人隐私的信息是不合法的。下面我们来看看爬虫合法和不合法的具体边界在哪里,大家在做爬虫工作的时候要注意了。

做爬虫合不合法?爬取什么内容是合法的?_第1张图片

首先还是那句老话,爬虫技术本身无罪是合法的,可以说互联网上 50%以上的流量都是爬虫创造的,也许你看到很多热门数据都是爬虫所创造的,所以可以说无爬虫就无互联网的繁荣。但是爬虫技术用错了地方就会构成犯罪行为,在今年国家颁布《中华人民共和国网络安全法》之后,很多以前处于灰色地带的业务都不能做了。因为最新的安全法强调:贩卖个人信息超过50条属于“情节严重”,需要追求其法律责任。很多涉及版权信息的网站,比如书籍、影视剧、课程等后期也会面临越来越严格的审查,这就是目前大的形势。

那么什么样的爬虫是非法的呢?前面说了,不能涉及隐私,另外还有三种情况也是不合法的,情节严重的还有可能构成犯罪行为。比如:

1、爬虫程序规避网站经营者设置的反爬虫措施或者破解服务器防抓取措施,非法获取相关信息,情节严重的,有可能构成“非法获取计算机信息系统数据罪”。

2、爬虫程序干扰被访问的网站或系统正常运营,后果严重的,触犯刑法,构成“破坏计算机信息系统罪”

3、爬虫采集的信息属于公民个人信息的,有可能构成非法获取公民个人信息的违法行为,情节严重的,有可能构成“侵犯公民个人信息罪”。

讲了不合法的爬虫行为,那么爬取什么内容是合法的呢?归纳起来也是三点:

1、 遵守 Robots 协议。Robots 协议也叫 robots.txt(统一小写)是一种存放于网站根目录下的 ASCII 编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。Robots 协议就是告诉爬虫,哪些信息是可以爬取,哪些信息不能被爬取,严格按照 Robots 协议 爬取网站相关信息一般不会出现太大问题。

2、不能造成对方服务器瘫痪。但不是说只要遵守 Robots 协议的爬虫就没有问题,还涉及到两个因素,第一不能大规模爬虫导致对方服务器瘫痪,这等于网络攻击。2019年05月28日国家网信办发布的《数据安全管理办法(征求意见稿)》中,拟通过行政法规的形式,对爬虫的使用进行限制:网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。

3、不能非法获利。恶意利用爬虫技术抓取数据,攫取不正当竞争的优势,甚至是牟取不法利益的,则可能触犯法律。实践中,非法使用爬虫技术抓取数据而产生的纠纷其实数量并不少,大多是以不正当竞争为由提请诉讼。举个例子,如果你把大众点评上的所有公开信息都抓取了下来,自己复制了一个一模一样的网站,并且还通过这个网站获取了大量的利润,这样也是有问题的。或者是把别人网站上的付费课程爬取下来,私自售卖也是一样的不合法行为。
 

综上所述,做爬虫合不合法,还要看你爬取什么内容。一般情况下,正规公司和企业的爬虫岗位都是合法的。当然,大家也需要牢记,不要使用爬虫爬取个人隐私信息和非法获利,就不会触碰到法律的底线。

 Python经验分享

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

Python学习路线

这里把Python常用的技术点做了整理,有各个领域的知识点汇总,可以按照上面的知识点找对应的学习资源。
在这里插入图片描述

学习软件

Python常用的开发软件,会给大家节省很多时间。
在这里插入图片描述

学习视频

编程学习一定要多多看视频,书籍和视频结合起来学习才能事半功倍。
在这里插入图片描述

100道练习题

在这里插入图片描述

实战案例

光学理论是没用的,学习编程切忌纸上谈兵,一定要动手实操,将自己学到的知识运用到实际当中。
在这里插入图片描述
最后祝大家天天进步!!

上面这份完整版的Python全套学习资料已经上传至CSDN官方,朋友如果需要可以直接微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】。

在这里插入图片描述

你可能感兴趣的:(python,爬虫,网络,python,开发语言,职场和发展)