爬虫入门以及反爬协议——简单易懂

引言:我们都知道,现在是一个数据爆炸的时代,谁掌握更多的信息,谁就拥有更多的主动权。那么爬虫的价值也显而易见。我们可以抓取互联网上的数据,为我所用,有了大量的数据,我们可以对数据进行分析将其产品化,商业化。

什么是爬虫?

通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。

爬虫的合法性

爬虫,那它作为一项计算机的技术,那么它既就具备中立性。法律上肯定是不被禁止的,但是我利用她来获取一些比较私密的数据,仍然具有违法的风险。
比如说抢一鞋,或者是抢票,这些爬虫就不被允许。它干扰了被访问网址的正常运营,还有一些抓取了受到法律保护的特定类型的数据或信息也是不被允许的。所以呢,我们在编写爬虫的时候,我们要时常优化自己的程序,避免干扰被访问网址的正常运行。在爬到的到相关数据时,要及时审查,抓到的内容,如果发现涉及到了用户隐私或者是商业机密等敏感内容,要及时停止。

.
.
爬虫入门以及反爬协议——简单易懂_第1张图片

爬虫的矛与盾

就本电商公司而言,希望能够获取其他店商家公司的数据,但是并不希望自家数据被他在其他公司获取。这就是爬虫的反爬策略和爬虫的反反爬策略。

爬虫的反爬机制

门户网站,可以通过制定相应的策略和技术手段,防止爬虫程序进行网站数据的爬取。

爬虫的反反爬策略

就本电商公司而言,希望能够获取其他店商家公司的数据,但是并不希望自家数据被他在其他公司获取。这就是爬虫的反爬策略和爬虫的反反爬策略。
.
.
.

robots.txt协议

robots.txt协议也是一种反爬机制。一些搜索引擎的从业者和网站的站长,通过邮件讨论定制了一项君子协议。该协议规定了哪些内容可以被爬虫爬取,哪些内容不可以被爬虫爬取,这样就保护了网站中的隐私数据,又可以被搜索引擎收录,增加网站的流量。
.

以某东为例,指明该网站的robots.txt协议

爬虫入门以及反爬协议——简单易懂_第2张图片
注意的是这个robots.txt协议,不允许爬的仍然可以爬取,只是一旦爬取,就有可能进局子,hahahahaha…
.
.
.

http协议

概念:就是是服务器和客户端进行数据交互的一种形式。

常用的请求头信息:

—User-Agent:请求载体的身份标识。

—Connection :请求完毕后是断开连接,还是保持连接。

常用的响应头信息:

—Content-Type:服务器响应回客户端的数据类型。

.
.

https协议:

它几乎和http协议差不多,多了一个s,是安全(safety)的意思,它就是安全的超文本传输协议。

你可能感兴趣的:(python,大数据,搜索引擎)