分布式爬虫| 你必须得懂的那些Redis基础

点击蓝色字关注我们!

JAVAandPython君

一个努力中的公众号

长的好看的人都关注了

640?

 Python爬虫| 不会分布式爬虫?带你一步一步写!

Python分布式爬虫-必须掌握的Docker基础!


        这是我们分布式爬虫系列文章的第三篇文章了,这是最后一篇打基础的文章,在下一篇文章中,我们就会通过一个实战,来彻彻底底教会大家分布式爬虫!

       今天,我们主要讲的是Redis数据库,相信大家肯定听说过这个数据库。我们主要分为Redis的安装与启动以及Redis的使用基础两个方面来给大家讲解。

640

Redis的安装

我们首先进入到容器当中,具体可以看图:

分布式爬虫| 你必须得懂的那些Redis基础_第1张图片

进入之后,我们输入

apt-get -y install redis-server

分布式爬虫| 你必须得懂的那些Redis基础_第2张图片

稍作等待,即可安装成功。

如果这个过程中出现问题,可以升级一下你的apt-get

apt-get update

Redis的启动和连接

我们安装完成之后,就需要启动Redis数据库服务器

640?wx_fmt=jpeg

/etc/init.d/redis-server restart

其实,Redis是分为服务器和客户端两端的,我们上面启动是服务器,就意味着Redis服务打开了,此时我们需要打开客户端去连接服务器。

不带参数的连接服务器

redis-cli

带参数的连接服务器

redis-cli -h 主机地址 -p 端口

如果大家在这里遇到了下图的报错:

640?wx_fmt=jpeg

提示说Connection refused ,这里我教大家来解决

首先进入/etc/redis  然后vi redis.conf,来编辑这个文件

分布式爬虫| 你必须得懂的那些Redis基础_第3张图片

找到这句话,上图是我修改后的,后面的172.18.0.4是我的容器ip,如何查看可以去上一篇docker的文章中找。

Redis使用基础

Redis与其他的数据库不同之处在于Redis中的存储格式是键值对。

1. 例如我们想设置一个数据,我们可以使用set来实现,取出数据使用get

分布式爬虫| 你必须得懂的那些Redis基础_第4张图片

2. 获取键值的长度    strlen

640?wx_fmt=jpeg

3. 批量设置键值对,取出键值对

分布式爬虫| 你必须得懂的那些Redis基础_第5张图片

在Redis中还有一种存储方式,被称为哈希存储法。它比键值对多了一个“域”。   键 - 域 - 值(key - field - value)

那么我们怎么设置这种数据呢?

分布式爬虫| 你必须得懂的那些Redis基础_第6张图片

那么又如何批量设置键- 域 -值?

分布式爬虫| 你必须得懂的那些Redis基础_第7张图片

其实用于分布式爬虫中的Redis基础就这么多,当然Redis的用法还有很多,如果大家想深入了解,可以去百度搜索一下。

640

       那么我们今天学的这些东西到底有什么用呢?我来给大家简单介绍一下,当我们爬取某个网页时,我们可以使用以下命令:

hset url 123.com 1

         此时我们将这个url的值设置为1,就代表我们已经爬取过这个网页了,下次爬取时就不会重复爬取这个网页。如果我们没有爬取这个网页,那么它的值就为null,我们就对其爬取。

      整体的思路还是非常简单的,好了,今天我们就写到这,下一篇文章我们会用一个分布式爬虫实战来教大家完完整整的写一个分布式爬虫,记得持续关注!!!


原创不易,希望大家点赞转发!

赞赏就不必,大家若想给JAP君加鸡腿,可以点击左下角的“阅读原文”。

如有疑惑,加群讨论

640?wx_fmt=png

640?wx_fmt=jpeg

你可能感兴趣的:(分布式爬虫| 你必须得懂的那些Redis基础)