网络爬虫学习(一)

学习网络爬虫,有很多种编程语言可以选择,但是,python是公认的最好的进行爬虫的编程语言,因此,本系列使用python语言来进行爬虫工作。由于python3版本是python的未来版本,所以,选择python3来进行爬虫开发,是最好的选择。接下来所要完成的首要工作便是网络爬虫环境的搭建。鉴于Linux环境下,搭建环境的方便,所以,以linux系统来作为开发平台。作为数据分析过程中非常重要的一个过程,良好的科学计算环境的选择是提高效率的一个关键因素。Anaconda环境是一个非常优秀的科学计算环境,预先安装了基本的开发包,可以完成很多基本的数据分析工作。anaconda的下载安装非常简单,官方的下载网址为https://www.anaconda.com/download/#linux下载对应的python3版本,并安装即可。接下来需要安装与爬虫相关的python包。

安装与爬虫相关的包分为请求库,解析库,存储库,还有一些工具库。首先来安装存储库,这样的库有MongoDB、Redis、MySQL等数据库相关的包。先来说下MongoDB,MongoDB是一个基于分布式文件存储的数据库,介于关系数据库和非关系数据库之间。其存储方式为key-value对。在linux环境下安装非常简单,在ubuntu18.04下安装,只需在终端输入下面语句即可: 

sudo apt install mongodb

这样便可完成mongodb的安装。安装完成后,在终端输入命令mongo:出现如下图所示的内容。

网络爬虫学习(一)_第1张图片

这样便说明安装完成了。但是,在mac系统下,有点麻烦,使用brew工具安装完成之后,需要删除/data/db/下的mongod.lock文件,然后使用命令sudo mongod启动mongodb数据库服务,此时,当前命令窗口无法操作,需要再启动一个终端,在终端输入mongo即可操作mongo数据库,终止服务,只需要在开启服务的终端,按crtl+C命令完成服务终止,停止后,mongodb无法操作。

 

接下来安装Redis数据库。Redis数据库是一个非关系型数据库,也是以key-value形式进行存储的。其安装过程在linux下也是非常的简单,在终端输入:

sudo apt install redis-server

便可完成安装。再在终端输入:

redis-cli

便可进入redis数据库客户端,来进行相关的测试,如图:

注意,为了保证可以远程连接和设置密码保证数据库的安全性,可以进入/etc/redis/redis.conf进行配置,输入:

sudo vim /etc/redis/redis.conf

将文件中的只能本地访问的这行注释掉,如图:

这样便可以远程访问了,接下来,为redis数据库设置密码,同样在配置文件里,作如下操作即可:

在requirepass后面输入自己设置的密码即可。接下来重新启动redis数据库服务。

sudo service redis restart

接下来进行测试即可,如下图:

这是直接输入redis-cli进入时,进行操作出现的问题,此时应该在终端输入如下语句来进入redis数据库。

redis-cli -a 'your newpasswd'

进入后,便可操作成功。

这样便完成了redis数据库的安装及其相应的设置。

你可能感兴趣的:(数据采集,网络爬虫)