python3网络爬虫开发实践-开发环境的配置

爬虫可以简单分为几步:1.抓取页面 2.分析页面 3.存储数据

在抓取页面的过程中,我们需要模拟浏览器向服务器发出请求,所以需要用到一些python库来实现HTTP请求操作。我们用到的第三方库一般有requests , selenium 和 aiohttp 。

  • requests用来向浏览器发出请求
  • selenium是一个自动化测试工具,利用其我们可以驱动浏览器执行特定的动作,如点击,下滑等
  • aiohttp是一个提供异步Web服务的库。因为requests库是一个阻塞的HTTP请求库,当我们发出一个请求以后,程序会一直等待服务器响应,直到得到响应后,程序才会进行下一步处理。这个过程是比较耗费时间的。使用异步请求库进行数据抓取时,会大大提高效率。

1.安装python3。建议通过Anacondaa安装,其提供python的科学计算环境,自带了python以及常用的库


2.请求库的安装

  • requests的安装
//在cmd命令下
pip install  requests
  • selenium库的安装
//在cmd命令下
pip3 install selenium

//安装好selenium库,因为其是一个自动化测试工具,需要配合浏览器来使用,所以我们可以安装对应浏览器的驱动
//本文选用chrome浏览器,安装chromedriver驱动
1.首先确保已经安装好了chrome浏览器
2.点击chrome菜单 “帮助” -> “关于Google Chrome”,查看Chrome的版本号 ,我的是97.0
3.打开ChromeDriver的官网,下载对应的chromedriver,在notes.txt文件中查看支持的chrome版本
4.下载完成后,测试一下安装
  • aiohttp库的安装
//在cmd下
pip install aiohttp

3.解析库的安装

抓取网页代码后,下一步就是从网页中提取出信息。提取信息的方式很多,可以使用正则来提取。我们还可以使用许多强大的解析库,如lxml , Beautiful Soup ,pyquery等。 利用他们,我们可以高效便捷地从网页中提取有效信息。

  • lxml的安装:lxml是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式。
//在cmd下
pip install lxml
  • Beautiful Soup的安装:其是python的一个HTML或XML的解析库,可以方便得从网页中提取数据。
//在cmd下
pip install beautifulsoup4
  • pyquery的安装:其同样是一个强大的网页解析工具
//在cmd下
pip install pyquery

4.数据库的安装

作为数据存储的重要部分,数据库同样是必不可少的,数据库可以分为关系型数据库和非关系型数据库。

关系型数据库:其数据库是以表的形式存储;例如:MySQL
非关系型数据库:存储形式是键值对,存储形式更加灵活;例如:MongoDB , Redis

具体安装过程可自行查阅


5.存储库的安装

在4中,我们安装了几个数据库,但这仅仅是用来存储数据的数据库。如果想要和python进行交互的话,还需要安装一些python存储库。

例如MySQL需要安装PyMySQL。
MongoBD需要安装PyMongo。

//在cmd下
pip install pymysql

pip install pymongo

6.Web库的安装

我们使用Web服务程序来搭建一些API接口,供我们爬虫使用。例如:Flask, Django

  • Flask的安装:Flask是一个轻量级的Web服务程序。
pip3 install flask

你可能感兴趣的:(爬虫,爬虫,python,chrome)