爬虫可以简单分为几步:1.抓取页面 2.分析页面 3.存储数据
在抓取页面的过程中,我们需要模拟浏览器向服务器发出请求,所以需要用到一些python库来实现HTTP请求操作。我们用到的第三方库一般有requests , selenium 和 aiohttp 。
1.安装python3。建议通过Anacondaa安装,其提供python的科学计算环境,自带了python以及常用的库
2.请求库的安装
//在cmd命令下
pip install requests
//在cmd命令下
pip3 install selenium
//安装好selenium库,因为其是一个自动化测试工具,需要配合浏览器来使用,所以我们可以安装对应浏览器的驱动
//本文选用chrome浏览器,安装chromedriver驱动
1.首先确保已经安装好了chrome浏览器
2.点击chrome菜单 “帮助” -> “关于Google Chrome”,查看Chrome的版本号 ,我的是97.0
3.打开ChromeDriver的官网,下载对应的chromedriver,在notes.txt文件中查看支持的chrome版本
4.下载完成后,测试一下安装
//在cmd下
pip install aiohttp
3.解析库的安装
抓取网页代码后,下一步就是从网页中提取出信息。提取信息的方式很多,可以使用正则来提取。我们还可以使用许多强大的解析库,如lxml , Beautiful Soup ,pyquery等。 利用他们,我们可以高效便捷地从网页中提取有效信息。
//在cmd下
pip install lxml
//在cmd下
pip install beautifulsoup4
//在cmd下
pip install pyquery
4.数据库的安装
作为数据存储的重要部分,数据库同样是必不可少的,数据库可以分为关系型数据库和非关系型数据库。
关系型数据库:其数据库是以表的形式存储;例如:MySQL
非关系型数据库:存储形式是键值对,存储形式更加灵活;例如:MongoDB , Redis
具体安装过程可自行查阅
5.存储库的安装
在4中,我们安装了几个数据库,但这仅仅是用来存储数据的数据库。如果想要和python进行交互的话,还需要安装一些python存储库。
例如MySQL需要安装PyMySQL。
MongoBD需要安装PyMongo。
//在cmd下
pip install pymysql
pip install pymongo
6.Web库的安装
我们使用Web服务程序来搭建一些API接口,供我们爬虫使用。例如:Flask, Django
pip3 install flask