1.1、基础知识
使用 Python 编写爬虫,当然至少得了解 Python 基本的语法,了解以下几点即可:
不需要过多过深的 Python 知识,仅此而已。
1.2、开发环境
• 操作系统:Windows 10
• Python 版本:Python 3.5
• 代码编辑运行环境:个人推荐 PyCharm 社区版,当然,Python 自带的 IDLE 也行, Notepad++亦可,只要自己使用得习惯。
1.3、第三方依赖库
• Requests:一个方便、简洁、高效且人性化的 HTTP 请求库
• BeautifulSoup:HTML 解析库
• Pymongo:MongoDB 的 Python 封装模块
• Selenium:一个 Web 自动化测试框架,用于模拟登录和获取 JS 动态数据
• Pytesseract:一个 OCR 识别模块,用于验证码识别
• Pillow:Python 图像处理模块
1.4、第三方库安装:
上面列出的第三方模块大多可以通过 pip install ××的方式直接安装,部分模块安装方式 不一样,下面一一演示:
1.4.1、requests
pip install requests
因为我电脑里边同时安装了 Python2和Python3两个版本,所以报如下错误:
解决办法:
python3:
python3 -m pip install --upgrade pip
python2:
python2 -m pip install --upgrade pip
注意:python2, python3共存时,将python安装目录下的python.exe改成对应的python2.exe,python3.exe
使用以上命令有可能会报错,是因为网络问题,需要即可解决(下图所示):
再使用 pip install requests 就可成功安装
提示requests模块库我们已经安装过了,说明我们已经安装成功了。
1.4.2、BeautifulSoup
pip install bs4
1.4.3、Pymongo
pip install pymongo
1.4.4、Selenium
pip install selenium
1.4.5、Pillow
1.打开
https://www.lfd.uci.edu/~gohlke/pythonlibs/
2.搜索找到“pillow”
3.根据自己系统的版本选择对应的下载包 (我根据我的系统和Python版本选了对应的版本,将文件放入Scripts文件夹中)
pip install Pillow-6.2.1-cp35-cp35m-win_amd64.whl
1.4.6、pytesseract
1.安装 pytesseract
pip install pytesseract
2.安装 tesseract 下载并安装:
Tesseract的github地址:https://github.com/tesseract-ocr/tesseract
Tesseract的安装:
(1)Tesseract本身没有windows的安装包,不过它指定了一个第三方的封装的windows安装包,在其wiki上有说明,大家可直接到这个地址进行下载: https://digi.bib.uni-mannheim.de/tesseract/
下载后就是一个exe安装包,直接右击安装即可,安装完成之后,配置一下环境变量,编辑 系统变量里面 path。
这样,我们的准备工作就基本完成,如果有另外的需求,在实战中再进行安装,接下来就 可以实战 Python 爬虫了。