selenium+python做爬虫开发前环境准备

爬虫开发的路很多,这里仅记录一条适合我的路。

一个文件,100多行代码,就完成了一个带定时器的每天自动爬取的爬虫开发,每次爬取时自动登录账号,能对网站的二层浏览结构实现随意爬取,能控制有头无头模式,能控制是否加载网页图片等。

操作系统:windows

软件下载

python环境:我用的是Anaconda(下载地址:https://www.anaconda.com/distribution/#download-section)

需要注意:装完Anaconda后将相关路径放到环境变量的Path里,例如:

D:\Anaconda\

D:\Anaconda\Scripts

D:\Anaconda\Library\bin

D:\Anaconda\Library\mingw-w64\bin(可选)

浏览器:chrome(下载地址:https://www.google.cn/intl/zh-CN/chrome/)

浏览器驱动:chrome-dirver(下载地址:http://npm.taobao.org/mirrors/chromedriver/)

需要注意:主机要安装浏览器,浏览器和浏览器的驱动需要保持版本一致,以便程序控制浏览器

PowerShell内输入命令行来安装程序

pip install selenium

pip install psycopg2

pip install apscheduler

提示:

【selenium】用来控制浏览器操作页面,模拟人对浏览器的各种操作,很强大;

【psycopg2】是我用来操作 postgresql 数据库的插件,以便将爬取到的数据放入数据库;

【apscheduler】是用来做定时任务的,很强大,比如每天定时爬取;

业务代码

提示:先学会python,再找文档学习 selenium、psycopg2、apscheduler 三者的使用,写一些业务代码就能开心的让爬虫工作了。

你可能感兴趣的:(selenium+python做爬虫开发前环境准备)