Python3爬虫开发(1):开发环境(一)

Windows下安装python3

通过Anaconda安装,自带了python及常用的库
Python3爬虫开发(1):开发环境(一)_第1张图片补充链接:anaconda下pip的使用方法操作系统:Win10
在已经安装python3的情况下,再安装anaconda,如果忘了选择”Add path to your environment”,该如何处理。
处理方法:我的电脑-属性-高级系统设置-xxx的用户变量-PATH-新建-写入三个Anaconda相关的地址:C:\Users\用户名(29282)\Anaconda3;
C:\Users\用户名\Anaconda3\Scripts;
C:\Users\用户名\Anaconda3\Library\bin

请求库的安装

爬虫可以分为简单的几步:抓取页面,分析页面,存储数据
常用的第三方库:requests,Selenium,aiohttp等
requests库的安装:
最简单方法:
在Anaconda Prompt命令行界面中输入pip install requests
验证过程:无错误提示表示成功
Python3爬虫开发(1):开发环境(一)_第2张图片
Selenium库的安装:
在Anaconda Prompt命令行界面中输入pip install Selenium
验证过程:
Python3爬虫开发(1):开发环境(一)_第3张图片

ChromeDriver的安装:
先下载Chrome浏览器。
安装ChromeDriver,只有安装ChromeDriver,才能驱动Chrome浏览器完成相应的操作。
ChromeDriver安装前的准备工作:
查看Chrome的版本号:浏览器网页菜单->帮助->查看浏览器版本号
找好对应的版本号,下载对应的ChromeDriver安装包,下载之后配置环境。
配置方法:windows系统:将下载好的chromedriver.exe可执行文件放在Anaconda/Scripes文档下
检验:在Anaconda命令提示符中输入chromedriver,如图所示则配置成功
Python3爬虫开发(1):开发环境(一)_第4张图片
最后检验:在python程序中输入如下代码:
from selennium import webdriver
browser=webdriver.Chrome()
如果弹出一个空白的Chrome浏览器,则证明环境配置成功,接下来便可以抓取网页。如果闪退,则可能是chromedriver与chrome的版本不兼容,需要更换版本。
GeckoDriver的安装
GeckoDriver是用来抓取Firefox网页的软件,安装方式与上述过程相同:先安装火狐浏览器,并且找到火花浏览器的版本,下载相应的GeckoDriver,下载后按同样的方法配置环境(把可执行文件移到Scrips下)
PhantomJS的安装
PhantomJS:一种无界面浏览器,可以让抓取过程在后台运行,不会有桌面上的窗口出现。
安装过程:下载PhantomJS安装包
安装之后配置环境:将下载后的文件打开,有一个bin文件夹,打开后有一个exe的可执行文件,将该文件放入scrips文件夹中或者将bin文件夹的地址写入环境变量。
aiohttp的安装
aiohttp:提供异步Web服务的库,进行抓取时会提高效率。
安装方法:在Anaconda的命令行中输入pip install aiohttp
检验是否安装成功:import aiohttp没有错误解析

你可能感兴趣的:(python爬虫)