本次安装
时间:20190201
版本:python 3.7.2
python本体安装
官网https://www.python.org/downloads/下载安装包
点击安装,本人勾选了注入环境变量。
安装完毕后重启了电脑,其实注销再登录应该也可以。
scrapy框架安装
打开Windows PowerShell(管理员)
PS C:\windows\system32> pip install --upgrade pip //升级pip到最新
PS C:\windows\system32> pip install Scrapy //安装scrapy
报错:
error: Microsoft Visual C++ 14.0 is required.
百度并仔细观察,发现是由于building 'twisted.test.raiser' extension
导致出现error
故决定手动安装twisted的离线包
在https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted找到对应的版本,本次需要的对应版本是 twain‑1.0.4‑cp37‑cp37m‑win32.whl ,即python3.7.X的32位对应版本。
下载到本地。
在twain‑1.0.4‑cp37‑cp37m‑win32.whl 文件夹打开 Windows PowerShell
PS C:\windows\system32> pip install twain‑1.0.4‑cp37‑cp37m‑win32.whl //安装本地包
安装完毕后再运行
PS C:\windows\system32> pip install Scrapy //安装scrapy
至此,安装完毕,输入scrapy应有如下输出。
PS C:\windows\system32> scrapy
Scrapy 1.6.0 - no active project
Usage:
scrapy [options] [args]
Available commands:
bench Run quick benchmark test
fetch Fetch a URL using the Scrapy downloader
genspider Generate new spider using pre-defined templates
runspider Run a self-contained spider (without creating a project)
settings Get settings values
shell Interactive scraping console
startproject Create new project
version Print Scrapy version
view Open URL in browser, as seen by Scrapy
[ more ] More commands available when run from project directory
Use "scrapy -h" to see more info about a command
运行中文页http://www.scrapyd.cn/doc/179.html例子爬取测试站http://lab.scrapyd.cn/时,报错
ModuleNotFoundError: No module named 'win32api'
解决方法,安装缺失部分
PS C:\windows\system32> pip install pypiwin32 //安装win32api
scrapy框架简单使用
PS C:\windows\system32> scrapy version //查看scrapy 版本
PS C:\windows\system32> scrapy settings --get BOT_NAME //查看蜘蛛的名字
PS C:\windows\system32> scrapy startproject XX //在当前目录创建项目XX
PS C:\windows\system32> scrapy genspider XX XX.com //在当前目录依据模板创建一只蜘蛛test,目标站点为XX.com
PS C:\windows\system32> scrapy crawl XX //运行XX蜘蛛,需要先进入项目正在目录
PS C:\windows\system32> scrapy runspider XX.py //运行XX蜘蛛,只需 XX.py文件不必要项目
PS C:\windows\system32> scrapy shell http://www.XX.com //调试网址为http://www.XX.cn的网站
PS C:\windows\system32> scrapy fetch http://www.XX.com >d:/XX.html //下载http://www.XX.com的页面并保存到一个XX.html文件
PS C:\windows\system32> scrapy view http://www.XX.com //下载http://www.XX.com的页面并在本地打开
PS C:\windows\system32> scrapy check XX //检查XX蜘蛛的代码是否有错误
PS C:\windows\system32> scrapy list //当前项目下的蜘蛛列举
Docker安装
关于Docker:https://yeasy.gitbooks.io/docker_practice/content/
Docker 官网下载支持win10版本的Docker Desktop (Windows)
默认安装,中间注销一次生效路径,重启一次开启虚拟化
安装完毕后(默认开机启动),登录Docker 账号。
验证是否安装成功方法:打开Windows PowerShell(管理员)
PS C:\windows\system32> docker -v
Docker version 18.09.1, build 4c52b90
输入版本号则安装成功。
因为国外的源下载东西实在太慢,故最好配置下国内镜像源。
右键点击任务栏Docker 图标,再点击Settings,弹出配置窗口。
配置窗口中点击左侧选项中的Daemon,在Registry mirrors中填入加速镜像包地址,本人采用了阿里云的,保存后自动重启Docker
Scrapy-Splash安装
安装这个是为了解决部分网页异步加载的问题
1. server安装
拉取镜像
PS C:\windows\system32> docker pull scrapinghub/splash
拉完镜像后开启服务
PS C:\windows\system32> docker run -p 8050:8050 scrapinghub/splash
打开http://localhost:8050 会出现标题为 Splash v3.2 的页面
2. client安装
PS C:\windows\system32> pip install scrapy-splash