Python | 初识爬虫框架Scrapy

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

一、前言

今天给大家分享的是,Python里的爬虫框架Scrapy学习,包含python虚拟环境的搭建、虚拟环境的使用、Scrapy安装方法详解、Scrapy基本使用、Scrapy项目目录及内容基本介绍,let's go!

二、Python爬虫框架Scrapy简介

推荐查看Scrapy中文帮助文档:

 1# 维基百科看Scrapy
 2'''
 3Scrapy(SKRAY -pee)是一个免费和开源 网络爬行 框架 Python编写的。最初设计用于Web抓取,它还可
 4以用于使用API或作为通用Web爬网程序提取数据。它目前由网络抓取开发和服务公司Scrapinghub Ltd.维护
 5。
 6Scrapy项目体系结构是围绕“Spider”构建的,它们是自包含的爬虫,可以获得一组指令。遵循其他框架的精
 7神,不重复自己的框架,例如Django,它允许开发人员重用他们的代码,从而更容易构建和扩展大型爬行项
 8目。Scrapy还提供了一个Web爬行shell,开发人员可以使用它来测试他们对站点行为的假设。
 9(英译汉有点尴尬!真的想学,还是好好看上面的帮助文档吧)
10'''

三、看代码,边学边敲边记虚拟环境、Scrapy框架

1. 新建一个虚拟环境

下面 操作之前你需要准备好:
(1) 你的python版本是3.x,最好系统里只有一个python环境,后面所有学习笔记都基于py3的。
(2)python环境里先安装virtualenv模块,基本方法pip install virtualenv 。
(3)选择好虚拟环境的安装目录(我选的是H盘目录下的env文件夹,建议你选的目录路径里最好不要有中文)。

1PS H:\env\> virtualenv spiderenv
2Using base prefix 'c:\\users\\82055\\appdata\\local\\programs\\python\\python36'
3New python executable in H:\env\spiderenv\Scripts\python.exe
4Installing setuptools, pip, wheel...done.
5注: 如果系统中有两个python环境(py2和py3),新建基于py3的虚拟环境方法
6virtualenv -python=你的Python3安装目录(精确到python.exe) spiderenv(虚拟环境名称)

安装完成后再自己选择的目录下会多出一个文件夹(虚拟环境),我这里为H:\env\spiderenv,后面所有爬虫学习过程中需要的模块、接口都将pip(安装)在里面。

2. 打开虚拟环境,安装Scrapy框架

进入到目录H:\env\spiderenv\Scripts(我的虚拟环境目录),按住shift+鼠标右键,打开powershell或者cmd(如果是powershell就先输入cmd),再输入activate,进入虚拟环境,你会发现在路径前面多了一个括号里面是你的虚拟环境名称,表示你进入了虚拟环境。具体看下面:

1# 注:打开powershell 的可以参照下面操作
2PS H:\env\spiderenv\Scripts> cmd
3Microsoft Windows [版本 10.0.17134.112]
4(c) 2018 Microsoft Corporation。保留所有权利。
5
6H:\env\spiderenv\Scripts>activate
7(spiderenv) H:\spiderenv\Scripts>

安装scrapy模块(下面操作都是在虚拟环境下):

转载于:https://my.oschina.net/u/3611008/blog/2046088

你可能感兴趣的:(Python | 初识爬虫框架Scrapy)