Scrapy初级

1. Windows本地安装:

下载安装 Python3.7

d:\python37\python.exe         

 d:\python37\tools\scripts\win_add2path.py

下载安装符合系统版本的(win32或者amd64),Requests,pip,pyOPENSSL,lxml,Twisted ,Scrapy

cd  requests

pip install .

cd d:\python37\Script   

pip install   *.wjl

2. 添加环境变量:

D:\Python3.7\;

 D:\Python3.7\Scripts\; 路径添加到 PATH

3.创建一个Scrapy项目:

可以参考文档https://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html#id2

scrapy startproject tutorial

1.1. 该命令将会创建包含下列内容的 tutorial 目录:

tutorial/

    scrapy.cfg                   项目的配置文件

    tutorial/                     该项目的python模块。之后您将在此加入代码

        __init__.py

        items.py                  项目中的item文件

        pipelines.py            项目中的pipelines文件

        settings.py              项目的设置文件

        spiders/                   放置spider代码的目录

            __init__.py

            ...

1. 定义您想抓取的数据:

定义需要爬取的数据。在Scrapy中, 这是通过 Scrapy Items 来完成的

2. 编写提取数据的Spider:

编写一个spider。其定义了初始URL针对后续链接的规则以及从页面中提取数据的规则

3. 执行spider,获取数据:

运行spider来获取网站的数据,并以JSON格式存入到 scraped_data.json 文件中:

scrapy crawl mininova -o scraped_data.json

4. 查看提取到的数据:

运行 scraped_data.json , 您将看到提取到的item

 

1. 创建项目:

scrapy startproject myproject

2. 控制项目:

scrapy genspider mydomain mydomain.com

查看所有可用的命令:

scrapy -h

4. startproject:

语法: scrapy startproject

是否需要项目: no

4. 1 在 project_name 文件夹下创建一个名为 project_name 的Scrapy项目:

语法: scrapy startproject

是否需要项目: no

4. genspider:

语法: scrapy genspider [-t template]

是否需要项目: yes

在当前项目中创建spider

这仅仅是创建spider的一种快捷方法。该方法可以使用提前定义好的模板来生成spider。您也可以自己创建spider的源码文件

1. crawl:

语法: scrapy crawl

是否需要项目: yes

使用spider进行爬取

eg:

scrapy crawl myspider

[ ... myspider starts crawling ... ]

2. check:

语法: scrapy check [-l]

是否需要项目: yes

运行contract检查

3. list:

语法: scrapy list

是否需要项目: yes

列出当前项目中所有可用的spider。每行输出一个spider

4. edit:

语法: scrapy edit

是否需要项目: yes

使用 EDITOR 中设定的编辑器编辑给定的spider

你可能感兴趣的:(scrapy,基础模块)