Python爬虫学习之scrapy库

一、scrapy库安装

pip install scrapy -i https://pypi.douban.com/simple

二、scrapy项目的创建

1、创建爬虫项目    打开cmd  输入scrapy startproject 项目的名字
                  注意:项目的名字不允许使用数字开头  也不能包含中文
2、创建爬虫文件    要在spiders文件夹中去创建爬虫文件
                  cd 项目的名字\项目的名字\spiders
                  cd scrapy_baidu_091\scrapy_baidu_091\spiders

                  创建爬虫文件
                  scrapy genspider 爬虫文件的名字 要爬取网页
                  e.g.scrapy genspider baidu www.baidu.com
                  不需要添加http协议  因为start_urls的值是根据allowed_domains修改的
                  所以添加了http的话,那么start_urls就需要我们手动去修改
3、运行爬虫代码
                  scrapy crawl 爬虫名字
                  e.g.
                  scrapy crawl baidu

三、scrapy项目的基本使用

scrapy项目的结构
    项目名字
        项目名字
            spiders文件夹(存储的是爬虫文件)
                __init__
                自定义的爬虫文件   核心功能文件
            __init__
            items       定义数据结构的地方
            middlewares  中间件 代理
            pipelines   管道  用来处理下载的数据
            settings    配置文件    robots协议    user-agent定义等

四、scrapy文件里的response方法

1、response.text 获取响应的字符串

2、response.body 获取二进制数据

3、response.xpath 解析response中的内容

4、response.extract() 提取seletor对象的data属性

5、response.extract_first() 提取seletor列表的第一个数据

你可能感兴趣的:(python,爬虫,笔记,学习)