Scrapy中response介绍、属性以及内容提取

解析response

parse()方法的参数 response 是start_urls里面的链接爬取后的结果。所以在parse()方法中,我们可以直接对response对象包含的内容进行解析,比如浏览请求结果的网页源代码,或者进一步分析源代码内容,或者找出结果中的链接而得到下一个请求

一.response常用属性

url :HTTP响应的url地址(str类)

status:HTTP响应的状态码(int类)

headers :HTTP响应的头部, 类字典类型, 可以调用get或者getlist方法对其进行访问(dict类)

body:HTTP响应正文(bytes类)

text:文本形式的HTTP响应正文(str类)

encoding:HTTP响应正文的编码

reqeust:产生该HTTP响应的Reqeust对象

meta:即response.request.meta, 在构造Request对象时, 可将要传递给响应处理函数的信息通过meta参数传入, 响应处理函数处理响应时, 通过response.meta将信息提取出来

selector:Selector对象用于在Response中查找相关内容,以便于爬取

xpath(query):<

你可能感兴趣的:(python基础+进阶教程,scrapy,前端,html)