Scrapy用法详解

scrapy处理多个item

        if item.__class__.__name__ == 'cults3dItem':
            sql = ''
            item = list(tuple(item.values()))
            
            self.db_cur.execute(sql, item)
            self.db_conn.commit()
            print(f'第{self.i}条数据(插入成功)')
            self.i += 1

        elif item.__class__.__name__ == 'Main_Item':
            item = list(tuple(item.values()))
            title = '"' + item.pop(0) + '"'
            sql = f'update data_article set description=%s,main_pic=%s where title={title}'
            self.db_cur.execute(sql,item)
            self.db_conn.commit()

            print(f'第{self.a}条数据(查询插入成功)')
            self.a += 1
        else:
            print('未知情况出现')
            print(item)

scrapy从setting中读取自定义参数

from scrapy.utils.project import get_project_settings
setting = get_project_settings()

text = setting.get('TEXT'# scrapy.setting import Settings 不能读取自定义参数,可以读取setting文件的固定参数
# 自定义参数,必须全部大写,否则读取不到

Htmlrespose的用法:修改响应

def process_request(self, request, response, spider):
     	if spider.name == "jobbole":
            self.browser.get(request.url)
            import time
            time.sleep(3)
            print ("??:{0}".format(request.url))

            return HtmlResponse(url=self.browser.current_url, body=self.browser.page_source, encoding="utf-8", request=request)
       # 与selenium的结合

五大核心件的作用

引擎(Scrapy)

用来处理整个系统的数据流,触发事务(框架核心)

调度器(Scheduler)

用来接收引擎发送过来的请求,压缩队列,并在引擎再次请求时返回,可以想象成 一个url队列,由它决定下一个抓取的网站,并有去重的功能。

下载器(Downloader)

用于下载内容,并将下载的内容返还给引擎(Scrapy),是建立在twisted这个高效异步模型上的

爬虫(Spider)

用于在特定的网页提取到信息,用户也可以从中提取到信息,让Scrapy继续抓取下一个网页

项目管道(Pipeline)

负责处理爬虫从网页中抽取到的信息,进行持久化存储,验证实体的有效性,清除不需要的信息。爬虫解析后的文件将被传送给管道,经过几个特定次序的处理。

请求传参

使用场景:爬取的解析的数据不在同一个页面(深度爬取时)

yield scrapy.Request(response.urljoin(url),callback=self.detail_parse,meta={'item':item})
# 请求传参
# 若需要传递item,item需要卸载for循环内,进行传递。
def detail_parse(self,response):
	item = response.meta['item']
	# 接收传参

管道持久化储存

重新定义open_spider

def open_spider(self,spider):
	self.client = pymongo.MongoClient()
# mongodb的连接
	self.conn = pymysql.Connect(host='127.0.0.1',port='3306',user='root',password='123456',db='xxx',charset='utf-8')
# mysql 的连接

process_item书写

def process_item(self,item,spider):
	xxx = item['xxx']
	xxx = item['xxx']
	
	self.client.xxx.data.insert(item)
	# mongo 的写入数据


	self.cursor = self.conn.cursor()
	# 建立油标
	try:
		self.cursor.execute('insert into xxx values('%s','%s')%(item['xxx'],item['xxx'])
		self.conn.commit()
	execpt Execption as e:
		print(e)
		self.conn.rollback()

	# mysql 语句的书写
	return item

重新定义close_spider

def close_spider(self,spider):
	self.client.close()

	self.cursor.close()
	self.conn.close()

setting的设置

LOG_LEVEL = 'ERROR'
# 日志等级为error

Scrapy自带的图片管道下载图片:

步骤

1.正常书写spider
2. 书写item

src= Scrapy.Field()
from xxPro.items import xxxitem
item = xxxitem()
item['src'] = src
yield item
  1. 重写, 配置Pipeline
from scrapy.pipelines.images import ImagesPipeline
import scrapy

class imgPipeLine(ImagesPipeline):
	def get_media_requests(self,item,info):
		yield scrapy.Request(item['src']
	# 根据图片地址进行图片数据请求
	
	def file_path(self,requests,response=None,info=None):
		imgName = requests.url.splite('/')[-1]

		return imgName
	# 指定图片储存路径
	
	def item_completed(self,results,item,info):
		return item
	# 返回给下一个即将被执行的管道类	

4 .设置setting

IMAGES_STORE = './imgs_xxx'
# 文件储存路径,没有的话会自己创建
开启 pipeline

UA伪装和IP伪装

重写Downloadmiddleware

# from fake_useragent import UserAgent
# 已经失效
from faker import Factory
# 这个可以使用

class TextproDownloaderMiddleware:
	def process_request(self, request, spider):
	   request.headers.setdefault(b'useragent', Factory.creat().user_agent())
	   # 使用UserAgent库来进行UA伪装
	   # request.headers['useragent'] = random.choices(‘UA代理池’)
	       # 使用UA池来进行UA伪装
	   return None
	   
    def process_exception(self, request, exception, spider):
    	request.meta['proxy'] = 'https://58.253.155.94:9999'
		# 固定ip写法
		# request.meta['proxy'] = 'https://user:pwd@ip:port'
		
       if request.url.split(':')[0] == 'http':
           request.meta['proxy'] = random.choices('http代理池')
       else:
           request.meta['proxy'] = random.choices('https代理池')
       # 使用代理池进行IP伪装
       return request
       # 将修正后的请求对象返回

一般来讲UA伪装写在process_request函数中,ip伪装写在process_exception函数中

Headers重写(适用于发送request的请求需要其他验证)

修改setting文件

DEFAULT_REQUEST_HEADERS={
"Authorization": "Bearer 56edfc79ecf25922b98202dd79a291aa",
"Referer": "https://www.thingiverse.com/search?q=Popular+ALL+time&type=things&sort=relevant",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36",
}

修改DownloadMiddleware中的process_request

from scrapy.http.headers import Headers
def process_request(self,request,spider):
	headers = {}
	request.headers = Headers(headers)

CrawlSpider

是spider的一个子类 !!!

crawlspider rules使用情况分析

1.allow设置规则的方法:要能够限制在我们想要的url上面。不要跟其他的url产生相同的正则表达式即可;

2.什么情况下使用follow:如果在爬取页面的时候,需要将满足当前条件的url再进行跟进,那么就设置为True。否则设置为False;

3.什么情况下该指定callback:如果这个url对应的页面,只是为了获取更多的url,并不需要里面的数据,那么可以不指定callback。

CrawlSpider rules规则理解

1.rule中包含多个规则的时候,是从上往下依次执行过滤(若多个规则匹配,则只执行第一个规则),第一次执行都是以start_url进行开头的,若遇到符合的规则就会执行。对在start_url页面中的链接进行二次请求,得到二次请求的界面的html,若follow为ture,也是按规则从上往下一次执行的,若此链接对应的follow也是true,就会在第二个界面中,按照规则从上往下进行执行。以此类推,直到遇到的rules中的follow为false.

2.rules中的规则用 xpath/re 进行编写时,只用写到标签,无需得到属性,若标签内的连接为不全的,crawlspider会自动补全,根据rules进行解析。

参考链接

创建指令:

scrapy genspider -t crawl xxx xxx.com

代码分析

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class CrawlSpiderSpider(CrawlSpider):
    name = 'crawl_spider'
    allowed_domains = ['xxx.com']
    start_urls = ['http://xxx.com/']

    link = LinkExtractor(allow=r'Items/')
    # 链接提取器默认是根据re进行制定,也可以根据xpath进行制定restrict_xpaths=(),
    # 提取器是根据start_url进行界面进行提取的
    rules = (
        Rule(link, callback='parse_item', follow=True),
    )
	# callback指定解析函数,follow的意思是是否根据链接提取器提取的链接在此按照规则继续提取。
	
    def parse_item(self, response):
        item = {}
        #item['domain_id'] = response.xpath('//input[@id="sid"]/@value').get()
        #item['name'] = response.xpath('//div[@id="name"]').get()
        #item['description'] = response.xpath('//div[@id="description"]').get()
        return item

你可能感兴趣的:(Scrapy,爬虫,python,数据库)