if item.__class__.__name__ == 'cults3dItem':
sql = ''
item = list(tuple(item.values()))
self.db_cur.execute(sql, item)
self.db_conn.commit()
print(f'第{self.i}条数据(插入成功)')
self.i += 1
elif item.__class__.__name__ == 'Main_Item':
item = list(tuple(item.values()))
title = '"' + item.pop(0) + '"'
sql = f'update data_article set description=%s,main_pic=%s where title={title}'
self.db_cur.execute(sql,item)
self.db_conn.commit()
print(f'第{self.a}条数据(查询插入成功)')
self.a += 1
else:
print('未知情况出现')
print(item)
from scrapy.utils.project import get_project_settings
setting = get_project_settings()
text = setting.get('TEXT')
# scrapy.setting import Settings 不能读取自定义参数,可以读取setting文件的固定参数
# 自定义参数,必须全部大写,否则读取不到
def process_request(self, request, response, spider):
if spider.name == "jobbole":
self.browser.get(request.url)
import time
time.sleep(3)
print ("??:{0}".format(request.url))
return HtmlResponse(url=self.browser.current_url, body=self.browser.page_source, encoding="utf-8", request=request)
# 与selenium的结合
用来处理整个系统的数据流,触发事务(框架核心)
用来接收引擎发送过来的请求,压缩队列,并在引擎再次请求时返回,可以想象成 一个url队列,由它决定下一个抓取的网站,并有去重的功能。
用于下载内容,并将下载的内容返还给引擎(Scrapy),是建立在twisted这个高效异步模型上的
用于在特定的网页提取到信息,用户也可以从中提取到信息,让Scrapy继续抓取下一个网页
负责处理爬虫从网页中抽取到的信息,进行持久化存储,验证实体的有效性,清除不需要的信息。爬虫解析后的文件将被传送给管道,经过几个特定次序的处理。
使用场景:爬取的解析的数据不在同一个页面(深度爬取时)
yield scrapy.Request(response.urljoin(url),callback=self.detail_parse,meta={'item':item})
# 请求传参
# 若需要传递item,item需要卸载for循环内,进行传递。
def detail_parse(self,response):
item = response.meta['item']
# 接收传参
def open_spider(self,spider):
self.client = pymongo.MongoClient()
# mongodb的连接
self.conn = pymysql.Connect(host='127.0.0.1',port='3306',user='root',password='123456',db='xxx',charset='utf-8')
# mysql 的连接
def process_item(self,item,spider):
xxx = item['xxx']
xxx = item['xxx']
self.client.xxx.data.insert(item)
# mongo 的写入数据
self.cursor = self.conn.cursor()
# 建立油标
try:
self.cursor.execute('insert into xxx values('%s','%s')%(item['xxx'],item['xxx'])
self.conn.commit()
execpt Execption as e:
print(e)
self.conn.rollback()
# mysql 语句的书写
return item
def close_spider(self,spider):
self.client.close()
self.cursor.close()
self.conn.close()
LOG_LEVEL = 'ERROR'
# 日志等级为error
1.正常书写spider
2. 书写item
src= Scrapy.Field()
from xxPro.items import xxxitem
item = xxxitem()
item['src'] = src
yield item
from scrapy.pipelines.images import ImagesPipeline
import scrapy
class imgPipeLine(ImagesPipeline):
def get_media_requests(self,item,info):
yield scrapy.Request(item['src']
# 根据图片地址进行图片数据请求
def file_path(self,requests,response=None,info=None):
imgName = requests.url.splite('/')[-1]
return imgName
# 指定图片储存路径
def item_completed(self,results,item,info):
return item
# 返回给下一个即将被执行的管道类
4 .设置setting
IMAGES_STORE = './imgs_xxx'
# 文件储存路径,没有的话会自己创建
开启 pipeline
重写Downloadmiddleware
# from fake_useragent import UserAgent
# 已经失效
from faker import Factory
# 这个可以使用
class TextproDownloaderMiddleware:
def process_request(self, request, spider):
request.headers.setdefault(b'useragent', Factory.creat().user_agent())
# 使用UserAgent库来进行UA伪装
# request.headers['useragent'] = random.choices(‘UA代理池’)
# 使用UA池来进行UA伪装
return None
def process_exception(self, request, exception, spider):
request.meta['proxy'] = 'https://58.253.155.94:9999'
# 固定ip写法
# request.meta['proxy'] = 'https://user:pwd@ip:port'
if request.url.split(':')[0] == 'http':
request.meta['proxy'] = random.choices('http代理池')
else:
request.meta['proxy'] = random.choices('https代理池')
# 使用代理池进行IP伪装
return request
# 将修正后的请求对象返回
一般来讲UA伪装写在process_request函数中,ip伪装写在process_exception函数中
DEFAULT_REQUEST_HEADERS={
"Authorization": "Bearer 56edfc79ecf25922b98202dd79a291aa",
"Referer": "https://www.thingiverse.com/search?q=Popular+ALL+time&type=things&sort=relevant",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36",
}
from scrapy.http.headers import Headers
def process_request(self,request,spider):
headers = {}
request.headers = Headers(headers)
是spider的一个子类 !!!
1.allow设置规则的方法:要能够限制在我们想要的url上面。不要跟其他的url产生相同的正则表达式即可;
2.什么情况下使用follow:如果在爬取页面的时候,需要将满足当前条件的url再进行跟进,那么就设置为True。否则设置为False;
3.什么情况下该指定callback:如果这个url对应的页面,只是为了获取更多的url,并不需要里面的数据,那么可以不指定callback。
1.rule中包含多个规则的时候,是从上往下依次执行过滤(若多个规则匹配,则只执行第一个规则),第一次执行都是以start_url进行开头的,若遇到符合的规则就会执行。对在start_url页面中的链接进行二次请求,得到二次请求的界面的html,若follow为ture,也是按规则从上往下一次执行的,若此链接对应的follow也是true,就会在第二个界面中,按照规则从上往下进行执行。以此类推,直到遇到的rules中的follow为false.
2.rules中的规则用 xpath/re 进行编写时,只用写到标签,无需得到属性,若标签内的连接为不全的,crawlspider会自动补全,根据rules进行解析。
参考链接
scrapy genspider -t crawl xxx xxx.com
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
class CrawlSpiderSpider(CrawlSpider):
name = 'crawl_spider'
allowed_domains = ['xxx.com']
start_urls = ['http://xxx.com/']
link = LinkExtractor(allow=r'Items/')
# 链接提取器默认是根据re进行制定,也可以根据xpath进行制定restrict_xpaths=(),
# 提取器是根据start_url进行界面进行提取的
rules = (
Rule(link, callback='parse_item', follow=True),
)
# callback指定解析函数,follow的意思是是否根据链接提取器提取的链接在此按照规则继续提取。
def parse_item(self, response):
item = {}
#item['domain_id'] = response.xpath('//input[@id="sid"]/@value').get()
#item['name'] = response.xpath('//div[@id="name"]').get()
#item['description'] = response.xpath('//div[@id="description"]').get()
return item