En^_^Joy

Scrapy框架（高效爬虫）

文章目录

一、环境配置
二、创建项目
三、scrapy数据解析
四、基于终端指令的持久化存储
- 1、基于终端指令
- 2、基于管道
- 3、数据同时保存至本地及数据库
- 4、基于spider爬取某网站各页面数据
- 5、爬取本页和详情页信息（请求传参）
- 6、图片数据爬取ImagesPipeline
五、中间件
- 1、拦截请求中间件（UA伪装，代理IP）
- 2、拦截响应中间件(动态加载)
六、CrawlSpider（自动请求全站爬取，全部页面，自动下拉滚轮爬取）
七、分布式爬虫
八、增量式爬虫

Scrapy拥有高性能持久化存储，异步数据下载，高性能数据解析，分布式功能

一、环境配置

环境配置步骤如下（要按步骤来）：

pip install wheel
下载twisted：https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
安装twisted：pip install Twisted-17.1.0-cp36m-win_amd64.whl   (这个文件的路劲)
pip install pywin32
pip install scrapy
测试：在终端输入scrapy指令，没有报错表示安装成功

二、创建项目

步骤：

1、打开pycharm的terminal
2、scrapy startproject first
3、cd first
4、scrapy genspider main www.xxx.com
5、需要有main.py里面的输出，则修改settings.py里面的ROBOTSTXT_OBEY = True改为False
6、scrapy crawl main
  不需要额外的输出则执行scrapy crawl main --nolog
   或者在settings.py里面添加LOG_LEVEL='ERROR'，main.py有错误代码会报错（不添加有错误时则不会报错）（常用）

实际操作如下：

打开pycharm的terminal
执行scrapy startproject first，当前目录下会出现个first项目工程，里面有个spiders文件夹，称为爬虫文件夹，在这里放爬虫源文件

cd first 进入工程目录
执行scrapy genspider main www.xxx.com，在spiders目录中创建一个名为main的爬虫文件，创建的文件自带部分内容

执行工程：scrapy crawl main (运行main爬虫文件）

上面parse里面如果有输出运行时没有输出，则需要将settings.py里面的ROBOTSTXT_OBEY = True改为False

改成False后，修改main.py文件内容如下，运行就会有输出

import scrapy


class MainSpider(scrapy.Spider):
    # 爬虫文件的名称：爬虫源文件的唯一标识
    name = "main"
    # 允许的域名：用来限定start_urls列表中哪些url可以进行请求发送,一般不用
    # allowed_domains = ["www.xxx.com"]
    # 起始的url列表：该列表中存放的url会被scrapy自动进行请求发送
    start_urls = ["http://www.baidu.com/","https://www.sogou.com"]

    # 用于数据解析：response参数表示的就是请求成功后的响应对象
    def parse(self, response):
        print(response)
        pass

使用指令scrapy crawl main --nolog，输出内容就不会输出多余的内容，只输出打印的内容

如果里面的代码输入错误，运行加上–nolog后不会有输出，看不出报错
有个好方法，运行不用加–nolog，在settings.py里面添加LOG_LEVEL='ERROR'，如果输入错误，就会报ERROR，如果没错，输出内容和上面运行带上–nolog一样，这里就不用加–nolog

三、scrapy数据解析

首先创建项目

scrapy startproject first
cd first
scrapy genspider main www.xxx.com

修改settings.py文件的ROBOTSTXT_OBEY = True改为False，才会有输出，添加LOG_LEVEL='ERROR'
在将注释的USER_AGENT取消注释，在页面中复制该内容到这个变量中

修改main.py文件

import scrapy

class MainSpider(scrapy.Spider):
    name = "main"
    # allowed_domains = ["www.xxx.com"]
    start_urls = ["http://www.baidu.com/"]

    def parse(self, response):
        # 解析数据
        # xpath返回的是列表，列表元素一定是Selector类型的对象
        div_list = response.xpath('//div')
        for div in div_list:
            # extract可以将selector对象中data参数存储的字符串提取出来(可以是列表)
            print(div.extract())

执行scrapy crawl main 就会将解析的数据输出
关于Xpath使用请看：https://blog.csdn.net/weixin_46287157/article/details/116432393

四、基于终端指令的持久化存储

1、基于终端指令

只可以将parse方法的返回值存储到本地的文本文件中
基于上面解析的数据，将要保存的数据保存在datas中，然后return返回
再执行指令scrapy crawl main -o ./a.csv，就可以将返回的datas数据保存在a.csv中（要加-o参数保存文件，也可以./a,txt）
注意：持久化存储的文本类型只可以为json, jsonlines, jsonl, jl, csv, xml, marshal, pickle

import scrapy


class MainSpider(scrapy.Spider):
    name = "main"
    allowed_domains = ["www.baidu.com"]
    start_urls = ["http://www.baidu.com/"]

    def parse(self, response):
        datas = []
        # 解析数据
        # xpath返回的是列表，列表元素一定是Selector类型的对象
        div_list = response.xpath('//div[@id="..."]/div')
        for div in div_list:
            # extract可以将selector对象中data参数存储的字符串提取出来(可以是列表)
            datas.append(div.xpath('./div').extract())
        return datas

2、基于管道

首先需要创建项目：

1、打开pycharm的terminal
2、scrapy startproject first
3、cd first
4、scrapy genspider main www.xxx.com
5、修改settings.py里面的ROBOTSTXT_OBEY = True改为False并添加LOG_LEVEL='ERROR'
6、scrapy crawl main

接着需要在主函数（main.py文件）中进行数据解析，main.py内容如下

import scrapy
from first.items import FirstItem

class MainSpider(scrapy.Spider):
    name = "main"
    # allowed_domains = ["www.xxx.com"]
    start_urls = ["https://www.gushiwen.cn/"]

    def parse(self, response):
        # 解析数据
        # xpath返回的是列表，列表元素一定是Selector类型的对象
        div_list = response.xpath('/html/body/div[2]/div[1]/div')
        for div in div_list:
            # extract可以将selector对象中data参数存储的字符串提取出来(可以是列表)
            # 解析诗歌标题和内容
            # 加个if判断，如果解析到的不为空，就进行存储
            if len(div.xpath('./div[1]/p[1]/a/b/text()')) != 0 and len(div.xpath('./div[1]/div[2]/text()')) !=0:
            	# 解析数据
                title = div.xpath('./div[1]/p[1]/a/b/text()')[0].extract()
                content = div.xpath('./div[1]/div[2]/text()')[0].extract()

然后在item类中定义相关的属性，将解析的数据存储到item类型的对象（items.py里面有个FirstItem类，可以实例化对象，即item类的实例对象）。修改items.py文件，定义相关属性，比如诗歌、内容，将解析到的数据封装到item对象中：

class FirstItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = scrapy.Field()
    content = scrapy.Field()
    pass

用item实例化对象后，这个对象就能取得title和content。将item类型的对象提交给管道进行持久化存储操作。pipelines.py中定义了FirstPipeline类，专门用来处理item类型对象。在管道类的process_item中要将其接受到的item对象中存储的数据进行持久化存储操作

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html


# useful for handling different item types with a single interface
from itemadapter import ItemAdapter


class FirstPipeline:
    fp = None
    # 重写父类的一个方法：该方法只在开始爬虫的时候被调用一次
    def open_spider(self, spider):
        print('开启爬虫')
        self.fp = open('./a.txt', 'w', encoding='utf-8')

    # 用来处理item类型对象
    # 该方法可以接收爬虫文件提交过来的item对象
    # 该方法每接收到一个人item就会被调用一次
    # 如果把打开关闭文件放这，则需要多次打开关闭文件，则另外创建函数，减少打开关闭文件次数
    def process_item(self, item, spider): # item为item对象
        title = item['title']
        content = item['content']
        self.fp.write(title+':'+content+'\n')
        return item

    def close_spider(self, spider):
        print('结束爬虫')
        self.fp.close()

在配置文件setting.py中开启管道，即取消管道的注释

# Configure item pipelines
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
   "first.pipelines.FirstPipeline": 300,
}

最后在主函数main.py中添加调库及将解析的数据存储到item类型的对象和将item提交给管道的代码

import scrapy
from first.items import FirstItem

class MainSpider(scrapy.Spider):
    name = "main"
    # allowed_domains = ["www.xxx.com"]
    start_urls = ["https://www.gushiwen.cn/"]

    def parse(self, response):
        # 解析数据
        # xpath返回的是列表，列表元素一定是Selector类型的对象
        div_list = response.xpath('/html/body/div[2]/div[1]/div')
        for div in div_list:
            # extract可以将selector对象中data参数存储的字符串提取出来(可以是列表)
            # 解析诗歌标题和内容
            # 加个if判断，如果解析到的不为空，就进行存储
            if len(div.xpath('./div[1]/p[1]/a/b/text()')) != 0 and len(div.xpath('./div[1]/div[2]/text()')) !=0:
                title = div.xpath('./div[1]/p[1]/a/b/text()')[0].extract()
                content = div.xpath('./div[1]/div[2]/text()')[0].extract()

                # 将解析的数据存储到item类型的对象
                item = FirstItem()
                item['title'] = title
                item['content'] = content
                # 将item提交给管道，进行数据存储
                yield item

最后运行程序：scrapy crawl main

3、数据同时保存至本地及数据库

举例：将爬取的数据一份存到本地，一份存到数据库
在上面代码的基础上，再在管道中定义多个管道类，一个类制定存储到某个地方（一个存储到本地，一个存储到数据库）
在piplines.py中新增如下类

# 导入数据库
# import pymysql
# 管道文件中一个管道类对应将一组数据存储到一个平台或者载体中
class mysqlPileLine(object):
    conn = None
    cursor = None
    def open_spider(self, spider):
        self.conn = pymysql.Connect(host='127.0.0.1', port=3306, user='root', password='123456', db='qiubai', charset='utf8')
    def process_item(self, item, spider):
        self.cursor =self.conn.cursor()
        try:
           self.cursor.execute('insert into qiubai values("%s","%s")'%(item["title"],item["content"]))
           self.conn.commit()
        except Exception as e:
            pritn(e)
            self.conn.rollback()
        return item

    def close_spider(self, spider):
        self.cursor.close()
        self.conn.close()

在settings.py中开启管道，添加个优先级

# Configure item pipelines
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
    # 300表示优先级，数值越小，优先级越高
    "first.pipelines.FirstPipeline": 300,
    "first.pipelines.mysqlPileLine": 301,
}

爬虫文件提交的item类型的对象最终会提交给先执行的类（优先级高的类）。在优先级高的里面添加return item，return就会传递给下一个即将执行的管道类，pipelines.py优先级高的类中给一个函数添加return

    def process_item(self, item, spider): # item为item对象
        title = item['title']
        content = item['content']
        self.fp.write(title+':'+content+'\n')
        # return就会传递给下一个即将执行的管道类
        return item

管道文件中一个管道类对应的是将数据存储到一个平台。爬虫文件提交的item只会给管道文件中第一个被执行的管道类接收（优先级高的）。process_item中的return item表示将item传递给下一个即将被执行的管道类

4、基于spider爬取某网站各页面数据

以某网站为例，对某网站的全部页面（有分页栏）对应的页面进行爬取，这里需要获取所有页面的URL，并将其加入到start_url中，然后进行请求发送

首先创建项目并初始化操作

1、打开pycharm的terminal
2、scrapy startproject first
3、cd first
4、scrapy genspider main www.xxx.com
5、修改settings.py里面的ROBOTSTXT_OBEY = True改为False并添加LOG_LEVEL='ERROR'
6、scrapy crawl main  (最后一步运行）

然后编辑main.py文件

import scrapy


class MainSpider(scrapy.Spider):
    name = "main"
    # allowed_domains = ["www.xxx.com"]
    # 第一个页面
    start_urls = ["https://www.woyaogexing.com/touxiang/katong/new/index.html"]
    
    # 生成一个通用的url
    # %d可以被page_num取代
    url = 'https://www.woyaogexing.com/touxiang/katong/new/index_%d.html'
    # 页码数
    page_num = 2

    def parse(self, response):
        # 解析数据
        div_list = response.xpath('/html/body/div[3]/div[3]/div[1]/div[2]/div')
        for li in div_list:
            img_name = li.xpath('./a[2]/text()')[0].extract()
            print(img_name)

        # 递归
        if self.page_num <= 5:  # 前5页
            # 每个页码对应的url，page_num替换url中的%d
            new_url = format(self.url%self.page_num)
            self.page_num += 1
            # 手动请求发送：callback回调函数是专门用于数据解析
            yield scrapy.Request(url=new_url, callback=self.parse)

5、爬取本页和详情页信息（请求传参）

爬取本页面信息，然后再爬取详情页面信息，即本页面点击进入详情页之后爬取详细信息，这需要解析当前页获取详情页URL，然后对详情页URL发起请求并解析，然后存储。在scrapy.Request中传入meta={‘item’:item}参数，即传入item

import scrapy
from first.items import FirstItem

class MainSpider(scrapy.Spider):
    name = "main"
    # allowed_domains = ["www.baidu.com"]
    # 第一页面URL
    start_urls = ["https://www.qidian.com/rank/yuepiao/"]
	# 后续页面URL
    url = 'https://www.qidian.com/rank/yuepiao/year2023-month03-page%d/'
    page_num = 2
    
    # 回调函数接收item，解析详情页
    def parse_detail(self,response):
        item = response.meta['item']
        # 这里解析详情页信息
        content = response.xpath('...')
        item['content'] = content
        print(item['title'], item['content'])
        yield item

    # 解析首页的岗位名称
    def parse(self, response):
        li_list = response.xpath('/html/body/div[1]/div[6]/div[2]/div[2]/div/div/ul/li')
        for li in li_list:
            item = FirstItem()
            title = li.xpath('./div[2]/h2/a/text()')[0].extract()
            item['title'] = title
            detail_url = 'https:' + li.xpath('./div[2]/h2/a/@href')[0].extract()
            # 对详情页发送请求获取详情页的信息源码数据
            # 手动请求的发送
            # 请求传参：meta={}，可以将meta字典传递给请求对应的回调函数
            yield scrapy.Request(detail_url, callback=self.parse_detail, meta={'item': item})

        # 分页操作，爬取前5页数据
        if self.page_num <= 5:
            new_url = format(self.url%self.page_num)
            self.page_num += 1
            yield scrapy.Request(new_url, callback=self.parse)

6、图片数据爬取ImagesPipeline

基于scrapy爬取字符串类型的数据后可以直接提交给管道进行存储，但爬取图片需要解析图片的src，然后单独对图片的地址发起请求后去图片二进制类型的数据。pipelines.py里面的类只需要将img的src的属性值进行解析，提交到管道，管道就会对图片的src进行请求发送获取图片的二进制类型的数据，且还会进行持久化存储

在配置文件中添加文件存储目录，修改settings.py

#修改
ITEM_PIPELINES = {
    # 300表示优先级，数值越小，优先级越高
    "first.pipelines.imgPipeline": 300,
}

# 在配置文件末尾添加文件存储目录
IMAGES_STORE = './imgs'

将pipelines.py文件内容全部删除，修改为如下内容

from scrapy.pipelines.images import ImagesPipeline
import scrapy

class imgPipeLine(ImagesPipeline):

    # 可以根据图片地址进行图片数据的请求
    def get_media_requests(self, item, info):
        yield scrapy.Request(item['src'])
    # 指定图片存储的路径
    def file_path(self, request, response=None, info=None, *, item=None):
        imgName = request.url.split('/')[-1]
        return imgName

    def item_completed(self, results, item, info):
        # 返回给下一个即将被执行的管道类
        return item

main.py内容如下

import scrapy
from first.items import FirstItem

class MainSpider(scrapy.Spider):
    name = "main"
    # allowed_domains = ["www.baidu.com"]
    start_urls = ["..."]

    def parse(self, response):
        li_list = response.xpath('...')
        for li in li_list:
            item = FirstItem()
            src = li.xpath('...').extract_first()
            # 图片地址
            item['src'] = src
            yield item

五、中间件

下载中间件在引警和下载器之间，批量拦截到整个工程中所有的请求和响应
拦截请求作用：UA伪装（在process_request函数中），代理IP（在process_exception函数中，这里一定需要return request将修正之后的请求对象进行重写的请求发送）
拦截响应作用：篡改响应数据，响应对象

1、拦截请求中间件（UA伪装，代理IP）

1、打开pycharm的terminal
2、scrapy startproject first
3、cd first
4、scrapy genspider main www.xxx.com
5、修改settings.py里面的ROBOTSTXT_OBEY = True改为False并添加LOG_LEVEL='ERROR'
6、scrapy crawl main  (最后一步运行）

项目中的middlewares.py就是对应的中间件，MiddleproSpiderMiddleware类对应的就是爬虫中间件，这里不用可以删除，用的是下载中间件，即MiddleproDownloaderMiddleware类。MiddleproDownloaderMiddleware类中重点的是三个函数，即process_request（拦截请求），process_response（拦截所有响应），process_exception（拦截发送异常请求）

middlewares.py文件内容如下

class MiddleproDownloaderMiddleware:
    # Not all methods need to be defined. If a method is not defined,
    # scrapy acts as if the downloader middleware does not modify the
    # passed objects.

    @classmethod
    def from_crawler(cls, crawler):
        # This method is used by Scrapy to create your spiders.
        s = cls()
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
        return s

    # UA池
    user_agent_list = [
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 "
        "(KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
        "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 "
        "(KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 "
        "(KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 "
        "(KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
        "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 "
        "(KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 "
        "(KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
        "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 "
        "(KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
        "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 "
        "(KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
        "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 "
        "(KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
    ]
    # ip
    PROXY_http = ['153.180.102.104:80','195.208.131.189:56055']
    PROXY_https = ['120.83.49.90:9000', '95.189.112.214:35508']
    # 拦截请求
    def process_request(self, request, spider):
        # UA伪装
        request.headers['User-Agent'] = random.choice(self.user_agent_list)
        return None
        
    # 拦截所有响应
    def process_response(self, request, response, spider):
        # Called with the response returned from the downloader.

        # Must either;
        # - return a Response object
        # - return a Request object
        # - or raise IgnoreRequest
        return response
        
    # 拦截发送异常请求
    def process_exception(self, request, exception, spider):
        # 当请求IP被禁用，爬取失败，进入到这里
        # 代理
        if request.url.split(':')[0] == 'http':
            request.meta['proxy'] = 'http://' + random.choice(self.PROXY_http)
        else:
            request.meta['proxy'] = 'http://' + random.choice(self.PROXY_https)
        # 将修正之后的请求对象进行重新的请求发送
        return request

    def spider_opened(self, spider):
        spider.logger.info("Spider opened: %s" % spider.name)

将settings.py中的如下内容的注释取消

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

# Enable or disable downloader middlewares
# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
DOWNLOADER_MIDDLEWARES = {
    "middlePro.middlewares.MiddleproDownloaderMiddleware": 543,
}

main.py主函数内容如下：

import scrapy


class MiddleSpider(scrapy.Spider):
    # 爬取百度（搜索ip）
    name = "middle"
    # allowed_domains = ["www.xxx.com"]
    start_urls = ["https://www.baidu.com/s?wd=ip"]

    def parse(self, response):
        page_text = response.text
        with open('./ip.html', 'w', encoding='utf-8') as fp:
            fp.write(page_text)

2、拦截响应中间件(动态加载)

这里还是用的下载中间件，用来篡改响应数据，响应对象。以爬取某页面数据（标题和内容）为例，通首页解析一些标题栏的板块对应详情页的url（没有动态加载），每一个板块对应的标题都是动态加载出来的（动态加载），通过解析出每一条新闻详情页的url获取详情页的页面源码，解析出其详细的内容

首先创建项目

1、打开pycharm的terminal
2、scrapy startproject wangyipro
3、cd wangyipro
4、scrapy genspider main www.xxx.com
5、修改settings.py里面的ROBOTSTXT_OBEY = True改为False并添加LOG_LEVEL='ERROR'
6、scrapy crawl main  (最后一步运行）

注：标题栏每个标题栏里面固定位子的解析方式可能不一样，可能不能解析到正确的内容

settings.py取消如下注释

# Enable or disable downloader middlewares
# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
DOWNLOADER_MIDDLEWARES = {
    "wangyiPro.middlewares.WangyiproDownloaderMiddleware": 543,
}

# Configure item pipelines
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
    "wangyiPro.pipelines.WangyiproPipeline": 300,
}

修改items.py

import scrapy


class WangyiproItem(scrapy.Item):
    # define the fields for your item here like:
    title = scrapy.Field()
    content = scrapy.Field()
    pass

在pipelines.py添加输出

class WangyiproPipeline:
	# 这里存储数据
    def process_item(self, item, spider):
        print(item)
        return item

修改middlewares.py内容

from scrapy.http import HtmlResponse
from time import sleep

class WangyiproDownloaderMiddleware:
    # Not all methods need to be defined. If a method is not defined,
    # scrapy acts as if the downloader middleware does not modify the
    # passed objects.

    @classmethod
    def from_crawler(cls, crawler):
        # This method is used by Scrapy to create your spiders.
        s = cls()
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
        return s

    def process_request(self, request, spider):
        # Called for each request that goes through the downloader
        # middleware.

        # Must either:
        # - return None: continue processing this request
        # - or return a Response object
        # - or return a Request object
        # - or raise IgnoreRequest: process_exception() methods of
        #   installed downloader middleware will be called
        return None
    # 通过该方法拦截各特定板块对应的响应对象，进行篡改
    def process_response(self, request, response, spider): # spider爬虫对象
        # 获取爬虫类转给你定义的浏览器对象
        bro = spider.bro
        # 挑选出指定的响应对象进行篡改
        # 通过url指定让request
        # 通过request指定response
        if request.url in spider.models_urls:
            # 指定的个板块对应的url进行请求
            bro.get(response.url)
            sleep(2)
            # 包含了动态加载的新闻数据
            page_text = bro.page_source
            # response # 特定板块对应的响应对象
            # 针对定位到的这些response进行篡改
            # 实例化一个新的响应对象（符合需求：包含动态加载出的新闻数据），替代原来旧的响应对象
            # 基于selenium便捷的获取动态加载数据
            new_response = HtmlResponse(url=request.url, body=page_text, encoding='utf-8', request=request)
            return new_response
        else:
            # response # 其他请求对应的响应对象
            return response

    def process_exception(self, request, exception, spider):
        # Called when a download handler or a process_request()
        # (from other downloader middleware) raises an exception.

        # Must either:
        # - return None: continue processing this exception
        # - return a Response object: stops process_exception() chain
        # - return a Request object: stops process_exception() chain
        pass

    def spider_opened(self, spider):
        spider.logger.info("Spider opened: %s" % spider.name)

编写主函数main.py

import scrapy
from selenium import webdriver
from wangyiPro.items import WangyiproItem


class WangyiSpider(scrapy.Spider):
    name = "wangyi"
    # allowed_domains = ["www.xxx.com"]
    start_urls = ["..."]
    # 存储各板块url
    models_url = []
    # 解析各板块对应详情页的url
    # 实例化浏览器对象
    def __init__(self):
        self.bro = webdriver.Chrome(executable_path='')
    def parse(self, response):
        li_list = response.xpath('...')
        # 解析获取每个标题栏的URL，并存储到列表中
        for li in li_list:
            model_url = li.xpath('...')[0].extract()
            self.models_url.append(model_url)

        # 依次对每个标题栏对应的页面进行请求
        for url in self.models_url:# 对每个板块的url进行请求发送
            yield scrapy.Request(url, callback=self.parse_model)

    # 每一个标题栏对应的内容标题相关的内容都是动态加载
    # 解析每一个板块页面中对应新闻的标题和新闻详情页的url
    def parse_model(self, response):
        # 因为这里内容是动态加载出来的，所以用通常的方法response.xpath()是抓取不到的，需要在middleware.py文件中的process_response函数中编辑
        # 标题栏每个标题栏里面固定位子的解析方式可能不一样，需要分析每个页面的解析方式，可以根据属性值匹配
        div_list = response.xpath('...')
        for div in div_list:
            title = div.xpath('').extract_first()
            new_detail_url = div.xpath('').extract_first()

            item = WangyiproItem()
            item['title'] = title

            # 对新闻详情页的url发起请求
            yield scrapy.Request(url=new_detail_url, callback=self.parse_detail, meta={'item':item})
    # 解析新闻内容
    def parse_detail(self, response):
        content = response.xpath('').extract()
        content = ''.join(content)
        item = response.mate['item']
        item['content'] = content
        yield item

    def close(self, spider):
        self.bro.quit()

六、CrawlSpider（自动请求全站爬取，全部页面，自动下拉滚轮爬取）

可以提取页面显示栏中显示及未显示页面的所有页码链接等信息

CrawlSpider是Spider的一个子类，和Spider（手动请求）一样可以爬取全站数据
链接提取器：根据指定规则（参数allow=“正则”）进行指定链接的提取
规则解析器：将链接提取器提取到的链接进行指定规则(callback)的解析操作

爬取全站数据：爬取的数据没有在同一个页面，多个页码
1.可以使用链接提取器提取所有的页码链接
2.让链接提取器提取所有的详情页链接

CrawlSpider的使用（加 -t crawl）：

1、打开pycharm的terminal
2、scrapy startproject first
3、cd first
4、scrapy genspider -t crawl main www.xxx.com
5、修改settings.py里面的ROBOTSTXT_OBEY = True改为False并添加LOG_LEVEL='ERROR'
6、scrapy crawl main  (最后一步运行）

items.py创建两个item类，

import scrapy


class SunproItem(scrapy.Item):
    # define the fields for your item here like:
    title = scrapy.Field()
    new_num = scrapy.Field()

class DetailItem(scrapy.Item):
    new_id = scrapy.Field()
    content = scrapy.Field()

pipelines.py

class SunproPipeline:
    def process_item(self, item, spider):
        # 如何判定item类型
        if item.__class__.__name__ == 'DetailItem':
            print(item['new_id'],item['new_content'])
        else:
            print(item['new_num'],item['new_title'])
        return item

sun.py主函数

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from sunPro.item import SunproItem,DetailItem

# 需求爬取某网站的所有标签页的所有内容
class SunSpider(CrawlSpider):
    name = "sun"
    # allowed_domains = ["www.xxx.com"]
    start_urls = ["http://www.xxx.com/"]
    # 链接提取器：根据指定规则（allow="正则"）进行指定链接的提取
    # 提取页码链接
    link = LinkExtractor(allow=r"Items/")
    # 提取详情页链接
    link_detail = LinkExtractor(allow=r"...") #
    # Rule为规则解析器：将链接提取器提取到的链接进行指定规则(callback)的解析操作
    # Rule参数：链接提取器
    # follow改为True可以将链接提取器 继续作用到 链接提取器提取到的链接 所对应的页面中
    # follow为True可以提取下面显示及未显示页面的所有页码链接
    # follow为False只能提取下面显示的几个页面的链接
    # Rule中的callback调用对应parse_item函数
    rules = (Rule(link, callback="parse_item", follow=True),  # 提取页面链接
             Rule(link_detail, callback='parse_detail'))      # 提取详情页链接

    # 如下两个解析方法中是不可以实现请求传参
    # 如果将两个解析方法解析的数据存储到同一个item中，可以依次存储到两个item中，在items.py文件中建两个item类
    def parse_item(self, response):
        # xpath表达式中不可以出现tbgodybiao标签
        tr_list = response.xpath('...')
        for tr in tr_list:
            new_num = tr.xpath('...').extract_first()
            new_title = tr.xpath('...').extract_first()
            item = SunproItem()
            item['new_num'] = new_num
            item['new_title'] = new_title

    # 解析详情页内容
    def parse_detail(self, response):
        new_id = response.xpath('...')
        new_content = response.xpath('...')
        item = DetailItem()
        item['new_id'] = new_id
        item['new_content'] = new_content

七、分布式爬虫

搭建一个分布式的机群（多台电脑），当其中一台发出请求（多个url需要爬取），其他机器会一起爬取数据，提高效率

概念：需要搭建一个分布式的机群，让其对一组资源进行分布式联合爬取
作用：提升爬取数据效率

安装scrapy-redis组件pip install scrapy-redis
原生的scrapy不可以实现分布式爬虫，必须让scrapy组合这scrapy-redis组件一起实现分布式爬虫
原生的scrapy不可以实现分布式爬虫是因为调度器和管道都不可以被分布式机群共享
scrapy-redis组件可以给原生的scrapy框架提供可以被共享的管道和调度器

实现流程
创建一个工程
创建一个基于CrawlSpider的爬虫文件
修改当前的爬虫文件：

导包：from scrapy_redis.spoders import RedisCrawlSpider
将start_urls和allowed_domains进行注释
添加一个属性：redis_key = 'sun' 可以被空闲的调度器队列名称
编写数据解析相关的操作
将当前爬虫类的父类修改成RedisCrawlSpider

主函数

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule

from scrapy_redis.spiders import RedisCrawlSpider

# 需求爬取某网站的所有标签页的所有内容
class SunSpider(RedisCrawlSpider):
    name = "sun"
    # allowed_domains = ["www.xxx.com"]
    # start_urls = ["http://www.xxx.com/"]
    redis_key = 'sun'

    link = LinkExtractor(allow=r"Items/")
    link_detail = LinkExtractor(allow=r"...")
    rules = (Rule(link, callback="parse_item", follow=True),
             Rule(link_detail, callback='parse_detail'))

    def parse_item(self, response):
        # xpath表达式中不可以出现tbgodybiao标签
        tr_list = response.xpath('...')
        for tr in tr_list:
            new_num = tr.xpath('...').extract_first()
            new_title = tr.xpath('...').extract_first()
            item = SunproItem()
            item['new_num'] = new_num
            item['new_title'] = new_title

            yield item

修改配置文件settings，除了和上面常规的修改，还有添加如下内容

# 指定使用可以被共享的管道
ITEM_PIPELINES = {
	'scrapy_redis.pipelines.RedisPipeline':400
}
# 指定调度器
# 增加一个去重容器类的配置，作用使用Redis的set集合来存储请求的指纹数据，从而实现请求取重的持久化存储
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 使用scrapy_redis组件自己的调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 配置调度器是否要持久化，也就是当爬虫结束了，要不要清空Redis中请求队列和去重指纹的set，如果True
SCHEDULER_PERSIST = True

# 指定redis服务器
REDIS_HOST = 'redis服务器ip地址'  # 写成redis远程服务器的ip
REDIS_PORT = 6379

redis相关操作配置：

配置redis配置文件
	linux或mac：redis.conf
	windows：redis.windows.conf
	打开配置文件修改：
		将bind 127.0.0.1注释
		关闭保护模式：protected-mode yes改为no
结合着配置文件开启redis服务
	redis-server 配置文件
启动客户端
	redis-cli

执行工程：scrapy runspider xxx.py
向调度器的队列中放入一个起始的url

调度器的队列在redis的客户端中
	lpush xxx www.xxx.com

爬取到的数据存储在redis的proName:items这个数据结构中

八、增量式爬虫

比如某个网站一定时间会更新一部分内容，有些不会更新，今天我们爬取了网站的所有内容，明天再爬取的时候，我们只需要爬取比昨天新增的内容，原先的不用再爬取，这就是增量式爬虫（如下核心部分）

检测网站数据更新的情况，只会爬取网站最新更新出来的数据
分析：

指定起始url：www.4567tv.tv
基于CrawlSpider获取其他页码链接
基于Rule将其他页码链接进行请求
从每一个页码对应的页面源码中解析出每一个电影详情页的URL
核心：检测电影详情页的url之前有没有请求过
	  将爬取过的电影详情页的URL存储
	 存储到redis的set数据结构（自动清楚重复数据，即存在过添加不进去，返回1表示不存在可以添加，返回0表示存在不添加）
对详情页的url发起请求，然后解析出电影的名称和简介
进行持久化存储

pipelines.py

from redis import Redis
class SunproPipeline:
    conn = None
    def open_spider(self, spider):
        self.conn = spider.conn
    def process_item(self, item, spider):
        dic = {
            'name':item['name']
        }
        self.conn.lpush('movieData', dic)
        return item

主函数

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from sunPro.item import SunproItem,DetailItem
from redis import Redis

from scrapy_redis.spiders import RedisCrawlSpider

class SunSpider(RedisCrawlSpider):
    name = "sun"
    # allowed_domains = ["www.xxx.com"]
    start_urls = ["http://www.xxx.com/"]

    link = LinkExtractor(allow=r"Items/")
    rules = (Rule(link, callback="parse_item", follow=True))
    # 创建redis链接对象
    conn = Redis(host='127.0.0.1', port=6379)

    def parse_item(self, response):
        # xpath表达式中不可以出现tbgodybiao标签
        tr_list = response.xpath('...')
        for tr in tr_list:
            detail_url = tr.xpath('...').extract_first()
            # 将详情页的url存入redis的set中
            ex = self.conn.sadd('urls', detail_url)
            # ex=1表示数据结构中不存在该url，即没爬取过，可以爬取
            # ex=0表示数据结构中存在该url，即之前爬取过，不用爬取
            if ex == 1:
                print('该url没有被爬取过')
                yield scrapy.Request(url=detail_url, callback=self.parst_detail)
            else:
                print("该url爬取过，还没更新")

    # 解析详情页中的电影名称和类型，进行持久化存储
    def parst_detail(self, response):
        item = SunproItem()
        item['name'] = response.xpath('')
        yield item

你可能感兴趣的:(Python,爬虫,爬虫,scrapy,python)

重塑未来：AI如何重新定义全栈开发熊猫钓鱼>_> 人工智能
在传统认知中，全栈开发者被誉为技术界的“全能选手”。——他们需要精通前端界面构建（HTML/CSS/JavaScript）、后端业务逻辑实现（Python/Java/Node.js）、数据库设计优化（MySQL/MongoDB）以及服务器部署运维（Linux/Docker）。这种“一人包打天下”的能力模型长期被视为高效开发的黄金标准，尤其受到创业公司和小型团队的青睐，因为它能大幅减少沟通成本，加速
OpenCV稠密光流法可直接运行的例程（python） indrrra opencv python 人工智能
#dense_optical_flow.pyimportcv2importnumpyasnpimportargparsedefdense_optical_flow(method,video_path,params=[],to_gray=False):#读取视频cap=cv2.VideoCapture(video_path)#读取第一帧ret,old_frame=cap.read()#创建HSV并使
分布式锁特点、以及用python3实现redis分布式锁数据知道 python3案例和总结分布式 redis 数据库 python
更多内容请见：python3案例和总结-专栏介绍和目录文章目录一、Redis分布式锁核心原理1.1Redis锁机制1.2锁释放二、基础实现代码2.1使用`redis-py`客户端2.2分布式锁类三、使用示例3.1基础锁操作3.2装饰器模式四、高级特性实现4.1Redlock算法（高可用方案）五、生产环境最佳实践5.1锁粒度控制5.2异常处理5.3监控与调试5.4重试机制六、测试代码6.1并发测试6
【爬虫】05 - 爬虫攻防是小崔啊 #爬虫学习爬虫
爬虫05-爬虫攻防文章目录爬虫05-爬虫攻防一：随机User-Agent爬虫1：fake-useragent2：高级反反爬策略3：生产环境建议二：代理IP爬虫1：获取代理IP2：高阶攻防3：企业级的代理实战三：动态数据的抓取1：动态页面技术全景2：动态页面逆向工程2.1：XHR请求追踪与解析2.2：websocket实时数据捕获3：无头浏览器控制技术3.1：Playwright详解3.2：反反爬虫
php、go、python后端接口签名实现奇华智能后台开发 linux 签名接口安全
1.php实现/**生成签名，$args为请求参数，$key为私钥*/functionmakeSignature($args,$key){if(isset($args['sign'])){$oldSign=$args['sign'];unset($args['sign']);}else{$oldSign='';}ksort($args);$requestString='';foreach($arg
python第一次作业
1.技术面试题（1）TCP与UDP的区别是什么？**答：1.TCP是面向连接的协议，而UDP是元连接的协议2.TCP协议传输是可靠的，而UDP协议的传输是“尽力而为3.TCP是可以实现流控，而UDP不行4.TCP可以实现分段，而UDP不行5.TCP的传输速率较慢，占用资源较大，UDP传输速率快，占用资源小。TCP/UDP的应用场景不同TCP适合可靠性高的效率要求低的，UDP可靠性低，效率高。（2）
python www_hhhhhhh python java 面试
1.技术面试题（1）解释Linux中的进程、线程和守护进程的概念，以及如何管理它们？答：进程：是操作系统进行资源分配的基本单位，拥有独立的地址空间、进程控制块，每个进程之间相互隔离。例如，打开一个终端窗口会启动一个bash进程。线程：是操作系统调度的基本单位，隶属于进程，共享进程的资源，但有独立的线程控制块和栈。线程切换开销远小于进程。例如，一个Web服务器的单个进程中，多个线程可同时处理不同客户
Python lambda表达式：匿名函数的适用场景与限制梦幻南瓜 python python 服务器 linux
目录1.Lambda表达式概述1.1Lambda表达式的基本语法1.2简单示例2.Lambda表达式的核心特点2.1匿名性2.2简洁性2.3即时性2.4函数式编程特性3.Lambda表达式的适用场景3.1作为高阶函数的参数3.2简单的数据转换3.3条件筛选3.4GUI编程中的回调函数3.5Pandas数据处理4.Lambda表达式的限制4.1只能包含单个表达式4.2没有语句4.3缺乏文档字符串4.
【python】 www_hhhhhhh python 面试职场和发展
1.技术面试题（1）TCP与UDP的区别是什么？答：TCP（传输控制协议）和UDP（用户数据报协议）是两种常见的传输层协议，主要区别在于连接方式和可靠性。TCP是面向连接的协议，传输数据前需建立连接，通过三次握手确保连接可靠，传输过程中有确认、重传和顺序控制机制，保证数据完整、按序到达，适用于网页浏览、文件传输等对可靠性要求高的场景。UDP是无连接的协议，无需建立连接即可发送数据，不保证数据可靠传
Python函数的返回值
1.返回值定义及案例：2.返回值与print的区别：print仅仅是打印在控制台，而return则是将return后面的部分作为返回值作为函数的输出，可以用变量接走，继续使用该返回值做其它事。3.保存函数的返回值如果一个函数return返回了一个数据，那么想要用这个数据，那么就需要保存.#定义函数defadd2num(a,b): returna+b#调用函数，顺便保存函数的返回值result=
python怎么把函数返回值_python函数怎么返回值
python函数使用return语句返回“返回值”，可以将其赋给其它变量作其它的用处。所有函数都有返回值，如果没有return语句，会隐式地调用returnNone作为返回值。python函数使用return语句返回"返回值"，可以将其赋给其它变量作其它的用处。所有函数都有返回值，如果没有return语句，会隐式地调用returnNone作为返回值。一个函数可以存在多条return语句，但只有一条
Python星球日记 - 第8天：函数基础 Code_流苏 Python星球日记 python 函数 def关键字函数参数返回值
引言：上一篇：Python星球日记-第7天：字典与集合名人说：路漫漫其修远兮，吾将上下而求索。——屈原《离骚》创作者：Code_流苏(CSDN)（一个喜欢古诗词和编程的Coder）目录一、函数的定义与调用1.什么是函数？2.如何定义函数-`def`关键字3.函数调用方式二、参数与返回值1.函数参数类型2.如何传递参数3.返回值和`return`语句三、局部变量与全局变量1.变量作用域概念2.局部变
华为OD机试2025C卷 - 小明的幸运数 (C++ & Python & JAVA & JS & GO) 无限码力华为od 华为OD机试2025C卷华为OD2025C卷华为OD机考2025C卷
小明的幸运数华为OD机试真题目录点击查看:华为OD机试2025C卷真题题库目录｜机考题库+算法考点详解华为OD机试2025C卷100分题型题目描述小明在玩一个游戏，游戏规则如下：在游戏开始前，小明站在坐标轴原点处（坐标值为0）.给定一组指令和一个幸运数，每个指令都是一个整数，小明按照指令前进指定步数或者后退指定步数。前进代表朝坐标轴的正方向走，后退代表朝坐标轴的负方向走。幸运数为一个整数，如果某个
Python 函数返回值落花雨时 Python基础
#返回值，返回值就是函数执行以后返回的结果#可以通过return来指定函数的返回值#可以之间使用函数的返回值，也可以通过一个变量来接收函数的返回值defsum(*nums):#定义一个变量，来保存结果result=0#遍历元组，并将元组中的数进行累加forninnums:result+=nprint(result)#sum(123,456,789)#return后边跟什么值，函数就会返回什么值#r
存档python爬虫、Web学习资料
1python爬虫学习学习Python爬虫是个不错的选择，它能够帮你高效地获取网络数据。下面为你提供系统化的学习路径和建议：1.打好基础首先要掌握Python基础知识，这是学习爬虫的前提。比如：变量、数据类型、条件语句、循环等基础语法。列表、字典等常用数据结构的操作。函数、模块和包的使用方法。文件读写操作。推荐通过阅读《Python编程：从入门到实践》这本书或者在Codecademy、LeetCo
Python爬虫入门到实战（3）-对网页进行操作荼蘼爬虫
一.获取和操作网页元素1.获取网页中的指定元素tag_name()方法：获取元素名称。text()方法：获取元素文本内容。click()方法():点击此元素。submit()方法():提交表单。send_keys()方法：模拟输入信息。size()方法:获取元素的尺寸可进入selenium库文件夹下的webdriver\remote\webelement.py中查看更多的操作方法,2.在元素中输入
华为OD 机试 2025 B卷 - 周末爬山 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD2025B卷华为OD机考2025B卷华为OD机试2025B卷华为OD机试
周末爬山华为OD机试真题目录点击查看:华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解华为OD机试2025B卷200分题型题目描述周末小明准备去爬山锻炼，0代表平地，山的高度使用1到9来表示，小明每次爬山或下山高度只能相差k及k以内，每次只能上下左右一个方向上移动一格，小明从左上角(0,0)位置出发输入描述第一行输入mnk(空格分隔)。代表m*n的二维山地图，k为小明每次爬山或下山高度
Python,C++,Go开发芯片电路设计APP Geeker-2025 python c++golang
#芯片电路设计APP-Python/C++/Go综合开发方案##系统架构设计```mermaidgraphTDA[Web前端]-->B(Python设计界面)B-->C(GoAPI网关)C-->D[C++核心引擎]D-->E[硬件加速]F[数据库]-->CG[EDA工具链]-->DH[云服务]-->C```##技术栈分工|技术|应用领域|优势||------|----------|------||
红队测试-代理和中间人攻击工具小浪崇礼
BetterCAP-Modular,portableandeasilyextensibleMITMframework.Ettercap-Comprehensive,maturesuiteformachine-in-the-middleattacks.Habu-Pythonutilityimplementingavarietyofnetworkattacks,suchasARPpoisoning,D
pyside6使用1 窗体、信号和槽
一、概要由于作者前期很多年都在使用C++和Qt框架进行项目的开发工作，故可以熟练的使用Qt框架。Qt框架在界面设计以及跨平台运用方面，有着巨大的优势，而界面设计恰恰是python的短板，故使用pyside6实现python和Qt的互补。1.1pyside6安装更新pip工具：pipinstall--upgradepip命令行执行如下指令：pipinstallpyside6-ihttps://pyp
python-读写mysql(操作mysql数据库)
importpymysqlimportpandasaspdimporttimeonly_time=time.localtime(time.time())time_now=time.strftime('%Y-%m-%d%H:%M:%S',only_time)dt=time.strftime('%Y%m%d',only_time)t=time.time()tt=int(t)parentId=''sta
python读写mysql cavin_2017 Python 学习
目前用到的连接数据库，主要实现连个功能：1.根据sql查询2.将dataframe数据通过pandas包写入mysql数据库中1.根据sql查询：通常我们通过sql查询mysql中的表，分三步1.连接数据库2.数据查询3.关闭连接，如果需要查询的步骤较多，将查询封装成函数，通过参数传递sql代码会省事很多。##定义连接数据库函数defmy_db(host,user,passwd,db,sql,po
python+playwright 学习-91 cookies的获取保存删除相关操作上海-悠悠 playwright python
前言playwright可以获取浏览器缓存的cookie信息，可以将这些cookies信息保存到本地，还可以加载本地cookies。获取cookies相关操作在登录前和登录后分别打印cookies信息，对比查看是否获取成功。fromplaywright.sync_apiimportsync_playwrightwithsync_playwright()asp:browser=p.chromium.
Python——登录后获取cookie访问页面尖叫的太阳
importrequestsurl="https://kyfw.12306.cn/otn/view/index.html"#网址首页https://kyfw.12306.cn/otn/view/index.html的cookieheaders={'User-Agent':'Mozilla/5.0(WindowsNT6.1;Win64;x64)','Cookie':'JSESSIONID=3330D
python request 获取cookies value值的方法 dianqianwei8752 python c/c++
importrequestsres=requests.get(url)cookies=requests.utils.dict_from_cookiejar(res.cookies)print(cookies[key])转载于:https://www.cnblogs.com/VseYoung/p/python_cookies.html
python连接达梦数据库方式 water bucket python 数据库 pandas
1、通过jaydebeapi调用jdbcimportpandasaspdimportjaydebeapiif__name__=='__main__':url='jdbc:dm://{IP}:{PORT}/{库名}'username='{username}'password='{password}'jclassname='dm.jdbc.driver.DmDriver'jarFile='{DmJdb
Python一次性批量下载网页内所有链接 Zhy_Tech python 前端开发语言
需要下载一个数据集，该数据集每一张图对应网页内一条链接，如下图所示。一开始尝试使用迅雷，但是迅雷一次性只能下载30条链接。采用Python成功实现一次性批量下载。importosimportrequestsfrombs4importBeautifulSoup#目标网页的URLurl="https://"#请将此处替换为实际的网页URL#指定下载文件的文件夹路径#使用原始字符串download_fo
初探贪心算法 -- 使用最少纸币组成指定金额是小V呀 C++贪心算法算法 c++python
python实现：#对于任意钱数，求最少张数n=int(input("money:"))#输入钱数bills=[100,50,20,10,5,2,1]#纸币面额种类total=0forbinbills:count=n//b#整除面额求用的纸币张数ifcount>0:print(f"{b}纸币张数{count}")n-=count*b#更新剩余金额total+=count#累加纸币数量print(f
【Python】Gym 库：于开发和比较强化学习（Reinforcement Learning, RL）算法彬彬侠 Python基础 python Gym 强化学习 RL Gymnasium
Gym是Python中一个广泛使用的开源库，用于开发和比较强化学习（ReinforcementLearning,RL）算法。它最初由OpenAI开发，提供标准化的环境接口，允许开发者在各种任务（如游戏、机器人控制、模拟物理系统）中测试RL算法。Gym的设计简单且灵活，适合学术研究和工业应用。2022年，Gym被整合到Gymnasium（由FaramaFoundation维护）中，成为主流的强化学习
Python 虚拟环境完全指南 wsj__WSJ python python 开发语言
为何离不开虚拟环境？在Python开发领域，虚拟环境堪称管理项目依赖的不二利器，其重要性体现在多个关键层面：项目隔离独立运行环境构建：为每一个项目量身打造专属的Python运行环境，使各个项目之间相互隔离，互不干扰。化解依赖版本冲突：有效解决不同项目对同一依赖包的版本需求不一致的难题。例如，项目A基于Django3.2进行开发，而项目B需要Django4.0才能正常运作，通过虚拟环境，两者可并行不
ztree异步加载 3213213333332132 JavaScript Ajax json Web ztree
相信新手用ztree的时候,对异步加载会有些困惑，我开始的时候也是看了API花了些时间才搞定了异步加载，在这里分享给大家。我后台代码生成的是json格式的数据，数据大家按各自的需求生成，这里只给出前端的代码。设置setting，这里只关注async属性的配置 var setting = { //异步加载配置
thirft rpc 具体调用流程 BlueSkator 中间件 rpc thrift
Thrift调用过程中，Thrift客户端和服务器之间主要用到传输层类、协议层类和处理类三个主要的核心类，这三个类的相互协作共同完成rpc的整个调用过程。在调用过程中将按照以下顺序进行协同工作：（1）将客户端程序调用的函数名和参数传递给协议层（TProtocol），协议
异或运算推导, 交换数据 dcj3sjt126com PHP 异或 ^
/* * 5 0101 * 9 1010 * * 5 ^ 5 * 0101 * 0101 * ----- * 0000 * 得出第一个规律: 相同的数进行异或, 结果是0 * * 9 ^ 5 ^ 6 * 1010 * 0101 * ---- * 1111 * * 1111 * 0110 * ---- * 1001
事件源对象周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
MySql配置及相关命令 g21121 mysql
MySQL安装完毕后我们需要对它进行一些设置及性能优化，主要包括字符集设置，启动设置，连接优化，表优化，分区优化等等。一修改MySQL密码及用户
[简单]poi删除excel 2007超链接 53873039oycg Excel
采用解析sheet.xml方式删除超链接，缺点是要打开文件2次,代码如下: public void removeExcel2007AllHyperLink(String filePath) throws Exception { OPCPackage ocPkg = OPCPac
Struts2添加 open flash chart 云端月影
准备以下开源项目： 1. Struts 2.1.6 2. Open Flash Chart 2 Version 2 Lug Wyrm Charmer (28th, July 2009) 3. jofc2，这东西不知道是没做好还是什么意思，好像和ofc2不怎么匹配，最好下源码，有什么问题直接改。 4. log4j 用eclipse新建动态网站，取名OFC2Demo，将Struts2 l
spring包详解 aijuans spring
下载的spring包中文件及各种包众多，在项目中往往只有部分是我们必须的，如果不清楚什么时候需要什么包的话，看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包，关于发布包下面会详细进行说明。 docs&nb
网站推广之seo概念 antonyup_2006 算法 Web 应用服务器搜索引擎 Google
持续开发一年多的b2c网站终于在08年10月23日上线了。作为开发人员的我在修改bug的同时，准备了解下网站的推广分析策略。所谓网站推广，目的在于让尽可能多的潜在用户了解并访问网站，通过网站获得有关产品和服务等信息，为最终形成购买决策提供支持。网站推广策略有很多，seo，email，adv
单例模式,sql注入,序列百合不是茶单例模式序列 sql注入预编译
序列在前面写过有关的博客,也有过总结,但是今天在做一个JDBC操作数据库的相关内容时需要使用序列创建一个自增长的字段居然不会了,所以将序列写在本篇的前面 1,序列是一个保存数据连续的增长的一种方式; 序列的创建; CREATE SEQUENCE seq_pro 2 INCREMENT BY 1 -- 每次加几个 3
Mockito单元测试实例 bijian1013 单元测试 mockito
Mockito单元测试实例： public class SettingServiceTest { private List<PersonDTO> personList = new ArrayList<PersonDTO>(); @InjectMocks private SettingPojoService settin
精通Oracle10编程SQL(9)使用游标 bijian1013 oracle 数据库 plsql
/* *使用游标 */ --显示游标 --在显式游标中使用FETCH...INTO语句 DECLARE CURSOR emp_cursor is select ename,sal from emp where deptno=1; v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; begin ope
【Java语言】动态代理 bit1129 java语言
JDK接口动态代理 JDK自带的动态代理通过动态的根据接口生成字节码(实现接口的一个具体类)的方式，为接口的实现类提供代理。被代理的对象和代理对象通过InvocationHandler建立关联 package com.tom; import com.tom.model.User; import com.tom.service.IUserService;
Java通信之URL通信基础白糖_ java jdk webservice 网络协议 ITeye
java对网络通信以及提供了比较全面的jdk支持，java.net包能让程序员直接在程序中实现网络通信。在技术日新月异的现在，我们能通过很多方式实现数据通信，比如webservice、url通信、socket通信等等，今天简单介绍下URL通信。学习准备：建议首先学习java的IO基础知识 URL是统一资源定位器的简写，URL可以访问Internet和www，可以通过url
博弈Java讲义 - Java线程同步 (1) boyitech java 多线程同步锁
在并发编程中经常会碰到多个执行线程共享资源的问题。例如多个线程同时读写文件，共用数据库连接，全局的计数器等。如果不处理好多线程之间的同步问题很容易引起状态不一致或者其他的错误。同步不仅可以阻止一个线程看到对象处于不一致的状态，它还可以保证进入同步方法或者块的每个线程，都看到由同一锁保护的之前所有的修改结果。处理同步的关键就是要正确的识别临界条件（cri
java-给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 bylijinnan java
public class DeleteExtraSpace { /** * 题目：给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 * 方法1.用已有的String类的trim和replaceAll方法 * 方法2.全部用正则表达式，这个我不熟 * 方法3.“重新发明轮子”，从头遍历一次 */ public static v
An error has occurred.See the log file错误解决！ Kai_Ge MyEclipse
今天早上打开MyEclipse时，自动关闭！弹出An error has occurred.See the log file错误提示！很郁闷昨天启动和关闭还好着！！！打开几次依然报此错误，确定不是眼花了！打开日志文件！找到当日错误文件内容： --------------------------------------------------------------------------
[矿业与工业]修建一个空间矿床开采站要多少钱? comsci
地球上的钛金属矿藏已经接近枯竭........... 我们在冥王星的一颗卫星上面发现一些具有开采价值的矿床..... 那么,现在要编制一个预算,提交给财政部门..
解析Google Map Routes dai_lm google api
为了获得从A点到B点的路劲，经常会使用Google提供的API，例如 [url] http://maps.googleapis.com/maps/api/directions/json?origin=40.7144,-74.0060&destination=47.6063,-122.3204&sensor=false [/url] 从返回的结果上，大致可以了解应该怎么走，但
SQL还有多少“理所应当”？ datamachine sql
转贴存档，原帖地址：http://blog.chinaunix.net/uid-29242841-id-3968998.html、http://blog.chinaunix.net/uid-29242841-id-3971046.html！ ------------------------------------华丽的分割线--------------------------------
Yii使用Ajax验证时，如何设置某些字段不需要验证 dcj3sjt126com Ajax yii
经常像你注册页面,你可能非常希望只需要Ajax去验证用户名和Email,而不需要使用Ajax再去验证密码,默认如果你使用Yii 内置的ajax验证Form,例如: $form=$this->beginWidget('CActiveForm', array( 'id'=>'usuario-form',&
使用git同步网站代码 dcj3sjt126com crontab git
转自:http://ued.ctrip.com/blog/?p=3646?tn=gongxinjun.com 管理一网站，最开始使用的虚拟空间，采用提供商支持的ftp上传网站文件，后换用vps，vps可以自己搭建ftp的，但是懒得搞，直接使用scp传输文件到服务器，现在需要更新文件到服务器，使用scp真的很烦。发现本人就职的公司，采用的git+rsync的方式来管理、同步代码，遂
sql基本操作蕃薯耀 sql sql基本操作 sql常用操作
sql基本操作 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:30:33 星期一 &
Spring4+Hibernate4+Atomikos3.3多数据源事务管理 hanqunfeng Hibernate4
Spring3+后不再对JTOM提供支持，所以可以改用Atomikos管理多数据源事务。Spring2.5+Hibernate3+JTOM参考：http://hanqunfeng.iteye.com/blog/1554251Atomikos官网网站：http://www.atomikos.com/ 一.pom.xml <dependency> <
jquery中两个值得注意的方法one()和trigger()方法 jackyrong trigger
在jquery中，有两个值得注意但容易忽视的方法，分别是one()方法和trigger()方法,这是从国内作者<<jquery权威指南》一书中看到不错的介绍 1） one方法 one方法的功能是让所选定的元素绑定一个仅触发一次的处理函数，格式为 one(type,${data},fn) &nb
拿工资不仅仅是让你写代码的 lampcy 工作面试咨询
这是我对团队每个新进员工说的第一件事情。这句话的意思是，我并不关心你是如何快速完成任务的，哪怕代码很差，只要它像救生艇通气门一样管用就行。这句话也是我最喜欢的座右铭之一。这个说法其实很合理：我们的工作是思考客户提出的问题，然后制定解决方案。思考第一，代码第二，公司请我们的最终目的不是写代码，而是想出解决方案。话粗理不粗。付你薪水不是让你来思考的，也不是让你来写代码的，你的目的是交付产品
架构师之对象操作----------对象的效率复制和判断是否全为空 nannan408 架构师
1.前言。如题。 2.代码。 (1)对象的复制，比spring的beanCopier在大并发下效率要高，利用net.sf.cglib.beans.BeanCopier Src src=new Src(); BeanCopier beanCopier = BeanCopier.create(Src.class, Des.class, false);
ajax 被缓存的解决方案 Rainbow702 JavaScript jquery Ajax cache 缓存
使用jquery的ajax来发送请求进行局部刷新画面，各位可能都做过。今天碰到一个奇怪的现象，就是，同一个ajax请求，在chrome中，不论发送多少次，都可以发送至服务器端，而不会被缓存。但是，换成在IE下的时候，发现，同一个ajax请求，会发生被缓存的情况，只有第一次才会被发送至服务器端，之后的不会再被发送。郁闷。解决方法如下： ① 直接使用 JQuery提供的 “cache”参数，
修改date.toLocaleString()的警告 tntxia String
我们在写程序的时候，经常要查看时间，所以我们经常会用到date.toLocaleString()，但是date.toLocaleString()是一个过时的API，代替的方法如下： package com.tntxia.htmlmaker.util; import java.text.SimpleDateFormat; import java.util.
项目完成后的小总结 xiaomiya js 总结项目
项目完成了，突然想做个总结但是有点无从下手了。做之前对于客户端给的接口很模式。然而定义好了格式要求就如此的愉快了。先说说项目主要实现的功能吧 1，按键精灵 2，获取行情数据 3，各种input输入条件判断 4，发送数据（有json格式和string格式） 5，获取预警条件列表和预警结果列表， 6，排序， 7，预警结果分页获取 8，导出文件（excel，text等） 9，修