爱编程的小灰灰

爬虫(十五)：Scrapy框架(二) Selector、Spider、Downloader Middleware

1. Scrapy框架

1.1 Selector的用法

我们之前介绍了利用Beautiful Soup、正则表达式来提取网页数据，这确实非常方便。而Scrapy还提供了自己的数据提取方法，即Selector（选择器）。Selector 是基于lxml来构建的，支持XPath选择器、CSS选择器以及正则表达式，功能全面，解析速度和准确度非常高。

Selector是一个可以独立使用的模块。我们可以直接利用Selector这个类来构建一个选择器对象，然后调用它的相关方法如xpath()、css()等来提取数据。

案例：

from scrapy import Selector
body= 'Hello World'
selector = Selector(text=body)
title = selector.xpath('//title/text()').extract_first()
print(title)

结果：

我们没有在Scrapy框架中运行，而是把Scrapy中的Selector单独拿出来使用了，构建的时候传入text参数，就生成了Selector选择器对象，然后就可以像前面我们所用的Scrapy中的解析方式一样，调用xpath()、css()等方法来提取。

在这里我们查找的是源代码中的title中的文本，在Path选择器最后加 text()方法就可以实现文本的提取了。

以上内容就是Selector的直接使用方式Beautiful Soup等库类似，Selector其实也是强大的网页解析库。如果方便的话，我们也可以在其他项目中直接使用Selector来提取数据。

Selector选择器的使用可以分为三步：

导入选择器from scrapy.selector import Selector

创建选择器实例selector = Selector(response=response)

使用选择器selector.xpath()或者selector.css()

不过Scrapy项目里我们可以直接response.css()或response.xpath()，怎么方便怎么用。

1.2 Spider的用法

在Scrapy中，要抓取网站的链接配置、抓取逻辑、解析逻辑里其实都是在Spider中配置的在上一章的实例中，我们发现抓取逻辑也是在Spider中完成的。

1.2.1 Spider运行流程

在实现Scrapy爬虫项目时，最核心的类便是Spider类了，它定义了如何爬取某个网站的流程和解析方式。简单来说，Spider要做的事就是两件：定义爬取网站的动作和分析爬取下来的网页。

Spider循环爬取过程：

以初始的URL初始化Request，并设置回调函数。当该Request成功请求并返回时，Response生成并作为参数传给该回调函数。

在回调函数内分析返回的网页内容。返回结果有两种形式。一种是解析到的有效结果返回字典或Item对象，它们可以经过处理后（或直接）保存。另一种是解析得到下一个（如下页）链接，可以利用此链接构造Reque并设置新的回调函数，返回Request等待后续调度。

如果返回的是字典或Item对象，我们可通过Feed Exports等组件将返回结果存入到文件。如果设置了Pipeline的话，我们可以使用Pipeline处理（如过滤、修正等）并保存。

如果返回的是Reqeust，那么Request执行成功得到Response之后，Response会被传递给Request中定义的回调函数，在回调函数中我们可以再次使用选择器来分析新得到的网页内容，并根据分析的数据生成Item。

通过以上几步循环往复进行，我们完成了站点的爬取。

1.2.2 Spider类分析

在上一章的例子中，我们定义的Spider是继承自scrapy.spiders.Spider。scrapy.spiders.Spider这个类是最简单最基本的Spider类，其他Spider必须继承这个类。还有后面一些特殊Spider类也都继承自它。

scrapy.spiders.Spider这个类提供了start_requests()方法的默认实现，读取并请求start_urls属性，并根据返回的结果调用 parse()方法解析结果。

基础属性：

name：爬虫名称，是定义Spider名字的字符串。Spider的名字定义了Scrapy如何定位并初始化Spider，它必须是唯一的。不过我们可以生成多个相同的Spider实例，数量没有限制。name是Spider最重要的属性。如果Spider爬取单个网站，一个常见的做法是以该网站的域名名称来命名Spider。例如，Spider爬取mywebsite.com，该Spider通常会被命名为mywebsite。

allowed_domains：允许爬取的域名，是可选配置，不在此范围的链接不会被跟进爬取。

start_urls：它是起始URL列表，当我们没有实现start_requests()方法时，默认会从这个列表开始抓取。

custom_settings：它是一个字典，是专属于本Spider的配置，此设置会覆盖项目全局的设置。此设置必须在初始化前被更新，必须定义成类变量。

crawler：它是由from_crawler()方法设置的，代表的是本Spider类对应的Crawler对象。Crawler对象包含了很多项目组件，利用它我们可以获取项目的一些配置信息，如最常见的获取项目的设置信息，即Settings。

settings：它是一个Settings对象，利用它我们可以直接获取项目的全局设置变量。

除了基础属性，Spider还有一些常用的方法：

start_requests()：此方法用于生成初始请求，它必须返回一个可迭代对象。此方法会默认使用start_urls里面的URL来构造Request，而且Request是GET请求方式。如果我们想在启动时以POST方式访问某个站点，可以直接重写这个方法，发送 POST请求时使用FormRequest即可。

parse()：当Response没有指定回调函数时，该方法会默认被调用。它负责处理Response处理返回结果，并从巾提取处想要的数据和下一步的请求，然后返回。该方法需要返回一个包含Request或ltem的可迭代对象。

closed()：当Spider关闭时，该方法会被调用，在这里一般会定义释放资源的一些操作或其他收尾操作。

1.3 Downloader Middleware的用法

Downloader Middleware即下载中间件，它是处于Scrapy的Request和Response之间的处理模块。

我们上一章已经看过Scrapy框架的架构了。

Scheduler从队列中拿出一个Request发送给Downloader执行下载，这个过程会经过Downloader Middleware的处理。另外，当Downloader将Request下载完成得到Response返回给Spider时会再次经过Downloader Middleware处理。

也就是说，Downloader Middleware在整个架构中起作用的位置有两个，分别是：

在Scheduler调度出队列的Request发送给Doanloader下载之前，也就是我们可以在Request执行下载之前对其进行修改。

在下载后生成的Response发送给Spider之前，也就是我们可以在生成Resposne被Spider解析之前对其进行修改。

Downloader Middleware的功能非常强大，修改User-Agent处理重定向、设置代理、失败重试、设置 Cookies等功能都需要借助它来实现。

1.3.1 使用说明

Scrapy其实已经提供了许多Downloader Middleware，比如负责失败重试、自动重定向等功能的Middleware，它们被DOWNLOADER_MIDDLEWARES_BASE变量所定义。

官网：https://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/settings.html#std:setting-DOWNLOADER_MIDDLEWARES_BASE

DOWNLOADER_MIDDLEWARES_BASE变量的内容如下所示：

这是一个字典格式，字典的键名是Scrapy内置的Downloader Middleware的名称，键值代表了调用的优先级，优先级是一个数字，数字越小代表越靠近Scrapy引擎，数字越大代表越靠近Downloader，数字小的Downloader Middleware会被优先调用。

如果向己定义的Downloader Middleware要添加到项目里，DOWNLOADER_MIDDLEWARES_BASE变量不能直接修改。Scrapy提供了另外一个设置变量DOWNLOADER_MIDDLEWARES，我们直接修改这个变量就可以添加自己定义的DownloaderMiddleware，以及禁用DOWNLOADER_MIDDLEWARES_BASE里面定义的Downloader Middleware。

1.3.2 核心方法

Scrapy内置的Downloader Middleware为Scrapy提供了基础的功能，但在项目实战中我们往往需要单独定义Downloader Middleware。不用担心，这个过程非常简单，我们只需要实现某几个方法即可。

每个Downloader Middleware都定义了一个或多个方法的类，核心的方法有如下三个：

process_request(request,spider)

process_response(request,response,spider)

pro cess_exception(request,exception,spider)

我们只需要实现至少一个方法，就可以定义一个Downloader Middleware下面我们来看看这三个方法的详细用法。

(1) process_request(request,spider)

Request被Scrapy引擎调度给Downloader之前，process_request()方法就会被调用，也就是在Request从队列里调度出来到Downloader下载执行之前，我们都可以用process_request()方法对 Request进行处理。方法的返回值必须为None、Response对象、Request对象之一，或者抛出IgnoreRequest异常。

process_request()方法的参数有如下两个：

request，是Request对象，即被处理的Request。

spider，是Spdier对象，即此Request对应的Spider。

返回类型不同，产生的效果也不同。下面归纳一下不同的返回情况。

当返回是None时，Scrapy将继续处理该Request，接着执行其他Downloader Middleware的process_request()方法，一直到Downloader把Request执行后得到Response才结束。这个过程其实就是修改Request的过程，不同的Downloader Middleware按照设置的优先级顺序依次对Request进行修改，最后送至Downloader执行。
当返回为Response对象时，更低优先级的Downloader Middleware的process_request()和process_exception()方法就不会被继续调用，每个Downloader Middleware的process_response()方法转而被依次调用。调用完毕之后，直接将Response对象发送给Spider来处理。
当返回为Request对象时，更低优先级的Downloader Middleware的process_request()方法会停止执行。这个Request会重新放到调度队列里，其实它就是一个全新的Request，等待被调度。如果被Scheduler调度了，那么所有的Downloader Middleware的process_request()方法会被重新按照顺序执行。
如果IgnoreRequest异常抛出，则所有的Downloader Middleware的process_exception()方法会依次执行。如果没有一个方法处理这个异常，那么Request的errorback()方法就会回调。如果该异常还没有被处理，那么它便会被忽略。

(2) process_response (request, response,spider)

Downloader执行Request下载之后，会得到对应的Response。Scrapy引擎便会将Response发送给 Spider进行解析。在发送之前，我们都可以用process_response()方法来对Response进行处理。方法的返回值必须为Request对象、Response对象之一，或者抛出IgnoreRequest异常。

process_response()方法的参数有如下三个：

request，是Request对象，即此Response对应的Request。

response，是Response对象，即此被处理的Response。

spider，是Spider对象，即此Response对应的Spider。

下面归纳下不同的返回情况。

当返回为Request对象时，更低优先级的Downloader Middleware的process_response()方法不会继续调用。该Request对象会重新放到调度队列里等待被调度，它相当于一个全新的Request。然后，该Request会被process_request()方法依次处理。
当返回为Response对象时，更低优先级的Downloader Middleware的process_response()方法会继续调用，继续对该Response对象进行处理。
如果IgnoreRequest异常抛出，则Request的errorback()方法会回调。如果该异常还没有被处理，那么它便会被忽略。

(3) process_exception(request,exception,spider)

当Downloader或process_request()方法抛出异常时，例如抛出IgnoreRequest异常，process_exception()方法就会被调用。方法的返回值必须为None、Response对象、Request对象之一。

process_exception()方法的参数有如下：

request，是Request对象，即产生异常的Request。

exception，是Exception对象，即抛出的异常。

spdier，是Spider对象，即Request对应的Spider。

下面归纳一下不同的返回情况。

当返回为None时，更低优先级的Downloader Middleware的process_exception()会被继续依次调用，直到所有的方法都被调度完毕。
当返回为Response对象时，更低优先级的Downloader Middleware的process_exception()方法不再被继续调用，每个Downloader Middleware的process_response()方法转而被依次调用。
当返回为Request对象时，更低优先级的Downloader Middleware的process_exception()也不再被继续调用，该Request对象会重新放到调度队列里面等待被调度，它相当于一个全新的Request。然后，该Request又会被process_request()方法依次处理。

以上内容便是这三个方法的详细使用逻辑。在使用它们之前，请先对这三个方法的返回值的处理情况有一个清晰的认识。在自定义Downloader Middleware的时候，也一定要注意每个方法的返回类型。

1.3.3 项目实战

新建一个项目。

scrapy startproject scrapydownloadertest

新建了一个Scrapy项目，名为scrapydownloadertest。进入项目，新建一个Spider。

scrapy genspider httpbin httpbin.org

新建了一个Spider，名为httpbin。

# -*- coding: utf-8 -*-
import scrapy

class HttpbinSpider(scrapy.Spider):
    name = 'httpbin'
    allowed_domains = ['httpbin.org']
    start_urls = ['http://httpbin.org/']

    def parse(self, response):
        pass

接下来我们修改start_urls，将parse()方法添加一行日志输出，将response变量的text属性输出出来，这样我们便可以看到Scrapy发送的Request信息了。

修改Spider内容如下：

# -*- coding: utf-8 -*-
import scrapy


class HttpbinSpider(scrapy.Spider):
    name = 'httpbin'
    allowed_domains = ['httpbin.org']
    start_urls = ['http://httpbin.org/get']

    def parse(self, response):
        self.logger.debug(response.text)

接下来运行此Spider。

scrapy crawl httpbin

Scrapy运行结果包含Scrapy发送的Request信息，内容如下：

我们观察一下Headers，Scrapy发送的Request使用的User-Agent是Scrapy/1.8.0(+http: //scrapy.org)，这其实是由Scrapy内置的UserAgentMiddleware设置的，UserAgentMiddleware的源码如下：

在from_crawler()方法中，首先尝试获取settings里面USER_AGENT，然后把USER_AGENT传递给__init__()方法进行初始化，其参数就是user_agent。如果没有传递USER_AGENT参数就是默认设置为Scrapy字符串。我们新建的项目没有设置USER_AGENT，所以这里的user_agent变量就是Scrapy。接下来，在process_request()方法中，将user-agent变量设置为headers变量的一个属性，这样就成功设置了User-Agent。因此，User-Agent就是通过此Downloader Middleware的process_request()方法设置的。

修改请求时的User-Agent可以有两种方式：一是修改settings里面的USER_AGENT变量；二是通过Downloader Middleware的process_request()方法来修改。

第一种方法非常简单，我们只需要在setting.py里面加一行USER_AGENT的定义即可：

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'

一般推荐使用这种方法来设置。但是如果想设置得更加灵活，比如设置随机的User-Agent的设置。

第二种方法，在middlewares.py里添加一个RandomUserAgentMiddleware的类。

import random

class RandomUserAgentMiddlerware():
    def __init__(self):
        self.user_agents = [
            #放几个User-Agent在里面
            'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36',
            'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',
            'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3100.0 Safari/537.36'
        ]
    def process_request(self,request,spider):
        request.headers['User-Agent'] = random.choice(self.user_agents)

我们首先在类的__init__()方法中定义几个不同的User-Agent，并用一个列表来表示。接下来实现了process_request()方法，它有一个参数request，我们直接修改request的属性即可。在这里我们直接设置了request变量的headers属性的User-Agent，设置内容是随机选择的User-Agent，这样一个Downloader Middleware就写好了。

不过，要使之生效我们还需要再去调用这个Downloader Middleware。在settings.py中，将DOWNLOADER_MIDDLEWARES取消注释，并设置成如下内容：

DOWNLOADER_MIDDLEWARES = {
    'scrapydownloadertest.middlewares.RandomUserAgentMiddleware':543
}

然后重新运行Spider，就可以看到User-Agent被成功修改为列表中所定义的随机的一个User-Agent了。

我们就通过实现Downloader Middleware并利用process_request()方法成功设置了随机的User-Agent。

另外，Downloader Middleware还有process_response()方法。Downloader对Request执行下载之后会得到Response，随后Scrapy引擎会将Response发送回Spider进行处理。但是在Response被发送给Spider之前，我们同样可以使用process_response()方法对Response进行处理。比如这里修改一下Response的状态码，在RandomUserAgentMiddleware添加如下代码：

def process_response(self,request,response,spider):
    response.status = 201
    return response

我们将response变量的status属性修改为201，随后将response返回，这个被修改后的Response就会被发送到Spider。

我们再在Spider里面输出修改后的状态码，在parse()方法中添加如下的输出语句：

self.logger.debug('Status Code ：' + str(response.status))

重新运行之后，控制台输出了如下内容：

[httpbin] DEBUG: Status Code: 201

可以发现，Response的状态码成功修改了。

因此要想对Response进行后处理，就可以借助于process_response()方法。

另外还有一个process_exception()方法，它是用来处理异常的方法。如果需要异常处理的话，我们可以调用此方法。不过这个方法的使用频率相对低一些，这里就不谈了。

漫漫追妻路上的第一百二十五封情书光之予
桃花开了吗没春天尚在路上打包不易不要拆穿了谎言那么贵的运费南极到北极错写了一个字不适合邮寄梦在裂缝里挤游戏开始
舔狗舔到最后，她又丢钱又丢命全集章节小说免费阅读完整版（沈熹微赵庭深）-舔狗舔到最后，她又丢钱又丢命小说免费阅读一米文库2
舔狗舔到最后，她又丢钱又丢命全集章节小说免费阅读完整版（沈熹微赵庭深）-舔狗舔到最后，她又丢钱又丢命小说免费阅读主角配角：沈熹微赵庭深小说别名：舔狗舔到最后，她又丢钱又丢命简介：孟清然这会儿趴在桌上，被一群人众星捧月的围着。她胃痛，大家都在关心她。最关心她的人，当然是裴云霄。他是孟清然的男朋友。每次考试排名，第一第二都是他俩，裴云霄对其它人冷淡，对孟清然很好。正文：孟清然这会儿趴在桌上，被一群人众
《第十五次网课收获》宛如初夏
伊川王利珍坚持原创分享第386天今天晚上是网络中级第15次课程。再有一次就要结束了，还真的有点恋恋不舍呢！刘老师已经开始提前给我们预告了，以期降低我们的分离焦虑！四个月的学习历程。我们彼此由陌生到熟悉。现在经常在一块约练的几个学员已经是老朋友的感觉。虽然从未谋面，但心灵相通，互相扶持，互相帮助。电波相连的情谊也是一种别样的美好！首先通过顾老师展示的案例，大家各抒己见，加上刘老师的讲解。又收获了很多
深圳市十大无创亲子鉴定中心大全(附2024年9月汇总鉴定) 中量亲鉴生物
深圳哪里可以做无创亲子鉴定？在深圳市盐田区盐梅路的国权基因可以做无创亲子鉴定咨询。为了帮助市民更好地了解和选择深圳的无创亲子鉴定机构，我们提供2024年最新的深圳无创亲子鉴定中心名录。本文将详细介绍这些鉴定中心的地址、工作时间、业务范围，以及选择适合自己的鉴定机构等信息，以助您在需要时能轻松找到合适的无创亲子鉴定服务。1、深圳市第二人民医院（福田区）地址：深圳市福田区笋岗西路2、北京中医药大学深圳
Haproxy七层代理陈小铃子学习运维 linux
一、负载均衡核心概念它本质上是一种反向代理技术，通过硬件或软件设备，将来自客户端的请求智能地分发到后端的多台服务器上。这样做的主要目的是：提高并发处理能力：避免单台服务器过载，提升整体服务的吞吐量。保证高可用性：当某台后端服务器发生故障时，负载均衡器可以将流量自动切换到健康的机器上，确保服务不中断。便于水平扩展：可以根据业务量增长，方便地增加后端服务器数量，实现弹性伸缩，且对用户透明。二、使用负载
日精进第三十五天金缔尊周大生珠宝玉玉
尊敬的李老师，智慧的马教授，亲爱的家人们:大家好，我是（刘翠平)刘总的人，今天是2018年9月17号我的日精进第三十五天，我们互相勉励，携手前行，每天进步一点点，距离成功便不远。比学习:学习同事的素转非技巧，如何打动顾客的心，让顾客成为我们的老顾客。比改变:只要进店看的都是要买的，相信家人相信自己是最棒的，大家互相帮助，互相加油！比付出:总监中午来给我们开会，给我们从专卖店调货来辛苦了。比感恩:感
第十五章 Caché 变量大全 $STORAGE 变量 Cache技术分享
第十五章Caché变量大全$STORAGE变量包含可用于局部变量存储的字节数。大纲$STORAGE$S描述$STORAGE返回可用于当前进程分区中的本地变量存储的字节数。$STORAGE的初始值由$ZSTORAGE的值确定，该值是该进程可用的最大内存量。$ZSTORAGE值（以千字节为单位）越大，$STORAGE值（以字节为单位）越大。但是，$ZSTORAGE和$STORAGE之间的关系不是简单的
《最强学生》丁淑仪峰峰(独家新书)爽文小说TXT免费阅读小说推书
《最强学生》丁淑仪峰峰(独家新书)爽文小说TXT免费阅读主角：丁淑仪峰峰简介：我叫丁淑仪，是一名高中英语老师。----阅读全文小说内容请翻阅文章最底部---我叫丁淑仪，是一名高中英语老师。晚上下班回来，回到卧室换衣服的时候，我发现原本关着的门，不知什么时候打开了一条缝隙。一道人影在门缝中若隐若现，让我微微心惊。丈夫在外出差，还没回来。家里除了我，只有闺蜜的儿子峰峰。峰峰今年十八，正在读高二。他父母
【流水账】平淡一日金台望道
6月4日，星期五，晴【流水账】平淡一日早上：继续充实《启蒙第一课》第二册内容。上午：开始阅卷，半上午完成一个班的判卷。下午：参加教学改革经验座谈交流会，散会后搭同事便车一起回京。晚上：仅得完成当日百件文物之推送。
redis-plus-plus安装与使用 Yu_Lijing redis 数据库缓存
目录一.安装hiredis二.接口三.使用四.总结C++操作redis的库有很多.咱们使用redis-plus-plus.这个库的功能强大,使用简单.Github地址:https://github.com/sewenew/redis-plus-plus一.安装hiredisredis-plus-plus是基于hiredis实现的.hiredis是一个C语言实现的redis客户端.因此需要先安装hi
《财务自由之路》2 拥有俩娃的少女妈
图片发自App二、责任意味着什么1、你并非要对所有的事情负责，但你总是要在个人范畴内对自己对时间的判断和反映负责，这听起来简单，但做起来很不容易。并不是发生在我们身上的事情让我们痛苦，而是我们对待事情的反应。2、责任的意思就是有技巧地进行回应。你把责任给了谁，也就给了他权力。你要问自己，我们想要自己掌控将来事态的发展，还是让我们的错误以及其后果掌握将来的事态？3、拓宽你的可控领域A、可控领域，指的
179.我们的情绪为何总被他人左右韩峰财商觉醒
《我的情绪为何总被他人左右》作者阿尔伯特埃利斯是20世纪美国著名的心理学家理性情绪行为疗法之父。他在美国心理学界的十大应用心理学家排行榜上排名第二，超过了弗洛伊德，他在心理学方面的研究成果被小布什、克林顿、希拉里等一些美国政要倍为推崇。这些内容能帮助我们解决生活中、工作中的心理和情绪问题，能够帮助很多人走出那种情绪困扰。财务自由之路的主题里为什么讲开心理学的内容呢？实际上很多人在追求财务自由的路上
10分钟搞定 MinIO 单节点多磁盘部署！打造稳定高可用对象存储【二】
MinIO是一个**高性能、开源的对象存储系统**，主要用于存储非结构化数据（如图片、视频、文档、备份等），与AmazonS3完全兼容。它被广泛用于云原生应用、大数据分析、AI模型存储、容器平台（如Kubernetes）等场景。MinIO支持多种部署模式，其中：单节点单磁盘（Single-NodeSingle-Drive）模式适用于开发测试、小规模应用或资源受限的场景。它的部署简单，不依赖集群、分
我的名字叫烟宰相也书生
我没有爸爸，也没有妈妈，我是被机器生产出来的。我不明白他们为什么喜欢用火点燃我的身体。我的身体和他们不一样，没有细胞、没有肉体、没有骨骼，但是我的身体里面充满了尼古丁、焦油、二氧化碳等等一些本应该让他们惧怕的东西，恰恰让我感到意外的是他们非但没有惧怕，而是喜爱。我被他粗壮的食指和大拇指夹在中间，无法动弹，看着他从口袋里拿出打火机点燃我的身体，而我，我知道我的生命即将结束。我感到疼痛万分。每次我的身
安全重于泰山任娟
为了促进我校班主任团队的专业成长，切实提高班主任管理工作的艺术水平，保障学生在校安全。6月11日下午6:20，我校德育处组织小学部全体班主任在阶梯教室召开会议。这次会议的主题是“班主任工作如何做”。各年级根据学段特点确定研讨主题:一年级研讨内容:学生课间玩耍安全。二年级研讨内容:学生离,返校安全。三年级研讨内容:学生发生安全事故应急处理方法。四年级研讨内容:学生就餐安全。五年级研讨内容:学生楼道玩
大模型训练中的“训练阶段”（如Pre-training、SFT、RLHF等）与“微调技术” 老兵发新帖人工智能深度学习机器学习
大模型训练中的“训练阶段”（如Pre-training、SFT、RLHF等）与“微调技术”（如Full-tuning、Freeze-tuning、LoRA、QLoRA）是两类不同维度的概念，二者共同构成模型优化的完整流程。以下是二者的关系解析及技术对照：一、训练阶段的核心流程与目标预训练（Pre-training）目标：在无标注通用数据（如互联网文本）上训练模型，学习语言、视觉等通用特征。微调技术
感恩日记（54）安然521
感恩天地，感恩大自然，感恩父母，感恩孩子，感恩自己所有的一切！1.今天早上开始内训，感恩自己5：00起床，高一内训第三天。2.感恩领导同事，有缘一起工作。3.感恩自己不断学习成长，今天在单位忙一天。4.感恩孩子自己旅游，玩的嗨。5.感恩孩子自己照顾自己，越放手越自律，越放手越成长！6.感恩老天送我这么一个有灵性的闺女！7.祝福孩子考上自己理想的二附中学校！祝福孩子一定能考上！8.感恩孩子来修行我，
不支持儿媳妇生二胎 66a3c44cbf9f
今天是二O二O年的十月初一，天气晴朗，晚秋景色很浓，有的穿着厚的中长款上衣，有的穿着棉麻夹，还有的穿小棉袄了。由于疫情还在继续，行人都注意戴口罩了，这已习惯成自然了。午饭时，我的小店来了一位常客，边吃边啦常谈：''我的老伴退休之后，在家带孩子，孩子两岁半了。最近老伴老是喊身体到处痛，失眠，整夜睡不好。今天起床时説，我又一晚没睡好。我听后，很心痛很无耐，心里老是放不下，眼瞅着老伴过得很累。她天天照顾
node.js详解思静鱼 node.js node.js
文章目录一、什么是Node.js？二、Node.js的核心组成三、Node.js的运行机制（事件循环）四、常见内置模块（无需安装）五、应用场景六、npm包生态七、Node.js适合哪些人？八、优缺点总结一、什么是Node.js？Node.js是一个基于ChromeV8引擎的JavaScript运行时，用于构建高性能网络应用。由RyanDahl于2009年发布。允许你在服务器端使用JavaScrip
玩具扔了一批一批，初衷换了一次一次简书邮递员
今天在打扫房间的时候又把全部装在一个袋子里的玩具全部拿出来瞄了一眼，本想把这些玩具清理干净后把能扔的都扔掉。看到每一个玩具，发现每一个玩具都充满了回忆。图片发自App我发现懂事后妈妈买给我的第一个玩具我还留着，即使这个玩具有点破烂，并且身上的连接部位很容易移动，仔细想想，差不多十五年了。我现在还清楚的记得当时买这个玩具的价格是25元，上面还配了一张光盘，这是以前的骄傲啊。小时候热衷于哆啦A梦这部动
迅雷网盘拉新渠道授权入口在哪里？迅雷网盘推广申请开通对接流程清风导师
迅雷网盘拉新渠道授权入口在哪里?迅雷网盘怎么申请开通后台?揭秘迅雷网盘项目如何解除绑定?迅雷网盘拉新是目前特别受欢迎的一款短视频变现赚钱的兼职项目，而在同类产品里面迅雷网盘会员分成给力而且支持挂载的玩法，所以也是具备相当不俗优势的。当然迅雷网盘这个项目对接的门路比较多水比较深，作为新手很容易对接到似乎没有竞争力二级渠道，实际上迅雷网盘拉新不光支持挂载模式，而且限时最高佣金达到6元还有高额的会员分成
北洋十八载之第一百四十五回逆水行舟林墨臻
对曹锟这番骚操作，大吴碍于情面，虽然嘴上没说，心里却是很不满意。看来三爷也就只能混到这地步了，想想人家朱重八，实力足以称王称霸，可为了达到更高的人生目标，人家是忍着，让着，等着。直到把大半个中国收入囊中，天下再无齐头并行者，才舒舒服服的坐上头把交椅。你三爷也不好好看看周围环境，没错，咱直隶现在确实是民国这盘棋里唯一的超级霸主，可周边的那些也不好惹啊。胡子张仗着背后有日本这个超级奶妈，那是忙着修桥铺
IOS testFlight添加新的测试成员一杯开水
一、登录https://appstoreconnect.apple.com二、选择“用户与访问”用户与访问三、点击“+”按钮四、将待测试人员信息添加到用户五、等待邀请人确认邀请信息六、待邀请人收到并确认七、将用户添加到testFlight测试组八、让测试人员安装testFlightAPP,输入邀请码即可
2020.05.23《毛泽东选集》持久战的三个阶段聂贝贝
持久战的三个阶段中日战争是持久战，具体表现在三个阶段之中，第一个阶段是敌之战略进攻，我之战略防御的时期，我方的战争形式以运动战为主，以游击战和阵地战辅助。第二个阶段是敌之战略保守，我之准备反攻的时期，我方的战争形式以游击战为主，以运动战辅助。第三个阶段是我之战略反攻，敌之战略退却的时期，我方的战争形式以运动战为主，阵地战也将提到重要地位。在第一阶段，中国的劣势更为严重，土地人口，经济力量，军事力量
扎实开展好第二批主题教育橘子皮5033
9月5日，学习贯彻习近平新时代中国特色社会主义思想主题教育第一批总结暨第二批部署会议在京召开。会议强调，在党中央坚强领导下，第一批主题教育在以学铸魂、以学增智、以学正风、以学促干上取得明显成效。要认真学习领会、贯彻落实习近平总书记重要指示精神，贯彻落实第二批主题教育指导意见，以高度负责的精神把第二批主题教育科学谋划好、精心组织好。在开展主题教育过程中，党员干部要潜心学习，坚持问题导向，以学促干，用
付娅莉感恩日记（第162天）+觉察日记第二天付娅莉
1.我十分感谢：早晨坐891路公交车，坚持和司机打招呼，早上好，开启美好的一天。谢谢！谢谢！谢谢！2.校园的蔷薇花开了，四季玫瑰也开了，感觉就像个花园，每次走过淡淡的清香扑鼻而来，舒服极了，治愈了。谢谢！谢谢！谢谢！3.我十分感谢：今天下午老公陪我去看医生，医生看了核磁的片子给开了做牵引的方案。第一次做牵引，吊上脖子就像上刑一样，幸亏只有15分钟。期待有所缓解。谢谢！谢谢！谢谢！觉察日记第二天1.
真实灵异故事：路边的破庙不能随便进李大楞
我爸爱喝茶，平时我在郑州，每到逢年过节或者平时回家的时候都要给他带点茶叶。要说河南最出名的茶叶，那就要数信仰毛尖了。北三环和花园路往北，有一个花园茶城，里边有一个专门卖信阳毛尖的店，老板姓王，四十岁左右，我叫他王哥，王哥是信阳人，卖的茶叶不仅正宗，还普遍要比市面上的便宜一些，我也是经朋友介绍才认识的这个老板，经常去他那里买茶叶，一来二去的也混熟了。没事的时候我就去他店里坐坐，聊聊天喝喝茶。可惜我这
十大佣金高的悬赏平台APP盘点氧惠_飞智666999
大家好，过去，我们做淘客，在社交渠道、网站论坛发布一下链接、二维码就可以实现很好的转化效果，那时候淘客一族还很稀少，平台管理也没有那么封闭。现在，互联网不再那么开放，各种平台网站很少会让你直接发布链接、二维码推广淘客商品，但平台提供选品库，开通了电商工具箱或者商品分享功能也一样可以带货做淘客赚佣金。近几年来，由于淘客大众化的普及，淘客模式也在不断，淘客1.0依靠社交渠道的“甩一个链接”就会有人**
我们开学啦栾文红
春意料峭，乍暖还寒，假期的小尾巴一摆，小朋友们带着离家的不舍与对开学的期待，开启了新学期的新征程。因为这是第二个学期，小朋友们经过一个学期的学习，对幼儿园的生活学习环境并不陌生，孩子们们都是开开心心的入园。看到自己的好朋友也会上去打招呼，手牵手一起到班级去。为了小朋友们能有一个开学的仪式感，我们准备了新学期开学典礼，在开学典礼上，园长妈妈向小朋友们送出了新学期的祝福，还给小朋友们准备了开学红包，里
48Days-Day03 | 删除公共字符，两个链表的第一个公共结点，mari和shiny TinaAmber 笔试训练48Days 链表 java 算法
删除公共字符删除公共字符_牛客题霸_牛客网算法思路直接哈希，把第二个字符塞集合里面，遍历第一个，只要在集合里面有的就跳过代码importjava.util.HashSet;importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannerscan=newScanner(System.in);Strin
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement