Amo Xiang

玩转 Scrapy 框架 (二)：Scrapy 架构、Request和Response介绍

一、Scrapy 架构及目录源码分析

Scrapy 是一个基于 Python 开发的爬虫框架，可以说它是当前 Python 爬虫生态中最流行的爬虫框架，该框架提供了非常多爬虫的相关组件，架构清晰，可扩展性强。基于 Scrapy，我们可以灵活高效地完成各种爬虫需求。Scrapy 文档：https://docs.scrapy.org/en/latest/

首先从整体上看一下 Scrapy 框架的架构，如下图所示：

上图来源于 Scrapy 官方文档，初看上去可能比较复杂，下面我们来介绍一下。

Engine： 图中最中间的部分，中文可以称为引擎，用来处理整个系统的数据流和事件，是整个框架的核心，可以理解为整个框架的中央处理器(类似人的大脑)，负责数据的流转和逻辑的处理。

Item： 它是一个抽象的数据结构，所以在图中没有体现出来，它定义了爬取结果的数据结构，爬取的数据会被赋值成 Item 对象。每个 Item 就是一个类，类里面定义了爬取结果的数据字段，可以理解为它用来规定爬取数据的存储格式。

Scheduler： 图中下方的部分，中文可以称为调度器，它用来接受 Engine 发过来的 Request 并将其加入队列中，同时也可以将 Request 发回给 Engine 供 Downloader 执行，它主要维护 Request 的调度逻辑，比如先进先出、先进后出、优先级进出等等。

Spiders： 图中上方的部分，中文可以称为蜘蛛，Spiders 是一个复数的统称，其可以对应多个 Spider，每个 Spider 里面定义了站点的爬取逻辑和页面的解析规则，它主要负责解析响应并生成 Item和新的请求然后发给 Engine 进行处理。

Downloader： 图中右侧部分，中文可以称为下载器，即完成 向服务器发送请求，然后拿到响应 的过程，得到的响应会再发送给 Engine 处理。

Item Pipelines： 图中左侧部分，中文可以称为项目管道，这也是一个复数统称，可以对应多个 Item Pipeline。Item Pipeline 主要负责处理由 Spider 从页面中抽取的 Item，做一些数据清洗、验证和存储等工作，比如将 Item 的某些字段进行规整，将 Item 存储到数据库等操作都可以由 Item Pipeline 来完成。

Downloader Middlewares： 图中 Engine 和 Downloader 之间的方块部分，中文可以称为下载器中间件，同样也是复数统称，其包含多个 Downloader Middleware，它是位于 Engine 和 Downloader 之间的 Hook 框架，负责实现 Downloader 和 Engine 之间的请求和响应的处理过程。

Spider Middlewares： 图中 Engine 和 Spiders 之间的方块部分，中文可以称为蜘蛛中间件，它是位于 Engine 和 Spiders 之间的 Hook 框架，负责实现 Spiders 和 Engine 之间的 Item，请求和响应的处理过程。

以上便是 Scrapy 中所有的核心组件，初看起来可能觉得非常复杂并且难以理解，但上手之后我们会慢慢发现其架构设计之精妙。

了解了 Scrapy 的基本组件和功能，通过图和描述我们可以知道，在整个爬虫运行的过程中，Engine 负责了整个数据流的分配和处理，数据流主要包括 Item、Request、Response 这三大部分，那它们又是怎么被 Engine 控制和流转的呢？结合官网的架构图来对数据流做一个简单说明：

启动爬虫项目时，Engine 根据要爬取的目标站点找到处理该站点的 Spider，Spider 会生成最初需要爬取的页面对应的一个或多个 Request，然后发给 Engine。
Engine 从 Spider 中获取这些 Request，然后把它们交给 Scheduler 等待被调度
Engine 向 Scheduler 索取下一个要处理的 Request，这时候 Scheduler 根据其调度逻辑选择合适的 Request 发送给 Engine
Engine 将 Scheduler 发来的 Request 转发给 Downloader 进行下载执行，将 Request 发送给 Downloader 的过程会经由许多定义好的 Downloader Middlewares 的处理
Downloader 将 Request 发送给目标服务器，得到对应的 Response，然后将其返回给 Engine。将 Response 返回 Engine 的过程同样会经由许多定义好的 Downloader Middlewares 的处理。
Engine 从 Downloader 处接收到的 Response 里包含了爬取的目标站点的内容，Engine 会将此 Response 发送给对应的 Spider 进行处理，将 Response 发送给 Spider 的过程中会经由定义好的 Spider Middlewares 的处理
Spider 处理 Response，解析 Response 的内容，这时候 Spider 会产生一个或多个爬取结果 Item 或者后续要爬取的目标页面对应的一个或多个 Request，然后再将这些 Item 或 Request 发送给 Engine 进行处理，将 Item 或 Request 发送给 Engine 的过程会经由定义好的 Spider Middlewares 的处理
Engine 将 Spider 发回的一个或多个 Item 转发给定义好的 Item Pipelines 进行数据处理或存储的一系列操作，将 Spider 发回的一个或多个 Request 转发给 Scheduler 等待下一次被调度。

重复第2步到第8步，直到 Scheduler 中没有更多的 Request，这时候 Engine 会关闭 Spider，整个爬取过程结束。从整体上来看，各个组件都只专注于一个功能，组件和组件之间的耦合度非常低，也非常容易扩展。再由 Engine 将各个组件组合起来，使得各个组件各司其职，互相配合，共同完成爬取工作。另外加上 Scrapy 对异步处理的支持，Scrapy 还可以最大限度地利用网络带宽，提高数据爬取和处理的效率。

二、Request 和 Response 介绍

在编写 Spider 时，我们大部分流程其实是在构造 Request 对象和解析 Response 对象，因此对于它们的用法和参数我们需要详细了解一下。

2.1 Request

源码位置：

在 Scrapy 中，Request 对象实际上指的就是 scrapy.http.Request 的一个实例，它包含了 HTTP 请求的基本信息，用这个 Request 类我们可以构造 Request 对象发送 HTTP 请求，它会被 Engine 交给 Downloader 进行处理执行，返回一个 Response 对象。Request 的构造参数梳理如下：

url: Request 的页面链接，即 Request URL。
callback：Request 的回调方法，通常这个方法需要定义在 Spider 类里面，并且需要对应一个 response 参数，代表 Request 执行请求后得到的 Response 对象。如果这个 callback 参数不指定，默认会使用 Spider 类里面的 parse 方法。
method：Request 的方法，默认是 GET，还可以设置为 POST、PUT、DELETE 等。
meta：Request 请求携带的额外参数，利用 meta，我们可以指定任意处理参数，特定的参数经由 Scrapy 各个组件的处理，可以得到不同的效果。另外，meta 还可以用来向回调方法传递信息。
body：Request 的内容，即 Request Body，往往 Request Body 对应的是 POST 请求，我们可以使用 FormRequest 或 JsonRequest 更方便地实现 POST 请求。
headers：Request Headers，是字典形式。
cookies：Request 携带的 Cookies，可以是字典或列表形式。
encoding：Request 的编码，默认是 utf-8。
prority：Request 优先级，默认是0，这个优先级是给 Scheduler 做 Request 调度使用的，数值越大，就越被优先调度并执行。
dont_filter：Request 不去重，Scrapy 默认会根据 Request 的信息进行去重，使得在爬取过程中不会出现重复的请求，设置为 True 代表这个 Request 会被忽略去重操作，默认是 False。
errback：错误处理方法，如果在请求过程中出现了错误，这个方法就会被调用。
flags：请求的标志，可以用于记录类似的处理。
cb_kwargs：回调方法的额外参数，可以作为字典传递。

值得注意的是，meta 参数是一个十分有用而且易扩展的参数，它可以以字典的形式传递，包含的信息不受限制，所以很多 Scrapy 的插件会基于 meta 参数做一些特殊处理。在默认情况下，Scrapy 就预留了一些特殊的 key 作为特殊处理。比如 request.meta['proxy'] 可以用来设置请求时使用的代理，request.meta['max_retry_times'] 可以设置用来设置请求的最大重试次数等。更多具体的内容可以参见：https://docs.scrapy.org/en/latest/topics/request-response.html

另外如上文所介绍的，Scrapy 还专门为 POST 请求提供了两个类 ------ FormRequest 和 JsonRequest，它们都是 Request 类的子类，我们可以利用 FormRequest 的 formdata 参数传递表单内容，利用 JsonRequest 的 json 参数传递 JSON 内容，其他的参数和 Request 基本是一致的。二者的详细介绍可以参考官方文档：
JsonRequest：https://docs.scrapy.org/en/latest/topics/request-response.html#jsonrequest
FormRequest：https://docs.scrapy.org/en/latest/topics/request-response.html#formrequest-objects

2.2 Response

源码位置：

Request 由 Downloader 执行之后，得到的就是 Response 结果了，它代表的是 HTTP 请求得到的响应结果，同样地我们可以梳理一下其可用的属性和方法，以便我们做解析处理使用。

url：Request URL。
status：Response 状态码，如果请求成功就是 200。
headers：Response Headers，是一个字典，字段是一一对应的。
body：Response Body，这个通常就是访问页面之后得到的源代码结果了，比如里面包含的是 HTML 或者 JSON 字符串，但注意其结果是 bytes 类型。
request：Response 对应的 Request 对象。
certificate：是 twisted.internet.ssl.Certifucate 类型的对象，通常代表一个 SSL 证书对象。
ip_address：是一个 ipaddress.IPv4Address 或 IPv6Address 类型的对象，代表服务器的 IP 地址。
urljoin：是对 URL 的一个处理方法，可以传入当前页面的相对 URL，该方法处理后返回的就是绝对 URL。
follow/follow_all：是一个根据 URL 来生成后续 Request 的方法，和直接构造 Request 不同的是，该方法接收的 url 可以是相对 URL，不必一定是绝对 URL。

另外 Response 还有几个常用的子类，如 TextResponse 和 HtmlResponse， HtmlResponse 又是 TextResponse 的子类，实际上回调方法接收的 response 参数就是一个 HtmlResponse 对象，它还有几个常用的方法或属性。

text: 同 body 属性，但结果是 str 类型
encoding: Response 的编码，默认是 utf-8
selector: 根据 Response 的内容构造而成的 Selector 对象，利用它我们可以进一步调用 xpath、css 等方法进行结果的提取
xpath: 传入 XPath 进行内容提取，等同于调用 selector 的 xpath 方法
css: 传入CSS选择器进行内容提取，等同于调用 selector 的 css 方法
json: 是 Scrapy2.2新增的方法，利用该方法可以直接将text属性转换为JSON对象

以上便是对 Response 的基本介绍，关于 Response 更详细的解释可以参考官方文档：https://docs.scrapy.org/en/latest/topics/request-response.html#response-objects

小结：本小节介绍了 Request、Response 对象的基本数据结构，通过了解本节内容，我们便可以灵活地完成爬取逻辑的定制了。

三、实例演示

3.1 POST 请求

POST 请求主要是分为两种，一种是以 FormData 的形式提交表单，一种是发送 JSON 数据，二者分别可以使用 FormRequest 和 JsonRequest 来实现。分别发起两种 POST 请求，对比一下结果，示例代码如下：

import scrapy


class TestSpider(scrapy.Spider):
    name = 'test'
    allowed_domains = ['www.httpbin.org']
    # start_urls = ['https://www.httpbin.org/post']
    start_url = 'https://www.httpbin.org/post'
    # 大坑：注意这里的年龄千万不要写18 否则会报错 所有都以字符串的形式来表示
    # 至于为什么可以自己去看源码
    data = {"name": "Amo", "age": "18"}

    def start_requests(self):
        yield scrapy.http.FormRequest(self.start_url, callback=self.parse_response, formdata=self.data)

        yield scrapy.http.JsonRequest(self.start_url, callback=self.parse_response,
                                      data=self.data)

    def parse_response(self, response, **kwargs):
        print("text", response.text)

使用 start_requests() 方法生成了一个 FormRequest 和 JsonRequest，请求的页面链接修改为了 https://www.httpbin.org/post，它可以把 POST 请求的详情返回，另外 data 保持不变。运行结果如下图所示：

这里我们可以看到两种请求的效果。第一个 JsonRequest，我们可以观察到页面返回结果的 json 字段就是我们所请求时添加的 data 内容，这说明实际上是发送了 Content-Type 为 application/json 的 POST 请求，这种对应的就是发送 JSON 数据。

第二个 FormRequest，我们可以观察到页面返回结果的 form 字段就是我们请求时添加的 data 内容，这说明实际上是发送了 Content-Type 为 application/x-www-form-urlencoded 的 POST 请求，这种对应的就是表单提交。

这两种 POST 请求的发送方式我们需要区分清楚，并根据服务器的实际需要进行选择。

3.2 GET 请求及响应信息打印

import scrapy


class TestSpider(scrapy.Spider):
    name = 'test'
    allowed_domains = ['www.httpbin.org']
    # # 起始URL列表，当我们没有实现start_requests方法时，默认会从这个列表开始抓取
    # start_urls = ['https://www.httpbin.org/get']
    start_url = 'https://www.httpbin.org/get'  
    headers = {
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36"
    }
    cookies = {"name": "amo", "age": "18"}

    def start_requests(self):
        for offset in range(5):
            url = self.start_url + f"?offset={offset}"
            yield scrapy.Request(url, headers=self.headers, cookies=self.cookies,
                                 callback=self.parse_response, meta={"offset": offset})

    # start_url = 'https://www.httpbin.org/post'
    # def parse(self, response, **kwargs): 当Response没有指定回调方法时，该方法会默认被调用
    def parse_response(self, response, **kwargs):
        print(response.url)  # 请求页面的URL，即Request URL
        print(response.request)  # response对应的request对象
        print(response.status)  # 状态码，即 Response Status Code
        print(response.headers)  # 响应头，即 Response Headers
        print(response.text)  # 响应体，即 Response Body
        print(response.meta)  # 一些附加信息，这些参数往往会附在 meta 属性里

运行结果如下所示：

以上省略了部分结果，可以看到，这里分别打印出了 url、request、status、headers、text、meta 信息。

注意：Scrapy 框架几乎是 Python 爬虫学习和工作过程中必须掌握的框架，需要好好钻研和掌握。

至此今天的案例就到此结束了，笔者在这里声明，笔者写文章只是为了学习交流，以及让更多学习 Python 基础的读者少走一些弯路，节省时间，并不用做其他用途，如有侵权，联系博主删除即可。感谢您阅读本篇博文，希望本文能成为您编程路上的领航者。祝您阅读愉快！

好书不厌读百回，熟读课思子自知。而我想要成为全场最靓的仔，就必须坚持通过学习来获取更多知识，用知识改变命运，用博客见证成长，用行动证明我在努力。
如果我的博客对你有帮助、如果你喜欢我的博客内容，请 点赞、评论、收藏 一键三连哦！听说点赞的人运气不会太差，每一天都会元气满满呦！如果实在要白嫖的话，那祝你开心每一天，欢迎常来我博客看看。
编码不易，大家的支持就是我坚持下去的动力。点赞后不要忘了 关注 我哦！

Python 爬虫：一文掌握 SVG 映射反爬虫数据知道 2025年爬虫和逆向教程 python 爬虫 microsoft 爬虫逆向数据采集
更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录1.SVG概述1.1SVG的优点1.1映射反爬虫的原理2.SVG映射反爬虫的示例3.应对SVG映射反爬虫的方法3.1解析SVG图像3.2处理自定义字体3.3使用OCR技术3.4动态生成SVG的处理4.实战案例4.1使用SVG映射显示价格4.2解析SVG文件并提取其中的内容和属性4.3模拟交互行为4.4使用无头浏览器4.5某网站使用SVG实现动态验
Python处理CSV文件的12个高效技巧宇宙大豹发 python 开发语言
今天，我们的Python之旅，目标是那片由逗号分隔的宝藏——CSV文件。别看它简单，掌握这些技巧，你的数据处理能力将直线上升，轻松驾驭千行万列的数据海洋。让我们一起，用Python的魔力，让CSV舞动起来吧！1.初次见面，你好，CSV！安装pandas，是这场冒险的起点。它，是Python数据分析的瑞士军刀。pipinstallpandas导入我们的英雄——pandas，并亲切地叫它pd。impo
Python初学者第一天小熊h python初学者 python编译 python语言 python python基础 python初学者
目录一、问答题（1）什么是硬件？什么是软件？（2）比特是什么？字节是什么？（3）内存和存储设备最主要的区别是什么？（4）解释语言和编译语言之间的区别是什么？（5）操作系统的主要任务是什么？（6）可以使用两种模式运行Python。解释这两种模式。（7）找出下面代码中的错误（8）列举代码当中四种异常错误，说明错误原因（9）下面哪些标识符是有效的？哪些是Python关键字？（10）如何使用Python编
Python 潮流周刊#93：为什么“if not list”比len()快2倍？（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了12篇文章，12个开源项目以下是本期摘要：文章&教程①为什么Python中'ifnotlist'比len()快2倍？②掌握Python单体代码库③Python3.14尾调用解释器的性能④Py
Java：AI 浪潮中的隐形支柱 —— 探秘 Java 在人工智能领域的独特地位琢磨先生David 人工智能
引言在人工智能技术席卷全球的今天，当人们谈论AI开发时，Python、R语言、C++等工具总是最先被提及。然而在这个充满创新的领域，有一个"老兵"正悄然发挥着不可替代的作用——自1995年诞生至今的Java语言，凭借其独特的工程化基因，正在构建起AI世界的底层基础设施。本文将揭示Java如何在大数据、机器学习、企业级AI系统等领域持续创造价值。一、Java的AI基因解码跨平台优势的现代意义"一次编
python笔记1 lu_32 python
1.计算面积与周长：r=8s=r*rprint("面积是")print(s)z=r+r+r+rprint("周长是")print(z)#面积是#64#周长是#322.输入圆的半径，计算出圆的面积和周长：r=input("请输入半径：")r=float(r)s=3.14*r*rprint("圆的面积：",s)r=input("请输入圆的半径")r=int(r)s=3.14*r*rprint("圆的半
String类型为什么不可变 27xixi java高频 java
在大多数编程语言（如Java、Python、C#等）中，String类型被设计为不可变（Immutable），这意味着一旦一个字符串对象被创建，它的值就不能被修改。以下是这一设计的原因及具体表现：一、不可变性的表现直接修改字符串会创建新对象Stringstr="Hello";str=str+"World";//实际是创建了一个新字符串对象，而非修改原对象原字符串“Hello”未被修改，而是生成了新
Flet 项目常见问题解决方案龙香令Beatrice
Flet项目常见问题解决方案fletFletenablesdeveloperstoeasilybuildrealtimeweb,mobileanddesktopappsinPython.Nofrontendexperiencerequired.项目地址:https://gitcode.com/gh_mirrors/fl/flet1.项目基础介绍和主要编程语言Flet是一个开源框架，允许开发者在Py
Flet 框架教程樊贝路Strawberry
Flet框架教程fletFletenablesdeveloperstoeasilybuildrealtimeweb,mobileanddesktopappsinPython.Nofrontendexperiencerequired.项目地址:https://gitcode.com/gh_mirrors/fl/flet1.项目介绍Flet是一个框架，它允许开发者使用Python轻松构建实时的Web、
Spring家族三体问题：从XML地狱到自动装配的救赎之路桃木山人深挖面经 spring xml java
标准答案（技术定义版）1.SpringFramework定义：轻量级Java开发框架，提供全面的基础设施支持核心功能：IoC容器：通过依赖注入（DI）管理对象生命周期与依赖关系AOP：面向切面编程，实现日志、事务等横切关注点事务管理：声明式事务（@Transactional）与编程式事务数据访问：集成JDBC、ORM框架的统一抽象层关键特性：模块化设计（spring-core,spring-con
Python字符串 DDD小小小宇宙 python 开发语言
字符串1.程序中需要加上双引号或者双引号来表示字符串2.字符串可以存放任意数量的字符，无法修改的数据容器字符串运算：加法：多个字符串按照次序合并为一个字符串在实际使用的时候，数字和字符串的加法通常需要将数字的类型转换成str乘法：1个字符串乘以n，可以得到n个复制的字符串例子：输入一个字符，使用该字符打印一个3层的金字塔x=input(':')print(""+x)print(""+x+x+x)p
Python入门指南：从简介到安装小团团0 开发语言 python
Python简介Python是一种高级编程语言，由荷兰程序员GuidovanRossum于1989年圣诞节期间开始设计，并于1991年发布了第一个公开发行版。Python的命名源于英国喜剧团体MontyPython，Guido以此表达对该喜剧团体的喜爱。Python的特点主要体现在以下几个方面：解释型语言：Python是一种解释型语言，这意味着在开发过程中无需编译，可以直接运行源代码。交互式语言：
**ResNet-SE + MFCC** 训练框架，包括 **数据加载、训练流程**，以及 **混淆矩阵** 可视化示例大霸王龙系统分析业务矩阵 python 线性代数人工智能机器学习深度学习
1.依赖库安装如果你还没安装相关库，请先执行：pipinstalltorchtorchaudiotorchvisionscikit-learnmatplotlibtqdm2.数据加载这里假设你有一个音频分类数据集，其文件结构如下：dataset/│──train/│├──class_0/││├──audio_0.wav││├──audio_1.wav│├──class_1/││├──audio_0
Python扑克牌小游戏 Small踢倒coffee_氕氘氚笔记经验分享
1.游戏规则概述玩家人数：3人牌数：一副扑克牌，共54张（包括大小王）发牌：每人17张牌，剩余3张作为底牌出牌规则：玩家依次出牌，必须出比上家更大的牌型，或者选择不出胜利条件：先出完手中牌的玩家获胜2.游戏框架设计2.1牌型定义classCard:def__init__(self,suit,rank):self.suit=suit#花色：♠,♥,♣,♦self.rank=rank#牌面：3,4,5
SvelteKit 最新中文文档教程（3）—— 数据加载
前言Svelte，一个语法简洁、入门容易，面向未来的前端框架。从Svelte诞生之初，就备受开发者的喜爱，根据统计，从2019年到2024年，连续6年一直是开发者最感兴趣的前端框架No.1：Svelte以其独特的编译时优化机制著称，具有轻量级、高性能、易上手等特性，非常适合构建轻量级Web项目。为了帮助大家学习Svelte，我同时搭建了Svelte最新的中文文档站点。如果需要进阶学习，也可以入手我
深入理解cocotb的Timing Model (一) 数据库github
写在前面达坦科技即将开源的100GRDMARTL代码采用cocotb对其功能进行验证。因此，本文预先介绍一些cocotb验证框架相关的内容，希望以此抛砖引玉，引起大家对基于cocotb的敏捷验证的相关讨论交流。关于Cocotb的话题，会有一系列文章进行讨论，本篇是此系列的第一篇，欢迎大家关注达坦科技公众号，第一时间阅读最新文章。01、抛出问题在使用cocotb编写测试脚本时，大家肯定对类似awai
探索Pydoll：基于Python的无驱动浏览器自动化新星几道之旅人工智能智能体及数字员工 python 自动化人工智能
在当今Web自动化与数据抓取领域，基于Chromium的工具层出不穷，但大多数方案依赖WebDriver或额外的浏览器插件。Pydoll作为一款新兴的Python库，以无驱动架构和原生异步支持迅速成为开发者关注的焦点。本文将从技术原理、核心功能、应用场景及实战案例多角度解析这一工具。一、Pydoll项目概览Pydoll由开发者thalissonvs等团队维护，旨在通过Python实现对Chromi
python opencv轮廓检测_python opencv中的不规则形状检测和测量 weixin_39584529 python opencv轮廓检测
正如我在评论中提到的那样,对于这个问题,分水岭似乎是一个很好的方法.但是当你回答时,定义标记的前景和背景是困难的部分！我的想法是使用形态梯度沿着冰晶获得良好的边缘并从那里开始工作;形态梯度似乎很有效.importnumpyasnpimportcv2img=cv2.imread('image.png')blur=cv2.GaussianBlur(img,(7,7),2)h,w=img.shape[:
【DuodooTEKr】基于Python+OCR+DeepSeek的英国购物小票识别系统开发实战邹工拆解甲方需求风吟九宵 Odoo18开源 Duodoo开源人工智能物联网制造开源 python
作者：Odoo技术开发/资深信息化负责人日期：2025年3月11日本方案从甲方信息化负责人视角，分析梳理现状，并给出代码开发案例。一、行业现状与痛点分析1.英国零售业数字化现状根据英国零售协会（BRC）2023年度报告显示：英国年均纸质小票签发量达78亿张87%的企业仍采用人工录入方式处理小票数据零售业每年因小票管理产生的直接成本超12亿英镑2.传统小票管理痛点数据孤岛问题：门店POS系统、财务系
Mahilo技术深度解析：构建下一代人机协同智能系统的开源框架花生糖@ AIGC学习资料库开源智能体 mahilo
一、框架定位与技术突破Mahilo作为2025年最受关注的多智能体协作框架，其创新性在于实现了人机协同的闭环控制与智能体自主协作的动态平衡。根据GitHub仓库数据显示，该框架在开源首周即获得3.2k星标，在医疗、金融、工业等领域的15个场景验证中，任务执行效率提升58%。核心技术创新混合通信协议：支持点对点(P2P)与层级式通信的灵活切换，在911紧急响应场景测试中，医疗/物流/通信智能体的协作
用Python打造AI玩家：挑战2048，谁与争锋穿梭的编织者人工智能 python
文章目录一、创作背景二、效果图三、准备工作1.安装Chrome和ChromeDriver2.安装Python库四、代码说明‌1.init_driver函数‌2.play_2048函数‌五、完整代码六、改进版本七、主要模块八、核心算法分析1.棋盘状态获取2.位置权重系统3.连续性评估4.单调性评估5.移动模拟系统九、评估系统1.评估标准2.决策机制十、性能优化1.延迟控制2.错误处理十一、完整代码编
openharmony5.0中HDF驱动框架源码梳理-服务管理接口咸鱼过江 openharmony5.0 harmonyos hdf框架 linux
要想大概了解一个公司，我们可能只需要知道它的运行逻辑即可，例如我们只需要知道它有财务有研发有运营等，财务报销、研发负责产品等即可，但是如果想深入具体的了解的话我们就要了解都有什么部门(对象)、各部门都包含哪些职责(对象方法)以及各部门都包含哪些关键人员(子对象)以及他们的职责(子对象方法)，根据这个逻辑我大概整理了openharmony5.0的HDF框架中包含的关键对象以及对应的方法，便于更深的理
在 MacOS 上安装 Flutter：M1、M2 和 M3 芯片指南知识大胖 Flutter开发教程大全 macos flutter
简介Flutter是一个强大的跨平台开发框架，但在搭载M1、M2或M3芯片的Mac上设置它可能比您想象的要复杂得多。在本指南中，我将引导您完成整个过程，重点介绍我最初遇到的步骤，以帮助您避免同样的陷阱。推荐文章《Flutter应用中的GooglePay和ApplePay集成应用中的支付(教程含源码)》权重2，支付类《Flutter技巧之在Flutter中使一行按钮具有相同的宽度》《Flutter教
Python爬虫相关内容猫猫头有亿点炸 python 爬虫开发语言
一、打开源代码的方式鉴于时间过很久后我们可能会忘记的源代码位置所以写下以下文章便于实时查看:一般有两种方法打开源代码:第一是f12第二右键查看网页源代码二、特殊情况第三种情况当你用爬虫爬取内容的时候可能用xpath还是匹配不到任何结果因为页面可能会自动刷新所以使用xpath的时候匹配不到任何内容查找源代码的示例图片三、解决办法这个时候你可以先->f12(笔记本电脑fn+f12)再->ctrl+sh
【PyTorch】PyTorch 中改变张量形状的几种方法 shengchao0920 pytorch 人工智能 python
PyTorch中改变张量形状的几种方法在深度学习领域，PyTorch是一个广泛使用的框架，它提供了丰富的API来处理张量（tensor）。在模型开发过程中，我们经常需要改变张量的形状以满足特定的需求。本文将介绍在PyTorch中改变张量形状的几种方法，并给出推荐的使用场景。比如：我们想合并一个张量的最后两个维度。一、方法1.使用reshape方法reshape方法可以改变张量的形状而不改变其数据。
CESM1.2.1移植使用说明 ༊.枕星＇听光.ঌ 人工智能 linux
文章目录概述环境配置cesm1_2_1配置部分环境软件压缩包改变CLM陆面模式结果文件的输出变量、特征值及频率小结概述记录用户如何在Linux系统上移植CESM1.2.1模型，并且使用CLM4.5模式创建并单点模拟算例I_2000_CLM45。环境配置1.更新系统软件源2.更新系统安装软件安装git、make、python等。3.安装MPI(openmpi4.1.5)//下载并解压进入文件夹wge
vs2019 Qt C++中调用python代码路奇怪 Visual Studio qt c++
目录1.添加依赖库，.lib，include2.修改python.h文件3.环境搭建好了下面是测试代码部分4.如果按照面上走可能会出现的问题：5.Qt+vs+python6.说一下这里调py的主要步骤借鉴几位大佬（吐槽一下各种坑啊）混合编程之——C++调用python2.7&python3.5-CSDN博客c++调用python(复杂版)_c++调用python复杂库-CSDN博客环境配置：1.添
python 基于混合式推荐算法的学术论文投稿系统 mosquito_lover1 python 知识图谱
基于混合式推荐算法的学术论文投稿系统是一个结合多种推荐技术（如基于内容的推荐、协同过滤、知识图谱等）来为研究者推荐合适期刊或会议投稿的系统。以下是实现该系统的关键步骤和Python代码示例。系统设计思路1.数据收集与预处理：-收集论文数据（标题、摘要、关键词、作者信息等）。-收集期刊/会议数据（领域、主题、影响因子、投稿要求等）。-对文本数据进行预处理（分词、去停用词、向量化等）。2.推荐算法设计
探索Hyperlane：用Rust打造轻量级、高性能的Web后端框架 LTPP rust 前端开发语言后端服务器算法
引言在Web开发的世界里，性能和效率是每个开发者追求的终极目标。如果你正在寻找一个兼具速度、安全性和开发便捷性的后端框架，那么基于Rust语言开发的Hyperlane绝对值得你的关注！Hyperlane是一个轻量级、高性能的HTTP服务器框架，专为现代Web服务设计，旨在让开发者以最小的代价构建出强大的网络应用。本文将带你深入了解Hyperlane的独特魅力，并通过实用示例和推广内容激发你立即尝试
Manus开源平替-开源通用智能体 galileo2016 人工智能
原文链接:https://i68.ltd/notes/posts/250306-opensource-agi-agent/OWL-比Manus还强的全能开源AgentOWL:OptimizedWorkforceLearningforGeneralMulti-AgentAssistanceinReal-WorldTaskAutomation，现实世界中执行自动化任务的通用多代理辅助优化学习框架项目仓
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&