深蓝学院

彻底Sparse！基于稀疏交互机制的端到端检测器

摘要：

Sparse R-CNN基于R-CNN框架，其提出了一种一对一稀疏交互的机制，同时借鉴了DETR的可学习候选目标的思想，并且结合二分匹配的标签分配策略和集合预测的形式，实现了端到端目标检测的效果，整个过程无需RPN和NMS。

前言

这段时间的paper不是E2E(End-to-End)就是Transformer，什么都拿Transformer往上套，然后个个都声称自己E2E，看得CW都有点“审美疲劳”。

吾以为，Transformer并非关键，更不是E2E的必需所在，从NLP拓展到CV来应用，可以表扬下Transformer从单纯的“器”发展成为一种“术”，但是否成为“道”还请拭目以待。

至于是否E2E，有个很直观的关键点在于是否干掉了NMS，而追溯下导致NMS的原因，无非还是Label-Assignment！因为当下流行的大多数目标检测方法都是one-to-many的标签分配策略，这是导致NMS的最直接原因之一。

在近期众多E2E系列的目标检测方法中，CW之所以选中了 Sparse R-CNN 这个R-CNN家族的新晋小生，是因为它并未用到Transformer，同时又实现了E2E，原因也正如上面所说：它采用的是one-to-one的Label-Assignment。

有点搞笑的是，虽说它隶属于R-CNN家族，但从思想以及方法（甚至代码实现）上来看，其更像是 DETR: End-to-End Object Detection with Transformers（文末提取链接a）的小弟，为何？

因为它采用了DETR的optimal bipartite matching（二分匹配）的标签分配策略和set prediction形式，同时又借鉴了DETR中learnable object query的思想，从而无需设计密集的目标候选（如anchor）。

当然，它的得意之处在于摒弃了DETR中让object query和全局特征图（密集）交互（即每个object query都和特征图的每个位置交互计算，这本质上属于dense）的Transformer attention机制，而是提出了一种稀疏（sparse）的交互形式。

基于上述，Sparse R-CNN之所以自称'sparse'在于两方面：sparse candidates & sparse feature interaction。

附：Paper & Code（文末提取链接b）

研究动机与主要贡献

在正式讲解Sparse R-CNN的方法前，先来“吹吹水”，了解下作者的研究动机是什么，这其实是很重要的一part。只有发现了以往方法的问题所在，你才能（创造性地去）解决问题！

可惜的是，从小到大，学校往往只是不问缘由地教给我们解决问题的手段，却根本没有教我们如何发现问题。

因此，在学习一种新方法的同时，还需要了解这种方法诞生的背景，再倒回来评估新方法的合理性，甚至提出自己的猜想并且进行实验，最终再对这个过程总结归纳。CW认为，不断重复这样的学习方式，能够有效地培养我们的洞察力和创造力。

作者很优秀，他发现当前目标检测的主流方法往往存在dense属性：anchor-boxes(anchor-based系列)、 reference-points(anchor-free系列)、dense RoIs(2-stage系列)，这伴随着诸如以下的“麻烦事”：

1. prior candidates（如anchors）的设计；

2. one(gt)-to-many(positive)的标签分配策略；

3. nms后处理（由于第2点）

于是，作者很自然地想到能不能设计一种sparse的框架。幸运的是，DETR的出现给出了一种启发：candidates可以是一组sparse的learnable object queries，标签分配策略是one-to-one的optimal bipartite matching，这样就无需nms。

然而，如前文所述，DETR在特征交互计算时本质上也是使用了dense的方法。抓住这点，作者觉得可以发paper了（原谅我说得那么露骨哈哈哈）！

除了sparse candidates，他还想实现sparse feature interaction，结合自身天赋并且通过努力，最终提出了Sparse R-CNN。作者也自豪地认为，他延续了目标检测方法的“生态史”：dense -> dense-to-sparse -> (thoroughly)sparse：

Sparse R-CNN的创新点有以下：

1. 使用可学习的proposal boxes充当RoI角色，从而无需RPN；

2. 引入维度更高（相比proposal boxes）的可学习proposal features，用于弥补粗糙的proposal boxes提取出来的RoI features不足以表征丰富的物体特征（如姿态和位置等）的缺点；

3. 改进了原生的r-cnn head，设计出dynamic instance interactive head，主要用于对RoI feautures与proposal features执行一对一的稀疏交互（而非DETR那种全局密集交互），其中前者相当于Key、后者相当于Query的角色。

整体来看，其特点和贡献也多多：没有anchors和reference points、没有rpn、无需正负样本采样、无需nms后处理、效果比他家族老大Faster R-CNN好、收敛速度远远快于他老哥DETR。

在标准的COCO benchmark上使用ResNet-50 FPN单模型在标准3 x training schedule的情况下达到了44.5 AP 和 22 FPS。

整体架构与算法pipeline

吹了一波，是时候讲下Sparse R-CNN是怎么操作的了。先概述下整体的架构设计，并且把算法pipeline过一遍，然后再具体到各方面去剖析吧。

既然Sparse R-CNN隶属于R-CNN家族，那么它的网络设计原型就和R-CNN系列相似：第一阶段先得到RoI（只不过这里不需要RPN，而是直接设置一个可学习的嵌入向量，同时也没有对RoI做前背景的二分类和采样）；第二阶段结合backbone提取的feature map通过池化得到统一大小的RoI特征图，输入检测头部做最终的分类和回归预测。

以上是它在R-CNN家族中继承的性质，至于其它方面，概括地来说，主要以下几点：

(1). Backbone是ResNet，Neck使用FPN；

(2). Head使用一组级联的Dynamic Instance Interactive Head，这个头部是对原R-CNN Head的改进。在级联组中，上一个head的输出特征和预测框分别作为下一个head的Proposal Features和Proposal Boxes。

另外，Proposal Features在与RoI Features交互之前会先经过Multi-Head-Self-Attention（此处和Transformer的Decoder十分类似，在交互之后还会经过FFN，即整个过程是：self-attention+cross-attention+ffn）；

(3). 训练的损失函数是基于optimal bipartite matching的set prediction loss，沿用了DETR那一套，只不过在代码实现中，针对使用focal loss的情况做了改动。

整体的框架设计基本就这样，现在来过下算法的pipeline：

i. 设置N个可学习候选框Proposal Boxes用于提供RoI坐标（可使用Pytorch的nn.Embedding(N, 4)实现）；

ii. 设置N个可学习的候选实例特征Proposal Features来表征更丰富的物体信息（特征），例如姿态和形状等等（可使用Pytorch的nn.Embedding(N, hidden_dim)实现）；

iii. 将任意大小的图片输入CNN，得到输出特征图（包含多尺度的FPN特征）；

iv. 通过RoIPooling(Align)将每个Proposal Boxes池化到统一大小的RoI Features；

v. 将RoI Features与Proposal Features进行一对一交互，从而增强前景特征；

vi. 增强后的特征Object Features作为表征各个目标对象的特征，经过全连接层得到固定大小的特征向量，输出N个无序集合，每个集合中包括预测类别和预测框；

vii. 采用Casecase R-CNN的级联思想，不断对预测框进行refine。其中，前一阶段的预测框和Object Features分别作为下一阶段的Proposal Boxes和Proposal Features

训练期间，对每个级联阶段的输出信息都使用匈牙利双边匹配计算分类及回归loss来进行训练（深监督）。

具体方法

pipeline过完，现在来具体讲讲里面的主要部分。当然，这次同样按照CW一贯的风格，会结合核心代码来解析。

Learnable Proposal Boxes: 稀疏的目标候选

可学习Proposal Boxes维度是(N,4)，其中N是预设的超参，代表每张图片最多可检测出多少个物体，也就是目标候选数量；4对应的是候选框坐标信息（cxcywh or xyxy）。这些设置作者经过了实验测试：

考虑到性能与训练时间，最终作者选择将N设置为300。

-center表示将proposal boxes初始化在图像中心位置，中心坐标为(0.5,0.5)，wh全部设置为0.1（图像尺寸为1，这里是将wh设置为图像的0.1倍），即所有框的大小都是原图的0.01(0.1x0.1)倍，最终1个proposal box表示为(0.5,0.5,0.1,0.1)；

-Image表示将proposal boxes初始化为图像本身，此时size=1，于是表示为(0.5,0.5,1,1)；

-Grid表示RoI按照类似anchor一样密集排列在原图上，例如[(0,0,0.1,0.1), (0,1,0.1,0.1), ..., (32/图片w,32/图片h,0.1,0.1)...]，和G-CNN中使用的方法相同；

-Random表示中心坐标和宽、高均采用高斯分布随机初始化

而Proposal Boxes的初始化方式对性能的影响相对较小，这应该得益于可学习性，使得整体框架也更灵活和鲁棒。最终，作者采用了和DETR相同的表示方式：归一化的cxcywh值，值域是0-1。

需要注意的是，Proposal Boxes是不包括batch信息的，也就是说这个(N,4)矩阵存储的不是当前一张图片信息，而是要学习整个数据集相关的RoI统计信息，学到的是训练集中潜在的目标物体位置的统计分布，其被视作对图像中目标物体最可能存在区域的初始猜测。

作者认为，使用RPN来得到RoI是非常“奢侈”的（相当于多加了一个模型做预测），而RoI的主要作用是提供丰富的候选框位置，保证召回率，并不需要十分精确，只要满足合理的相关分布即可。

因此，作者觉得能得到一个合理的和数据集相关的统计信息就足够了，最终就采用了这可学习的Proposal Boxes来充当RoI的角色，从而在整体架构中无需RPN。

作者采用了Pytorch的nn.Embedding进行代码实现：

也可以用以下这种方式：

self.init_proposal_boxes = nn.Parameter

(torch.Tensor(self.num_proposals, 4))

Learnable Proposal Features: 更给力地表征物体特性

可学习的Proposal Features维度是(N,256)，其中N的意义和Proposal Boxes中一致，它和Proposal Boxes是一对一的关系，同时也表征了整个数据集实例特征的统计信息。

之所以引入Proposal Features，是因为作者考虑到仅靠4d的Proposal Boxes提供的RoI Features难免过于粗糙，不足以表征物体深层次的特征信息（如物体姿态和形状等），于是有必要额外引入这个高维度(256d)的Proposal Features，目的是希望通过这个可学习的嵌入向量编码更丰富的实例的特征。

Proposal Features在这里类似于DETR中Object Query的角色，Object Query在DETR中是可学习的位置编码（position encoding），指导Decoder关注全局特征图的哪些位置，同时全局特征图还要加上位置编码，否则性能会大幅下降。

然而，在Sparse R-CNN中，Proposal Features和Proposal Boxes（对应的RoI Features）一对一进行交互（而非DETR中让Object Query和全局特征图的每个位置进行交互），并且Proposal Boxes本身已包含了在全局特征图中的位置信息，Proposal Features则作为Proposal Boxes对应（位置）的物体的丰富特征，因而在不需要空间位置编码的同时也能够实现特征过滤与增强。

同样地，对于Proposal Features的代码实现，作者也采用了Pytorch的nn.Embedding：

Dynamic Instance Interactive Head: 稀疏的特征交互

该模块是对R-CNN Head的改进：在RoI池化后插入了动态实例交互（Dynamic Instance Iteractive）模块，用于将RoI Features和Proposal Features进行一对一交互，目的是实现特征过滤和增强。

前面说过，Proposal Features的角色相当于DETR的Object Query，由于Object Query是和全局特征图（作为Key）交互，和全局特征图一样，RoI Features也提供了位置信息，因而RoI Features也可看作是Key。

但是DETR中的交互是为了让各目标物体关注其在全局特征图中的有效特征位置，而这里的RoI Features如前面所述已经包含了在全局特征图的对应位置信息，这些特征本身就对应各个局部位置，同时和Proposal Features又是一对一交互，那么这里的交互究竟是在做甚？

其实，RoI Features中本身还有“更进一步”的位置信息：RoI Features是池化特征，通常为统一的7x7大小，这7x7个bin就是进一步的位置信息！

因此，这里Proposal Features和RoI Features进行交互是为了关注7x7个bin中对前景更有贡献的那些位置，从而更有利于之后的分类和回归。

核心思想已明确，现在举个例子来形象说明下整个交互过程：

1). 暂时不考虑batch对应的维度，假设RoI Features的shape是(300,7,7,256)，300是proposals个数，7x7是统一后的池化特征大小，256是表示每个特征空间位置的表征向量维度；Proposal Features的shape是(300,256)；

2). 将Proposal Features先经过自注意力模块，这是为了推理出各物体相互之间的关系（和DETR中一样）；

3). 然后由Proposal Features生成卷积参数：使用全连接层将最后一维由256变为2x64x256，接着切分成shape为(300,256,64)和(300,64,256)两部分，这也是称为“动态交互”的原因，因其参数是动态生成的；

4). 接着进行交互：将shape为(300,7x7,256)的RoI Features按序和以上两部分进行矩阵乘法，输出的shape是(300,7x7,256)，这个结果就隐含了各目标对应的7x7个位置中哪些位置才是应该关心的，对前景更有贡献的位置将有更高的输出值。

注意，在第一个维度（300）上RoI Features和Proposal Features是一对一进行交互计算的！因此这也是称为“实例级交互”的原因；

以上3&4这种交互操作称为动态卷积，作者是受到 Dynamic filter networks 启发。

5). 最后，这个结果（先经过全连接层变换维度）还要加（element-wise add）在Proposal Feautures上（并且归一化），得到过滤和增强后的特征表示，作为抽象的物体特征。

仔细品味下以上过程，不觉得和Transformer的Decoder十分相似吗！？

其中2是一样的，将Query先经过self-attention；3+4实质上就是Query和Key的交互计算，为的是实现特征过滤和增强，只不过这里将Multi-Head-Attention替换成动态卷积的方式（同时也没有Value，因为这里计算出来的结果本身就是过滤和增强后的特征表示，而非权重系数，所以不需要将计算结果应用在Value上）；5就相当于是Add&Norm。

所以说嘛，Sparse R-CNN就像是DETR的小老弟，虽然没有用Transformer，但套路是一样的。作者通过实验证实了2~4过程对性能带来的提升：

以上过程的代码实现如下：

其中N代表batch size，nr_boxes代表预设的目标数量（300），d_model是嵌入维度（256）。至于自注意力层和实例交互则如下：

现在来看看最关键的动态卷积是如何实现的：

代码非常简单易懂，CW的注释应该已经足够说明了。返回的features就是上面pro_features2。

交互之后还会经过一个FFN（前向反馈网络），真的和DETR那套太像了..

其实连作者也觉得像，于是他还与Transformer对比了一把：

结果证明，它这个动态头部比较牛逼。

最后，既然它是个头部，那么肯定需要进行预测（分类+回归）：

代码也非常直观易懂，看注释就OK。

这一节该说的就这些了，最后我想吐槽下这节最上面那幅图。从图上看，每个RoI Features和Proposal Features一对一交互后都会分别送入独立的头部进行预测，作者在paper中也是这么说的：

Each RoI feature is fed into its own exclusive head for object location and classification, where each head is conditioned on specific proposal feature.

但实际是，代码中并不是这么写的！通过上述就可以知道，想要仔细印证的话也可以自己去看看这部分源码：DynamicHead（文末提取链接c），如果是CW看错了，还望反馈给我，并且狠狠抽我一巴掌，谢谢！

Cascade R-CNN Head: 级联大法好，Coarse-to-Fine

级联大法好哇，作者在paper中也是这么说的：

Iteratively updating the boxes is an intuitive idea to improve its performance.

对于级联本身，并没有什么好说的，就拿上一个头部的输出送入到下一头部再进行预测呗，整个相当于是由粗到细（Coarse-to-Fine）的过程。

另外，每个头部的参数是独立的。但是，关键就在于应该拿上一个头部输出的什么送入到下一个头部？

理所当然地，我们会想到预测框，但仅仅如此的话，作者发现带来的性能提升并不明显：

作者观察到，一个候选框对应的目标在整个级联迭代过程中通常是不变的，那么为何不把上一个头部输出的目标特征也一并送入下一个头部呢！毕竟这些目标特征可是编码了丰富的物体特征信息（如姿态、形状和位置等）啊！

这么想之后，作者也试了一把，果然，飞涨了11.7个点（见上图中Feature reuse打钩那行）！

此外还有个细节，需要看代码才知道：

注意到红框部分，上一个head的预测框在输入到下一个head前要取消梯度！这样的话，就只有第一个head的梯度能够回传至proposal boxes，而后面的head只能让proposal features进行学习。对于这个问题，CW是这么看的：

你想想，Sparse R-CNN是R-CNN家族的，也就是说它带有2-stage性质。第一阶段会学习RoI，但第二阶段RoI已经作为先验的角色（相当于anchor），也是不再进行学习的。作者在这里的设置或多或少也有这样的味道。

这么看来，Proposal Boxes和RPN的RoI一样，只需提供一个粗糙的结果即可，后面会有第二阶进行精调（这里是级联head，不断学习Proposal Features）。

在github上看到有的人疑惑：即使是第一个head，Proposal Boxes由于经过了RoI Pooling/Align，因此这部分是无法回传梯度的，那么到底是怎么让Proposal Boxes进行学习的呢？

RoI Pooling/Align确实无法回传梯度，但是在bbox解码时会需要Proposal Boxes参与计算啊，这时候就能够回传梯度了，Proposal Boxes也是在此获得学习的机会的（其实Faster R-CNN在第二阶段也可以的，只不过其将解码过程写在no_grad过程里了，而这里并没有）。

这部分代码就是上一节展示的预测部分中的self.apply_deltas()方法，和常规的bbox解码无异，这里就不再展示了。

另外，作者还实验了级联头部的数量对最终性能的影响：

根据实验结果，最终选择级联6个头部。

总结与思考

我们知道，R-CNN系列的2-stage方法通常有更高的精度，但是检测速度也相对不如1-stage，毕竟其需要前一个阶段（RPN）来预测RoI。

然而，Sparse R-CNN受到DETR的learnable object query启发，直接开挂般设置一组可学习的嵌入向量作为RoI，从而干掉了RPN，也是十分大胆！

另外，在最近万物皆Transformer的形势下，Sparse R-CNN保持了自己的个性，使用动态卷积的方式来做交互计算，并且是局部而非Transformer般的全局交互（因此也不需要全局空间的位置编码）！

进一步提升了计算效率，也彻底地做到了SPARSE（必须大写以表扬下~）。这篇paper的思想给R-CNN方法乃至E2E Object Detection领域无疑都是能带来创造性的启发。

另外，CW突然想到一个点，如上所述，虽然Sparse R-CNN在没有加入空间位置编码的情况下依然能做到特征过滤和增强，但是不妨猜想下，如果是加入“局部”空间位置编码呢：即对池化特征7x7个bin附加对应的位置编码（这个位置编码看作是数据集池化特征中隐含的局部位置的统计分布），会不会达到更强的特征过滤和增强效果？如果有兴趣，各位哥们儿也可是实验下，同时也欢迎反馈交流！

作者简介

CW，毕业于中山大学（SYSU）数据科学与计算机学院，就职于腾讯技术工程与事业群（TEG）从事Devops工作，曾在AI LAB实习，实操过道路交通元素与医疗病例图像分割、视频实时人脸检测与表情识别、OCR等项目。

目前在一些自媒体平台上参与外包项目的研发工作，项目专注于CV领域（传统图像处理与深度学习方向）。

参考链接

a.https://arxiv.org/pdf/2005.12872.pdf

b.Paper & Code：

https://arxiv.org/abs/2011.12450

https://github.com/PeizeSun/SparseR-CNN

c.https://github.com/PeizeSun/SparseR-CNN/blob/main/projects/SparseRCNN/sparsercnn/head.py

本文来自作者CW的原创投稿，如有任问题请及时留言，我们会第一时间处理。

Java 与 AI 携手，掀起多领域智能变革浪潮 WangRK_ 人工智能 java 开发语言
在数字化转型的时代浪潮下，技术更新迭代速度超乎想象。当Java这门历经二十余年沉淀的编程语言，遇上风头正劲的人工智能（AI），一场席卷多领域的智能变革正悄然发生。尤其是在金融与零售两大行业，这场技术融合带来的改变，正重塑着整个行业的生态。一、Java在金融与零售行业的“前世今生”（一）曾经的行业基石在金融领域，Java堪称“代码钢铁侠”，是金融基础设施的坚实支柱。全球顶级交易所依靠Java强大的性
从零开始理解Transformer模型：架构与应用淮橘√ transformer 深度学习人工智能
引言近年来，Transformer模型席卷了自然语言处理（NLP）领域，成为了深度学习中的明星架构。从Google提出的《AttentionisAllYouNeed》论文到ChatGPT、BERT等模型的广泛应用，Transformer以其强大的性能和灵活性改变了我们对序列建模的认知。本文将从零开始，深入浅出地解析Transformer的架构原理、核心组件以及实际应用场景，并提供一个简单的代码示例
筑牢医疗AI安全防线：四重防护体系全解析 Allen_Lyb 数智化教程（第二期）人工智能安全
一、引言：医疗AI发展中的安全困境在数字化浪潮席卷下，医疗领域正经历着一场由人工智能（AI）驱动的深刻变革。医疗AI凭借其强大的数据分析与处理能力，在疾病诊断、药物研发、健康管理等诸多环节展现出巨大潜力，成为推动医疗行业进步的关键力量。而这一切的背后，医疗数据作为AI发展的“燃料”，以及AI算力作为运行的“引擎”，起着不可或缺的核心作用。医疗数据涵盖了患者从基本信息、病史、症状描述到各种检查检验报
Open AI在AI人工智能领域的技术安全防护体系 AI智能探索者 AI Agent 智能体开发实战人工智能安全网络 ai
OpenAI在AI人工智能领域的技术安全防护体系关键词：OpenAI、AI安全、技术防护、伦理框架、模型对齐、数据隐私、对抗攻击摘要：本文将深入探讨OpenAI在人工智能领域构建的多层次技术安全防护体系。我们将从基础概念出发，逐步解析OpenAI如何通过技术创新和系统设计来确保AI系统的安全性、可靠性和可控性。文章将涵盖从数据安全到模型对齐，从伦理框架到实际防护技术的全方位内容，帮助读者全面理解现
揭秘自然语言处理在AI人工智能领域的奥秘 AI智能探索者 AI Agent 智能体开发实战人工智能自然语言处理 easyui ai
揭秘自然语言处理在AI人工智能领域的奥秘关键词：自然语言处理、AI人工智能、语言理解、语言生成、语义分析摘要：本文深入探讨了自然语言处理（NLP）在AI人工智能领域的奥秘。首先介绍了自然语言处理的背景，包括目的、预期读者、文档结构和相关术语。接着阐述了自然语言处理的核心概念与联系，通过文本示意图和Mermaid流程图进行展示。详细讲解了核心算法原理和具体操作步骤，并用Python源代码进行阐述。分
【LangChain编程：从入门到实践】AI 大模型检索增强生成 RAG 实践 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LangChain编程：从入门到实践-AI大模型检索增强生成RAG实践关键词：LangChain,RAG,大语言模型,检索增强生成,向量数据库,嵌入模型,提示工程1.背景介绍在人工智能和自然语言处理领域,大语言模型(LargeLanguageModels,LLMs)的出现无疑是一个重大突破。像GPT-3、GPT-4这样的模型展现出了惊人的语言理解和生成能力,为各种应用场景带来了无限可能。然而,这些
基于深度学习的线上问诊系统设计与实现（Python+Django+MySQL）神经网络15044 深度学习算法神经网络 python 深度学习 django 机器学习人工智能算法目标检测
基于深度学习的线上问诊系统设计与实现（Python+Django+MySQL）一、系统概述本系统结合YOLOv8目标检测和ResNet50图像分类算法，构建了一个智能线上问诊平台。系统支持用户上传医学影像（皮肤照片/X光片），自动分析并生成诊断报告，同时提供医生审核功能。二、技术栈后端框架：Django4.2数据库：MySQL8.0深度学习：YOLOv8：皮肤病变区域检测ResNet50：肺炎X光
深度学习中常见激活函数总结向左转,　向右走ˉ 深度学习人工智能 pytorch python
以下是一份深度学习激活函数的系统总结，涵盖定义、类型、作用、应用及选择影响，便于你快速掌握核心知识：一、激活函数的定义在神经网络中，激活函数（ActivationFunction）是神经元计算输出的非线性变换函数，作用于加权输入和偏置之和：输出=f(加权和+偏置)核心价值：引入非线性，使神经网络能够拟合任意复杂函数（无激活函数的深度网络等价于单层线性模型）。二、常见激活函数类型1.线性函数（Lin
AI离全社会普及，只差一个计算中心？ a13163944010 人工智能
过去十年，人工智能（AI）大爆炸，并第一次走进普通人的生活。但蓬勃发展的AI却碰到一个空前棘手的问题：自2012年以来，AI算力需求6年增长30万倍，远超摩尔定律！人类现有的基础设施，已跟不上AI算力需求的增长。未来，该怎么办？【1】一百多年前，人类也曾面临同样的难题。1866年，德国西门子发明自激发电机，开启了人类的电力时代。此后十几年，虽然很多企业纷纷采用电能这种新的动力，但一台电机只能供应一
首次使用“非英伟达”芯片！OpenAI租用谷歌TPU，降低推理计算成本加百力科技知识财经研究人工智能 chatgpt
OpenAI近期开始租用谷歌TPU芯片，这是该公司首次大规模使用非英伟达芯片。除了OpenAI外、苹果、SafeSuperintelligence和Cohere等公司也一直租用谷歌云的TPU。英伟达的芯片主导地位正被侵蚀，OpenAI租用谷歌TPU，为首次大规模使用“非英伟达”芯片。周六，据媒体报道，作为全球最大的人工智能芯片客户之一，OpenAI近期开始租用谷歌的TPU芯片为ChatGPT等产品
AI人工智能神经网络马里亚纳海沟网人工智能神经网络深度学习笔记运维全文检索搜索引擎
**AI人工智能神经网络概述**神经网络是并行计算设备，它们试图构建大脑的计算机模型。背后的主要目标是开发一个系统来执行各种计算任务比传统系统更快。这些任务包括模式识别和分类，近似，优化和数据聚类什么是人工神经网络(ANN)人工神经网络(ANN)是一个高效的计算系统，其核心主题是借用生物神经网络的类比。人工神经网络也被称为人工神经系统，并行分布式处理系统和连接系统。ANN获取了大量以某种模式相互连
FP16、BF16、INT8、INT4精度模型加载所需显存以及硬件适配的分析 herosunly 大模型精度 BF16 硬件适配
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了FP16、INT8、INT4精度模型加载占用显存大小的分析，希望对学习大
智能办公与科研革命：ChatGPT+DeepSeek大模型在论文撰写、数据分析与AI建模中的实践指南 jwwkyjspt 机器学习 SCI论文人工智能 chatgpt 语言模型机器学习
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
初学Spring AI 笔记笑衬人心。大模型学习 spring 人工智能笔记
目录SpringAI简介依赖与环境配置基础概念集成OpenAI（或其他LLM提供商）Prompt模板引擎Embedding与向量数据库SpringAIChatClient使用SpringAI和LangChain对比常见问题与建议SpringAI简介SpringAI是Spring团队推出的人工智能集成框架，旨在简化AI模型（如OpenAI、HuggingFace、Mistral、AzureOpenA
AI新高度——DEEPSEEK 数字隐士·赛博智者 ai
DeepSeek是由中国人工智能公司「深度求索」开发的一系列高性能大语言模型产品及相关技术体系，其定位为通用人工智能（AGI）探索者，目前已发展成为全球增长最快、性能领先的开源模型之一。下面是关于DeepSeek的详细介绍：一、DeepSeek的开发者与背景‌公司名称‌：杭州深度求索人工智能基础技术研究有限公司（成立于2023年）‌核心支持‌：由中国知名对冲基金「高毅资产」创立并提供资金与技术资源
【机器学习&深度学习】适合微调的模型选型指南一叶千舟深度学习【应用必备常识】深度学习人工智能
目录一、不同规模模型微调适用性二、微调技术类型对显存的影响三、选择建议（根据你的硬件）四、实际模型推荐五、不同模型适合人群六、推荐几个“非常适合微调”的模型七、推荐使用的微调技术八、场景选择示例场景1：智能客服（中文）场景2：法律问答（中文RAG）场景3：医学问答/健康咨询场景4：AI写作助手（中英文）场景5：代码补全/AI编程助手对比总结表九、不同参数模型特点9.1参数规模vs能力9.2微型模型
【机器学习&深度学习】本地部署 vs API调用：关键看显存！一叶千舟深度学习【应用必备常识】深度学习人工智能
目录一、本地部署VSAPI调用1.模型运行方式2.性能与速度3.成本4.隐私与安全5.何时选择哪种方式？二、为什么推荐本地部署？1️⃣零依赖网络和外部服务，更可靠稳定2️⃣无调用次数限制，更适合高频或批量推理3️⃣避免长期API费用，节省成本4️⃣保护用户隐私和数据安全5️⃣可自定义、深度优化6️⃣加载一次即可复用，低延迟高性能7️⃣离线可用（重要！）三、适合本地部署的情况四、本地部署条件4.1模
深度学习 vs 传统机器学习：哪个更适合你的项目？ AI大模型应用之禅深度学习机器学习人工智能 ai
深度学习vs传统机器学习：哪个更适合你的项目？关键词：深度学习、传统机器学习、特征工程、数据量、计算资源、项目选择、算法对比摘要：本文将用"炒菜"和"拼图"等生活案例，从核心原理、适用场景、资源需求等维度对比深度学习与传统机器学习。通过具体代码示例和真实项目场景分析，帮助开发者和企业决策者快速判断：你的项目该选深度学习还是传统机器学习？背景介绍目的和范围随着AI技术普及，"该用深度学习还是传统机器
LLM大语言模型学习笔记（1） Arixs666 大语言模型语言模型笔记人工智能
1.概念大语言模型（LLM，LargeLanguageModel），也称大型语言模型，是一种旨在理解和生成人类语言的人工智能模型。LLM通常指包含数百亿（或更多）参数的语言模型，它们在海量的文本数据上进行训练，从而获得对语言深层次的理解。2.能力2.1涌现能力区分大语言模型（LLM）与以前的预训练语言模型（PLM）最显著的特征之一是它们的涌现能力。涌现能力是一种令人惊讶的能力，它在小型模型中不明显
[论文阅读] 人工智能 + 软件工程 | 揭秘ChatGPT在软件开发问题解决中的有效性：一项实证研究张较瘦_ 前沿技术论文阅读人工智能软件工程
揭秘ChatGPT在软件开发问题解决中的有效性：一项实证研究论文：WhatMakesChatGPTEffectiveforSoftwareIssueResolution?AnEmpiricalStudyofDeveloper-ChatGPTConversationsinGitHubarXiv:2506.22390WhatMakesChatGPTEffectiveforSoftwareIssueRe
[论文阅读] 人工智能 + 软件工程 | 代码注释不一致问题研究：从数据革新到端到端解决方案张较瘦_ 前沿技术论文阅读人工智能软件工程
代码注释不一致问题研究：从数据革新到端到端解决方案原文：CCISOLVER:End-to-EndDetectionandRepairofMethod-LevelCode-CommentInconsistencyarXiv:2506.20558CCISolver:End-to-EndDetectionandRepairofMethod-LevelCode-CommentInconsistencyRe
【深度学习|学习笔记】如何在深度学习中使用正则化技术进行模型压缩、稀疏建模和迁移学习调优？努力毕业的小土博^_^ 机器学习基础算法优质笔记2 深度学习学习笔记迁移学习人工智能机器学习
【深度学习|学习笔记】如何在深度学习中使用正则化技术进行模型压缩、稀疏建模和迁移学习调优？【深度学习|学习笔记】如何在深度学习中使用正则化技术进行模型压缩、稀疏建模和迁移学习调优？文章目录【深度学习|学习笔记】如何在深度学习中使用正则化技术进行模型压缩、稀疏建模和迁移学习调优？✅一、使用正则化进行模型压缩（ModelCompression）目标：方法：L1正则化促使权重稀疏化代码示例：后续压缩步骤
数字孪生：未来城市管理的革命性技术大有数据可视化信息可视化
一、数字孪生技术概述数字孪生技术是一种通过创建虚拟模型与物理实体之间实时交互的技术。它借助物联网、大数据、云计算、人工智能等前沿技术，实现对物理实体的精准映射与动态仿真。数字孪生的核心在于构建一个与物理世界相对应的虚拟模型，该模型能够实时反映物理实体的状态，并通过数据分析与模拟优化其性能。在城市管理领域，数字孪生技术为城市管理者提供了一种全新的视角和工具。城市是一个复杂的巨系统，涉及基础设施、交通
人类编程时代即将终结？OpenAI首席产品官预测AI将在今年底全面超越人类程序员前端javascript
ReactHook深入浅出CSS技巧与案例详解vue2与vue3技巧合集VueUse源码解读近日，OpenAI首席产品官KevinWeil在接受采访时表示，人工智能的发展速度远超预期，今年底就有可能在编程领域永久性地超越人类程序员。这一观点立即引发了行业热议，也让程序员们对未来产生了深刻的思考。人工智能的进展速度远超想象在与VarunMayya和TanmayBhat共同主持的YouTube节目《O
Python大数据分析&人工智能教程 - Django-Celery异步处理（深入解析与实战案例） AI_DL_CODE python 数据分析 Django Celery异步处理 Celery
文章目录1.概念介绍1.1Django框架概述1.2Celery异步任务队列1.3AMQP协议与消息路由2.环境搭建2.1安装Django和Celery2.2配置Redis作为消息代理3.Celery架构与工作原理3.1Celery组件介绍3.2任务生命周期3.3任务调度与执行3.3.1定时任务3.3.2异步任务调用3.3.3任务结果查询4.Django与Celery集成4.1创建Celery实例
智能之火，重塑创造：大模型如何点燃新一代开发引擎？黑巧克力可减脂 AIGC 人工智能 AIGC
导言：普罗米修斯之火再现在科技演进的长河中，每一次生产力的跃迁都伴随着工具的质变。从蒸汽机轰鸣到电力普及，再到信息高速公路的铺就，人类驾驭能量的能力不断突破。今天，我们站在一个崭新的临界点上：大语言模型（LLM）正将人工智能的“普罗米修斯之火”引入软件开发的核心腹地。这不再仅仅是效率的优化，更是对开发者角色、开发流程乃至软件本质的深度重塑。GitHubCEOThomasDohmke曾断言：“Cop
Python大数据分析&人工智能教程 - Django-RestFramework框架（深入解析+实操案例） AI_DL_CODE python 数据分析 django RestFramework框架
文章目录1.Django-RestFramework基础1.1Django-RestFramework概述1.2安装与配置1.3构建第一个API1.3.1定义模型1.3.2创建序列化器1.3.3定义视图1.3.4配置URL路由1.4进阶功能1.4.1权限控制1.4.2限流1.5实战案例1.5.1创建图书1.5.2查询图书1.5.3更新图书1.5.4删除图书2.序列化器(Serializers)2.
Python从0到100完整学习指南（必看导航）是Dream呀 Python python 人工智能爬虫 web 神经网络算法深度学习
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学业升学和工作就业的先行者！【优惠信息】•新专栏订阅前1000名享9.9元优惠•订阅量破10
【机器学习&深度学习】模型微调的基本概念与流程一叶千舟深度学习【理论】机器学习深度学习人工智能
目录前言一、什么是模型微调（Fine-tuning）？二、预训练vs微调：什么关系？三、微调的基本流程（以BERT为例）1️⃣准备数据2️⃣加载预训练模型和分词器3️⃣数据编码与加载4️⃣定义优化器5️⃣开始训练6️⃣评估与保存模型四、是否要冻结BERT层？五、完整训练示例代码5.1环境依赖5.2执行代码总结：微调的优势前言在自然语言处理（NLP）快速发展的今天，预训练模型如BERT成为了众多任务
FastGPT与MCP：解锁AI新时代的技术密码挑战者666888 AI模型应用实战迁移学习集成学习文心一言
一、AI浪潮中的新星：FastGPT与MCP登场在当今科技飞速发展的时代，人工智能（AI）已成为推动各行业变革的核心力量。从智能语音助手到复杂的图像识别系统，AI的应用无处不在，而其中的关键技术——语言模型和集成平台，更是备受关注。FastGPT和MCP（Multi-ComponentPlatform）作为这一领域的新兴代表，正逐渐崭露头角，为AI的发展注入新的活力。FastGPT，以其高效的推理
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本