Amusi（CVer）

CVPR 2021 | Transformer再下一城！复旦等提出SETR：语义分割网络

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

本文作者：湃森 | 来源：知乎（已授权）

https://zhuanlan.zhihu.com/p/348418189

一、论文信息

标题：《Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers》

作者：Sixiao Zheng et al.（复旦大学 & 牛津大学 & 萨里大学 & 腾讯优图 & 脸书）

文章：https://arxiv.org/abs/2012.15840

源码：https://github.com/fudan-zvg/SETR

二、论文解读

2.1 动机

自全卷积神经网络（FCN）提出以来，现有的语义分割框架大都是基于编码器-解码器（Encoder-Decoder）范式，其中：

编码器用于压缩原始输入图像的空间分辨率并逐步地提取更加高级的抽象语义特征；

解码器则用于将编码器所提取到的高级特征上采样到原始输入分辨率以进行像素级的预测；

上下文（context）信息是提升语义分割性能最关键的因素，而感受野（respect-field）则大致决定了网络能够利用到多少的信息。通常，在编码器中，我们会在下采样的过程中逐层的降低空间分辨率，以减少计算资源的消耗同时有效的扩大了网络的感受野。如此一来，CNN中不仅由于卷积的参数共享使得网络具有平移等变性（translation equivalence），而且还因为引入池化操作在一定程度上为网络引入了平移不变性（translation invariant），使网络对目标位置不那么敏感，间接地增强了网络对未知数据的推理能力，同时又通过共享卷积核来达到控制模型的复杂度。理论上，通过堆叠足够深的卷积层网络的感受野能够覆盖到输入图像的全局区域，然而：

（1）相关研究表明，网络的实际感受野远小于其理论感受野；

（2）考虑到参数量激增和计算量消耗与性能之间的平衡；

（3）过多的下采样操作会导致小目标的细节信息被严重损失甚至完全丢失；

因此，由于网络中的有效感受野是有限的（limited），这将会严重制约模型的表示能力。

其实，对于语义分割乃至分类、检测等几大主流的视觉任务来说，近几年的工作大都是基于一个核心点出发，即如何在保证效率的同时尽可能的捕获有效的上下文信息。主流方法主要有两种——改造原始的卷积操作或者在网络中引入注意力机制。

对于改造原始的卷积操作方式主要是通过扩大感受野从而来捕获局部的上下文信息：

large kernel sizes，e.g., Inception block；
atrous/dialted convolution, e.g., DeepLab series;
image/feature pyramid, e.g., PSPNet;
deformable convolution;
...

而注意力方法则更倾向于从不同维度建立长距离的依赖从而来捕获全局的上下文信息：

channel attention, e.g., SENet;
spatial attention, e.g., DANet;
self-attention, e.g., NonLocalNet;
...

作者认为，上述的方法均是基于FCN架构，均无法摆脱编码器需要对输入特征图进行降采样的操作。而我们知道，Transformer 的一个特性便是能够保持输入和输出的空间分辨率不变，同时还能够有效的捕获全局的上下文信息。因此，作者这里便采用了类似ViT的结构来进行特征提取同时结合Decoder来恢复分辨率。在一定程度上可以避免审稿人质问：（1）Transformer和其它的自注意力的方法有啥区别？（2）利用Transformer进行特征提取相比于CNN有何优势？——写论文就是要会讲故事，让reviewer挑不出你的毛病。当然，这只是其中一关，除了故事本身的逻辑性，实验设置得是否合理以及充分也是个可以挑刺的地方。除此之外，我们知道TF的一个显著缺陷便是对计算和存储的要求特别高，如果没有进行底层优化，很难在GPU端飞起来。作者也是很巧妙，避开刷精度的路子，题目起了个"Rethinking"，意在告诉审稿人我这只是一种尝试，我告诉后来人这条路走得通，可以往这走，至于效率优化方面就留点工作给别人，你也不要死揪着我这点不放哈哈。如果TF在分割这条路能一直火下去的话，ViT、DETR和SETR这三篇文章的引用量估计会获得爆发式的增长。关于TF的底层GPU优化，可以参考快手异构团队的工作。

为了避免给审稿人造成一种这就是一篇“ViT+Decoder”堆积木文章的错觉，作者还特地在引言末尾强调，话虽如此，但：

However, extending a pure transformer from image classification to a spatial location sensitive tasks of semantic segmentation is non-trivial.

话说这句话我还是挺认同作者的。因此笔者在此之前基于Pytorch框架随手复现了下这个结构，基于ViT进行特征提取，然后把中间层间隔抽出来并结合Decoder进行输出，在利用多卡训练的过程种发现性能只不过跟UNet差不多，但是效率方面，额(⊙﹏⊙)，而且会出现学习率稍微大点loss就nan等问题。本以为能一飞冲天，结果没两个epoch一言不合就给你搞到自闭。当然笔者也不是专门在研究这个只是跑着玩玩，没去了解过这方面的训练技巧和一些注意事项，可能我实现的姿势不对，说不定这家伙很好train呢？继续往下读读，看看有没有惊喜╰(*°▽°*)╯，毕竟作者在ADE20K这个数据集上过榜首，至少说明是能work的吧？？？

2.2 相关工作

主要介绍了下语义分割和Transformer这两大板块的内容。最后着重分析了与Axial-DeepLab的不同之处：

Axial有对输入图像进行下采样，而SETR则全程利用序列到序列的模式并没有降低分辨率；
Axial采用了专门的设计的轴向注意力（见下），这对于标准计算设备来说可扩展性差，而SETR则始终坚持使用纯正的TF模块，可以简化易用性；

说实话，这里给出的区别点有点牵强，不明白作者为何要在这里特别强调这个，可能是审稿人提出跟Axial的区别吧？要不然这里贸然的对比意义并不大。

Axial-DeepLab是发表于ECCV 2020的一篇spotlight文章《Axial-DeepLab: Stand-Alone Axial-Attention for Panoptic Segmentation》，其核心思想是利用轴向注意力，即通过将2D的自注意力分解为两个1D的自注意力来消除卷积操作种局部感受野的限制，在降低计算复杂度的同时建立远距离的依赖捕获全局的上下文信息。除此之外，作者还提出了一个对位置敏感的自注意力设计，两者共同结合开发出一个position-sensitive axial-attention layer。额，不仔细看还以为是CCNet的翻版，这操作明显跟CCNet很类似啊，作者并没比较，而是往Non-Local方向上去进行横向比较了。

2.3 方法

SETR主要由三部分组成：输入→转换→输出。

CVPR 2021 | Transformer再下一城！复旦等提出SETR：语义分割网络_第2张图片

Schematic illustration of the proposed SEgmentation TRansformer (SETR) 。(a) 输入预处理及特征提取；（b）渐进式上采样；（c）多层级特征聚合。

2.3.1 Image to sequence

首先，需要将原始的输入图片处理成Transformer能够支持的格式，这里作者参考了ViT的做法，即对输入图像进行切片处理，将每一个2D的图像切片（patch）视为一个“1D”的序列作为整体输入到网络当中。通常来说，Transformer接收的输入是一个1维的特征嵌入序列 ,其中为序列的长度，为隐藏层的通道尺寸。因此，对于图像序列而言，我们也需要将输入转换为 .

一种最直接的做法便是将输入展平为一个列向量，这样暴力的做法无疑会造成计算量的爆炸。因此，作者这里采用切片的方式，每个切片大小为16*16，那么对于一张256*256大小的图片来说就可以切成256块（）。为了对每个切片的空间信息进行编码，可以为每个局部位置都学习一个特定的嵌入，并将其添加到一个线性的投影函数中来形成最终的输入序列。如此一来，进行Transofomer是无序的，我们也仍然可以保留相对应的空间位置信息，因为我们对原始的位置信息进行了关联。

2.3.2 Transformer

通过将序列输入到Transformer架构可进行特征的提取，其主要包含两个部分Multi-head Self-Attention (MSA) and Multilayer Perceptron (MLP) blocks。具体的没啥好讲，自注意力核心就是QKV操作，而多头只不过是将它分组进行计算而已，稍微看下应该挺好理解的。

这里linear projection layers一般是指全连接层，用于改变通道维度。

CVPR 2021 | Transformer再下一城！复旦等提出SETR：语义分割网络_第3张图片

标准的Transformer结构

关于Transformer家族，可参考下图：

CVPR 2021 | Transformer再下一城！复旦等提出SETR：语义分割网络_第4张图片

2.3.3 Decoder

关于解码器，作者这里给出了三种结构。值得注意的是，经过TF所提取出的特征其输入和输出的维度是一致的，为了进行最终的像素级分割，我们需要将其reshape成原始的空间分辨率。

Naive upsampling：第一种上采样方法比较朴素，作者这里给出的是利用一个2层的网络，即“1*1卷积+sync BN+ReLU+1*1卷积”，然后直接双线性上采样回原图分辨率；
Progressive UPsampling：第二种方式是采用渐进式上采样。为了避免引入过度的噪声，同时避免adversarial的影响（其实就是边缘会出现锯齿状），作者避免一步上采样，而是逐步的2倍上采样回去，类似于U-Net的操作；
Multi-Level feature Aggregation：第三种上采样方式是采用基于金字塔特征融合策略的多层级特征聚合。当然，这里并非严格的金字塔融合，毕竟TF每一层的输出特征图分辨率都是相同的。具体地，每隔6层抽取一个输出特征，将将其reshape成，然后分别经过一个3层（1×1+3×3+3×3）的网络，其中第1层和第3层的特征图通道数将为原始的一半，即输出维度是，随后对其进行4倍的双线性上采样操作，因此输出维度为。为了增强不同层特征之间的交互，采用了自顶向下逐层融合（element-wise addtion）的策略，同时在每一层的融合后面外接一个3×3的卷积操作。最后，再将顶层特征图以及三层融合后的输出层特征分别按通道维度进行拼接级联，然后直接4倍双线性上采样回去，最终的输出维度为，这里还需要接个根据类别数进行转换输出。

2.4 实验

数据集

在Cityscapes[1]、ADE20K[2]以及PASCAL Context[3]这三个数据集上进行实验评估；

实现细节

基于mmsegmentation框架里面默认的设置（如数据增强和训练策略）：

(1) 先以0.5或2的比例随机resize原图，然后随机裁剪成768、512和480分别应用于上述三个数据集，紧接着执行随机的水平翻转；

(2) 对于Cityscapes数据集，采用的batch size为8；而两外两个数据集ADE20K和PASCAL 则分别采用batch size为8和16的大小迭代训练160k和80k次；

(3) 采用多项式的学习率衰减策略并基于SGD进行训练和优化，其中Momentum和Weight decay分别设置为0.9和0；

(4) 最后，对于上述三个数据集的初始学习率分别设置为0.01、0.001以及0.01.

辅助损失

同PSPNet一样，作者在这里也引入了辅助损失。即监督不同的的层级输出：

(1) Naive upsampling——(Z10; Z15; Z20)；

(2) Progressive UPsampling——(Z10; Z15; Z20; Z24)；

(3) Multi-Level feature Aggregation——(Z6; Z12; Z18; Z24)；

在PSPNet中最终的损失是，这里没有说加权应该是全部直接相加然后计算了。这里采用的是一个2层的（3×3 conv + Synchronized BN + 1×1 conv）网络进行中间层的输出。

多尺度测试

首先将输入图像缩放到一个统一的尺寸，然后执行多尺度的缩放以及随机的水平翻转，尺度缩放因子分别为（0.5，0.75，1.0，1.25，1.5，1.75），紧接着采用滑动窗口的方式进行重叠的切片预测，最后再合并测试结果。如果移动的步长不足以得到一张完整的切片，那么以短边为例保持同等的aspect ratio。其中，由于采用的是多卡的分布式训练，因此Synchronized BN也被用于解码器和辅助损失头的训练过程中。为了简化训练过程，作者这里并没采用在线困难样本挖掘（OHEM）[4]之类的trick用于模型的训练。

基准模型

采用mmsegmentation中自带的dilated FCN和Semantic FPN。注意到，考虑到计算的瓶颈，最终的FCN是8倍上采样回去，而本文所提出的SETF是进行16倍上采样。

SETR变体

SETR-Naive, SETR-PUP和SETR-MLA对应上述三种解码器。另外，对于编码器来说，采用的是M层的Transformer，这里根据M的大小划分为"T-Small"和"T-Large"，分别对应12和24层。除非特别说明，本文默认采用的是24层的TF（这样一来就有3*2=6种组合）。初次之外，作者还涉及了一种结合CNN+TF的混合模型，即采用ResNet-50作为预编码器用于初步的特征提取，然后将所提取特征喂入SETR进行进一步的特征提取。为了降低GPU的计算开销，这里ResNet-50将原始输入图像下采样16倍，同时采用SETR-Naive-S的组合。

预训练

作者将ViT训练出来的权重用于SETR的编码器进行权重初始化。额，说白了就是把它照搬过来微调了下（白嫖？）。值得注意，这里非常关键的一点是随机初始化和带ViT的预训练权重效果差别这么大：

CVPR 2021 | Transformer再下一城！复旦等提出SETR：语义分割网络_第5张图片

可视化

CVPR 2021 | Transformer再下一城！复旦等提出SETR：语义分割网络_第6张图片

可以看出，在第1层的时候便可以捕获到全局的特征，越往后所提取到的特征越抽象。这足以证明Transformer建立长距离依赖的能力。

三、总结

总的来说，本文将Pure Transformer在自然图像的语义分割任务上进行了首次尝试，整体来说取得的效果是相当不错的。知乎貌似有许多人对其开炮，质疑其创新点不足或者没有放出参数量计算量等亦或是没跟基于自注意力的方法如CC-Net和EMA-Net等比较。然而，我个人的观点的是论文本身可以分为两种，一种是精度型，一种是探索型。大家纠结的原因就是将其归纳为前者，当然这里与作者反复强调在ADE-20k数据集上取得xx成绩也有关，很容易把节奏带进去。为了弥补，作者在题目又强调时Rethinking，即本文只是尝试可以这样做。且不论这个创新性有多强，这其实更应该被当成一篇实验性论文，告诉大家这条路可以走得通。其实，当看到这篇文章的时候，我最关注的地方并不是整体的结构，而是作者是如何将其训练到work的？毕竟这种结构我想绝大多数人都试到吐了，通过整篇文章读下来，才发现要训好这个网络步骤原来这么繁琐，难道笔者基于同样的结构训练一轮下来被直接摁在地下摩擦。最后，很好奇SETF是基于什么样的硬件设施下进行实验的？（作者已在知乎回答了这个问题：感谢解读，8块32GV100一个实验。我们会在更新版中给出参数GFLOPs以及FPS。我们三个variants都有着比ResNet269+PSP，ResNest200+DeepLabV3更小的GFLOPs以及接近的FPS）

Reference

[1] The cityscapes dataset for semantic urban scene understanding.

[2] Semantic understanding of scenes through the ade20k dataset.

[3] The role of context for object detection and semantic segmentation in the wild.

[4] Ocnet: Object context network for scene parsing

论文PDF和代码下载

后台回复：SETR，即可下载上述论文PDF和代码

后台回复：CVPR2021，即可下载CVPR 2021论文和代码开源的论文合集

后台回复：Transformer综述，即可下载两个最新的视觉Transformer综述PDF，肝起来！

CVer-Transformer交流群成立

扫码添加CVer助手，可申请加入CVer-Transformer方向 微信交流群，方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。

一定要备注：研究方向+地点+学校/公司+昵称（如Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲长按加小助手微信，进交流群

▲点击上方卡片，关注CVer公众号

整理不易，请给CVer点赞和在看

机器学习之向量化珠峰日记 AI理论与实践机器学习人工智能
文章目录向量化是什么为什么要向量化提升计算效率简化代码与增强可读性适配模型需求怎么做向量化数据预处理特征提取特征选择向量构建机器学习与深度学习中向量化的区别数据特征提取方式机器学习深度学习模型结构与复杂度机器学习深度学习计算资源需求机器学习深度学习数据规模适应性机器学习深度学习向量化是什么向量化是把数据转化为向量形式进行表示与处理的过程。在机器学习与深度学习的范畴内，现实中的各类数据，像文本、图像
Lec01-什么是安全？蛋蛋deべ忧桑安全
本文使用人工智能协助翻译，内容仅供参考，可能有错误或遗漏。如果你对内容或超链接有疑问，可以查看原文。参考资料地址：https://github.com/PKUFlyingPig/MIT6.16006.1600课程团队：HenryCorrigan-Gibbs,YaelKalai,BenKettle(TA),NickolaiZeldovich2022年秋季[!warning]免责声明本套笔记为正在进行
从零精通机器学习：线性回归入门吴师兄大模型 0基础实现机器学习入门到精通机器学习线性回归人工智能 python 算法回归开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
聊聊Python都能做些什么 ·零落· Python入门到掌握 python 开发语言
文章目录一、Python简介二、Python都能做些什么1.Web开发2.数据分析和人工智能3.自动化运维和测试4.网络爬虫5.金融科技三、Python开源库都有哪些1.Web开发2.数据分析和科学计算3.机器学习和深度学习4.网络爬虫5.自动化和测试6.其他常用库四、相关链接一、Python简介Python是一种解释型、面向对象、动态数据类型的高级程序设计语言。它最初由GuidovanRossu
基于改进ISODATA算法的负荷场景曲线聚类（matlab代码）电力程序小学童聚类 matlab ISODATA算法风电光伏
目录1主要内容聚类中心选取步骤核方法2部分代码3程序结果4程序链接1主要内容程序复现文献《基于机器学习的短期电力负荷预测和负荷曲线聚类研究》第三章《基于改进ISODATA算法的负荷场景曲线聚类》模型，该方法不止适用于负荷聚类，同样适用于风光等可再生能源聚类，只需要改变聚类的数据即可，该方法的通用性和可创新性强。该代码实现一种基于改进ISODATA算法的负荷场景曲线聚类方法，代码中，主要做了四种聚类
NLP高频面试题（四）——BN和LN的区别与联系，为什么attention要用LN Chaos_Wang_ NLP常见面试题自然语言处理人工智能
在深度学习模型中，Normalization是一种极为重要的技巧，BatchNormalization（BN）和LayerNormalization（LN）是其中最为常用的两种方法。然而，二者在实际应用中有着明显的区别与联系，尤其在Transformer的Attention机制中，LN有着独特的优势。一、BN与LN的核心区别与联系1.BatchNormalization(BN)BN的思想源于一个叫
《基于机器学习的负荷曲线聚类算法对比与改进：K-L-isodata的创新性研究》 TWHiwhjig 机器学习算法聚类
基于机器学习的负荷曲线聚类包括kmeansisodata和改进的L-isodata以及在其基础上再次进行改进的K-L-isodata(有创新性)，四者通过评价指标进行了对比精品代码可修改性极高有参考文献ID:93150688324967700自律的电气人基于机器学习的负荷曲线聚类是一种基于数据分析和模式识别的技术，它可以帮助我们对系统的负荷变化进行分类和理解。在负荷曲线聚类的研究中，K-means
机器学习Pandas_learn4 XW-ABAP 机器学习机器学习 pandas 人工智能
importpandasaspddefcalculate_goods_covariance():#定义商品销售数据字典goods_sales_data={"时期":["一期","二期","三期","四期"],"苹果":[15,16,3,2],"橘子":[12,14,16,18],"石榴":[11,8,7,1]}#将字典转换为DataFrame对象goods_dataframe=pd.DataFra
Browser Use开启AI辅助网页操作新时代 CodeJourney. python 人工智能算法数据库
在当今数字化时代，人们的工作和生活与互联网紧密相连。每天，我们都要花费大量时间在各类网站之间穿梭，进行诸如填写表单、查询信息、比价等重复性操作。这些工作不仅耗费精力，还容易因疲劳而出错，严重影响了工作效率。而现有的自动化工具，要么需要掌握专业的编程知识才能使用，要么在功能上存在局限性，让普通技术用户望而却步。不过，随着人工智能技术的飞速发展，一款名为BrowserUse的开源项目应运而生，为我们带
ChatGPT + Vue3：如何打造 AI 智能助手？ Js_x chatgpt 人工智能
引言人工智能（AI）正快速渗透到前端开发领域，越来越多的开发者希望将ChatGPT集成到自己的应用中，为用户提供智能对话、自动回复、辅助决策等功能。本文将介绍如何使用Vue3+OpenAIAPI搭建一个AI智能助手，让你的应用拥有强大的AI交互能力。1.项目准备1.1技术栈选择本项目将使用以下技术：Vue3-现代化的前端框架，响应式强，适合构建交互式应用。Vite-高效的Vue3项目构建工具，提升
用 AI 提高开发效率：自动生成代码、优化 SQL 查询、写测试用例 Js_x 人工智能 sql 测试用例
引言人工智能（AI）正在深刻改变软件开发行业。从代码自动补全到SQL查询优化，再到自动化测试，AI工具已经成为开发者提高生产力的重要助手。本文将介绍ChatGPT、GitHubCopilot、Tabnine等AI编程工具的实际应用，帮助开发者更高效地编写代码、优化数据库查询，并自动生成测试用例。1.AI代码生成：提升开发效率1.1ChatGPT代码生成ChatGPT具备强大的自然语言处理能力，可以
RAG 在多模态数据处理中的应用探索：结合图像与文本生成 hy098543 AIGC
目录引言多模态数据处理的挑战与需求数据异质性与融合难题多样化应用场景的需求RAG在图像与文本生成中的应用架构图像检索与文本生成协同跨模态特征融合与生成关键技术与实现细节图像特征提取与表示文本检索与语义理解跨模态生成模型训练应用案例分析智能设计辅助医疗影像报告生成结论引言随着信息技术的飞速发展，数据呈现出多模态的特性，即包含文本、图像、音频、视频等多种形式。在自然语言处理（NLP）和计算机视觉（CV
如何使用Python对Excel、CSV文件完成数据清洗与预处理？ Python 集中营 python数据分析应用 python excel 开发语言
在数据分析和机器学习项目中，数据清洗与预处理是不可或缺的重要环节。现实世界中的数据往往是不完整、不一致且含有噪声的，这些问题会严重影响数据分析的质量和机器学习模型的性能。Python作为一门强大的编程语言，提供了多种库和工具来帮助我们高效地完成数据清洗与预处理任务，其中最常用的库包括Pandas、NumPy、SciPy等。本文将详细介绍如何使用Python对Excel和CSV格式的数据文件进行清洗
理解深度学习1-简介 shangjg3 PyTorch深度学习实战深度学习人工智能
人工智能（AI）旨在打造模仿智能行为的系统。它覆盖了众多方法，涵盖了基于逻辑、搜索和概率推理的技术。机器学习是AI的一个分支，它通过对观测数据进行数学模型拟合来学习决策制定。这个领域近年来迅猛发展，现在几乎（虽不完全准确）与AI同义。深度神经网络是一类机器学习模型，将其应用到数据上的过程称为深度学习。目前，深度网络是最强大和最实用的机器学习模型之一，常见于日常生活中。我们常常用自然语言处理（Nat
人工智能专业毕业设计选题清单：热点课题推荐 HaiLang_IT 人工智能算法 python
目录前言毕设选题开题指导建议更多精选选题选题帮助最后前言大家好,这里是海浪学长毕设专题!大四是整个大学期间最忙碌的时光，一边要忙着准备考研、考公、考教资或者实习为毕业后面临的升学就业做准备,一边要为毕业设计耗费大量精力。学长给大家整理了人工智能专业最新精选选题，如遇选题困难或选题有任何疑问，都可以问学长哦(见文末)!对毕设有任何疑问都可以问学长哦!更多选题指导:最新最全计算机专业毕设选题精选推荐汇
RAG问答系统：检索增强生成框架 ZhangJiQun&MXP 2021 论文教学大模型语言模型
目录RAG（Retrieval-AugmentedGeneration）框架一、RAG框架的定义二、RAG框架的工作原理三、RAG框架的举例说明四、RAG框架的优势RAG问答系统二、工作流程三、优势四、应用场景RAG（Retrieval-AugmentedGeneration）框架即检索增强生成框架，是一种结合了信息检索技术与语言生成模型的人工智能技术。以下是对RAG框架的详细解释及举例说明：一、
【Java】已解决：`java.sql.SQLSyntaxErrorException: SQL` 屿小夏 java sql 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
AIGC带来数据革命：R语言如何成为数据科学家的秘密武器？程序边界 AIGC r语言开发语言
文章目录一、R语言的基础特性1.1R语言的起源与发展1.2R语言的核心优势二、R语言在AIGC中的应用场景2.1数据预处理与清洗2.2文本分析与生成2.3机器学习与模型构建2.4数据可视化与报告生成三、R语言在AIGC中的具体案例3.1金融数据分析与预测3.2医疗数据分析与建模3.3社交媒体数据分析与情感分析四、R语言在AIGC中的未来展望4.1与深度学习框架的集成4.2与云计算平台的集成4.3与
PyTorch 深度学习实战（12）：Actor-Critic 算法与策略优化进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们介绍了强化学习的基本概念，并使用深度Q网络（DQN）解决了CartPole问题。本文将深入探讨Actor-Critic算法，这是一种结合了策略梯度（PolicyGradient）和值函数（ValueFunction）的强化学习方法。我们将使用PyTorch实现Actor-Critic算法，并应用于经典的CartPole问题。一、Actor-Critic算法基础Actor-Cri
PyTorch 深度学习实战（17）：Asynchronous Advantage Actor-Critic (A3C) 算法与并行训练进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们深入探讨了SoftActor-Critic(SAC)算法及其在平衡探索与利用方面的优势。本文将介绍强化学习领域的重要里程碑——AsynchronousAdvantageActor-Critic(A3C)算法，并展示如何利用PyTorch实现并行化训练来加速学习过程。一、A3C算法原理A3C算法由DeepMind于2016年提出，通过异步并行的多个智能体（Worker）与环境交互
全网测评：2025年最值得中小企业入局的AI无人直播软件花落谁家？ V_13135861102 人工智能
全网测评：2025年最值得中小企业入局的AI无人直播软件花落谁家？在数字化时代，人工智能技术的快速发展为各行各业带来了深刻的变革。直播电商领域也迎来了前所未有的机遇，AI无人直播软件应运而生，逐步改变着传统电商和直播行业的运营模式。对于预算有限、希望实现高效营销的中小企业而言，选择一款合适的AI无人直播软件显得尤为重要。本文将测评几款热门的AI无人直播软件，帮助中小企业找到最适合自己的入局之选。一
大模型转型之路：必要性与未来前景，迎接智能时代的浪潮_转行大模型大模型入门学习人工智能语言模型 AI 大模型 AI大模型程序员转行
随着人工智能（AI）技术的迅猛发展，特别是大型语言模型（LLM,LargeLanguageModels）的崛起，各行各业正迎来一场前所未有的技术革命。对于普通程序员而言，转行进入大模型领域不仅是对个人职业发展的战略性投资，也是顺应时代潮流、把握未来机遇的重要选择。本文将探讨转行大模型的必然性和该领域的未来发展前景。一、转行大模型的必然性技术普及化与学习资源丰富互联网的发展极大地降低了知识获取的成本
7招教你掌握用DeepSeek辅助论文写作的提示词技巧学境思源AcademicIdeas 学境思源 AI写作 ChatGPT 人工智能
随着人工智能技术的快速发展，大模型（如DeepSeek、ChatGPT等）已经成为论文写作的重要辅助工具。合理运用提示词（Prompt），不仅能极大提高写作效率，还能辅助生成高质量的学术内容。今天的内容将分享如何利用DeepSeek的提示词技巧，助力论文写作。1.明确写作目标，让AI理解你的需求在使用大模型时，清晰的写作目标至关重要。一个好的提示词应当包括：写作主题、内容范围、格式要求、风格倾向等
首款折叠iPhone或定价2300美元；百川智能两位联合创始人被曝离职；Manus启用.cn域名 | 极客头条极客日报 iphone ios
「极客头条」——技术人员的新闻圈！CSDN的读者朋友们好，「极客头条」来啦，快来看今天都有哪些值得我们技术人关注的重要新闻吧。整理|郑丽媛出品|CSDN（ID：CSDNnews）一分钟速览新闻点！华为诺亚方舟实验室主任换帅，90后王云鹤接班姚骏百川智能两位联合创始人被曝离职，均开启AI领域创业蝴蝶效应公司正式备案manus.cn域名传刘强东现身香港科技大学参观人工智能，此前有消息称其重回业务一线A
李开复：AI 2.0 时代的价值 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据 java python javascript kotlin golang 架构人工智能
人工智能，AI2.0，价值创造，伦理挑战，未来趋势1.背景介绍人工智能（AI）技术近年来发展迅速，从语音识别、图像识别到自然语言处理，AI已经渗透到我们生活的方方面面。李开复，作为一位享誉全球的人工智能专家，在《AI2.0时代的价值》一文中，深刻地探讨了AI2.0时代带来的机遇与挑战，以及AI如何为人类创造价值。AI1.0时代主要集中在规则驱动的系统，例如围棋、象棋等游戏的AI。而AI2.0时代则
李开复：AI 2.0 时代的机遇 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
人工智能，深度学习，Transformer，大模型，通用人工智能，AI2.0，应用场景，未来趋势1.背景介绍人工智能（AI）技术近年来发展迅速，从语音识别、图像识别到自然语言处理等领域取得了突破性进展。其中，深度学习作为人工智能的核心技术之一，推动了AI技术的飞速发展。然而，深度学习模型的训练成本高、数据依赖性强、可解释性差等问题仍然制约着AI技术的进一步发展。李开复先生在《AI2.0时代的机遇》
C#学习笔记（3）：调用YOLOv8 playerofIE c#学习笔记 YOLO python
最近做的项目需要C#编写上位机程序，同时也要使用yolo进行深度学习检测。使用pythonnet调用写好的py文件，C#代码如下:Runtime.PythonDLL="python310.dll";PythonEngine.Initialize();using(Py.GIL()){dynamicsys=Py.Import("sys");dynamictorch=Py.Import("torch")
DeepSeek重构产业生态：餐饮、金融与短视频的智能跃迁放逐者-保持本心，方可放逐其他重构金融
引言：智能时代的产业共振在数字技术浪潮席卷全球的当下，DeepSeek作为人工智能领域的重要参与者，正以其强大的算法能力和多模态交互特性，深度渗透至餐饮、金融、短视频等民生关键领域。从长江之畔的烟火气到陆家嘴的金融脉搏，从市井小店的智能排班到跨国银行的风险定价，从美食博主的AI替身到探店经济的虚实融合，DeepSeek不仅重塑了传统行业的运营逻辑，更在消费升级与技术创新的交汇处，催生出新的商业范式
2025 职业革命：AI 重构就业图谱的生存法则 RPAdaren 人工智能重构
一、技术迭代下的产业剧变2025年的春天，全球科技界正在见证人工智能的第三次浪潮。根据麦肯锡最新发布的《全球就业趋势报告》，大模型技术已渗透至83%的行业领域。以医疗行业为例，IBMWatson的诊断准确率已达98.7%，超越资深医师平均水平；金融领域，摩根大通的AI交易系统每日处理超2000万笔订单，效率提升400%。这些数据背后，是AI技术从单一功能向通用智能的跨越式发展。二、职业版图的重构逻
YOLOv8 的简介及C#中如何简单应用YOLOv8 码上有潜 YOLOv8 YOLO
YOLOv8是YOLO（YouOnlyLookOnce）系列中的最新版本，是一种用于目标检测和图像分割的深度学习模型。YOLO模型以其快速和准确的目标检测性能而著称，广泛应用于实时应用程序中。主要特点高效性：YOLOv8在保持高检测速度的同时，进一步提高了检测精度。端到端训练：可以直接从图像输入端到分类结果输出，简化了训练和部署过程。改进的架构：包括更深的网络结构、更复杂的特征提取方法以及更高效的
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓