香博士

Transformer在CV上的应用前景

仅做学术分享，如有侵权，联系删除

转载于：链接：https://www.zhihu.com/question/437495132

编辑：深度学习与计算机视觉

目前已经有基于Transformer在三大图像问题上的应用：分类（ViT），检测（DETR）和分割（SETR），并且都取得了不错的效果。

那么未来，Transformer有可能替换CNN吗，Transformer会不会如同在NLP领域的应用一样革新CV领域？后面的研究思路可能会有哪些呢？

作者：mileistone

https://www.zhihu.com/question/437495132/answer/1669853586

Transformer的核心模块是self-attention，CNN的核心模块是conv，我认为在计算机视觉领域self-attention不会替代conv，而是和conv融合、取长补短。

我在CNN与GCN的区别、联系及融合：https://zhuanlan.zhihu.com/p/147654689中对比了self-attention和conv，简述如下：

对比公式（1）和公式（3）

一、每个node的空间变换
（1）和（3）都会对node做空间变换即，和。但是（1）中每个点的空间变换是相同的，而（3）中不同点做的空间变换不同。

二、对node与node之间相关性的建模
（1）中通过对每个空间变化之后的特征进行加权，（即self-attention）显式地对node与node之间的相关性进行了建模，而且这个相关性相对输入而言是动态的。

（3）中虽然没显式地针对node与node之间地相关性进行建模，但是每个node的空间变换不相同，这个不相同隐式地包含了点与点之间的相关性，不过这个相关性相对输入而言是静态的，即无论输入怎么变，点与点之间的相关性一经训练完成就再也不会变化。

这个有点像BN和SENet，BN中的对每个通道有一个加权，SENet会通过SE模块去学每个通道的加权（论文中叫attention），BN中的是静态的，训练结束后每个通道的加权不会根据输入的变化而变化，而SENet中的attention是动态的，每个通道上的attention会因为输入不同而发生变化。

三、局部与全局
（1）中取决于上一层所有的node，而（3）中仅取决于附近的node（卷积核的size决定其范围）。

可以看到从三个角度来看，self-attetion和conv采取了不同的思路。给定一个角度，self-attention的思路一定比conv更好吗？我想可能不一定，不同思路对应不同的数据分布，也就是各有优劣。

给定数据分布，针对不同角度，我们选取self-attention和conv中更好的思路，最后可以融合成一个更好的模块。比如CNN与GCN的区别、联系及融合中所提到的：

公式（1）和（3）既有相似又有区别，那么很直接的一个想法是能否对它们的特性做排列组合，得到更好的模型呢？

比如，结合（3）中的局部性和（1）中的self-attention，得到

再比如，结合（3）中不同点之间不共享空间变化这个特点和（1）中的self-attention，得到

举几个具体的例子。

A、图像跟文本不太一样的一个地方是图像比文本维度更大，直接全部用self-attention，会导致计算量出奇的大，这明显是我们不太愿意看到的，如果借用conv的局部思想也许就可以缓解这个问题，或者干脆在网络前面部分直接用conv。

比如ViT（文章里提到的将图片分成多个无overlap的patch，每个patch通过linear projection映射为patch embedding，这个过程其实就是conv）、DETR。我在关于Vision Transformer的一些思考：https://zhuanlan.zhihu.com/p/276145805里详细分析过ViT，有兴趣可以看一下。

B、conv有两个假设，局部相关性和空间平稳性，在conv横行计算机视觉领域的时候，学术界认为conv之所以这么有效是因为这两个假设和图像的数据分布非常匹配。

假如conv的这两个假设实际上真的和图像的数据分布非常匹配，那其实可以将这两个假设和self-attention结合起来，即self-attention不是针对全局的，而是类似conv一样，一个patch一个patch滑，每个patch里做self-attention。

另外，我们面对一个领域内多种方法的时候，总想排个序，看看谁最好，谁最差。但是实际上，大部分情况下，没有放之四海而皆准的最好，每个方法有自己的适用范围，有自己优点和缺点。我们葆有一个更开放和包容的心态也许更好，在不知道具体数据分布的时候，不要强行排序，也不要接受他人的排序。

当数据分布确定的时候，我们再来分析已有的方法有哪些特性跟它是匹配的，然后“集万千宠爱于一身”，岂不美哉。

就像深度学习火起来的时候，很多初学者内心都有一个疑问“既然有了深度学习，我们是不是不需要传统机器学习算法了？”，我在深度学习的学习历程里讨论过这个问题：

尺有所长，寸有所短。每个模型都有它适用的范围（其实也就是assumption），深度学习也不例外，超过了适用范围，啥模型都得嗝屁。比如你的数据天然是线性可分的，那lr或者svm将会是最好的选择，如果你选了高大上的深度学习，结果反而会适得其反。
面对一个任务，分析这个任务的assumption，然后去你的武器库（也就是各种模型）里寻找跟这个assumption匹配的武器，知己知彼，方能百战不殆。不要瞧不起svm这样的匕首，也不要太高看深度学习这样的屠龙刀。

作者：OpenMMLab
https://www.zhihu.com/question/437495132/answer/1686380553

先直接回答题主的 3 个问题，然后讲一下回答背后的“暴论”

Transformer 有可能替换 CNN 吗？Transformer 和 CNN 都是工具的一种，不会完全互相替代，但是会随着大家对 CV 任务理解的进步而各领风骚。

Transformer 会不会如同在 NLP 领域的应用一样革新 CV 领域？会革新，而且已经在革新了，这是因为大家会或者已经为了使用这个 Transformer，explore 更多的 framework，推动 community 对 CV 的 task 产生新的认识。

后面的研究思路可能会有哪些呢？在有 Transformer 这个新工具的情况下，重新理解 CV 的各个 task，并借助 Transformer 来把新的 framework 验证 work；一步到位，直接做新的 framework。

说好的“暴论”：

根据学术君的观察，CV 领域的创新可以大致概括为两个方面，一个是理解对应的 task 并设计解决方案进行框架上的创新，比如，在 Deep Learning 时代理解 Object Detection，有了 Faster R-CNN，RetinaNet；基于 CNN 理解语义分割，有了 FCN 等一系列后续工作。另一方面，大家也在框架下尝试并改进各种工具，例如大家不断地改进检测器的 neck 部分，提出了 FPG，NAS-FPN 等一系列工作，再如早年为了让 CNN 更 powerful，之前的工作提出了 ResNet、ResNext 等等。

工具和 framework 是螺旋式地相互影响并迭代进步的，也就是说，一段时间内，大家要么在为了exploit 新工具而 explore framework，要么在为了 exploit framework 而去 explore 新工具（这么一看我们好像都是 RL 里的 agent，不是在 fit 框架，就是在 fit 工具）。

为了避免显得口说无凭，举几个例子。如果我们把 CNN 看作最近几年解决各类 AI 问题的一种工具，可以看到我们为了利用这个新工具探索了很多新的 framework。比如为了利用 CNN， Faster R-CNN 和 Mask R-CNN 重新定义了目标检测和实例分割的框架，基于这个框架衍生了一系列经典的工作，比如 Cascade R-CNN 和 HTC。同理，DETR exploit Transformer 重新 explore 了一个 end-to-end 的检测框架，这个新的框架也引出了一系列后续工作，比如 Deformable DETR。DETR 可以说激发了各个 CV 方向 Transformer 化的热潮，然后就引出了题主的一系列问题。

如果认同前面的观点，那么就可以比较自然地得出题主 3 个问题的答案了，我们一个一个来看。

Transformer 有可能替换 CNN 吗？

如果我们仔细看近期各类利用 Transformer 的新工作，会发现不少工作为了使用 Transformer 而对 CV 任务的框架本身有了新的设计和理解。比如 DETR 里基于最小二分匹配的端到端训练框架，但是在这个新框架下，后续的 followup 工作其实是有基于新框架把 Transformer 往 CNN 时代的经典组件修改的趋势的。比如 Deformable DETR 还是用回了 Deformable 和 Multi-scale 特征，Sparse R-CNN 用回了 RoIAlign，OneNet 还是基于 CNN 的但是利用了 DETR 里基于最小二分匹配的端到端训练框架。再比如，SETR 和 ViT-FRCNN 虽然 backbone 用了 Transformer，但是在拿到 Transformer 的表征以后还是用回了 CNN… 所以，更本质的还是任务框架的设计，CNN 和 Transformer 只是一种工具，大家基于对任务的理解会各取所需，Transformer 好用就用 Transformer，需要利用 CNN 的时候就用回 CNN。大家会用脚投票的， Transformer 和 CNN 谁也不用瞧不起谁。

Transformer 会不会如同在NLP领域的应用一样革新 CV 领域？

回答第一个问题的时候已经提到，大家为了使用 Transformer 已经对各个任务进行 rethinking 了。最典型的例子就是 ViT，直接把图像拆成 16x16 的 patch，相信不少人看了都会惊呼这也可以，毕竟我们已经在 CNN 上浸淫了太久。同样还有 SETR 基于 ViT 也把 semantic segmentation 用 Sequence-to-Sequence 的框架给做 work 了。

后面的研究思路可能会有哪些呢？

现在各个领域都呈现出了 Transformer 化的趋势，至少估计今年各个方向都会被 Transformer 来一锤子（拼手速的时候到了）。至少在有 Transformer 这个新工具的情况下，大家会重新理解 CV 的各个 task，并借助 Transformer 的帮助来把新的 framework 验证 work。所以如果想赶 transformer 这波热潮的话，有两种姿势：一个是想想 Transformer 的特点还能对 CV 中的哪些任务有显著的帮助然后赶个早集；另一种姿势是基于受 Transformer 启发定义出的新框架来重新看待一下已有的 framework，做一些 follow up 的工作。当然了，更本质一点，还是应该不拘泥于工具本身去思考 framework，避免陷入“拿着锤子找钉子”的窠臼，思考和探索还有哪些问题没有被现有的 framework 解决，并基于自己的理解提出一个合理的解决方案，这或许是永远不会过时的姿势，学术君与诸君共勉～

作者：罗浩.ZJU
https://www.zhihu.com/question/437495132/answer/1759796604

Transformer有自己比较好的特性，在NLP任务上取得了很好的成功。前几年Transformer在CV领域主要被用于sequence信息挖掘，例如一些video任务中接在CNN特征后面进行时序特征融合，这时候应该还在Transformer本职范围内。不过去年的ViT论文扩大了Transformer的使用范围，相信大家讨论Transformer也更关心这种Visual Transformer结构对于CNN的替代性。至于是否会替代CNN这种未来的事不好说，但是Visual Transformer有一些自己比较好的特性：

long range带来的全局特性。CNN的conv算子一个问题就是感受野比较局限，为了扩大网络的关注区域，需要卷积-池化-堆叠多层这种结构，带来的问题其实是“有效/真实”感受野是以某个中心为原点向外高斯衰减的，因此CNN通常的有效attention就是图中的某一两个比较重要的parts。为了解决这个问题，CNN可以设计attention module来得到更大更均衡的attention map，很多工作也证明了attention module的有效性。而Transformer天然自带的long range特性使得从浅层到深层，都比较能利用全局的有效信息，并且multi-head机制保证了网络可以关注到多个discriminative parts，其实每一个head都是一个独立的attention，这是Transformer与CNN不同的地方之一。

更好的多模态融合能力。CNN擅长的是解构图像的信息，卷积核就是以前传统数字图像处理中的滤波操作，当然这使得CNN不擅长融合其他模态的信息，例如文字、标签、语音、时间等等各种信息。通常需要用CNN提取图像特征，再用其他模型对其他模型信息进行embedding后再网络的末端将多模态的embedding进行融合。而Transformer可以在网络的输入端对模态进行融合，因为它的思想是把图像通过conv或者直接对像素进行操作得到初始的embedding放入的Transformer中，不需要保持HWC的feature map结构。就类似position embedding，只要你能编码的信息，都可以非常轻松地利用进来。

Multiple tasks能力。其实已经有不少工作证明一个Transformer可以做很多事情，因为attention机制可以让网络对于不同的task进行不同的学习，一个简单的用法就是加一个task ID的embedding就行。

更好的表征能力。这里就不多说，很多工作都显示的Transformer网络可以在CV任务上取得更好的结果。

个人观点，随便写写，未来想到了再补充。

关于未来Transformer是否替代CNN，这个不好说，但是Transformer在CV领域里面还有几个点可以做的更好一点：

计算效率。毫无疑问，目前Transformer还无法替代CNN的一个重要原因就是计算效率，目前CV领域还是直接套用NLP中的Transformer结构，并未对CV数据做专门的设计，但是图像的信息量是远大于text，所以目前计算开销依然很大。当然ViT之后，已经有一些工作开始设计更加适配CV的Transformer结构，估计这一个领域也是目前非常火热的领域，未来应该会有不少工作出来。

应用适配。除了基础网络结构的改进，需要推动Transformer在CV上的发展，还需要很多CV下游任务上的成功。这个看起来有点像把Transformer替换掉CNN，在各个CV任务上重新做一篇以前的事。不过实际上不是替换掉CNN的backbone那么简单，首先Transformer的训练有自己的特性，得去把Transformer啃烂才更可能取得成功。二来要利用Transformer的特性对于CV任务进行专门的改进，让大家看到Transformer比CNN做的更好的地方。

硬骨头的突破。CNN已经在很多CV任务取得了成功，但是依然有一些任务没有完全克服，比如video的一些任务，识别率还无法达到人脸、识别、检测这种精度。Transformer如果能把这些硬骨头做得更好，可能也是一个比较好的信息。

总体而言，Transformer是NLP给CV的一个输出，我们可以去学习Transformer的长处，至于未来是否会替换CNN，或者Transformer与CNN共存，甚至互相弥补，这个还是靠整个学界去决定。CV的任务很多很难，无论是CNN还是Transformer都不会是CV的终点，保持学习、保持接纳、保持探究。

作者：陈大宝
https://www.zhihu.com/question/437495132/answer/1803969411

有可能，不过核心是要解决transformer计算量大的问题并且做出一种像resnet一样的范式。

首先看看卷积的缺点是什么？卷积是channel上全联接，spatial上部分连接。transformer就是把spatial上也做成了全连接。这样的好处是每一层“看”的更广了，缺点就是用的计算量更大了。

计算量这个问题我认为是暂时未解决的，你可以用一些trick，比如用sparse attention，也可以用tensor decomposition的方式把计算量降下来。但是代价就是sparse attention通常在不调参的情况下不如dense attention表现好，没有很强的泛化能力，基本上一个任务一个参数；tensor decomposition就是用空间换时间，速度快但是model size巨大。

我目前没有看到一种transformer能够如CNN一样轻巧，之前看过一个图讽刺transformer，标题是《money is all you need》，图我找不到了。这图主要是讽刺transformer的研究越来越像军备竞赛，有越多的卡，堆越多的transformer效果越好。

希望未来能再出来一个kaiming he，帮我们把transformer也做到100层。

作者：齐国君
https://www.zhihu.com/question/437495132/answer/1658559732

CNN和transformer在处理视觉信息上各有优缺点。

CNN网络在提取底层特征和视觉结构方面有比较大的优势。这些底层特征构成了在patch level 上的关键点、线和一些基本的图像结构。这些底层特征具有明显的几何特性，往往关注诸如平移、旋转等变换下的一致性或者说是共变性。比如，一个CNN卷积滤波器检测得到的关键点、物体的边界等构成视觉要素的基本单元在平移等空间变换下应该是同时变换（共变性）的。CNN网络在处理这类共变性时是很自然的选择。

但当我们检测得到这些基本视觉要素后，高层的视觉语义信息往往更关注这些要素之间如何关联在一起进而构成一个物体，以及物体与物体之间的空间位置关系如何构成一个场景，这些是我们更加关心的。目前来看，transformer在处理这些要素之间的关系上更自然也更有效。

从这两方面的角度来看，将CNN在处理底层视觉上的优势和transformer在处理视觉要素和物体之间关系上的优势相结合，应该是一个非常有希望的方向。

---------♥---------

声明：本内容来源网络，版权属于原作者

图片来源网络，不代表本公众号立场。如有侵权，联系删除

书籍-《动手学深度学习（英文版）》
书籍：DiveintoDeepLearning作者：AstonZhang，ZacharyC.Lipton，MuLi，AlexanderJ.Smola出版：CambridgeUniversityPress编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《动手学深度学习（英文版）》01书籍介绍深度学习已经彻底改变了模式识别，为计算机视觉、自然语言处理和自动语音识别等领域提供了强大的工具。应用深度学
计算机专业毕业设计题目推荐（新颖选题）本科计算机科学专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计计算机网络毕设选题毕设系统毕设题目计算机科学专业
文章目录前言最新毕设选题（建议收藏起来）本科计算机科学专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能设计
Opencv计算机视觉编程攻略-第一节图像读取与基本处理 weixin_44242403 深度学习 opencv 计算机视觉
1.图像读取导入依赖项的h文件#include#include#include#include项目Valuecore.hpp基础数据结构和操作（图像存储、矩阵运算、文件I/O）highgui.hpp图像显示、窗口管理、用户交互（图像/视频显示、用户输入处理、结果保存）imgproc.hpp图像处理算法（图像滤波、几何变换、边缘检测、形态学操作）二读取图片Matimage;//图像矩阵std::co
Linux安装Anaconda和Jupyter 硬水果糖人工智能 Linux linux jupyter 运维
一、了解Anaconda和Jupyter引言：Anaconda是一个流行的开源数据科学平台，广泛用于数据分析、机器学习、人工智能等领域。它是一个集成了大量科学计算和数据科学工具的Python和R编程语言环境。Anaconda的主要目标是简化数据科学和机器学习的开发流程，提供一个易于安装和管理的环境。而预装了大量常用的Python和R库，这些库涵盖了数据科学的各个方面，包括：数据分析：Pandas、
ChatGPT、DeepSeek、GIS与Python机器学习强强联合！地质灾害风险评估、易发性分析、信息化建库及灾后重建 WangYan2022 DeepSeek ChatGPT 地下水地质灾害 DeepSeek ChatGPT GIS 灾后重建
在地质灾害频繁肆虐的当下，精准开展风险评价刻不容缓。如今，一门极具创新性的教程震撼登场，它将ChatGPT、DeepSeek等前沿技术与GIS、Python以及机器学习深度交融，为学员打造出前所未有的学习体验，助力大家在地质灾害风险评价领域强势突围，一路领先。前沿技术融合，铸就智能学习核心动力教程最闪耀的亮点之一，便是大胆引入了ChatGPT和DeepSeek技术。它们恰似无所不能的“数据魔法师”
Hessian 矩阵是什么 ZhangJiQun&MXP 教学 2021 AI python 2024大模型以及算力矩阵线性代数算法人工智能机器学习
Hessian矩阵是什么目录Hessian矩阵是什么Hessian矩阵的性质及举例说明**1.对称性****2.正定性决定极值类型****特征值为2（正），因此原点(0,0)(0,0)(0,0)是极小值点。****3.牛顿法中的应用****4.特征值与曲率方向****5.机器学习中的实际意义**一、定义与公式二、实例分析Hessian矩阵是多元函数二阶偏导数构成的方阵，用于分析函数局部曲率、判断极
LoRA中黑塞矩阵、Fisher信息矩阵是什么 ZhangJiQun&MXP 教学 2021 论文 2024大模型以及算力矩阵机器学习人工智能 transformer 深度学习算法线性代数
LoRA中黑塞矩阵、Fisher信息矩阵是什么1.三者的核心概念黑塞矩阵（Hessian）二阶导数矩阵，用于优化问题中判断函数的凸性（如牛顿法），或计算参数更新方向（如拟牛顿法）。Fisher信息矩阵（FisherInformationMatrix,FIM）统计学中衡量参数估计的不确定性，反映数据中包含的关于参数的信息量。在机器学习中常用于自然梯度下降（NaturalGradientDescent
神经网络基础之正则化硬水果糖人工智能神经网络人工智能机器学习
引言：正则化（Regularization）是机器学习中一种用于防止模型过拟合技术。核心思想是通过在模型损失函数中添加一个惩罚项（PenaltyTerm），对模型的复杂度进行约束，从而提升模型在新数据上的泛化能力。一、正则化目的防止过拟合：当模型过于复杂（例如神经网络层数过多、参数过多）时，容易在训练数据上“记忆”噪声或细节，导致在测试数据上表现差。简化模型：正则化通过限制模型参数的大小或数量，迫
决策树算法全解析：从零基础到Titanic实战，一文搞定机器学习经典模型吴师兄大模型 0基础实现机器学习入门到精通算法机器学习决策树人工智能深度学习编程开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
图像处理篇---图像预处理 Ronin-Lotus 图像处理篇深度学习篇程序代码篇图像处理人工智能 opencv python 深度学习计算机视觉
文章目录前言一、通用目的1.1数据标准化目的实现1.2噪声抑制目的实现高斯滤波中值滤波双边滤波1.3尺寸统一化目的实现1.4数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer）2.2.1特点2.2.2预处理重点通道顺序
目前市场上主流的机器视觉的框架有哪些？他们的特点及优劣 yuanpan 机器学习计算机视觉
目前市场上主流的机器视觉框架和工具可以分为商业软件、开源工具和深度学习框架三大类。以下是它们的总结及特点对比：1.商业软件(1)Halcon(MVTec)特点：专注于工业机器视觉，提供高精度、高效率的算法。支持复杂的工业应用，如缺陷检测、3D视觉、深度学习等。提供图形化开发工具HDevelop和多种编程接口。优势：算法优化好，适合实时工业应用。硬件兼容性强，支持多种工业相机和设备。劣势：商业软件，
Transformers模型版本和lm_eval老版本冲突问题ImportError: cannot import name ‘initialize_tasks‘ from ‘lm_eval.task neverwin6 llama python 服务器
Transformers模型版本和lm_eval老版本冲突问题1问题背景在LLM评测的时候，要用lm_eval模型，而对于像是llama3/Mistrual等比较新的模型，较低的Transformers不能适配，所以要升级到0.40.0以上才行，但是如果升级的话，那么直接在沿用老版本的lm_eval评测就会出现：Traceback(mostrecentcalllast):File"main.py"
1.1PaddleTS_环境配置：一个易用的深度时序建模的Python库 pythonQA python paddlepaddle
PaddleTS是一个易用的深度时序建模的Python库，它基于飞桨深度学习框架PaddlePaddle，专注业界领先的深度模型，旨在为领域专家和行业用户提供可扩展的时序建模能力和便捷易用的用户体验。PaddleTS的主要特性包括：设计统一数据结构，实现对多样化时序数据的表达，支持单目标与多目标变量，支持多类型协变量封装基础模型功能，如数据加载、回调设置、损失函数、训练过程控制等公共方法，帮助开发
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
代码逐行解析 | 教你在C++中使用深度学习提取特征点 3Ｄ视觉工坊 3D视觉从入门到精通 c++深度学习开发语言人工智能
点击下方卡片，关注「3D视觉工坊」公众号选择星标，干货第一时间送达扫描下方二维码，加入3D视觉技术星球，星球内汇集了众多3D视觉实战问题，以及各个模块的学习资料：最新顶会论文、书籍、源码、视频（近20门系统课程[星球成员可免费学习]）等。想要入门3D视觉、做项目、搞科研，就加入我们吧。作者：泡椒味的口香糖|来源：3DCV添加微信：dddvision
Halcon 和 opencv比有什么区别与优劣 yuanpan opencv 人工智能计算机视觉
Halcon和OpenCV都是机器视觉领域的重要工具，但它们的设计目标、功能特点和适用场景有所不同。以下是两者的详细对比：1.定位与目标用户Halcon：定位：商业机器视觉软件，专注于工业应用。目标用户：工业自动化、质量控制、机器人引导等领域的专业开发者。OpenCV：定位：开源计算机视觉库，适用于通用图像处理和计算机视觉任务。目标用户：学术研究、教育、初创公司以及需要低成本解决方案的开发者。2.
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
深度学习-130-RAG技术之基于Anything LLM搭建本地私人知识库的应用策略问题总结(一) 皮皮冰燃深度学习深度学习人工智能 RAG
文章目录1AnythingLLM的本地知识库1.1本地知识库应用场景1.2效果对比及思考1.3本地体现在哪些方面1.3.1知识在本地1.3.2分割后的文档在本地1.3.3大模型部署运行在本地2问错问题带来的问题2.1常见的问题2.2原因分析3为什么LLM不使用我的文件？3.1LLM不是万能的【omnipotent】3.2LLM不会自省【introspect】3.3AnythingLLM是如何工作的
3DMAX点云算法：实现毫米级BIM模型偏差检测（附完整代码）夏末之花人工智能
摘要本文基于激光雷达点云数据与BIM模型的高精度对齐技术，提出一种融合动态体素化与多模态特征匹配的偏差检测方法。通过点云预处理、语义分割、模型配准及差异分析，最终实现建筑构件毫米级偏差的可视化检测。文中提供关键代码实现，涵盖点云处理、特征提取与深度学习模型搭建。一、核心算法流程点云预处理与特征增强去噪与下采样：采用统计滤波与体素网格下采样，去除离群点并降低数据量。语义分割：基于PointNet++
数据增强：扩充数据集提升模型泛化能力 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1.数据增强的重要性在机器学习领域，模型的泛化能力至关重要。一个泛化能力强的模型能够在未见数据上表现良好，而过拟合的模型则会在训练数据上表现出色，但在新数据上表现糟糕。数据增强是一种有效提升模型泛化能力的技术，它通过对现有数据进行各种变换，人为地扩充数据集，从而增加训练数据的数量和多样性。1.2.数据增强的应用场景数据增强广泛应用于各种机器学习任务中，包括：图像识别:对图像进行旋转
数据增强：扩充数据集，提升模型的鲁棒性 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 LLM大模型落地实战指南计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
数据增强：扩充数据集，提升模型的鲁棒性1.背景介绍1.1数据集的重要性在机器学习和深度学习领域中,数据集是训练模型的基础。高质量的数据集对于构建准确、鲁棒的模型至关重要。然而,在现实世界中,获取大量高质量的数据通常是一个巨大的挑战。数据采集过程耗时耗力,而且成本高昂。此外,某些领域的数据存在隐私和安全问题,难以获取。1.2数据集不足的挑战当数据集规模有限时,模型很容易过拟合,无法很好地推广到新的、
Docker打包深度学习项目 FLY_LTL docker 深度学习容器
文章目录Docker打包深度学习项目1.Docker和NVIDIAContainerToolkit的安装1.Docker2.NVIDIAContainerToolkit3.添加国内镜像源2.使用Dockerfile打包并保存镜像1.Dockerfile2.通过Dockerfile生成镜像3.保存镜像和加载4.运行Docker并测试参考Docker打包深度学习项目本文来源于个人实践总结，供各位同学参
使用TensorFlow、OpenCV和Pygame实现图像处理与游戏开发 UwoiGit tensorflow opencv pygame
在本篇文章中，我们将介绍如何结合使用TensorFlow、OpenCV和Pygame来进行图像处理和游戏开发。这三个工具在机器学习、计算机视觉和游戏开发领域都非常流行，并且它们的结合可以提供强大的功能和无限的创造力。我们将逐步介绍如何安装和配置这些工具，并提供相关的源代码示例。安装TensorFlowTensorFlow是一个基于数据流图的开源机器学习框架，提供了丰富的工具和库来构建和训练各种深度
机器学习之KMeans算法知舟不叙机器学习算法 kmeans
文章目录引言1.KMeans算法简介2.KMeans算法的数学原理3.KMeans算法的步骤3.1初始化簇中心3.2分配数据点3.3更新簇中心3.4停止条件4.KMeans算法的优缺点4.1优点4.2缺点5.KMeans算法的应用场景5.1图像分割5.2市场细分5.3文档聚类5.4异常检测6.Python实现KMeans算法7.总结引言KMeans算法是机器学习中最经典的无监督学习算法之一，广泛应
机器学习流程—数据预处理清洗不二人生机器学习机器学习人工智能数据预处理
文章目录机器学习流程—数据预处理清洗定义问题数据预处理数据加载与展示重复数据处理数据类型空值处理无关特征删除数据分布删除异常值生成标签和特征数据分割机器学习流程—数据预处理清洗数据处理是将数据从给定形式转换为更可用和更理想的形式的任务，即使其更有意义、信息更丰富。使用机器学习算法、数学建模和统计知识，整个过程可以自动化。这个完整过程的输出可以是任何所需的形式，如图形、视频、图表、表格、图像等等，具
深度革命：ResNet 如何用 “残差连接“ 颠覆深度学习安意诚Matrix 机器学习笔记深度学习人工智能
一文快速了解ResNet创新点在深度学习的历史长河中，2015年或许是最具突破性的一年。这一年，微软亚洲研究院的何恺明团队带着名为ResNet（残差网络）的模型横空出世，在ImageNet图像分类竞赛中以3.57%的错误率夺冠，将人类视觉的识别误差（约5.1%）远远甩在身后。更令人震撼的是，ResNet将神经网络的深度推至152层，彻底打破了"深层网络无法训练"的魔咒。这场革命的核心，正是一个简单
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算【超级详细版】 AI筑梦师计算机视觉算法深度学习人工智能机器学习计算机视觉 python
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算1.引言1.1研究背景在计算机视觉、模式识别、医学影像分析和自动驾驶等领域，形状匹配是核心任务之一。然而，现实世界的形状往往存在可变性（Variability），主要体现在以下几个方面：形变（Deformation）：物体可能由于柔性材料、外力作用或生物运动发生非刚性形变。尺度变化（ScaleVariation）：目标形状在不同场景下可能大
基于PyTorch和ResNet18的花卉识别实战（附完整代码）意.远 pytorch 人工智能 python 深度学习
一、项目背景与效果花卉分类是计算机视觉的经典任务。本文使用PyTorch框架，基于ResNet18模型实现了102种花卉的分类任务。完整代码可直接复制运行，最终验证集准确率达8.2%，文中同步分析性能瓶颈与优化方案。二、环境配置与数据准备1.环境要求#主要依赖库importtorchfromtorchimportnn,optimfromtorchvisionimporttransforms,dat
Python 模拟鼠标轨迹算法 a485240 鼠标轨迹计算机外设
一.鼠标轨迹模拟简介传统的鼠标轨迹模拟依赖于简单的数学模型，如直线或曲线路径。然而，这种方法难以捕捉到人类操作的复杂性和多样性。AI大模型的出现，使得能够通过深度学习技术，学习并模拟更自然的鼠标移动行为。二.鼠标轨迹算法实现AI大模型通过学习大量的人类鼠标操作数据，能够识别和模拟出自然且具有个体差异的鼠标轨迹。以下是实现这一技术的关键步骤：数据收集：收集不同玩家在各种游戏环境中的鼠标操作数据，包括
Apache Storm：实时数据处理的闪电战 Aaron_945 Java apache storm 大数据
文章目录ApacheStorm原理拓扑结构数据流处理容错机制官网链接基础使用安装与配置编写拓扑提交与运行高级使用状态管理窗口操作多语言支持优点高吞吐量低延迟可扩展性容错性总结ApacheStorm是一个开源的分布式实时计算系统，它允许你以极高的吞吐量处理无界数据流。Storm被广泛用于实时分析、在线机器学习、连续计算等多种场景。本文将深入探讨ApacheStorm的原理、基础使用、高级特性及其优点
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s

Transformer在CV上的应用前景

你可能感兴趣的:(transformer,transformer,深度学习,计算机视觉,机器学习)