Briwisdom

多尺度目标检测调研（-2019.10）

本文是大概花费1个月时间做的目标检测调研报告，其中有些论文总结是基于个人理解从网上摘录，论文的细节还需找到原始paper阅读。可作为一个目标检测领域研究情况的快速浏览，仅供参考。

多尺度目标检测概况

目标检测常用数据集

目标检测经典论文

基于深度学习检测方法的总结

Anchor方面的改进

Loss方面的改进

NMS -后处理上的优化

其它方法

个人总结

多尺度目标检测概况

今年5月份arxiv出的一篇目标检测综述文章写的特别全面，能帮助你快速了解目标检测领域研究进展。文章链接为：https://arxiv.org/pdf/1905.05055.pdf

多尺度目标检测发展历程：

以下是几个重要阶段：

Feature pyramids + sliding windows ( -2014):

梯度方向直方图(HOG)进行行人检测；

可变形的组件模型（Deformable Part Model, DPM）：基于组件的检测算法

Object Proposals (2010-2015)

segmentation grouping approaches（分段分组法）

window scoring approaches（窗口评分法）

neural network based approaches（基于神经网络的方法）

Deep regression (2013-2016)

Multi-reference/-resolution detection (2015- )

提前设置一些不同尺寸和纵横比的reference boxes（anchor boxes）

基于深度学习的目标检测方法分为两个分支：one-stage（yolo系列，SSD）: 仅使用一个卷积神经网络CNN直接预测不同目标的类别与位置; two-stage（RCNN系列，mask RCNN等）: 先产生目标候选框，也就是目标位置，然后再对候选框做分类与回归.

刚开始one-stage的网络和two-stage网络在mAP和速度上各有优劣，one-stage在准确率上一致落后于two-stage，但是近年来对此也出现了很多优化工作。

目标检测的评价主要从两个方面：mAP，FPS

两个检测分支的共同组件是：backbone网络（resnet101，vgg等），Anchor reference, NMS, Loss

目标检测常用数据集

Pascal VOC（VOC07和VOC12），2005-2012，20 classes of object

VOC07：包含5k训练图像+12k 标注目标；

VOC12：11k 训练图像+ 27k 标注目标

ILSVRC（ImageNet Large Scale Visual Recognition Challenge），2010-2017，200 classes of object

图像或者目标实例比VOC大两个数据量级，比如ILSVRC-14包含517k图像和534k个标注目标

MS-COCO，2015- ,

常用的目标检测挑战数据集；

类别比ILSVRC少，但是标注数据更多，比如MS-COCO-17包含80类，其中164k图像和897k目标标注；每一个目标不止有标记框标注，还添加了实例分割标注，以便更精确定位。

MS-COCO小目标（所占区域小于图像总区域的1%）数据更多，更接近真实的自然世界目标识别。

Open Images Detection(OID)，2018- ,

Following MS-COCO ，但规模空前：unprecedented scale

Two task：1，标准检测；2. 探测成对object之间的关系

包含600类别：1910k图像，15440k标注

目标检测经典论文

1. RetinaNet (ICCV2017 best paper,facebook, one-stage, code)【loss改进，anchor中前景类别失衡】

One-stage虽快且简单，但accuracy一直落后于two-stage，RetinaNet认为在密集探测器的训练过程中遇到的极端前景背景类失衡是主要原因，提出focal loss代替cross entropy是网络在训练过程中更多关注hard, misclassified examples, 动态调整anchor box的权重，最终在维持高的检测速度同时取得了和two-stage同样的检测accuracy。后面one-stage论文多采用此作为基础网络进行改进。（Resnet+FPN+focal_loss）

2. CornerNet，《CornerNet-Lite: Effcient Keypoint Based Object Detection》，（ECCV2018, one-stage, code）【anchor改进，减少anchor数量】

单阶段检测通过密集的anchor box及后续的增强定位来获得好的检测效果，但使用anchor存在以下几点问题：（1）需要大量的anchor box，然而只有一小部分的anchor box与ground truth 存在较大的重叠，这就会造成类别不平衡问题，而且不利于训练。（2）使用anchor 引入了大量人为的超参数及设计方法。

提出了目标检测算法的新的模型结构，利用单个卷积网络将框的左上角及右下角两个点组成一对关键点，进而不需要设计在单阶段检测中大量的anchor boxes，同时，引入了corner pooling用于提升角点定位效果。

3. RelationNet（CVPR2018 oral, MSRA, two-stage, code）【受attention启发，考虑物体和周围环境之间的关系】

在目标检测中，周围其它物体信息可能和某个物体的分类定位有着帮助作用，这在目前使用ROI的网络中体现不出来，作者考虑改良这种情况，启发于NLP的attention模块，将目标检测任务引入关联性信息。提出了一种object relation module，通过引入不同物体之间的外观和geometry特征做interaction，实现对物体之间relation的建模，提高检测效果，并且将关系模块运用在duplicate remove中，进行可学习的NMS（提出了一种特别的代替NMS的去重模块，可以避免NMS需要手动设置参数的问题），实现了第一个完全end-to-end的目标检测系统。

1)提出一种relation module，可以在以往常见的物体特征中融合进物体之间的关联性信息，同时不改变特征的维数，能很好的嵌进目前各种检测框架，提高性能；2) 在1)的基础上，提出了一种特别的代替NMS的去重模块，避免NMS需要手动设参问题。

4. Cascade RCNN（CVPR2018，two-stage, code）【IOU阈值设为定值的局限性】

作者通过实验证实了不同IOU阈值对于网络的影响，证实固定IOU阈值的训练方式具有局限性。Cascade RCNN由一系列IOU阈值递增训练的探测器组成，达到state-of-art 性能.

5. SNIP, SNIPER，《an analysis of scale invariance in object detection》，（CVPR2018，two-stage, code）【优化多尺度训练时候对过大/过小尺寸目标网络都进行上下采样得到多尺度金字塔的不必要性】

SNIP：文章从COCO数据集开始分析，认为目标检测的难点在于数据集中object的尺寸分布较大，尤其对小目标的检测效果也有待提高，提出Scale Normalization for Image Pyramids（SNIP）算法解决这个问题。针对目标检测的domain-shift问题，提出只对与训练尺度相匹配的目标进行梯度回传策略。

研究表明在进行多尺度训练的时候，实际上忽略一部分过大或者过小的目标是比较有利的。那这样的话，作者就认为我们每次都将全部图片都进行上下采样得到多尺度金字塔实际上没有必要。SNIP的算法忽略掉大图中大的Proposal和小图中的小proposal，在测试时构建一个输入图像金字塔，金字塔上每一张图像只测试该图片指定尺度范围的目标，最终合并做NMS输出结果，但这仍然是全像素的问题。SNIPER是SNIP的升级版本，减少了计算消耗从而使模型运行更快。SNIPER通过生成scale specific context-regions，不管哪个尺度都采样到512x512，这样既保留RCNN的尺度不变性和Fast系列的速度，也由于过滤到了很大一部分背景而比SNIP快很多。

6. RefineDet, 《 Single-Shot Refinement Neural Network for Object Detection 》（CVPR2018, code）【结合one-stage和two-stage的优势，设计的single-shot检测模型】

结合了one-stage方法和two-stage方法各自的优势, 提出了一个基于single-shot的检测模型: 模型主要包含两大模块, 分别是anchor精化模块和物体检测模块. 网络采用了类似FPN的思想, 通过 Transfer Connection Block 将特征图谱在两个模块之间传送, 不仅提升了的精度, 同时还在速度方面取得了与one-stage方案相媲美的表现。

anchor精化模块(anchor refinement module): 1. 过滤掉负样本的anchors, 以减少分类器的搜索空间; 2. 对anchors的位置和size进行粗糙的调整, 以便为后续的回归网络提供更好的初始化状态.

物体检测模块(object detection module)：1. 用refined anchors作为输入进行回归预测；2. 设计一个传送连接模块(transfer connection block), 将anchor refinement module里面的特征进行传送, 以此来预测框的位置, size 和类别标签。由于使用了多任务联合损失函数, 因此可以进行端到端的训练。

基于深度学习检测方法的总结

Anchor方面的改进

GA-RPN,《Region proposal by Guided Anchoring》，（CVPR2019，code）【图像特征指导anchor生成】

COCO challenge2018检测任务冠军方案。

传统faster RCNN的两个局限：1. 预先定义anchor尺寸，对性能影响很大，不同任务都需做调整；2. 生成过多anchor，引入过多负样本，影响模型速率。

GA_RPN通过图像特征指导anchor生成，CNN预测anchor位置和形状，生成稀疏且形状任意的anchor，设计feature adaption模块来修正特征图使其与anchor精确匹配，FGA-RPN相比RPN减少90%的anchor，并提高90%的召回率。

FSAF, 《Feature Selective Anchor-Free for Single-Shot Object Detection》，（CVPR2019，no code）【anchor自动选择feature, 释放anchor size作用】

提出的FSAF模块是为了解决特征图选择和重叠anchor选择，让每个anchor instance自动的选择合适的feature。提出anchor free概念，是说不再根据anchor size提取特征，而是根据FSAF模块自动选择合适的feature，即anchor size成为了一个无关的变量。基于RetinaNet。

Loss方面的改进

AP-loss，《Towards Accurate One-Stage Object Detection with AP-Loss》 (CVPR2019, no code)【也是针对前景和背景类不平衡，引入设计AP作为损失函数】

一阶的目标检测器通常是通过同时优化分类损失函数和定位损失函数来训练。而由于存在大量的锚框，分类损失函数的效果会严重受限于前景-背景类的不平衡。本文通过提出一种新的训练框架来解决这个问题。我们使用排序任务替换一阶目标检测器中的分类任务，并使用排序问题的中的评价指标 AP 来作为损失函数。针对AP-loss是不可微且非凸的，提出新的方法-误差驱动更新机制，来优化该函数。实验使用RetinaNet网络。

G-IOU, 《Generalized Intersection over Union》（CVPR2019， code ）【针对L1，L2和IOU直接作为损失函数的局限，设计使用 generalized IOU作为损失函数】

文章的motivation比较好，指出用L1、L2作为regression损失函数的缺点，以及用直接指标IoU作为损失函数的缺陷性，提出新的metric来代替L1、L2损失函数，从而提升regression效果，想法简单粗暴，但与IOU作为损失函数相比，yolo-v3上性能较好，在two-stage网络性能无提高。可能是two-stage经过第一步粗检测将很多与GT不重叠的框过滤了。

《Bounding Box Regression with Uncertainty for Accurate Object Detection》，（CVPR2019，旷世+CMU，coding）【根据目标检测标准的质量问题，学习Bounding Box分布，结合KL散度提出新的回归损失方法】

动机：使用传统的边界框回归方法会导致对应loss特别大。因为label定义得模糊，所以网络对这些目标边界的学习也很模糊，学习不稳定梯度/loss大。 [label标记的不好, 混合了其它object]

作者提出一个全新的 regression loss，通过学习bounding box的一个分布，结合kl散度，使得网络可以更好的学习拟合ground truth，让网络更好的学习和收敛(而不被模糊样例造成大的loss干扰)。另外，由于学习了bounding box的分布，这一环节可以嵌入nms阶段，使得定位目标更准确。

NMS -后处理上的优化

主要是解决：基于 CNN 的目标检测方法存在的分类置信度和定位置信度不匹配的问题。

NMS——soft_NMS——softer_NMS——IOU_guided NMS

NMS: 大于阈值的box直接remove

Soft_NMS: 大于阈值的box给其置信度降低分数

Softer-NMS：基于soft-NMS，对预测标注方差范围内的候选框加权平均，使得高定位置信度的bounding box具有较高的分类置信度

IoU_guided NMS(ECCV2018,IoU Net,旷世) :

问题引入：传统NMS算法缺失定位置信度信息：1. 在抑制重复检测时，使用分类分数作为给box排名的指标；2. 在缺少定位置信度情况下的边界框回归缺少可解释性或者可预测性。

解决方案：1. 在NMS阶段引入定位得分（localization confidence）作为排序指标而不是采用传统的分类得分；2. 提出基于优化的bbox refinement替换传统的regression-based方法，提高了回归部分的可解释性。

其它方法

M2Det, 《M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid》，AAAI 2019，阿里巴巴，【针对多尺度问题，对特征金字塔结构的优化】

为了更好地解决目标检测中尺度变化带来的问题，论文总结了多种特征金字塔结构，提出多级特征金字塔网络MLFPN，结合SSD，提出一种新的Single-shot目标检测模型M2Det。

几种特征金字塔总结，和本文方法对比：

文章总体框架：

RDAD，《Object Detection based on Region Decomposition and Assembly》，（AAAI 2019），【更适配复杂真实场景，并结合了空间语义关系】

文章认为正是因为被遮挡了的或者不精确的 Region Proposals 导致目标检测算法的不准确。就是假如一辆车的左边被人遮挡了，那么这辆车的右边带来的信息其实才是更可信的。基于这个想法，文章提出 R-DAD即区域分解组装检测器，来改善生成的 Region Proposals。

个人总结

目标检测的研究自从卷积神经网络（ＣＮＮ)流行之后，现在的方法几乎都是基于深度学习的CNN作为backbone网络，经历了two-stage和one-stage两个分支。吴恩达曾在其深度学习课程中说到，他认为one-stage将是最终的趋势，近年来很多论文也确实是围绕one-stage的方法提出的新思路。总而言之，准确，快速是其终极目标，而现在的主流方法中遍历全图提前设定anchor的学习机制，无疑是影响速度和效率的很大原因，所以今年CVPR的很多文章出现了anchor free的思想。如果说faster RCNN和yolo系列网络给目标检测领域提升的性能达到了一个瓶颈，另寻其它路径确实是再次取得突破的必然选择，小打小闹的优化帮助并不大。

我觉得结合上下文语义（场景理解）的目标检测可能会给我们带来一些惊喜。attention机制最先是在自然语言处理领域提出的概念，并且给其带来的效果显著，近年来也出现了一些基于attention机制的目标检测方法，然而自然语言处理的研究毕竟处于初期，也是一个艰巨的任务，短期内很难取得重大的突破。

校招154W！DeepSeek待遇和核心成员曝光！ AI生成曾小健人工智能
校招154W！DeepSeek待遇和核心成员曝光！DeepSeek的薪酬模式极为慷慨，提供员工一年14薪的福利。其高薪职位如深度学习研究员，年薪最高可达税前154万元。同时，该公司也注重给予其他职位合理薪酬，如客户端研发工程师年薪30万，实习生日薪500元，并提供转正机会及房补。更有平台显示，DeepAGI大模型实习生日薪高达500-1000元。尽管这些待遇与硅谷相比仍有差距，但已相当优厚。Dee
深度学习过程是什么小松要进步李哥深度学习深度学习
问：深度学习是：一组原始数据，经过线性变换、非线性变换、偏差加和等操作后得到一组预测数据，再根据损失函数计算预测数据和原始数据的差值，用差值数据对权重和偏差求偏导，这里的偏导数的值也就是使得损失减小的最佳方向，然后根据偏导数的方向和步长更新权重和偏差，对吗答：您的描述大致正确，但有一些细节需要澄清和修正，以更准确地反映深度学习中模型训练的过程。以下是详细的解释：1.原始数据处理：一组原始数据首先通
TensorBoard可视化工具支持哪些类型的图表？ alankuo 人工智能
TensorBoard支持多种类型的图表，以下是详细介绍：标量图（Scalars）定义与用途：用于展示单个数值随时间（通常是训练步骤或迭代次数）的变化情况。在深度学习模型训练中，最常见的是损失函数值和评估指标（如准确率、精确率、召回率等）的变化曲线。示例：例如，在训练一个图像分类模型时，记录训练集和测试集上的损失函数值。通过标量图，可以直观地看到随着训练轮次（epochs）的增加，损失函数值是如何
学习python你必须弄懂的 Python、Pycharm、Anaconda 三者之间的关系经纬数智 python python pycharm 开发语言 conda
Python作为深度学习和人工智能学习的热门语言，学习一门语言，除了学会其简单的语法之外还需要对其进行运行和实现，才能实现和发挥其功能和作用。下面来介绍运行Python代码常用到的工具总结。一.Python、Pycharm、Anaconda关系介绍1.PythonPython是一种跨平台的计算机程序语言。是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。最初被设计用于编写自动化脚本(
CUDA编程（一）：GPU计算与CUDA编程简介 AI Player CUDA 人工智能 CUDA NVIDIA
CUDA编程（一）：GPU计算与CUDA编程简介GPU计算GPU硬件资源GPU软件资源GPU存储资源CUDA编程GPU计算NVIDIA公司发布的CUDA是建立在GPU上的一个通用并行计算平台和编程模型，CUDA编程可以利用GPU的并行计算引擎来更加高效地解决比较复杂的计算难题。GPU的并行计算最成功的一个应用就是深度学习领域。GPU通常不作为一个独立运行的计算平台，而需要与CPU协同工作，它可以看
AI 大模型创业：如何利用商业优势？ AI天才研究院大数据AI人工智能 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
第1章：AI大模型概述1.1AI大模型的概念与演进AI大模型（Large-scaleArtificialIntelligenceModels）是指通过大规模数据训练得到的复杂神经网络模型。这些模型通常具有数十亿甚至千亿个参数，能够实现从自然语言处理到计算机视觉、语音识别等广泛领域的任务。AI大模型的概念起源于20世纪80年代，当时研究人员提出了深度学习（DeepLearning）这一概念。深度学习
语言模型与向量模型：深入解析与实例剖析 ♢.＊语言模型人工智能自然语言处理
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、Java与Python的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！在自然语言处理领域，语言模型和向量模型
Python 调用常见大模型 API 全解析 ♢.＊ python 开发语言语言模型 nlp
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、JAVA、PYTHON与SAP的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！调用通义千问接口获取APIKe
AI编译器之——为什么大模型需要Relax？ FF-Studio 人工智能深度学习自然语言处理机器学习语言模型
放在最前：Relax的关键创新深度学习模型（比如ChatGPT这种大模型）在运行时经常遇到“输入尺寸不固定”的情况。比如你问它一个问题，这次输入是10个字，下次可能是100个字。传统编译器处理这种“变来变去”的尺寸很笨——要么只能按固定尺寸优化（导致变尺寸时性能暴跌），要么每次都要重新编译（慢到没法用）。Relax的创新：符号形状：让编译器学会“代数”Relax允许编译器用“符号变量”（比如n）表
Apache TVM：开源深度学习编译器栈的领跑者计攀建Eliza
ApacheTVM：开源深度学习编译器栈的领跑者tvmOpendeeplearningcompilerstackforcpu,gpuandspecializedaccelerators项目地址:https://gitcode.com/gh_mirrors/tv/tvm项目介绍ApacheTVM是一个专为深度学习系统设计的编译器栈。它旨在弥合生产力导向的深度学习框架与性能和效率导向的硬件后端之间的差
Deepseek 对种猪市场会带来哪些影响？百态老人笔记大数据人工智能
DeepSeek对种猪市场的影响可以从以下几个方面进行分析：1.提高生产效率与降低成本根据，DeepSeek已经被用于养猪场中分析饲料配比，从而将猪的育肥周期从6个月缩短至5个月，并降低了15%的成本。这表明DeepSeek在优化养殖流程和提高生产效率方面具有显著作用，能够帮助养猪场降低运营成本，提升经济效益。2.推动智能化养殖技术的应用和提到，深度学习技术（如YOLOv5模型）已经被应用于生猪的
获取PPT中的MSO格式图片报错 ♢.＊ ppt python
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、Java与Python的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！image.ext的报错ValueEr
知识图谱技术剖析 ♢.＊人工智能知识图谱大数据
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、Java与Python的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！一、引言在当今数字化信息爆炸的时代，如
python神经网络框架有哪些,python调用神经网络模型小明技术分享 python 神经网络深度学习
人工智能Python深度学习库有哪些由于Python的易用性和可扩展性，众多深度学习框架提供了Python接口，其中较为流行的深度学习库如下：第一：CaffeCaffe是一个以表达式、速度和模块化为核心的深度学习框架，具备清晰、可读性高和快速的特性，在视频、图像处理方面应用较多。Caffe中的网络结构与优化都以配置文件形式定义，容易上手，无须通过代码构建网络;网络训练速度快，能够训练大型数据集与S
Python实现复原毫米波雷达呼吸波形的示例 go5463158465 python 算法机器学习 python 开发语言
以下是一个使用Python实现复原毫米波雷达呼吸波形的示例，该示例将涉及模型算法在重建损失和KL（Kullback-Leibler）损失之间的平衡问题。我们将使用深度学习中的变分自编码器（VAE）作为模型来进行呼吸波形的复原，因为VAE可以很好地处理重建和潜在空间分布的问题。步骤概述数据准备：生成或加载毫米波雷达的呼吸波形数据。定义VAE模型：包括编码器和解码器。定义损失函数：结合重建损失和KL损
对话系统(Chatbots) 原理与代码实例讲解 AI天才研究院 AI大模型企业级应用开发实战大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1对话系统的发展历程对话系统，又称聊天机器人(Chatbots)，是模拟人类对话的计算机程序。从早期的基于规则的系统到如今基于深度学习的智能体，对话系统经历了漫长的发展历程。第一阶段：基于规则的系统(1960s-1990s)早期的对话系统主要基于预先定义的规则和模板。例如，ELIZA(1966)是一个模拟心理治疗师的程序，通过模式匹配和关键词识别来生成回复。这些系统只能处理有限的对
如何使用深度学习中的 Transformer 算法进行视频目标检测 go5463158465 python 算法深度学习 python 开发语言
以下将介绍如何使用深度学习中的Transformer算法进行视频目标检测，并给出一个复现相关论文思路及示例代码。这里以DETR（End-to-EndObjectDetectionwithTransformers）为基础进行说明，它是将Transformer引入目标检测领域的经典论文。步骤概述环境准备：安装必要的库，如PyTorch、torchvision等。数据准备：使用公开的视频目标检测数据集，
大模型问答机器人的智能化程度 AI大模型应用之禅 AI大模型与大数据 java python javascript kotlin golang 架构人工智能
大模型、问答机器人、智能化程度、自然语言处理、深度学习、Transformer模型、知识图谱、推理能力、对话系统1.背景介绍近年来，人工智能技术取得了飞速发展，特别是深度学习的兴起，为自然语言处理（NLP）领域带来了革命性的变革。其中，大模型问答机器人作为一种新型的智能交互系统，凭借其强大的语言理解和生成能力，在客服、教育、娱乐等领域展现出广阔的应用前景。问答机器人是指能够理解用户自然语言问题并给
大语言模型原理与工程实践：残差连接与层归一化 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着自然语言处理（NLP）的发展，深度学习在过去几年中取得了令人瞩目的成果。其中，循环神经网络（RNN）和卷积神经网络（CNN）在图像和文本分类、语义角色标注、机器翻译等领域表现出色。然而，这些网络在训练过程中经常遭遇梯度消失和梯度爆炸的问题。为了解决这些问题，我们引入了残差连接（ResidualConnections）和层归一化（BatchNormalization）来改善模型性能。
Transformer架构的GPU并行和之前的NLP算法并行有什么不同？ AI大模型学习不迷路 transformer 自然语言处理大模型深度学习 NLP LLM 大语言模型
1.什么是GPU并行计算？GPU并行计算是一种利用图形处理单元（GPU）进行大规模并行数据处理的技术。与传统的中央处理单元（CPU）相比，GPU拥有更多的核心，能够同时处理数千个线程，这使得GPU在处理高度并行的任务时表现出色。在深度学习中，GPU并行计算被广泛应用于训练神经网络，加速模型训练过程。在2017年之前，自然语言处理（NLP）领域的研究者们通常会从头开始训练模型，那时能够利用GPU进行
《向量数据库指南》——MoE应用：解锁深度学习新境界的钥匙大禹智库《实战AI智能体》《向量数据库指南》深度学习人工智能向量数据库大禹智库低代码 MoE模型
在深度学习的广阔天地里，混合专家（MoE）模型如同一把锐利的钥匙，正逐步解锁着各种复杂应用场景的新境界。作为大禹智库的向量数据库高级研究员，同时也是《向量数据库指南》的作者，我深感MoE模型在推动AI技术向前发展中所扮演的重要角色。今天，我将带大家深入探讨MoE模型在自然语言处理、计算机视觉以及多模态学习等领域的应用，并巧妙引导大家通过《向量数据库指南》获取更多干货和深度实战经验。一、自然语言处理
LLM based Single Agent System AGI大模型与大数据研究院大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LLM-BasedSingleAgentSystem:ANewEraofIntelligentAutomation关键词：大语言模型，单智能体系统，强化学习，自然语言处理，智能自动化1.背景介绍近年来，随着深度学习技术的快速发展，大语言模型(LLM)在自然语言处理(NLP)领域取得了突破性进展。LLM凭借其强大的语言理解和生成能力，正在改变着人们与信息交互的方式。同时，人工智能领域的另一个重要研究
AI常见的算法纠结哥_Shrek 人工智能算法
人工智能（AI）中常见的算法分为多个领域，如机器学习、深度学习、强化学习、自然语言处理和计算机视觉等。以下是一些常见的算法及其用途：1.机器学习(MachineLearning)监督学习(SupervisedLearning)线性回归(LinearRegression)：用于预测连续值，如房价预测。逻辑回归(LogisticRegression)：用于分类问题，如垃圾邮件检测。支持向量机(SVM)
【书生·浦语大模型实战营】学习笔记（五）：LMDeploy 量化部署 GoAI 深入浅出LLM 深入浅出AI 大模型 LLM 部署人工智能 LMDeploy
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI1；；爱好者学习，性价比非常高！加入星球➡️点击链接
PyTorch 框架实现线性回归：从数据预处理到模型训练全流程大模型铲屎官 PyTorch pytorch 线性回归人工智能深度学习 python
系列文章目录Pytorch基础篇01-PyTorch新手必看：张量是什么？5分钟教你快速创建张量！02-张量运算真简单！PyTorch数值计算操作完全指南03-Numpy还是PyTorch？张量与Numpy的神奇转换技巧04-揭秘数据处理神器：PyTorch张量拼接与拆分实用技巧05-深度学习从索引开始：PyTorch张量索引与切片最全解析06-张量形状任意改！PyTorchreshape、tra
机器学习Day01 酒脑猫机器学习人工智能
人工智能三大概念及其关系人工智能（AI）：使用计算机来模拟或者代替人类机器学习（ML）：机器自动学习，并不只由人定义规则编程深度学习（DL）：大脑仿生，模拟人大脑神经网络，设计一层层神经元模拟事物机器学习是实现人工智能的一种途径，深度学习是机器学习的一种更加深入的方法。机器学习学习方法基于规则的学习：程序员根据自己经验定义规则基于模型的学习：由于某些事物，问题无法可以定义明确的规则，如：图片，语音
AI技术赋能电商行业，引领变革 m0_74136676 人工智能
AI大模型在电商行业的应用正在不断拓展，其强大的数据处理和分析能力为电商平台带来了前所未有的创新机遇。一、购物推荐的创新应用AI大模型通过分析用户的浏览历史、购买记录、搜索关键词等大量数据，能够生成个性化的商品推荐。这种推荐系统比传统的基于规则或简单协同过滤的推荐更为精准。它利用深度学习技术，更准确地预测用户的兴趣点，使推荐内容更加贴切，从而提高用户点击率和购买转化率。例如，当用户在电商平台上搜索
DeepSeek V3 模型微调（SFT）技术详解 zhangjiaofa 大模型 DeepSeek 模型微调
DeepSeekV3模型微调（SFT）技术详解目录引言背景知识2.1深度学习与预训练模型2.2微调（Fine-tuning）的概念2.3监督微调（SupervisedFine-tuning,SFT）DeepSeekV3模型概述3.1模型架构3.2预训练任务3.3模型性能监督微调（SFT）技术详解4.1数据准备4.1.1数据收集与清洗4.1.2数据标注4.1.3数据增强4.2模型初始化4.2.1预训
Tensor 基本操作2 理解 tensor.max 操作，沿着给定的 dim 是什么意思 | PyTorch 深度学习实战 Chatopera 研发团队机器学习深度学习 pytorch 人工智能
前一篇文章，Tensor基本操作1|PyTorch深度学习实战本系列文章GitHubRepo:https://github.com/hailiang-wang/pytorch-get-started目录Tensor基本操作torch.max默认指定维度Tensor基本操作torch.maxtorch.max实现降维运算，基于指定的dim选取子元素的最大值。默认a=torch.randn(1,3)p
【图像超分】论文复现：万字长文！Pytorch实现EDSR！代码修改无报错！踩坑全记录！适合各种深度学习新手！帮助你少走弯路！附修改后的代码和PSNR最优的模型权重文件！十小大超分辨率重建（理论+实战科研+应用）深度学习 pytorch 人工智能超分辨率重建图像处理计算机视觉图像超分
第一次来请先看这篇文章：【超分辨率（Super-Resolution）】关于【超分辨率重建】专栏的相关说明，包含专栏简介、专栏亮点、适配人群、相关说明、阅读顺序、超分理解、实现流程、研究方向、论文代码数据集汇总等）修改后代码和权重文件下载见文末链接！！！包含制作好的h5数据集和最优性能权重文件，可直接用于测试。本文亮点：讲解细致，EDSR流程全通，代码注释丰富，适合新手入门阅读深度思考，踩坑报错全
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1

多尺度目标检测调研（-2019.10）

多尺度目标检测概况

目标检测常用数据集

目标检测经典论文

基于深度学习检测方法的总结

Anchor方面的改进

Loss方面的改进

NMS -后处理上的优化

其它方法

个人总结

你可能感兴趣的:(深度学习)