PRIS-SCMonkey

目标检测——FPN

简单来说，FPN 的整体目标就是使用卷积网络的从高到低的具有语义的特征金字塔，构建一个具有高层次语义的金字塔；提出了自上而下和横向连接来连接丰富的语义特征和高分辨率，使网络适应与分类和定位的任务。
论文：Feature pyramid networks for object detection
论文链接：https://arxiv.org/abs/1612.03144
Code：https://github.com/DetectionTeamUCAS/FPN_Tensorflow/tree/master/libs/networks

作者简介

先来膜拜一下大佬们！FPN是2017年的CVPR论文，我们来看一下前三位作者的简介（如下）：

一作：Tsung-Yi Lin

现工作：Google Brain
博士毕业：Cornell NYC Tech康奈尔大学纽约理工学院
硕士毕业：UCSD加州大学
康奈尔大学主页：https://vision.cornell.edu/se3/people/tsung-yi-lin/
二作：Piotr Doll´ar

Fast feature pyramids for object detection一作/Mask-RCNN的三作
Facebook人工智能研究研究经理微软研究院
在加州理工大学的计算机视觉实验室担任博士后
在加州大学旧金山分校获得博士学位
三作：Ross Girshick

Mask-RCNN四作
Facebook人工智能研究（Fair）
芝加哥大学计算机科学博士学位
微软研究院的研究员
雷德蒙和加州大学伯克利分校的博士后

FPN提出背景

卷积网络输出的特征图具有高水平的语义特征和低水平的分辨率，虽然有利于分类，但是同时有害于定位。
一般的图像金字塔具有尺度不变性，这种性质在图像的分类的任务中是很重要的。传统的图像处理也很喜欢用图像金字塔，然后再从图像金字塔中提出特征金字塔，比如SIFT就是使用图像金字塔的。
卷积网络提取的图像特征对比传统的手工特征而言，更加稳定准确，并且各个尺度的特征图都具有较强的语义特征，你说是不是很好用~ 所以目前的传统提取特征的方法都被网络提取特征取代。
但是图像金字塔非常耗时，根据我们往常的网络那种数据增强的方法，这个图像金字塔算起来非常浪费时间，还因为网络深度很占内存，所以之前大家一般都是用在测试阶段（SPPnet，Fast RCNN），但是这种做法会让测试集和训练集之间产生一定的不平衡。
先计算图像金字塔再计算特征金字塔的方法也不是唯一方法，可以通过在不同层进行计算金字塔型的特征图，然后对特征图进行降采样，但是每个层级的特征图之间语义有一定的差距，假设用第二层的特征图降采样推断第五层的特征图，就会出现语义鸿沟。并且低层的图像具有低水平的特征，这种特征损害对于目标识别的表达能力。

SSD这一类的网络对于每一层的卷积网络都生成特征图，并对不同的特征图进行重复利用，但是为了避免使用低级的特征图，SSD直接从网络高层开始进行计算特征图，并且构建特征金字塔，SSD没有利用到低级的特征图的高分辨率的特点。
所以FPN提出了自上而下和横向连接来连接丰富的语义特征和高分辨率，使网络适应与分类和定位的任务。建立一个镶嵌在网络中的网络特征图金字塔，同时不牺牲时间内存和表达力。类似的网络结构还有Hourglass（2016年MPII姿态分析竞赛达到89.4%，达到过第一名）。

【补充】简要介绍Hourglass的结果，之所以介绍这个是因为他们是同一个思路的
Hourglass针对的多尺度特征识别姿态，在此之前的姿态估计网络大多使用最后一层的卷积网络，造成信息丢失，事实上，全身不同的关节点在不同的特征图上有不同的识别效果。

降采样使用max pooling，升采样使用最近邻插值。

Hourglass一阶结构如上图，整体结构就是上图结果堆砌起来的。

如下四条准则基本上和FPM的横向连接相似：
1）每次降采样之前，分出上半路保留原尺度信息；2）每次升采样之后，和上一个尺度的数据相加；3）两次降采样之间，使用三个Residual模块提取特征；4）两次相加之间，使用一个Residual模块提取特征。
四个一阶Hourglass堆砌成一个Hourglass模块，等于说内部是并联的，而外部是串联的，串联结构如下图：
第二个Hourglass的输入包含三路：第一个Hourglass的输入数据；第一个Hourglass的输出数据；第一级预测结果；这三路数据通过串接（concat）和相加进行融合，它们的尺度不同，体现了当下流行的跳级结构思想。每一个hourglass级都会生成一个H/2×W/2×K的响应图。 对于每个响应图，都比较其与真值的误差作为代价。每个层都计算一次loss。这种做法体现了 中继监督(intermediate supervision)的思想。

本文FPN目的在于弥补特征金字塔语义特征不太连贯的缺点，形成一个多尺度（有利于分类） 的具有丰富语义特征并且可以准确定位 的网络内的特征金字塔。针对这一目标提出了两个结构：1.自上而下的通路；2.横向连接。在网络中，每个level的合成特征金字塔的层级都要进行预测。同时提高了计算效率和减少了内存占用。作者以Faster RCNN作为基础框架进行实验，实验结果表明经过结构改进的网络性能超越当时的所有网络的性能，并且弥补了SSD的训练和测试时的数据集之间的不平衡（说的就是在训练时使用single scale，在测试时使用multi-scale）。

特征金字塔网络（FPN）

重复一下我们FPN目标：使用卷积网络的从高到低的具有语义的特征金字塔，构建一个具有高层次语义的金字塔。
输入的图像是单一尺度的任意尺寸的图像，以完全卷积的方式在多个level上输出按比例大小排列的特征图。这个过程和基础卷积网络结构是独立开来的，这篇文章使用的基础网络是resnet。作者描述的金字塔结构还包括自底向上的通路，自顶向下的通路和横向连接。
【自底向上通路】 这个通路实际上就是前向传播网络，按照基础网络的层次计算得到各个level的前向特征图。Resnet一般有很多层，每层都会产生特征图，每层都对输出进行提取不太实际，所以将产生相同尺寸的特征图的层归结为一个stage，将每个stage最后产生的特征图作为特征金字塔的一个层。每个stage的最后产生的特征图有该阶段最强的语义特征。
对于resnet，使用每个残差模块最终激活的输出作为特征图，将这些输出标记为Ci，i=2,3,4,5.它们的步长为4,8,16,32像素（应该是映射换算回到原图的步长）。对于第一个卷积层由于占用较大内存而不去使用。
【自顶向下通路和横向连接】 自顶向下的通路通过对粗糙的高层次的特征图进行上采样 得到具有更高分辨率的强语义特征的特征图。这些特征通过横向连接和自定向上通路产生的特征相结合，从而得到增强。自底向上的特征具有高像素低语义的特点，而高像素的特点更有利于定位任务的进行。
实际的上采样工作是通过采样因子为2的最近邻采样完成的，两列特征图的结合是通过元素对元素的相加完成，（为了避免维度不匹配，通过1X1卷积进行降维）。直接在网络C5上连接一个1X1的卷积层进行生成具有最粗糙像素的特征图。最终在每个生成的特征图上使用3X3卷积进行生成最终的特征图（可以消除上采样带来的混叠效应）。最终生成的特征图为Pi，i=2,3,4,5，Pi和Ci具有相同的空间尺寸。

（感觉可以附上代码，嘻嘻嘻）

传统图像提取的特征金字塔的各层使用相同的分类器和回归器，所以在本文的金字塔上输出的特征图保持相同的通道数：256。分类器和回归器的层没有用非线性的，个人认为非线性容易损害信息。使用残差块作为横向连接会有一定的好处，但是本文意不在此，所以选择最简单的结构。

FPN的应用

在RPN上应用FPN结构用于产生proporsal region+在Fast RCNN上应用FPN结构用于目标检测。
【在RPN上应用FPN】 RPN使用滑窗进行目标检测（不区分类）。在RPN的原始设计中，在单尺度的卷积网络上进行3X3的小窗滑动，进行二分类和bounding box回归。通过3X3的卷积网络+2个1X1的滑动卷积进行分类和回归——head（这两个模块的集合）。基于锚定义的框进行目标判定和回归。锚具有多个预先定义的尺度和纵横比，这样可以覆盖各个尺寸的物体。
在RPN每层都连上3X3卷积和1X1卷积（X2），就是连上head。由于head在本文的特征金字塔的而每个层都密集滑动，所以不用在特定层上有多个尺度的锚。所以一个尺度的锚可以安排到多个层的特征图上进行映射。所以在5个特征图上使用3个不同纵横比的锚，这样特征金字塔上就有15个锚。
本文通过锚的框和ground-truth的框之间IOU的值对锚进行标记label。正样本：和任意的ground-truth的IOU超过0.7，负样本：和所有的ground-truth的IOU小于0.3。ground-truth的尺度不直接应用到各层的金字塔上；而是通过锚点的标签间接地被安排到各层金字塔上。
注意到head的参数在RPN的各层之间是共享的，作者的实验表明使用不同的参数将获得类似的结果。这样的实验结果表明金字塔各层的语义特征是相似的，一个普通的head分类器可以应用于任意尺度的图像计算得到的特征。（这个结论还是比较有意思的）
【在Fast-RCNN上应用FPN】
Fast-RCNN是基于区域的检测器，在这个检测器上使用ROI 池化提取特征。因此需要将ROI池化和金字塔的不同层级进行关联，才能应用FPN组件。
假设将特征金字塔看作是有图像金字塔生成的，这样就可以建基于区域的检测器和金字塔关联起来：还记得faster-RCNN的公式如下：
$k=\lfloor k_0 + log_2( \sqrt{wh}/224) \rfloor$
224X224是典型的输入图像的尺寸，k0是最终映射得到的特征图的level，在这里设为4，因此k越小，图也越精细（像素高，例如k=3，则log(~) = -1， $w * h = 224 * 224 / 4$ ）。
类比与RPN，Fast-RCNN也有head，就是针对所有levelde所有ROI的，特定类的预测期和bounding box的回归器。Head仍然参数共享。在最高层的输出使用ROI池化提取7X7的特征并连接上两个FC在分类和回归层之前。这些层的参数是随机初始化的。对比标准的conv5的head（我猜作者这里指代的是用更高级的卷积层作为低一级卷积层的head），2FC MLP head更加轻便，快速。
最终得到的结构是这样的：

为什么在RPN后面加-15，因为这里是上面提及的5个特征图*3个纵横比的anchor的操作。(这里的图是实验室小姐姐画的，疯狂给她打call，两层FC实际上在代码中是串联的，注意： 在train过程中，代码上是两个loss一起训练的，同时在横向连接中没有BN和Relu，但是在FC层中有Relu，卷积层使用的是resnet_1_block，第一层卷积层是自定义的，在P5之前还构建了一层P6，保证整体结构的一致性)

【补充】下面的模型是DSSD，和FPN非常相似

FPN实验环节

【使用RPN提取proporsal region】
使用AR衡量改进后的RPN在小，中，大三种尺寸的目标的检测效果，每张的proporsal控制在100和1000上，即 ${AR}^{100}$ and ${AR}^{1000}$ 。
输入图像数据的最短边为800，在8GPU上使用同步SGD（我现在看到GPU的数量超过4就开始头疼，我可能要开始做梦了，梦里有好多GPU！还有好用的集群容器管理器！）每个GPU上的mini-batch有2张图，每张图上有256个anchor，权重衰减为0.0001，动量0.9，学习率0.02（前30k mini-batch,后10k mini-batch使用学习率=0.002）。对于超出图像边界的anchor，本文也用上了。训练COCO数据集用了8h。
【实验模型和baseline进行比较】
Baseline有两个，分别使用单一尺度的conv4或conv5的特征图。

实验结果表明，单一尺度的高层的特征图对于定位的表现不好，因为具有较强的语义特征，但是分辨率特征比较粗糙。在RPN上使用FPN的模型对于小物体检测的效果较好，提高了12.9%，并且提高了模型对于目标尺寸变化的鲁棒性。
1.自上向下通路的重要性： 消除自上而下的通路得到的结果和baseline相近但是不如完整的FPN结构。原因是：较深的ResNet的网络结构的各层级的特征图之间的语义差别较大。原文在这里提了一句：对head进行参数不共享的实验得到性能下降的表现。
2.横向连接的重要性： 自顶向下的金字塔具有较强的语义特征和精细的分辨率，但是作者认为这些特征图的定位信息由于经过多次采样而不是很准确，而自底向上的特征图能将准确的定位信息通过横向连接传递给自顶向下的特征图，这也是FPN比e性能好的原因。
3.金字塔表现力的重要性： 表1中的f方法是只在P2上加上anchor，f方法优于baseline，但还是逊色于FPN。RPN是一个具有固定大小窗口的滑窗检测器，所以遍历金字塔各个层级能增加对于目标变化尺度的鲁棒性。
并且只用P2会因为P2的精细的空间分辨率而产生更多的anchor，但这个结果表明anchor越多不一定会提高准确率。
【使用Fast/Faster RCNN的目标检测】
这一部分固定FPN作为区域检测器的部分。输入图像的最小边为800，使用同步SGD，8GPU，每个mini-batch在每个GPU上两张图，每张图上有512个ROI，权重衰减为0.0001，动量为0.9，前60k mini-batch的学习率为0.02，后20k mini-batch的学习率为0.002。在训练阶段的ROI设为2000每张图，测试时设为1000每张图。
Proporsal固定（fast）：Fast RCNN和RPN之间不进行特征共享（除非特定情况下）。经过实验对比2FC的层作为head vs conv5作为head并没有明显优势。

将FPN的结果和（以conv5为头的）baseline、（以2FC为头的）baseline对比，得到FPN的结构优于单尺度特征的基于区域的目标检测。移除掉自顶向下的结构或者横向结构得到的结果和之前的结果一样。当只在P2上使用Fast RCNN，结果只比FPN差一点，说明ROI池化对于区域的尺度不那么敏感。
Proporsal不固定，使用相同的基础网络（faster）：faster RCNN的网络需要使用和RPN相同的基础网络，进行参数共享。

（a）方法的效果就是复制的Faster RCNN的结果，加了FPN的总体效果比Baseline要好。（a），（b）与（*）方法同样是baseline但是效果却不同，原因在于：（1）使用最小边为800，而非600；（2）每张图有512个ROI，加速了收敛的过程
特征共享： 特征共享能够对网络模型有细微的改善，并且能够减少测试时间
运行时间： 基于FPN的Faster RCNN系统在单个NVIDIA M40的GPU上使用resnet50运行一张图需要0.148s，使用resnet101运行一张图需要0.172s。对比单尺度的resnet50使用0.32s。就是很快啦！
对比COCO比赛的冠军： 作者认为在默认的学习率的设定下，没有将resnet101充分训练，所以在每个学习率中将mini-batch乘以两倍。结果在没有共享特征的情况下，提高了AP。

FPN同样也可以用在分割上。效果也很好。

致谢！

跪谢Github上的大佬！跪谢百度前5页的大佬们！跪谢知乎上的大佬！
跪谢！感恩！

目标检测中的NMS算法详解
好的，我们来详细解释一下目标检测中非极大值抑制（Non-MaximumSuppression,NMS）的相关概念和计算过程。1.为什么需要NMS？问题：目标检测模型（如FasterR-CNN,YOLO,SSD等）在推理时，对于同一个目标物体，通常会预测出多个重叠的、不同置信度（confidencescore）的候选边界框（BoundingBoxes）。直接输出所有这些框会导致：结果冗余：同一个物体
【实战AI】macbook M1 本地ollama运行deepseek 东方鲤鱼 chat AI macos ai llama AIGC chatgpt
由于deepseek官网或者Aapi调用会有网络延迟或不响应的情况，故在本地搭建部署；前提条件1.由于需要拉取开源镜像，受网络限制，部分资源在前提中会下载的更快！请自行；2.设备macbookM132G下载ollamaOllama是一款跨平台推理框架客户端（MacOS、Windows、Linux），专为无缝部署大型语言模型（LLM）（如Llama2、Mistral、Llava等）而设计。通过一键式
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
DeepSeek解读道德经第五十九章 cal_ 道德经道德经
一、原文与译文原文：治人事天，莫若啬。夫唯啬，是谓早服；早服谓之重积德；重积德则无不克；无不克则莫知其极；莫知其极，可以有国；有国之母，可以长久。是谓深根固柢，长生久视之道。译文：治理百姓侍奉天道，没有比珍爱能量更重要的。唯有珍惜能量，才叫早作准备；早作准备就是厚积德性；厚积德性则无往不胜；无往不胜则力量无穷；力量无穷便可守护国家；掌握治国根本，方能长久延续。这便是根深柢固、长生久存之道。二、核心
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
Golang面试题二（slice,map,chan） os-lee go高级 golang 开发语言后端
目录1.slice的底层实现1.结构体定义2.slice四种初始化方式3.底层函数2.Go语言当中数组和slice的区别是什么？1.长度不同2.函数传参不同3.计算长度方式不同3.slice的扩容机制，有什么注意点扩容机制总结4.扩容前后的Slice是否相同5.深拷贝和浅拷贝浅拷贝（ShallowCopy）深拷贝（DeepCopy）总结6.slice为什么不是线程安全的7.map底层实现8.map
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
Python桌面应用开发的未来——智能化工具与大模型赋能 IronwoodStag78
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！标题：Python桌面应用开发的未来——智能化工具与大模型赋能随着人工智能技术的飞速发展，传统软件开发模式正在被重新定义。Python作为一门功能强大且灵活的语言，在桌面应用开发领域一直占据重要地位。然而，面对日益复杂的用户需求和快速变化的技术环境，如何提升开发效率、降低开发门槛，成为开发者亟需解决的问题
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
YOLOv11 技术详解：架构优化与性能提升代码老y YOLO 架构目标跟踪
YOLOv11是目标检测领域中一个备受瞩目的新版本，它在保持实时性的同时，显著提升了检测的准确性和效率。本文将深入探讨YOLOv11的架构改进、性能优化以及它在不同应用场景中的表现。一、架构改进（一）C3K2块YOLOv11引入了C3K2块，这是对之前版本中CSP（CrossStagePartial）块的增强。C3K2块使用不同的核大小（例如3x3或5x5）和通道分离策略来优化更复杂特征的提取。这
YOLO11 目标检测从安装到实战
前言YOLO（YouOnlyLookOnce）系列是目标检测领域的经典算法，凭借速度快、精度高的特点被广泛应用。最新的YOLO11在模型结构和性能上进一步优化，本文将从环境搭建到实战应用，详细讲解YOLO11的使用方法，适合新手快速上手。一、环境准备1.系统要求操作系统：Windows10/11、Ubuntu20.04+、欧拉系统等硬件：CPU可运行，GPU（NVIDIA）可加速（推荐，需支持CU
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
OpenCV入门到精通：AI视觉处理的完整指南 AI云原生与云计算技术学院人工智能 opencv 计算机视觉 ai
OpenCV入门到精通：AI视觉处理的完整指南关键词：OpenCV、计算机视觉、图像预处理、目标检测、AI视觉应用摘要：本文是一份面向AI视觉爱好者的OpenCV完整学习指南。从OpenCV的核心概念讲起，结合生活案例、代码示例和项目实战，逐步拆解图像读取/显示、灰度化、边缘检测、目标检测等关键技术。无论你是想入门计算机视觉的新手，还是希望用OpenCV解决实际问题的开发者，都能通过本文掌握从理论
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
目前主流图像分类模型的详细对比分析 @comefly 闲聊 linux 运维服务器
以下是目前主流图像分类模型的详细对比分析，结合性能、架构特点及应用场景进行整理：一、主流模型架构分类与定量对比模型名称架构类型核心特点ImageNetTop-1准确率参数量（百万）计算效率典型应用场景ResNetCNN残差连接解决梯度消失，支持超深网络（如ResNet-152）76.1%25.6中等通用分类、目标检测ViTTransformer将图像分割为patches，用标准Transforme
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
【深度学习实战】当前三个最佳图像分类模型的代码详解云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习人工智能分类模型机器学习 Transformer EfficientNet ConvNeXt
下面给出三个在当前图像分类任务中精度表现突出的模型示例，分别基于SwinTransformer、EfficientNet与ConvNeXt。每个模型均包含：训练代码（使用PyTorch）从预训练权重开始微调（也可注释掉预训练选项，从头训练）数据集目录结构：└──dataset_root├──buy#第一类图像└──nobuy#第二类图像随机拆分：80%训练，20%验证每个Epoch输出一次loss
第35周—————糖尿病预测模型优化探索
目录目录前言1.检查GPU2.查看数据编辑3.划分数据集4.创建模型与编译训练5.编译及训练模型6.结果可视化7.总结前言本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.检查GPUimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvision,torch#设置硬件设备，如果有GPU则使用，没有则使用cpudevice=
强化学习之 DQN、Double DQN、PPO JNU freshman 强化学习强化学习
文章目录通俗理解DQNDoubleDQNPPO结合公式理解通俗理解DQN一个简单的比喻和分步解释来理解DQN（DeepQ-Network，深度Q网络），就像教小朋友学打游戏一样：先理解基础概念：Q学习（Q-Learning）想象你在教一只小狗玩电子游戏（比如打砖块）。小狗每做一个动作（比如“向左移动”或“发射球”），游戏会给出一个奖励（比如得分增加）或惩罚（比如球掉了）。小狗的目标是通过不断尝试，
数据不Ready，一切AI Ready都是伪命题
2025年随着DeepSeekR1通用大模型的爆火，企业级AI应用元年正式来临。“AIReady”这个词随之火了起来，但什么是AIReady？是有了大模型接口，就是Ready？是买了GPU服务器，就能跑出结果？显然不是。在袋鼠云看来，AIReady不等于模型Ready，而是数据Ready。没有可用、可控、可理解的数据，AI只能是空中楼阁。AIReady，首先是DataReady。别让AIReady
小诗《苦》赏析（“诗人”我/智普清言/DeepSeek）梦幻精灵_cq 笔记学习
苦有万千分好坏，人成百样须努力。笔记模板由python脚本于2025-07-1107:22:06创建，本篇笔记适合喜欢中文诗的coder翻阅。学习的细节是欢悦的历程博客的核心价值：在于输出思考与经验，而不仅仅是知识的简单复述。Python官网：这里，才python前沿。英文原版，原汁原味，才是寻根溯源的正统。地址：https://www.python.org/Free：大咖免费“圣
目标检测之数据增强
数据翻转，需要把bbox相应的坐标值也进行交换代码：importrandomfromtorchvision.transformsimportfunctionalasFclassCompose(object):"""组合多个transform函数"""def__init__(self,transforms):self.transforms=transformsdef__call__(self,ima
深度学习预备知识 AmazingMQ 深度学习人工智能
1.Tensor张量定义：张量（tensor）表示一个由数值组成的数组，这个数组可能有多个维度（轴）。具有一个轴的张量对应数学上的向量，具有两个轴的张量对应数学上的矩阵，具有两个以上轴的张量目前没有特定的数学名称。importtorch#arange创建一个行向量x，这个行向量包含以0开始的前12个整数。x=torch.arange(12)print("x=",x)#x=tensor([0,1,2
模型实战（21）之 C++ - tensorRT部署yolov8-det 目标检测明月醉窗台 #深度学习实战例程人工智能 c++YOLO 目标检测计算机视觉人工智能
C++-tensorRT部署yolov8-det目标检测python环境下如何直接调用推理模型转换并导出：pt->onnx->.engineC++tensorrt部署检测模型不写废话了，直接上具体实现过程+all代码1.Python环境下推理直接命令行推理，巨简单yolodetectpredictmodel=yolov8n.ptsource='https
DeepSeek 驱动智能交通调度：从传统到智慧的跃迁之路奔跑吧邓邓子 DeepSeek 实战 DeepSeek 智能交通调度应用
目录一、引言二、DeepSeek技术概述2.1DeepSeek简介2.2核心技术原理2.3技术特点与优势三、智能交通调度现状与挑战3.1智能交通调度系统构成3.2现存问题与挑战四、DeepSeek在智能交通调度中的应用4.1交通流量预测与优化4.2智能信号灯控制4.3公交智能排班与调度4.4地铁智能运维与调度4.5交通枢纽智能管理4.6事故预防与应急响应五、应用案例分析5.1某省会城市交通优化案例
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam