egowell

深度学习之细粒度分类

目录
一、概述
资源
什么是细粒度图像分类
意义
细粒度图像分类的挑战
细粒度分类常用方法
二、基于定位-识别的方法
2.1 强监督
2.1.1 Part-based R-CNN
2.1.2Pose Normalized CNN
2.1.3 基于多候选区集成的部件定位（Part localization using multi-proposal consensus）
2.1.4部件堆积CNN（Part-stack CNN，PS-CNN）
2.1.5 Deep LAC（Location Alignment Classification）
Mask-CNN
2.2 弱监督
2.2.1 两级注意力（Two-level attention）
2.2.2 细粒度分类的注意力（Attention for fine-grained categorization）
2.2.3 FCN注意力模型（FCN attention）
2.2.4 多样化视觉注意力（Diversified visual attention）
RACNN
MACNN
MAMC
Learning a Discriminative Filter Bank within a CNN（DFL-CNN）
(ECCV 2018) Learning to Navigate for Fine-grained Classification
三、基于网络集成的方法
3.1子集特征学习网络（Subset feature learning networks）
3.2 混合DCNN（Mixture of deep CNN）
3.3 CNN树（CNN tree）
3.4 多粒度CNN（ Multiple granularity CNN）
四、高阶特征编码
Bilinear CNN Models for Fine-grained Visual Recognition---ICCV2015
Low-rank Bilinear Pooling for Fine-Grained Classification-CVPR2017
Hierarchical Bilinear Pooling for Fine-Grained Visual Recognition
Higher-Order Integration of Hierarchical Convolutional Activations for Fine-Grained Visual Categorization ICCV2017
总结
其它相关
一、概述
资源
Awesome Fine-grained Visual Classification
Awesome Fine-Grained Image Analysis – Papers, Codes and Datasets----weixiushen

什么是细粒度图像分类
细粒度图像分类问题是对大类下的子类进行识别。细粒度图像分析任务相对通用图像（General/Generic Images）任务的区别和难点在于其图像所属类别的粒度更为精细。
以图1为例，通用图像分类其任务诉求是将“袋鼠”和“狗”这两个物体大类（蓝色框和红色框中物体）分开，可见无论从样貌、形态等方面，二者还是很容易被区分的；而细粒度图像的分类任务则要求对“狗”该类类别下细粒度的子类，即分别为“哈士奇”和“爱斯基摩犬”的图像分辨开来。正因同类别物种的不同子类往往仅在耳朵形状、毛色等细微处存在差异，可谓“差之毫厘，谬以千里”。不止对计算机，对普通人来说，细粒度图像任务的难度和挑战无疑也更为巨大。

意义
细粒度图像分类无论在工业界还是学术界都有着广泛的研究需求与应用场景。与之相关的研究课题主要包括识别不同种类的鸟、狗、花、车、飞机等。在实际生活中，识别不同的子类别又存在着巨大的应用需求。例如, 在生态保护中, 有效识别不同种类的生物，是进行生态研究的重要前提。如果能够借助于计算机视觉的技术, 实现低成本的细粒度图像识别, 那么无论对于学术界, 还是工业界而言, 都有着非常重要的意义。

细粒度图像分类的挑战
由于分类的粒度很小，细粒度图像分类非常困难，在某些类别上甚至专家都难以区分。主要原因有三：
子类之间差异细微：只在某个局部上有细微差异，如狗的眼睛
子类内部差异巨大：如姿态、背景带来的差异
受视角、背景、遮挡等因素影响较大

细粒度分类常用方法
目前细粒度图像分类基本上都采用深度学习的方法，取得不错的效果。具体来说，大致可以分为以下几类：

使用通用DCNN（Deep Convolutional Neural Network，深度卷积神经网络）进行细粒度分类，该方法难以捕获有区别性的局部细节，目前已经不太常用；
基于定位-识别的方法：先找到有区分度的局部，然后进行特征提取和分类，该方法又可分为强监督和弱监督两种；
基于网络集成的方法：使用多个DCNN对细粒度识别中的相似特征进行判别；
卷积特征的高阶编码方法：将cnn特征进行高阶转换然后进行分类，主要有fisher vector、双线性模型、核融合等。
二、基于定位-识别的方法
人类区分相似物体时，通常会通过快速扫描的方式先找到具有区别性的区域，然后在该区域仔细进行比对识别。与人类的方式类似，基于定位-识别的方法将细粒度图像识别分为两个部分：区别性区域定位和区域中的细粒度特征学习。在区别性区域定位时，通常会以强监督或弱监督的方式利用深度神经网络的卷积特征响应；而在细粒度特征学习时，则从定位到的各个区域中分别抽取特征，并将各特征组合到一起最后进行分类。
强监督的方法不仅需要类别标签，而且需要部件标注和关键部位框，该种方法取得了不错的效果，但缺点在于需要昂贵的人工标注，而且人工标注的位置不一定是最佳的区别性区域，这完全依赖于标注者的认知水平。
进来，很多弱监督的方法被提出来。该类方法利用注意力机制、聚类等手段来自动发现区别性区域，不需要部件标注，仅仅有分类标签即可完成训练。
当前有很多方法在朝这方面努力，从大的发展趋势来看，基于定位-分类的细粒度图像分类方法经历了从手工特征工程到多阶段方法再到end to end的发展过程。

2.1 强监督
所谓“强监督细粒度图像分类模型”是指：在模型训练时，为了获得更好的分类精度，除了图像的类别标签外，还使用了物体标注框（Object Bounding Box）和部位标注点（Part Annotation）等额外的人工标注信息，如下图所示。

2.1.1 Part-based R-CNN

相信大家一定对R-CNN不陌生，顾名思义，Part-based R-CNN就是利用R-CNN算法对细粒度图像进行物体级别（例如鸟类）与其局部区域（头、身体等部位）的检测，其总体流程如下图所示。

首先利用Selective Search等算法在细粒度图像中产生物体或物体部位可能出现的候选框（Object Proposal）。之后用类似于R-CNN做物体检测的流程，借助细粒度图像中的Object Bounding Box和Part Annotation可以训练出三个检测模型（Detection Model）：一个对应细粒度物体级别检测；一个对应物体头部检测；另一个则对应躯干部位检测。然后，对三个检测模型得到的检测框加上位置几何约束，例如，头部和躯干的大体方位，以及位置偏移不能太离谱等。这样便可得到较理想的物体／部位检测结果（如图3右上）。
接下来将得到的图像块（Image Patch）作为输入，分别训练一个CNN，则该CNN可以学习到针对该物体／部位的特征。最终将三者的全连接层特征级联（Concatenate）作为整张细粒度图像的特征表示。显然，这样的特征表示既包含全部特征（即物体级别特征），又包含具有更强判别性的局部特征（即部位特征：头部特征/躯干特征），因此分类精度较理想。

Part R-CNN的进步是明显的. 从局部区域的检测定位, 到特征的提取, 该算法均基于卷积神经网络, 并针对细粒度图像的特点进行改进优化, 以改进通用物体定位检测算法在该任务上的不足, 达到了一个相对比较高的准确度. 同时，该算法进一步放松了对标记信息的依赖程度, 在测试时无需提供任何标记信息, 大大增强了算法的实用性. 、
其不足之处在于,第一是利用自底向上的区域产生方法, 会产生大量无关区域, 这会在很大程度上影响算法的速度. 第二是不仅在训练时需要借助Bounding Box和Part Annotation，为了取得满意的分类精度，在测试时甚至还要求测试图像提供Bounding Box，这便限制了Part-based R-CNN在实际场景中的应用。第三是该算法本身的创新性十分有限, 既然局部区域对于细粒度图像而言是关键所在, 那么对其进行定位检测则是必要的途径. 只是引入现有的通用定位算法, 似乎并不能很好地解决该问题。

2.1.2Pose Normalized CNN

姿态归一化CNN的创新之处在于使用原型对图像进行了姿态对齐操作, 并针对不同的局部区域提取不同网络层的特征, 以试图构造一个更具区分度的特征表示. 它在原有的局部区域模型的基础上, 进一步考虑了鸟类的不同姿态的干扰, 减轻了类内方差造成的影响, 从而取得了较好的性能表现. 但是, 该算法对于关键点的检测精度较为敏感, 利用DP算法对关键点进行检测, 其精度为75.7%。

有感于Part-based R-CNN，S. Branson等人提出在用DPM算法得到Part Annotation的预测点后同样可以获得物体级别和部位级别的检测框，如下图所示。与之前工作不同的是，Pose Normalized CNN对部位级别图像块做了姿态对齐操作。

此外，由于CNN不同层的特征具有不同的表示特性（如浅层特征表示边缘等信息，深层特征更具高层语义），该工作还提出应针对细粒度图像不同级别的图像块，提取不同层的卷积特征。该网络将经过姿态归一化提取的conv5、fc6等底层特征与未对齐的fc8高级特征进行融合。

训练阶段，姿态归一化网络使用DPM预测2D位置及13个语义部位关键点，或者直接使用已提供的物体框及部位标注信息学习姿态原型。将不同的部位图像进行弯曲，并且使用不同的DCNN（AlexNet）提取其特征。最后拼接各个部位及整张图像的特征训练分类器。

最终，还是将不同级别特征级联作为整张图像的表示。如此的姿态对齐操作和不同层特征融合方式，使得Pose Normalized CNN在使用同样多标记信息时取得了相比Part-based R-CNN高2%的分类精度。

2.1.3 基于多候选区集成的部件定位（Part localization using multi-proposal consensus）

使用基于AlexNet的单个DCNN定位关键点和区域。

将AlexNet最后的fc8层替换为两个产生关键点及视觉特征的输出层。使用边缘框分块（edge box crops）方法将图像分块，之后产生其特征点位置及视觉特征，去除自信度低的预测结果。之后取剩余预测结果的中心点，作为最终关键点预测结果。并使用将部件检测网络中关键点位置的特征，将其拼接，使用200路一对所有SVM分类器进行分类。

2.1.4部件堆积CNN（Part-stack CNN，PS-CNN）

基于人工标记的强部件标注信息，PS-CNN使用全卷积网络进行部件定位和一个双流的分类网络对物体及部件的特征进行编码。

全卷积网络将CNN中的全连接层使用1×1的卷积代替，其输出特征图的维度小于输入图像维度。输出特征图的每个像素点对应输入图像的一个区域，该区域称为其感受野。FCN具有以下优点：1）其特征图可以直接作为部件的定位结果应用于分类网络；2）FCN能够同时得到多部件的定位结果；3）FCN的学习及推理较为高效。
使用FCN得到conv5中M个关键点的位置之后，将定位结果输入到分类网络，使用两级架构分析图像物体级及部件级的特征。
部件级网络首先通过共享层提取特征，之后分别计算关键点周围的部件特征。物体级别网络使用标注框提取对象级CNN特征，及pool5特征。之后将部件级网络及物体级网络特征图合并，进行分类。

2.1.5 Deep LAC（Location Alignment Classification）

Deep LAC在同一个网络中进行部件定位、对齐及分类，提出了VLF（valve linkage function，阀门连接函数）函数，进行Deep LAC中的反向传播，其能够自适应地减小分类及对齐的误差，并且更新定位结果。

部件定位子网络包含5个卷积层及3个全连接层。输出为框的左上角及右下角点的坐标。

对齐子网络接收部件定位结果，执行模板对齐，产生姿态对齐的部件图像。对齐子网络进行平移、缩放、旋转等操作用于姿态对齐区域的生成。同时，该子网络还负责反向传播过程中分类及定位结果的桥接作用。

对齐子网络中的VLF是一个非常关键的模块，优化定位及分类子网络间的连接，协调分类结果与定位结果。使网络达到稳定状态。

Mask-CNN

该模型亦分为两个模块，第一是Part Localization；第二是全局和局部图像块的特征学习。需要指出的是，与前两个工作的不同在于，在Mask-CNN中，借助FCN学习一个部位分割模型（Part-Based Segmentation Model）。其真实标记是通过Part Annotation得到的头部和躯干部位的最小外接矩形，如下图（c）所示。在FCN中，Part Localization这一问题就转化为一个三分类分割问题，其中，一类为头部、一类为躯干、最后一类则是背景。

FCN训练完毕后，可以对测试集中的细粒度图像进行较精确地part定位，下图展示了一些定位效果图。可以发现，基于FCN的part定位方式可以对大多数细粒度图像进行较好的头部和躯干定位。同时，还能注意到，即使FCN的真实标记是粗糙的矩形框，但其预测结果中针对part稍精细些的轮廓也能较好地得到。在此，我们称预测得到的part分割结果为Part Mask。不过，对于一些复杂背景图像（如图6右下）part定位结果还有待提高。

在得到Part Mask后，可以通过Crop获得对应的图像块。同时，两个Part Mask组合起来刚好可组成一个较完整的Object Mask。同样，基于物体／部位图像块，Mask-CNN训练了三个子网络。

在此需要特别指出的是，在每个子网络中，上一步骤中学到的Part/Object Mask还起到了一个关键作用，即“筛选关键卷积特征描述子”（Selecting Useful Convolutional Descriptor），如图7( c)-(d)。这个模块也是我们首次在细粒度图像分类中提出的。筛选特征描述子的好处在于，可以保留表示前景的描述子，而去除表示背景的卷积描述子的干扰。筛选后，对保留下来的特征描述子进行全局平均和最大池化（Global Average/Max Pooling）操作，后将二者池化后的特征级联作为子网络的特征表示，最后将三个子网特征再次级联作为整张图像的特征表示。

实验表明，基于筛选的Mask-CNN在仅依靠训练时提供的Part Annotation（不需要Bounding Box，同时测试时不需额外监督信息）取得了目前细粒度图像分类最高的分类精度（在经典CUB数据上，基于ResNet的模型对200类不同鸟类分类精度可达87.3%）。此外，借助FCN学习Part Mask来进行Part定位的做法也取得了Part定位的最好结果。

2.2 弱监督
值得借鉴的思想：目标检测中—基于弱监督的目标定位
Weakly Supervised Object Localization
cvpr2020-南大提伪监督目标定位方法，弱监督目标定位的最新SOTA

2.2.1 两级注意力（Two-level attention）
两级注意力(Two Level Attention)算法第一个尝试不依赖额外的标注信息, 而仅仅使用类别标签来完成细粒度图像分类的工作。两级注意力结合了三种类型的注意力：生成候选图像块的自底向上注意力、选择相关块形成特定物体的对象级自顶向下注意力、定位判别性部件的部件级自底向上注意力。通过整合这些类型的注意力机制训练特定的DCNN，以提取前景物体及特征较强的部件。该模型容易泛化，不需要边界框及部件标注。
之后基于FilterNet选择出来的框训练DomainNet。特别地，使用相似矩阵将中间层分为K个簇，簇的作用域部件检测器相同。之后各个簇筛选出的图像块被缩放到DomainNet输入大小，生成其激活值，之后将不同部件的激活值汇总并训练一对多SVM分类器。最终，将物体级与部件级注意力预测结果合并，以利用两级注意力的优势。

总体上来看, 两级注意力模型较好地解决了在只有类别标签的情况下, 如何对局部区域进行检测的问题. 但是, 利用聚类算法所得到的局部区域, 准确度十分有限. 在同样使用Alex Net的情况下, 其分类精度要低于强监督的Part R-CNN算法。

2.2.2 细粒度分类的注意力（Attention for fine-grained categorization）

人类在识别时通常不断移动物体以观察相关的特征，并不断将特征添加到图像表征序列中。
AFGC（细粒度分类注意力模型）是一个基于GoogLeNet的RNN（ deep recurrent neural network，深度递归神经网络），在每个时间步处理一个多分辨率的图像块。网络使用该图像块更新图像的表征，并与之前的激活值相结合，输出下一注意点的位置或输出物体最终分类结果。

2.2.3 FCN注意力模型（FCN attention）
FCN attention是基于强化学习的全卷积注意力定位网络，其能够自适应地选择多任务驱动的注意力区域。由于其基于FCN架构，因而更加高效，并且能够对多个物体部件进行定位，同时提取多个注意力区域的特征。其中，不同部件可以有不同的预定义大小。网络共包括局部定位模块和分类模块。

局部定位模块使用全卷积网络进行部件定位，其基于VGG16模型，输出单通道的自信度映射图。置信度最高的区域被选择作为部件位置。每个时间步都生成一个特定的部件位置。

分类模块对所有部件及整张图像进行分类。对局部图像裁剪到模型输入大小，最后取所有部件及全局预测的均值。

2.2.4 多样化视觉注意力（Diversified visual attention）
DVAN(diversified visual attention network，多样注意力网络 )提高视觉注意力多样性以提取最大程度的判别性特征。包括四个部分：注意力区域生成、CNN特征提取、多样性视觉注意力、分类。该网络**采用LSTM作为注意力机制**，在不同时间步生成不同的注意力区域。传统注意力模型只关注单个位置，DVAN使用特定的损失函数联合判别多个位置的特征。同时每个时间步都会预测物体类别，最后采用各预测结果的均值。

RACNN
本文中，提出了一个全新的循环注意力卷积神经网络（recurrent attention convolutional neural network——RA-CNN），用互相强化的方式对判别区域注意力（discriminative region attention）和基于区域的特征表征（region-based feature representation）进行递归学习。
在网络结构设计上主要包含3个scale子网络，每个scale子网络的网络结构都是一样的，只是网络参数不一样，在每个scale子网络中包含两种类型的网络：分类网络和APN网络。数据流程为：输入图像通过分类网络提取特征并进行分类，然后attention proposal network（APN）网络基于提取到的特征进行训练得到attention区域信息，再将attention区域crop出来并放大，再作为第二个scale网络的输入，这样重复进行3次就能得到3个scale网络的输出结果，通过融合不同scale网络的结果能达到更好的效果。

RA-CNN 通过尺度内分类损失（intra-scale classification loss）和尺度间排序损失（inter-scale ranking loss）进行优化，以相互学习精准的区域注意力（region attention）和细粒度表征（fine-grained representation）。RA-CNN 并不需要边界框（bounding box）或边界部分的标注（part annotations），而且可以进行端到端的训练。
本文采用交替优化的方式进行训练。

MACNN
这篇文章提出了一个多注意力卷积神经网络（MA-CNN），让part generation 和 feature learning能互相强化。同时模型抛弃手工标记attention part 的方法，采用弱监督学习方法。（手工标注attention part 难定标注位置，且耗费人力）
本文亮点：

利用feature map 不同通道（channels）关注的视觉信息不同，峰值响应区域也不同这一特点，聚类响应区域相近的通道，得到 attention part。
由于1中part 定位方式特殊，本文提出了一个channel grouping loss，目的让part内距离更近（intra-class similarity），不同part距离尽量远（inter-class separability）。

MA-CNN框架如上图所示。模型分为三部分，base network、channel grouping layers 和part classification sub-networks.

输入一张图片（a）给网络，通过base network 产生feature map(b)；将(b)中的各通道展开，以12个通道为例，得到（c），可见每个通道都有一个峰值响应区域（白色部分），同时有些通道的峰值响应区域相近（同一种颜色外框表示）；文中通过堆叠的全连接层达到聚类效果,把相近的区域归为一类，如图（e），图中划为4类。同类的channel相加，取sigmoid（归一化到0-1）产probabilities，等效于产生4个空间注意区域，即4个mask（局部定位！），这四个mask分别和feature map 进行点乘，得到4个局部精细化的特征，分别进行分类。
MA-CNN 通过交替优化的学习方式（轮流优化两个loss函数）,使对每个part的softmax分类损失，及对每个part的channel grouping loss（Lcng）收敛。

MAMC
很多工作是独立的检测一个物体的多个关键性区域，忽略了物体的多个关键性区域的内在关联，因此，学习到的注意力模块很可能集中在同一个区域，并且缺乏本地化多个具有区别特征的部分的能力，这些特征可以区分类似的细粒度类。另外，很多方法都是multi-stage的，不够高效；或者需要很复杂的一些初始化，工作量大。
从大量的实验研究中，作者观察到一种有效的细粒度分类的视觉注意机制应该遵循三个标准:1)检测到的部分要均匀分布在目标体上，提取出不相关的特征;2)各部分特征应该可以单独对不同类的对象进行区分;3)局部区域提取器应轻量化，以便在实际应用中按比例放大。

本文提出的弱监督方法可以高效精确地获取判别区域。如下图所示，本文方法框架有两部分组成：1）压缩-多扩展one-squeeze multi-excitation（OSME）模块，轻微增加计算量（也不算太轻），从多个注意力区域提取特征。2）多注意力多类别约束multi-attention multi-class constraint（MAMC），加强注意力区域之间的通信。本文方法比其他方法具有端到端单阶段的优势。

OSME
也是一种弱监督下的部件定位的注意力方法。先前工作总结：1）部件检测。往往将部件检测和特征提取分开，计算开销增大。2）软注意力，来自响应可视化。
如上图，我们的框架以ResNet50作为baseline, SEnet通过压缩-扩展操作对输出特征图再校准。为了产生P个特定注意力的特征图，我们从SEnet延伸，把一次扩展操作换成多次扩展操作。
在压缩操作中，我们聚合特征图空间产生通道级的描述子，和通道数一致。全局平均池化是一种简单高效的通道统计特征描述方法。
在扩展操作中，对通道描述子施加多个独立门机制，产生多个注意力图。门机制中是FC+Relu+FC+Sigmoid，由于sigmoid特性，其输出对通道间的非互斥关系进行了编码。我们利用其输出对起初Resnet50的输出进行再次加权，得到特定注意力图。
为了对每个特定注意力图进行特征提取，将这些特定注意力图展平成向量之后输入进FC层。
简单而言，本文通过对baseline输出全剧平均池化之后进行多次门操作获得P个特征向量。并认为这些特征向量是对不同非互斥部件/特征的聚类（这里还不能称为判别性特征）。
MAMC
下面解决的问题可以描述为，如何让以上模块产生的注意力特征指向类别，产生判别性注意力特征。先前方法总结: 1)把以上注意力特征合并进行softmax loss（指交叉熵损失函数），softmax loss不能掌握两两注意力特征之间的关系，2）递归搜索机制，会把初代误差迭代方放大。还要使用强化学习以及一些复杂的初始化方法。我们的方法在训练中增强两两部件之间的关系。这种方法就是多注意力多类别机制。以下就是度量学习的框架了。
训练集组织：我们有图像-类别对，为了刻画图片之间的注意力和同一子类内的注意力之间的关系，我们重新组织输入Batch（参考度量学习）。参考文章 Improved Deep Metric Learning with Multi-class N-pair Loss Objective中的N-pair采样方法。具体而言就是，每个batch中有N对图片，每对两张图片来自同一个子类，取一个图片为锚点（anchor），另一个为此anchor的正样本，然后给出他们所属类别。那么经过OSME模块，假设有P个excitation，那么每个样本就各自产生P个注意力特征向量。

Learning a Discriminative Filter Bank within a CNN（DFL-CNN）

端到端的细粒度识别可以分为两类：一个是定位-分类子网络，另一个是端到端特征编码。

第一类方法，定位-分类子网络，包含了由定位网络辅助的分类网络。分类网络的中级学习是由定位网络中定位信息（部位定位和分割掩码）加强的。早期工作是依赖于数据集的额外部位标注信息，最近的只需要分类标签。不管标注信息，这些方法的的共同当即就是先寻找到匹配的部位在比较它们的外观。第一步要求对象类间的语义部分可以共享，鼓励不同部位之间的表示相似，但是，为了有区分性，第二步鼓励在不同类别之间部位表示是不同的。这种微妙的冲突可能需要在定位网络和分类网络进行权衡，这可能会降低单个集成网络的分类表现。这种权衡也涉及到实践，在训练时，这两个网络往往分开交替训练，因此网络会变得复杂。

第二类方法，端到端的特征编码方法，利用了卷积特征的高阶统计编码（如 bilinear pooling）增强了CNN中层学习能力。与定位分类自网络比较来说，端到端的网络虽然有效，但可解释性和在严格非严格领域的性能很难保持一致性。

作者的主要贡献设计了一个CNN框架中，不需要额外的部分或边框注释，以端到端的方式就可以学习有区别的mid_level patches.这样我们的辨别性patch就不用各个类之间共享，只需要有辨别性的apperance就行了。因此，我们的网络完全专注于classification，避免了识别和定位之间的权衡。

实现是通过1×1的卷积核作为小的‘’部位检测子“设计一个非对称的、多支路的结构来利用patch-level信息和全局外观表示，并且引入了非随机初始化滤波器监督去激活特征块的滤波器。

非对称结构的两条支路核心组件如上图所示。
**P-stream：**这个组件后接分类器（比如全连接层和softmax层）形成网络判别的P-stream，其中预测是通过判断判别性块检测子的响应来预测的。P-stream是使用Conv4_3的输出，并且对这个特征图使用较小的感受野，一片的大小为92×92，跨步是8。
**G-stream：**细粒度图像识别还要依赖于全局形状和表观，所以另一个支路保存的是更深的卷积核和全连接，第一个全连接编码全局信息通过线性结合整个卷积特征图。因为这个支路关注于全局信息，所以我们称之为G-stream。
**side-branch：**为了让框架学习特定于类的判别补丁检测器，我们通过引入跨通道池层和softmax损耗层，对多个通道的特征进行综合。

(ECCV 2018) Learning to Navigate for Fine-grained Classification
三、基于网络集成的方法
将细粒度数据集划分为几个相似的子集分别进行分类，或直接使用多个神经网络来提高细粒度分类的性能。

3.1子集特征学习网络（Subset feature learning networks）
Subset feature learning for fine-grained category classification—CVPR2015

包括通用CNN及特定CNN两个部分。

使用大规模数据集上预训练的通用CNN并在细粒度数据集上迁移学习。同时，在其fc6特征上使用LDA降维。
将细粒度数据集中外观相似的类聚类为K个子类，并训练K个特定的CNN。
在测试时，使用子集CNN选择器（subset selector CNN ，SCNN）选择输入图像相应的子集CNN。SCNN使用K个聚类结果作为类标签，将fc8的softmax输出数量改为K。之后，使用最大投票法确定其子类。

3.2 混合DCNN（Mixture of deep CNN）
Fine-grained classification via mixture of deep convolutional neural networks—CVPR2015

MixDCNN不对数据集进行划分，学习K个特定的CNN。输入图像经过K个CNN，K个子CNN的分类结果通过分类占位概率（occupation probability）进行融合，其定义如下，通过占位概率，MixDCNN可以实现端到端训练。
α k = e C k ∑ c = 1 K e C c \alpha_{k}=\frac{e^{C_{k}}}{\sum_{c=1}^{K} e^{C_{c}}}α
k

=
∑
c=1
K

e
C
c


e
C
k




其中，Ck为第K个CNN的最佳分类结果。

3.3 CNN树（CNN tree）
Learning finegrained features via a CNN tree for large-scale classification —CVPR2015
在多分类问题中，某个类通常与其他几个类相混淆，这些容易相互混淆的类被称为混淆集。在混淆集中，应该使用判决性更强的特征对其进行区分。
首先在类集合上训练模型，之后评估训练好模型每个类的混淆集，将各类的混淆集合并为几个混淆超集。之后将混淆超集做为子节点，在其上进一步学习，重复该过程，直到CNN树达到最大深度。

3.4 多粒度CNN（ Multiple granularity CNN）
Multiple granularity descriptors for fine-grained categorization —ICCV2015
子类标签包含某实体在该类中的层次信息。使用这些层次信息可以训练一系列不同粒度的CNN模型。这些模型的内部特征表示有不同的兴趣域，能够提取覆盖所有粒度的判别性特征。

多粒度CNN包含多个CNN，每个CNN都在给定的粒度进行分类。即多粒度CNN是由多个单粒度识别CNN组成。ROI通过自底向上的区域生成方法生成，与粒度相关。同时，ROI的选择是跨粒度相关的，细粒度的ROI通常是由粗粒度的ROI采样而来。之后，将ROI输入到各个粒度的特征提取网络提取其多粒度特征，最后将多粒度特征合并，产生最终的分类结果。

四、高阶特征编码
双线性汇合(bilinear pooling)在细粒度图像分析及其他领域的进展综述
【AAAI2020系列解读 01】新角度看双线性池化，冗余、突发性问题本质源于哪里？

Bilinear CNN Models for Fine-grained Visual Recognition—ICCV2015
源码
双线性汇合（bilinear pooling）计算不同空间位置的外积，并对不同空间位置计算平均汇合以得到双线性特征。外积捕获了特征通道之间成对的相关关系，并且这是平移不变的。双线性汇合提供了比线性模型更强的特征表示，并可以端到端地进行优化，取得了和使用部位（parts）信息相当或甚至更高的性能。

另一种对Bilinear CNN模型的解释是，网络A的作用是对物体／部件进行定位，即完成前面介绍算法的物体与局部区域检测工作，而网络B则是用来对网络A检测到的物体位置进行特征提取。两个网络相互协调作用，完成了细粒度图像分类过程中两个最重要的任务:物体、局部区域的检测与特征提取。另外，值得一提的是，bilinear模型由于其优异的泛化性能，不仅在细粒度图像分类上取得了优异效果，还被用于其他图像分类任务，如行人重检测（person Re-ID）。

网络架构很简单，主要就是用外积（matrix outer product）来组合两个CNN（A和B）的feature map (当然也可以不用CNN)，bilinear layer如下:
bilinear ( l , I , f A , f B ) = f A ( l , I ) T f B ( l , I ) \left(l, I, f_{A}, f_{B}\right)=f_{A}(l, I)^{T} f_{B}(l, I)(l,I,f
A

,f
B

)=f
A

(l,I)
T
f
B

(l,I)

其中位置l ll 涵盖了位置和尺度，I II 是图像。
fA和fB分别指两个CNN特征提取器，将输入图像I与位置区域L映射为一个cXD 维的特征。f 的维度是(K,D)，D是指channel。
如果A和B输出的特征维度分别是(K,M)和(K,N)，经过bilinear后维度变为(M,N)。
求和池化函数（sum pooling）的作用是将所有位置的Bilinear特征汇聚成一个特征。
由于特征的位置维度被池化掉了，得到的bilinear特征是orderless的。另外注意，外积导致特征的维度D 增大为原来的平方。
最后将bilinear特征经过符号平方根变换，并增加l2标准化（elementwise normalization layer），然后输入分类器，完成分类任务。

这里的两个CNN可以共享部分参数，三种不同的方式如下图：

后续研究方向
后续双向性汇合研究方向大致分为两类：设计更好的双线性汇合过程，以及精简双线性汇合。其中，对双线性汇合过程的设计主要包括对汇合结果规范化过程的选择及其高效实现，以及融合一阶和二阶信息。精简双线性汇合设计大致有三种思路：利用PCA降维、近似核计算、以及低秩双线性分类器。

Low-rank Bilinear Pooling for Fine-Grained Classification-CVPR2017
这篇文章的目的是要降低Bilinear pooling模型的参数维度，同时提高模型的精度。论文与第一篇论文模型不同的是，这篇论文采用对称的网络模型，也就是两个steam是相同的，那么只需要训练一个CNN过程就好，大大的减少了计算的开支。同时特征的意义就变为在位置i上特征的相关性矩阵。最后论文采用了一个低秩的分类器进行分类。

Hierarchical Bilinear Pooling for Fine-Grained Visual Recognition
源码：https://github.com/luyao777/HBP-pytorch
基于Bilinear pooling的模型已经被实验验证了在细粒度认知的有效性，然而很多之前的方法忽略了层间局部特征的交互和细粒度特征的学习是相互关联的同时也能强化彼此。
以此为出发点，作者提出来一种跨层的bilinear pooling方法来捕获层间局部特征关系，然后在这个基础上提出了一种新的分层双线性池框架来集成多个跨层双线性特征，以提高它们的表示能力。
和之前的定位局部来学习细粒度特征不同，作者将来自不同卷积层的激活视为对不同部件属性的响应，而不是显式地定位对象局部，利用跨层双线性池捕获局部特性的跨层间交互，这对于细粒度识别非常有用。

Higher-Order Integration of Hierarchical Convolutional Activations for Fine-Grained Visual Categorization ICCV2017
针对细粒度分类的难点，1. part annotation 和 detection 需要专业知识且很多part-based方法都是为了训练精确的 part detector 而严重依赖于精确地 part annotation； 2. Parts 通常有很多尺寸，而深度计卷积中的每个点对应一个特定的感受野，因此单层卷积层在描述不同尺寸的 part 时能力有限；3. Part 与 part 之间的关系是复杂的，高阶的。对于目标外形建模的关键在于发掘目标局部的共同外形。但缺陷是只能发掘很少 part 的一阶关系。

本文针对以上问题，提出了基于融合高阶的多等级的卷积特征（Hierarchical convolutional activations）。如果把卷积特征作为局部描述子，那么多等级的卷及特征就可以是不同尺度的局部特描述子。在处理 part interaction 的问题时，作者通过核融合的方法，使用多项式描述子将不同层的特征综合在一起。本文的创新点在于为融合不同层的的卷积响应开辟了新视角。

总结
在细粒度分类任务由于存在较大的类内差异和细微的内间差异，导致传统的人工特征工程无法达到理想效果。深度学习的出现，为该任务带来巨大的效果提升，在许多场景中达到实用的水平。本文综述了目前常见的三类基于深度学习的细粒度图像分类方法。
基于定位-分类的方法借鉴了人类进行细粒度分类的过程，研究相对充分，是最主流的方法。早期，基于定位-分类的方法多采用强监督学习，需要大量的人工来标注图像的关键区域。Part R-CNN[3]是较早采用区域定位技术的细粒度分类算法，其进步是明显的. 从局部区域的检测定位, 到特征的提取, 该算法均基于卷积神经网络, 并针对细粒度图像的特点进行改进优化, 以改进通用物体定位检测算法在该任务上的不足, 达到了一个相对比较高的准确度. 其不足之处在于, 利用自底向上的区域产生方法, 会产生大量无关区域, 这会在很大程度上影响算法的速度. 另一方面, 该算法本身的创新性十分有限, 既然局部区域对于细粒度图像而言是关键所在, 那么对其进行定位检测则是必要的途径. 只是引入现有的通用定位算法, 似乎并不能很好地解决该问题。在此基础上，后续有很多改进算法，例如Pose Normalized CNN[4]通过姿态对齐操作，减小了类内差异。而part stacked CNN[5] 和mask-CNN[6]则利用FCN进行区域定位，提高了定位精度。
近年来，由于工业领域的应用需要，基于定位-分类方法的研究逐渐向弱监督学习转移，通过注意力机制、通道聚类等方法构建定位子网络，实现区分性区域的发现。其中，两级注意力(Two Level Attention)算法[7]是第一个尝试不依赖额外的标注信息, 而仅仅使用类别标签来完成细粒度图像分类的工作，该方法通过聚类实现区域定位，准确度有限。此后，RNN、LSTM以及FCN等网络被当做注意力机制引入弱监督方法中来，进一步提升定位的准确度。在定位子网络的基础上，MAMC[12]等网络引入了空间约束，改善定位区域的辨识度。
高阶编码方法通过将CNN特征进行高阶综合，提升特征的表达能力，其最主要的技术路线是双线性模型[13]，此外，Higher-Order Integration of Hierarchical Convolutional Activations[2]通过核融合方式为高阶编码提供了新的视角。
Bilinear模型提供了比线性模型更强的特征表示，并可以端到端地进行优化，取得了和使用部位（parts）信息相当或甚至更高的性能，其缺点在于外积导致特征的维度增大为原来的平方。
后续双向性汇合研究方向大致分为两类：设计更好的双线性汇合过程，以及精简双线性汇合。其中，对双线性汇合过程的设计主要包括对汇合结果规范化过程的选择及其高效实现，以及融合一阶和二阶信息。精简双线性汇合设计大致有三种思路：利用PCA降维、近似核计算、以及低秩双线性分类器。
网络集成方法采用了分而治之的思想，主要方法是将细粒度数据集划分为几个相似的子集分别进行分类，或直接使用多个神经网络来提高细粒度分类的性能。当某些类特别容易混淆时，采用该方法能取得不错的效果，缺点是认为干预的因素较多，不能采用端到端的学习方式。

你可能感兴趣的:(计算机视觉,深度学习,cnn,神经网络)

【Python】已解决：ModuleNotFoundError: No module named ‘sklearn‘ 屿小夏 python sklearn 人工智能
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
使用神经网络拟合6项参数 Andrew_Xzw 神经网络人工智能深度学习开发语言机器学习 python
使用神经网络拟合6项参数1.数据预处理1.1添加参数解析1.2数据预处理逻辑1.3数据归一化及划分1.4数据标签处理逻辑1.5数据转torch2.定义model2.1CNN_LSTM2.2Transformer3.定义train脚本3.1loss和optimizer3.2train3.3predict1.数据预处理1.1添加参数解析为了方便管理模型和训练等参数，统一用参数解析。defparse_a
如何快速在Windows 10 + Anaconda 3 中使用Mxnet及gluon qianchess mxnet使用 mxnet win10 anaconda gluon 人工智能
如何快速在Windows10+Anaconda3中使用Mxnet及gluon网络上Mxnet的安装以及使用方法很多，自从其作者之一李沐推出了基于Mxnet的深度学习课程之后，我也尝试着去使用了一下Mxnet。首先第一步就是在自己的系统中安装Mxnet及其相关组建。现在的Mxnet常常会跟其虚拟环境Gluon结合在一起，所以下文就一起阐述一下，顺便记录一下自己踩的坑。注意本文的大部分内容都可以在官网
3D UNet和Swin-UNETR 学無芷境计算机视觉
3DUNet和Swin-UNETR都是用于医学图像分析的深度学习网络，它们对三维（3D）数据进行特征提取和分割。3DUNet3DUNet是UNet架构的一个变体，专门设计用于处理三维医学图像数据。UNet最初是为二维（2D）图像分割任务设计的，具有典型的编码器-解码器结构。3DUNet扩展了这种架构，以便更好地处理具有深度信息的体积数据，如CT或MRI扫描。主要特点：编码器：逐渐下采样图像，提取并
3DUnetCNN 项目常见问题解决方案魏纯漫
3DUnetCNN项目常见问题解决方案3DUnetCNNPytorch3DU-NetConvolutionNeuralNetwork(CNN)designedformedicalimagesegmentation项目地址:https://gitcode.com/gh_mirrors/3d/3DUnetCNN项目基础介绍3DUnetCNN是一个基于PyTorch的3DU-Net卷积神经网络（CNN）
推荐3D UNet实现：深度学习3D体素数据语义分割的利器！滑辰煦Marc
推荐3DUNet实现：深度学习3D体素数据语义分割的利器！去发现同类优质开源项目:https://gitcode.com/在这个快速发展的深度学习时代，3DUNet已经成为3D图像处理领域中不可或缺的工具，尤其在医疗影像分析和3D物体识别等任务上展现出强大的潜力。这个开源项目为我们提供了一个高效、灵活的3DUNet实现，支持Tensorflow、PyTorch和Chainer三种主流深度学习框架。
3D U-Net CNN医学图像分割项目教程尤辰城Agatha
3DU-NetCNN医学图像分割项目教程3DUnetCNNPytorch3DU-NetConvolutionNeuralNetwork(CNN)designedformedicalimagesegmentation项目地址:https://gitcode.com/gh_mirrors/3d/3DUnetCNN1.项目介绍3DU-NetCNN是由Ellisdg开发的Python实现，专门用于医学图像
MATLAB语言的计算机基础疯狂小小小码农包罗万象 golang 开发语言后端
MATLAB语言的计算机基础引言在当今信息技术飞速发展的时代，编程能力已成为当代人士必备的一项基本技能。MATLAB（矩阵实验室）作为一种高级编程语言和环境，广泛应用于数据分析、算法开发、模型创建、数字图像处理和计算机视觉等多个领域。MATLAB以其强大的矩阵运算和可视化能力，成为了科研人员和工程师的重要工具，尤其在数学、物理、工程等学科中，它的应用不可或缺。本文将从MATLAB的基本概念、环境搭
锐捷路由器网关RG-NBR6135-E和锐捷交换机 Ruijie Reyee RG-ES224GC 电脑登录web方法 zh7314 硬件工程
2025年1月17日22:29:35最近淘了点东西，准备在家里搞一套深度学习的服务器，先把网关和交换机搞到了锐捷路由器网关RG-NBR6135-E电脑登录web方法在拿到机器的时候，如果不是全新建议拿根牙签，差入reset5-10秒,灯光会全部闪几下，重置机器，因为有些机器会配置的ip和网段无法访问默认的web服务ip，在机器上面的默认配置单配置参考：https://baijiahao.baidu
3DUnet实现3D医学影像的有效分割 Andrew_Xzw python 深度学习 github opencv 计算机视觉分割
最近涉及到了3D医学影像的分割，网络上相关的实现比较少，因此进行实现记录。3DUnet实现3D医学影像的有效分割1.配置代码环境2.配置数据集以及模型文件3.训练4.预测1.配置代码环境这里介绍一个很好的开源项目，git为：https://github.com/ellisdg/3DUnetCNN.git。安装环境为：nibabel>=4.0.1numpy>=1.23.0#torch>=1.12.0
PyTorch机器学习与深度学习技术方法 Teacher.chenchong 机器学习 python 开发语言
近年来，随着AlphaGo、无人驾驶汽车、医学影像智慧辅助诊疗、ImageNet竞赛等热点事件的发生，人工智能迎来了新一轮的发展浪潮。尤其是深度学习技术，在许多行业都取得了颠覆性的成果。另外，近年来，Pytorch深度学习框架受到越来越多科研人员的关注和喜爱。Python基础知识串讲1、Python环境搭建（Python软件下载、安装与版本选择；PyCharm下载、安装；Python之HelloW
深度学习模块C2f代码详解你是狒狒吗目标检测人工智能计算机视觉 pytorch YOLO 神经网络
C2f是一个用于构建卷积神经网络（CNN）的模块，特别是在YOLOv5和YOLOv8等目标检测模型中。这个模块是一个改进的CSP（CrossStagePartial）Bottleneck结构，旨在提高计算效率和特征提取能力。下面是对C2f类的详细解释：类定义和初始化Python复制classC2f(nn.Module):“”“FasterImplementationofCSPBottleneckw
华为 Ascend 平台 YOLOv5 目标检测推理教程 Lunar* 目标检测华为 YOLO 目标检测
1.背景介绍随着人工智能技术的快速发展，目标检测在智能安防、自动驾驶、工业检测等领域中扮演了重要角色。YOLOv5是一种高效的目标检测模型，凭借其速度和精度的平衡广受欢迎。华为Ascend推理框架（ACL）是AscendCANN软件栈的核心组件，专为AscendAI加速硬件（如Atlas300I）设计，可实现高性能的深度学习推理。在本文中，我们将介绍如何基于华为AscendACL推理框架对YOLO
机器学习和深度学习的概念你好呀我是裤裤深度学习笔记机器学习深度学习人工智能
MachineLearning机器学习，可以看作是找一个函数。这个函数是人类找不到的，所以交给机器来找。DifferenttypesofFunctions**Regression：**函数的输出是一个数值forexample：**Classification：**给出选项，让机器去选择。forexample：检测一个邮件是不是垃圾文件，就可以通过这个来做。选项是两个：垃圾文件or非垃圾文件。下面，
Pytorch实现：LSTM-火灾温度预测骑猪玩狗 pytorch lstm 人工智能
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊前期工作语言环境：Python3.9.18编译器：JupyterLab深度学习环境：Pytorch1.12.11.设置GPUimporttorchimporttorch.nnasnnimporttorchvisionfromtorchvisionimporttransforms,datasetsimportos,PIL,pathlibde
深度学习项目--基于LSTM的火灾预测研究(pytorch实现) 羊小猪~~ RNN LSTM神经网络案例机器学习/数据分析案例深度学习 lstm pytorch 人工智能机器学习 rnn gru
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊前言LSTM模型一直是一个很经典的模型，这个模型当然也很复杂，一般需要先学习RNN、GRU模型之后再学，GRU、LSTM的模型讲解将在这两天发布更新，其中：深度学习基础–一文搞懂RNN深度学习基础–GRU学习笔记(李沐《动手学习深度学习》)这一篇：是基于LSTM模型火灾预测研究，讲述了如何构建时间数据、模型如何构建、pytorch中LST
每天五分钟深度学习框架pytorch：基于vgg块搭建VGG卷积神经网络每天五分钟玩转人工智能深度学习框架pytorch 深度学习 pytorch cnn VGG 卷积神经网络
本文重点前面我们使用pytorch搭建了vgg块，本文我们使用vgg块搭建卷积神经网络VGG16，我们先来看一下vgg16的模型结构是什么样的：搭建vgg16importtorchfromtorchimportnndefvgg_block(num_convs,in_channels,out_channels):net=[nn.Conv2d(in_channels,out_channels,kern
深度学习 Pytorch 张量（Tensor）的创建和常用方法白白糖深度学习pytorch python 深度学习 pytorch 人工智能
1张量的基本创建及其类型和Numpy中的array一样，张量的本质也是结构化地组织了大量的数据。并且在实际操作中，张量的创建和基本功能也与其非常类似。1.1张量(Tensor)函数创建方法张量的最基本创建方法和Numpy中创建Array的格式一致。#Numpy创建数组importnumpyasnp#导入numpya=np.array([1,2,3])importtorch#首次使用,导入torch
PyTorch 神经协同过滤 (NCF) 推荐系统教程陌北v1 pytorch python NCF 神经协同过滤
目录教程概述1.神经协同过滤模型概述NCF模型的主要组成部分：2.数据加载与预处理3.定义神经协同过滤模型4.训练模型5.模型评估6.推荐物品7.完整示例8.总结在本教程中，我们将使用PyTorch实现一个神经协同过滤（NeuralCollaborativeFiltering，简称NCF）推荐系统。神经协同过滤是一种基于深度学习的推荐系统模型，通过学习用户和物品的嵌入表示来预测用户对物品的评分，进
【大模型LoRa微调】Qwen2.5 Coder 指令微调【代码已开源】 FF-Studio 大语言模型开源
本文需要用到的代码已经放在GitHub的仓库啦，别忘了给仓库点个小心心~~~https://github.com/LFF8888/FF-Studio-Resources第001个文件哦~一、引言：大语言模型与指令微调1.1大语言模型发展简史随着深度学习的飞速发展，特别是Transformer架构在自然语言处理（NLP）领域的成功，大语言模型（LLM,LargeLanguageModel）成为近年来
10 个免费的 AI 图片生成工具分享程序员
原文：https://openaigptguide.com/ai-picture-generator/在人工智能（AI）图像生成技术的推动下，各类AI图片生成网站如雨后春笋般涌现，为我们的日常生活提供了丰富多彩的视觉体验。AI图片生成技术原理人工智能（AI）图片生成技术原理是通过计算机程序使用深度学习算法从大量的数据中学习特征，并根据特征创建新的图片。该技术可以模拟人类的绘画过程，学习输入图像的潜
假新闻检测论文（24）A comprehensive survey of multimodal fake news detection techniques... weixin_41964296 假新闻检测自然语言处理
本文综述了利用深度学习架构和注意力机制进行假新闻检测的最新和全面的研究一介绍假新闻定义：虚假或误导性新闻，或“假新闻”，是任何捏造或故意欺骗的媒体内容。假新闻危害：它可以被利用来操纵公众情绪，传播错误信息，甚至干预政治选举。它的主要目的是扭曲、欺骗或操纵个人的信仰和观点。假新闻的形式（类型）：虚假信息在媒体上传播的形式多种多样，包括讽刺、谣言、点击诱饵、错误信息等。讽刺作品通常充满幽默，用来强调特
YOLOv8重磅升级：引入DenseOne密集网络革新主干设计，重塑YOLO目标检测性能新高度程序员杨弋 YOLO 目标检测人工智能
随着深度学习技术的不断进步，目标检测作为计算机视觉领域的重要任务之一，其性能和应用范围也在不断扩大。作为目标检测领域的佼佼者，YOLO（YouOnlyLookOnce）系列算法以其出色的性能和实时性受到了广泛关注。而最近提出的YOLOv8更是在前代版本的基础上进行了多项优化，进一步提升了检测精度和速度。然而，尽管YOLOv8已经取得了显著的进步，但在处理复杂场景和遮挡问题时，仍然存在一定的挑战。为
深度学习驱动的极端天气预测：时空数据异常检测与应用全解析（基于Python + TensorFlow） AI_DL_CODE 深度学习 python tensorflow 人工智能天气预测
摘要：时空数据异常检测在气象领域识别偏离正常模式的数据点，对极端天气预测至关重要。深度学习，尤其是LSTM网络，因其强大的特征学习能力在该领域显示出巨大潜力。通过整合多源气象数据，深度学习模型能够自动挖掘复杂模式和非线性关系，提高预测准确性。然而，挑战依然存在，包括数据质量问题、模型可解释性不足以及极端天气的内在复杂性和不确定性。未来，通过模型架构创新、训练算法优化以及探索深度学习在气候预测、气象
【YOLOv8改进- Backbone主干】YOLOv8更换主干网络之ConvNexts，纯卷积神经网络，更快更准，，降低参数量！ YOLO大师 YOLO 网络 cnn 目标检测论文阅读 yolov8
YOLOv8目标检测创新改进与实战案例专栏专栏目录：YOLOv8有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLOv8基础解析+创新改进+实战案例介绍摘要视觉识别的“咆哮20年代”开始于视觉Transformer（ViTs）的引入，ViTs迅速取代了卷积神经网络（ConvNets）成为最先进的图像分类模型。然而，普通的ViT在应用于诸
基于深度学习的人脸表情识别系统：YOLOv5 + YOLOv8 + YOLOv10 + UI界面 + 数据集 2025年数学建模美赛深度学习 YOLO ui 分类人工智能
引言随着人工智能的飞速发展，深度学习技术已广泛应用于各个领域，尤其是在计算机视觉领域。人脸识别和表情识别是其中的一个重要应用，能够在多种场景下提供重要的信息，例如安全监控、情感分析、智能客服、健康监测等。在人脸表情识别任务中，准确识别人脸的情感状态（如高兴、愤怒、悲伤等）是一个极具挑战性的任务。随着YOLO系列算法的不断进步，YOLOv5、YOLOv8和YOLOv10的推出大大提高了目标检测的精度
基于YOLOv8深度学习的人脸年龄检测识别系统 2025年数学建模美赛 YOLO 深度学习人工智能 ui 数据挖掘分类
引言随着人工智能和计算机视觉的飞速发展，人脸分析技术在年龄检测领域取得了显著进展。人脸年龄检测系统在安全监控、广告推荐、健康监测等领域有广泛应用。本文将基于YOLOv8目标检测模型和UI界面，开发一个完整的人脸年龄检测识别系统。我们将详细介绍项目的技术实现、数据集构建、模型训练以及UI设计，并附上完整代码。目录引言系统架构设计数据准备公开人脸年龄数据集数据标注格式数据目录结构模型训练YOLOv8环
基于深度学习的人脸表情识别系统（YOLOv10+UI界面+数据集） 2025年数学建模美赛深度学习 YOLO ui 计算机视觉人工智能目标跟踪
在本篇博客中，我们将详细介绍如何构建一个基于深度学习的人脸表情识别系统。该系统主要由三部分组成：YOLOv10（深度学习模型）进行表情识别、UI界面展示识别结果以及数据集的准备和训练过程。我们将从系统架构、数据准备、模型训练、UI设计等多个方面进行全面讲解，最终实现一个能够实时识别并展示人脸表情的系统。目录1.系统架构2.数据集准备2.1FER2013数据集2.2数据预处理3.YOLOv10模型概
基于深度学习的人脸表情识别系统：YOLOv8 + UI界面 + 数据集完整实现 2025年数学建模美赛深度学习 YOLO ui 人工智能代码
1.引言近年来，人脸表情识别在情感计算、智能人机交互、心理学研究等领域有着广泛的应用。深度学习的快速发展，使得高效、准确的人脸表情识别成为可能。通过利用卷积神经网络（CNN）和目标检测技术，可以实现实时、精准的人脸表情识别。本文将基于YOLOv8构建一个完整的人脸表情识别系统。系统集成了数据集准备、YOLOv8模型训练、实时推理以及基于PyQt5的图形用户界面（UI）。通过本文，你将学习如何实现一
AI大模型应用架构（ALLMA）白皮书解读百度_开发者中心人工智能大模型数据库自然语言处理
随着人工智能技术的不断发展，AI大模型成为推动生产、生活方式变革，助推产业智能化转型升级，驱动数字经济高质量发展等社会经济发展方面的新引擎。为了全面展示AI大模型的发展全貌，为各界提供新思路，本文将对AI大模型应用架构（ALLMA）白皮书进行解读。一、AI大模型应用架构（ALLMA）的内涵AI大模型应用架构（ALLMA）是一种基于深度学习的人工智能应用架构，旨在通过大规模无标注数据预训练、指令微调
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl