右边是我女神

细粒度图像分类论文研读-2017

文章目录

Higher-order Integration of Hierarchical Convolutional Activations for Fine-grained Visual Categorization(by end-to-end feature encoding)
- Abstract
- Introduction
- - 关于核
  - 关于多尺度
- Kernelized convolutional activations
- - Matching kernel and polynomial predictor
- Hierarchical convolutional activations
- - Higher-order integration using kernel fusion
- 个人总结
Kernel Pooling for Convolutional Neural Networks(by end-to-end feature encoding)
- Abstract
- Introduction
- Kernel Pooling
- Explicit feature projection via Tensor product
- Compact approximate
- - Taylor series kernel
  - Gaussian RBF kernel
- 总结
Look Closer to See Better ：Recurrent Attention Convolutional Neural Network for Fine-grained Image Recognition(by localization-classification subnetwork)
- Abstract
- Introduction
- Approach
- - Attention Proposal Network
  - - Multi-task formulation
    - Attention localization and amplification
  - Classification and Ranking
- 总结
Learning Multi-Attention Convolutional Neural Network for Fine-Grained Image Recognition(by localization-classification subnetwork)
- Abstract
- Introduction
- Approach
- - Multi-Attention CNN for Part Localization
  - Multi-task Formulation
  - - Loss function
    - Alternative optimization
    - Joint Part-based Feature Representation
- 总结
Low-rank Bilinear Pooling for Fine- Grained Classification(by end-to-end feature encoding)
- Abstract
Fine-Grained Recognition as HSnet Search for Informative Image Parts(by localization-classification subnetwork)
- Abstract

Higher-order Integration of Hierarchical Convolutional Activations for Fine-grained Visual Categorization(by end-to-end feature encoding)

Abstract

细粒度视觉分类任务的成功依赖于各种语义部分的外观建模和相互联系。

这一特性使得FGVC任务非常具有挑战性，原因有三点：

局部的注释和检测需要专家的指导；
局部的大小不同；
局部相互作用复杂且高阶。

为了解决上述问题，本文提出了一个基于分层卷积激活的高阶积分的端到端框架。

通过将卷积激活作为局部描述，分层卷积激活能够作为来自不同尺度的局部表示。（卷积激活是什么？为什么可以作为局部描述？）

本文提出了一个基于多项式核的预测器，目的是为了捕捉高阶统计量，用于建模零件之间的相互作用。为了模拟层间零件之间的相互作用，本文扩展了多项式预测器，通过核的融合来集成层次激活。

Introduction

全连接网络并不适合FGVC，而CNN中的局部的、有判别性的模式对于获得更有力量的表征是很关键的。

目前的方法一般都是先对局部进行定位，之后再对这些部位进行外观上的建模，以此在更深的层上面得到相应的局部特征。

全局的外观结构被包含进去来“pool these regional features”（大概的意思应该是对全局提特征之后把局部的特征抽取），这样的方法固然效果不错，但是存在以下几个问题：

大量的基于局部的模型严重依赖细致的对局部的标注来训练准确的局部检测器，这样进一步限制了大规模数据集的可扩展性；此外，识别有区分度的局部对于特定的细粒度对象是很困难的，通常需要和人类或者专家之间的交互。
有区分度的、有语义的部分通常以不同的尺度出现；每个空间单元都对应特定的感受野，因此用单一卷积层来描述不同的部件是有局限性的；
开发单个对象部件的联合配置对于对象外观建模非常重要；一些工作提出了增加一些几何上的约束。现有方法只描述了极少数局部的一阶的存在性和关系，一旦这个局部变多了，那么这样一种描述的有效性就会被削弱。

综上所述，问题有三点：检测局部依赖人工、尺度问题、外观描述方式的欠缺。

因此，本文提出关注不同尺度下的高阶统计数据以提供一个更加灵活的方式来对全局的外观进行建模，此过程也不需要局部的注释。

关于核

最近的研究工作认为卷积滤波器可以看作弱的局部检测器，其激活的结果是看作检测的结果。

就是说，这个卷积直接就可以对局部有所反应，因此没必要特意把局部揪出来，直接对卷积的结果做文章即可。

本文提供了匹配核的视角来理解结合线性分类器的映射和池化结构。

线性映射和直接池化只能知道这个局部是否出现，为了获得局部之间的高阶关系，最好使用局部非线性匹配核来表征高阶局部的交互（co-occurrence）。难点在于如何在CNN结构中做到合理的插入。本文使用多项式核来建模更高级的局部交互。

关于多尺度

现有的研究以及广泛证实了融合神经网络中的分层特征是有益的，这主要是因为多个卷积层的不同辨别能力和由粗到细的描述。

然而，现有的方法简单地将多个激活进行级联或者相加来表示整体，或采用决策级融合来组合不同层的输出。这样的方法再利用层内或者层间卷积激活的内在高阶关系上受到限制。

Kernelized convolutional activations

本文将卷积滤波器视为局部描述子，每个空间位置上的卷积激活视为部分描述。因此，本文引入多项式预测器来集成一系列局部匹配核，以建模高阶部件交互作用。

Matching kernel and polynomial predictor

后续的学习方式等内容不再赘述。

Hierarchical convolutional activations

Higher-order integration using kernel fusion

本部分主要探讨尺度的解决方案。

上图中的尖括号表示内积，其中的函数表示向量。

简而言之就是对不同输出层的结果进行层内的融合和层间的融合，公式应该表示的是element-wise的。

个人总结

本文的贡献有两个：

混合多项式核的引入；
尺度融合策略。

Kernel Pooling for Convolutional Neural Networks(by end-to-end feature encoding)

Abstract

具有双线性池化的卷积神经网络最初是完整的形式，之后才采用紧凑的表示形式。

这一模型成功的关键在于成对（二阶）特征交互的空间不变性建模。

在本文中提出了一个通用的池化框架。以核的形式捕捉特征的高阶交互。

本文演示了如何使用无参数的紧凑显式特征映射将诸如高斯RBF之类的核近似到给定的顺序。

Introduction

特征之间的交互的概念被广泛用作学习任务中的高阶表示。

背后的动机是是后续的线性分类器在更高维度的特征图上运行，使其具有更高阶的交互作用。通常有两种方法可以创建更高阶的交互。

最常见的是通过核技巧。

但缺点也存在两方面：

所需的存储和评估时间都与训练数据的数量成正比，使得在大型数据集上效率低下；
核的构造使得很难使用复杂的学习方法，包括SGD。

另一种方法是使用特征的乘积将特征向量显式映射到高维空间。

该方法的缺点比较明显：在d维度特征向量上进行p阶交互，那么这个特征映射将会达到 $O(d^p)$ 。这在现实世界中是不切实际的。

前者是直接用低维数据得到高维信息，后者是计算得到高维数据。

本文提出了一种生成显式特征图的紧凑且可微的方法。在实际应用中，人们经常通过快速傅里叶变换和快速傅里叶逆变换在频域中进行循环卷积。一篇论文在理论和实践上都证明：该方法能够简洁地逼近多项式核。

上图是本文提出的kernel pooling的具体实现，对于feature map中的每一个位置，使用Count Sketch来生成一个紧凑的特征映射。

在应用kernel pooling之后，两个特征之间的内积可以捕获高阶特征交互。这相当于下图的公式。

这使得后续的线性分类器具有高度的鉴别性。

最终的特征向量是全局平均池化的结果。

本文的工作有两个贡献：

提出一种通过紧凑显式特征映射的通用内核池化方法；
提出的内核池化方法是可区分的，并且可以和CNN结合进行联合优化。

Kernel Pooling

本文将池化的概念定义为编码并聚合feature map到一个全局特征向量的过程。

AlexNet/VGG 采用了全连接层+ReLU的策略，计算量大且参数多；

Inception/Residual Learning 采用了全局平均池化，计算量可观但没有捕捉高阶特征交互；

双线性模型，直接为二阶多项式核生成 $c^2$ 维特征，之后使用Tensor Sketch进行逼近。

本文提出的模型超越双线性模型并捕捉高阶特征交互。首先定义了泰勒级数核，并证明了其显式特征映射可以被紧凑逼近。然后，我们演示了如何使用泰勒级数核的紧凑特征投影来逼近常用的核，如高斯径向基函数。

Explicit feature projection via Tensor product

因为显式表示的维度比较高，所以需要一种压缩近似的方法。

Compact approximate

Taylor series kernel

我们定义x的Count Sketch为：

可以看到C(x)是一个d维的向量，通过两个哈希函数计算得到。他们的输出分别为h:{1,2,…,d},s:{+1,-1}。

p阶x可以近似为：

其中，小圆圈表示element-wise的乘积。

于是，随着阶数的提升，总的特征维度呈现线性的增长。

Gaussian RBF kernel

这一节主要讲了泰勒核函数可以近似于高斯核函数。此处不再赘述。

总结

15年的B-CNN中介绍了特征交互的应用（先前也有文章），这是一种核技巧的显式应用（多项式核），本文进一步扩展为泰勒核。

因此，本文在本质上是介绍一种新的核技巧在特征交互中的应用效果。

Look Closer to See Better ：Recurrent Attention Convolutional Neural Network for Fine-grained Image Recognition(by localization-classification subnetwork)

Abstract

由于对有区分度的区域进行定位和细粒度特征学习的挑战性，细粒度分类任务是困难的。

现有的方法大多是独立解决这些问题，而忽略了两者的相关性。

本文提出了一种新的循环注意卷积神经网络，可以在多尺度上递归地学习对有区分度区域的注意力和基于区域的特征表示，并相互增强。

对每个尺度的学习由一个分类子网络和一个注意提议子网络（APN）组成。APN从完整的图像开始，以先前的预测作为参考，从粗到细迭代生成区域注意力。而较细尺度的网络则从先前尺度提取一个放大的、有向的区域作为输入。

Introduction

细粒度识别的挑战主要有两项，分别是：

有区分度的区域定位；
从这些区域上学习特征。

先前的工作通过引进一些基于局部的检测框架已经获得了一些成功，他们主要包含两个阶段：

通过分析神经网络中得到的卷积响应检测可能的目标区域；
从每个区域提取有区分度的特征并且编码他们为一个压缩的向量来识别。

目前的结果十分可观，进一步的提升也受到很大的限制：

人为定义的局部或者通过务监督的方式学习到的局部不一定对机器分类是有帮助的；
存在于局部中的轻微的视觉差异还是很难去学。本文发现：局部检测和细粒度特征学习是相关的，因此能够强化彼此。

本文提出了一种无边界框/部分注释的方法，是一个循环注意力卷积神经网络（RA-CNN）。

RA-CNN是一个堆叠的网络，它的输入是从整张图像到多尺度的细粒度局部区域。

首先，多尺度网络共享相同的结构但是每一尺度都对应着不同的参数来匹配这个不同分辨率的输入。

不同尺度的学习过程包含了一个分类子网络和一个注意力建议子网络（能够确保每个尺度上足够的辨别能力并为下一个更精细的尺度生成准确的关注区域）。

其次，专门用于高分辨率区域的更精细的尺度网络将简化的关注区域作为输入，以提取更多的细粒度特征。

最后，用了 intra-scale softmax损失来指导分类网络，用了inter-scale pairwise ranking损失来指导注意力提议网络。

Approach

Attention Proposal Network

Multi-task formulation

收到区域建议网络RPN的启发，本文提出了一种注意力建议网络。

给定一张图X，首先提取基于区域的深度特征，表示为 $W_c*X$ 。

第一个任务是生成一个概率分布p，可以表示为： $p(X)=f(W_c*X)$

其中函数f表示为一个全连接层来映射着个卷积特征到一个特征向量以及一个softmax层来进一步转变这个特征向量到概率值。

第二个任务是为下一个更精细的尺度预测关注区域的一组框坐标。通过将关注区域用三个参数近似为一个方形： $t_x,t_y,t_l]=g(W_c*X)$
其中， $t_x,t_y$ 表示方形的中心坐标， $t_l$ 表示方形的边长。

其中函数g表示为两个堆叠的全连接层。值得一提的是APN的学习是以弱监督的方式训练的。

Attention localization and amplification

一旦假设了关注区域的位置，本文就用更高的分辨率将关注区域裁剪并放大更精细的尺度，以提取更细粒度的特征。

为了确保APN可以在训练中被优化，本文通过提出一个二维的boxcar函数来作为一个注意力掩码来近似裁剪操作。

基于上述表征，裁剪操作能够通过一个原始图像在粗尺度和一个注意力掩模上逐元素相乘来执行，这可以描述为：

其中，

当k很大的时候，可以视为阶跃函数。意思就是x大于0的时候近似为1，小于0的时候近似为0.

这一个思路真的很妙！

boxcar函数有两个优点：

很好地逼近裁剪操作；
在关注区域和box坐标之间建立分析表示。

尽管关注的区域已经被局部化，但有时仍然难以从高度局部化的区域中提取有效的特征表示。因此，我们通过自适应缩放将区域放大到更大的大小。具体来说，本文通过双线性插值来通过线性映射计算 $X^{att}$ 中最近四个输入的放大输出：

Classification and Ranking

图样本的损失函数定义为：

$Y^{s}$ 指的是每一尺度的分布向量， $Y^{*}$ 指的是gt。

Lcls是分类损失，主要优化卷积层和分类层的参数。

从成对排序损失得出的 $p_t^{s}$ 指的是在标签t上的预测可能性，具体而言，这个排序损失可表示为：

这说明了，局部预测的概率值应该高于上一级局部。

总结

本文的整体框架是一个由粗到细的循环神经网络，每一个时间步给出下一步应该输入的图像区域。

其中值得注意的分类细节有：

对每个时间步的输出都做了分类损失的计算并且通过排序损失约束局部预测的精读；
通过boxcar函数近似阶跃函数，给出了可训练的crop策略；
通过插值的手段对精细图像输入进行优化。

Learning Multi-Attention Convolutional Neural Network for Fine-Grained Image Recognition(by localization-classification subnetwork)

Abstract

识别细粒度类别高度依赖于区分部分定位和基于部分的细粒度特征学习。

现有的方法主要是独立地解决这些问题而忽略了部分定位和细粒度特征学习是相互关联的。

本文提出了一种基于多注意卷积神经网络的新型的局部学习方法，使得两者相辅相成。

MA-CNN由卷积子网络、通道分组和部分分类子网络组成。通道分组网络将卷积层的输出作为输入特征通道，通过聚类、加权和池化，从空间相关通道件生成多个部分。

部分分类网络进一步按每个单独的部分对图像进行分类，通过它可以学习到更具辨别性的细粒度特征。

本文还提出了两种损失函数来指导通道分组和部分分类。

本文创新点：

利用feature map不同通道（channels）关注的视觉信息不同，峰值响应区域也不同这一特点，聚类响应区域相近的通道，得到 part attentions
本文提出了一个channel grouping loss，目的让part内距离更近（intra-class similarity），不同part距离尽量远（inter-class separability）

Introduction

基于定位-分类的方法的主要问题是依赖手工的局部注释并且这种注释不一定是好的。

目前的解决方法分为两条路子，第一条是直接提取更精细化的特征，第二条是对局部检测进行弱监督的学习。

本文觉得，在没有明确局部约束的情况下，类别级别的CNN的辨别能力眼红限制了部分定位和特征学习的性能（这边指的是第二条路子）。此外，本文发现，局部定位和细粒度特征学习是相互关联的，可以互相加强。

头部定位于促进头部附近的特定模式，然后反过来细化头部定位。

本文提出了一种基于多注意力卷积神经网络的局部学习方法，用于无边界框/局部标注的细粒度学习。

首先，一个卷积特征通道通畅与一个特定的视觉模式是相关的。通道分组子网络由此将空间相关的模式聚类并且加权到局部注意力图。这些图来自于邻近位置出现峰值响应的通道。多样化的高响应位置进一步构成了多个局部注意力图，从中我们能够按照固定的尺寸裁剪得到一些局部提议。

然后，一旦获得了局部提议，局部分类网络就进一步根据局部特征对图像进行分类。这些特征是从全卷积特征图中提取出来的。这样的设计可以消除对其他部分的依赖，特别优化与某部分相关的一组特征通道。

最后，联合实施两个优化损失函数，以指导通道分组和基于局部的分类的多任务学习，这促使MA-CNN从特征通道中生成有区别的部分，并以相互增强的方式从部分中学习到更细粒度的特征。

Approach

整张图送入CNN，提取基于局部的特征表示；
通过通道分组和加权层生成多张局部注意力图（e），随后用sigmoid函数生成概率；
用空间注意力机制对基于局部的特征表示进行池化得到特征（f）；
最后，通过全连接层和softmax层对每一特征进行计算得到概率分数。

我们需要关注的是如何得到局部注意力图以及如何进行池化。

Multi-Attention CNN for Part Localization

虽然一张卷积特征图可以对应某种类型的视觉模式，但是很难仅通过单一通道表示丰富的局部信息。

因此，本文提出了一种通道分组和加权的子网络来对空间相关的细微模式进行聚类以得到紧凑且有区分度的局部。这样一个过程简而言之是从一组通道中找到相邻范围都处于峰值的通道组。

每个通道可以表示为一个位置向量，其元素是所有训练图像实例的峰值相应的坐标，表示为： $[t_x^1,t_y^1,...,t_x^{\Omega},t_y^{\Omega}]$

每一对都表示为第i个图像的峰值响应的坐标，Omega是训练集的大小。

我们可以把位置向量作为特征，对不同的通道进行N聚类，来作为N个局部检测器。

为了确保训练时通道分组可以被优化，本文提出了通道分组层来用全连接层还原通道上的排列以近似这种分组。

我们定义一组全连接层 $F=[f_1,...,f_N]$ ，其中每一个函数都将卷积特征作为输入，输出通道的权重。

本文通过两个步骤得到分组结果 $d_i(X)$ ：

预训练（3）式中的参数，这通过结合（2）式进行监督学习；
通过端到端学习来优化。

即预训练+微调的方式。

于是，每一部分的注意力图如下表示：

$_j$ 表示第j个特征图，它表示一个部位注意力图。第i部分的最终特征表示通过每个通道上的空间池化进行计算：

Mi(X)表示值得关注的局部，比如头部区域都是1，其余部位都是0，之后相乘之后头部这块区域的卷积特征就能被完整的取出来。

Multi-task Formulation

Loss function

损失函数定义为：

其中，针对通道的损失函数如下所示：

Dis是距离函数，Div是多样性函数。DIs函数鼓励一个紧凑的分布，其具体形式如下所示：

tx与ty是注意力图上面响应大的坐标，这里的意思就是如果你这个位置响应大，那么就要离这个极值位置近。

Div的目的则是为了获取特征图之间的多样性：

Alternative optimization

本文以一种相互增强的方式来学习。

首先，固定卷积层，通过公式7对图中的d阶段的图进行优化，这部分的目的是为了定位局部。

然后，我们固定通道分组层，用分类损失对图中的b阶段进行学习，目的是进行细粒度特征的学习。

这种学习的过程是迭代的，直到损失函数不再发生变化。

Joint Part-based Feature Representation

我们已经知道每个通道分组都会池化出一个表示局部的特征，于是最终的特征将这些局部以及全局特征connotation得到最终集成的特征（有研究表明这是有益的）。

总结

本文的思路是中规中矩的，有点类似15年那篇end-to-end法的思路之作，以CNN每一通道的意义作为出发点，设计了通道组层，通过池化的手段得到每一部分的特征，从而拼凑出最后的特征。

本文需要注意的有：

依然对分类和局部特征获取设置了对应的损失函数；
值得一提的是，其迭代的训练策略很巧妙。

Low-rank Bilinear Pooling for Fine- Grained Classification(by end-to-end feature encoding)

Abstract

对二阶局部特征统计数据池化来形成一个高维度的双线性特征已经显示了最先进的性能。

为了解决高维度的计算需求，本文提出了将协方差特征表示为矩阵，并应用低秩双线性分类器。

得到的分类器可以不显式地计算双线性特征映射的情况下进行评估，可以大大减少计算时间及所需要学习的有效参数量。

为了进一步压缩模型，我们提出一个分类器进行协同分解，将双线性分类器集合分解为一个公因式和每个类的紧凑项。协同分解的思想可以通过两个卷积层进行部署，并在端到端体系结构中进行训练。

本文还提出了一种简单而有效的初始化方法，避免显式地先训练与分解较大的双线性分类器。

Fine-Grained Recognition as HSnet Search for Informative Image Parts(by localization-classification subnetwork)

Abstract

本文的工作基于这样一个假设：当处理对象类之间的细微差异时，关键是识别并解释是少数有信息的图像部分。因为其余图像上下文不仅可能是无信息的，而且可能会损害识别。

这促使我们将我们的问题描述为在深度卷积神经网络生成的深度特征图上连续搜索信息部分。

这种搜索的一种状态是图像中的提议边界框集，有信息的被H函数拿来验证，并用S函数产生新的候选框。

这两种功能通过LSTM统一到一个新的深度循环结构中，称为HSnet。

因此，HSnet生成信息图像部分的建议，将所有建议融合到最终的细粒度识别。本文根据对部分注释的可用性来指定HSnet的监督和弱监督训练。

你可能感兴趣的:(细粒度图像识别,分类,深度学习,人工智能)

5.31.15 使用图像到图像转换和 YOLO 技术对先前的乳房 X 光检查结果中的异常进行早期检测和分类托比-马奎尔深度学习基础知识 YOLO
在本研究中，我们研究了基于You-Only-Look-Once(YOLO)架构的端到端融合模型的有效性，该模型可同时检测和分类数字乳房X光检查中的可疑乳腺病变。包括四类病例：肿块、钙化、结构扭曲和正常，这些病例来自包含413个病例的私人数字乳房X光检查数据库。对于所有病例，先前的乳房X光检查（通常是1年前扫描的）均报告为正常，而当前的乳房X光检查被诊断为癌变（经活检证实）或健康。方法：建议将基于Y
基于迁移学习的多视图卷积神经网络在乳腺超声自动分类中的应用 despacito, 论文精读-乳腺超声分类
BREASTCANCERCLASSIFICATIONINAUTOMATEDBREASTULTRASOUNDUSINGMULTIVIEWCONVOLUTIONALNEURALNETWORKWITHTRANSFERLEARNINGYIWANG,*,1EUNJUNGCHOI,y,1YOUNHEECHOI,*HAOZHANG,*GONGYONGJIN,yandSEOK-BUMKO*TAGGEDEND*De
Python编程电子书：从基础到实践王奥雷
本文还有配套的精品资源，点击获取简介：Python电子书汇集了基础语法、面向对象编程、标准及第三方库使用、文件操作、网络编程、并发编程、单元测试与调试、Python2与Python3的区别等核心知识点。通过实例和项目案例，帮助读者在Web开发、数据分析、人工智能等应用领域提升编程技能，跟上Python的技术进步。1.Python基础语法介绍Python作为一种高级编程语言，其易读性和简洁的语法使其
驱动程序与源代码解析 AR新视野
本文还有配套的精品资源，点击获取简介：驱动程序和源代码是软件开发的核心，它们负责操作系统与硬件设备之间的通信，并构成软件的可执行基础。本主题涵盖驱动程序的分类、特定类型的驱动（如字符设备和网络驱动）、性能优化技术、内核源代码剖析、开源驱动的特点与贡献、驱动程序开发流程、安装与更新方法以及调试技术。同时，提供了学习资源，如代码示例和教程文档，以加深对驱动程序和源代码开发的理解。1.驱动程序分类与作用
开源模型应用落地-OpenAI Agents SDK-集成MCP与Qwen3-8B模型的创新应用探索（七）开源技术探险家开源模型-实际应用落地开源 python ai 人工智能
一、前言在人工智能技术飞速发展的今天，如何将先进的模型和技术无缝结合，成为推动行业变革的关键。OpenAIAgents通过集成模型上下文协议（MCP）和阿里巴巴推出的Qwen3-8B模型，正开启一场智能应用的革命。这种创新的结合不仅提升了AI代理与外部工具之间的通信能力，还在多模态任务处理、个性化服务等领域展现出巨大潜力。本文将深入探讨这一技术组合的实际应用场景，揭示其在改善客户体验和提升运营效率
开源模型应用落地-OpenAI Agents SDK-集成Qwen3-8B-探索output_guardrail的创意应用（六）开源技术探险家开源模型-实际应用落地开源 python ai 人工智能
一、前言随着人工智能技术的迅猛发展，大语言模型（LLM）在各行各业的应用日益广泛。然而，模型生成的内容是否安全、合规、符合用户预期，成为开发者和企业不可忽视的问题。为此，OutputGuardrail应运而生，作为一种关键的安全机制，它在模型生成结果之后进行内容审核与过滤，确保输出不偏离道德、法律和业务规范。通过检测不当的内容，不仅提升了AI系统的可信度，也为构建更加稳健和负责任的人工智能应用提供
什么是深度学习框架中的计算图？杰瑞学AI Computer knowledge NLP/LLMs AI/AGI 深度学习人工智能 pytorch
在深度学习框架中，计算图是核心的数据结构和抽象概念，它用来表示和定义深度学习模型的计算过程。我们可以把它想象成一个描述数学运算如何组合和执行的有向图。以下是计算图的关键要素和作用：节点：代表操作或变量。操作：数学运算，如加法(+)、乘法(*)、矩阵乘法(matmul)、激活函数(ReLU,sigmoid)、卷积(conv2d)、损失函数(cross_entropy)等。变量：通常是张量，即存储数据
开源模型应用落地-让AI更懂你的每一次交互-Mem0集成Qdrant、Neo4j与Streamlit的创新实践（四）开源技术探险家开源模型-实际应用落地 neo4j 开源人工智能语言模型
一、前言在人工智能迅速发展的今天，如何让AI系统更懂“你”？答案或许藏在个性化的记忆管理之中。Mem0作为一个开源的记忆管理系统，正致力于为AI赋予长期记忆与个性化服务能力。通过结合高性能向量数据库Qdrant、图数据库Neo4j的强大关系分析能力以及Streamlit的高效可视化交互，我们可以打造出一个既能存储用户历史行为、又能实时推理并展示结果的智能记忆助手。本文将带您一步步探索这一技术组合的
【优秀文章】7月优秀文章推荐
优秀文章智能自主运动体与人工智能技术——环境感知、SLAM定位、路径规划、运动控制、多智能体协同作者：fpga和matlabC++之红黑树认识与实现作者：zzh_zao【手把手带你刷好题】–C语言基础编程题(十)作者：草莓熊Lotso飞算JavaAI：从“码农”到“代码指挥官”的终极进化论作者：可涵不会debug前端网页开发学习（HTML+CSS+JS）有这一篇就够！作者：一颗小谷粒
蛋白质结构预测/功能注释/交互识别/按需设计，中国海洋大学张树刚团队直击蛋白质智能计算核心任务 hyperai
蛋白质作为生命活动的主要承担者，在人体生理功能中扮演关键角色。然而传统研究面临结构解析成本高昂、功能注释严重滞后、新型蛋白质设计效率低下等挑战。近年来，生命科学对蛋白质复杂特性解析的需求日益迫切，大数据、深度学习、多模态计算等技术的突破性发展，为构建蛋白质智能计算体系提供了全新的发展契机。蛋白质智能计算体系的构建，使得蛋白质在大规模功能注释、交互预测及三维结构建模等领域取得显著成果，为药物发现与生
【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
视觉设计全栈解析：必知的8大核心方向与应用场景
在数字时代，视觉设计早已渗透到生活的方方面面——从手机APP界面到街头广告牌，从书籍的版式到产品的包装，这些统统离不开视觉设计的支撑！所以，了解视觉设计分类，不仅能帮助我们理清设计的边界与应用场景，更能让初学者找到学习的方向，让从业者精准定位创作目标哦。接下来，我们就来详细解析视觉设计分类中的8大常见类型，一起来享受这场视听盛宴吧~一、视觉识别图形设计在视觉设计分类中，视觉识别图形设计是构建品牌形
利用systemd启动部署在服务器上的web应用不是吧这都有重名遇到的问题服务器前端运维
0.背景系统环境：Ubuntu22.04web应用情况：前后端分类，前端采用react，后端采用fastapi1.具体配置1.1前端配置开发态运行（启动命令是npmrundev）,创建systemd服务文件sudonano/etc/systemd/system/frontend.service内容如下：[Unit]Description=ReactFrontendDevServerAfter=ne
（面经总结）一篇文章带你整理面试过程中常考的九大排序算法南淮北安冲刺大厂之面经总结面经排序算法二分插入冒泡快速
文章目录一、二分插入排序1.原理2.代码二、冒泡排序1.原理2.代码三、插入排序算法1.原理2.代码四、快速排序算法1.原理2.代码五、希尔排序1.原理2.代码六、归并排序1.原理2.代码七、桶排序八、基数排序九、堆排序1.原理2.代码十、总结1.算法分类2.性能分析一、二分插入排序首先必须是排好序的数组，然后通过二分查找，找到合适的位置，插入1.原理二分查找算法又叫作折半查找，要求待查找的序列有
MongoDB + Voyage AI 详解：重塑数据库与AI的协同范式 csdn_tom_168 NoSQL 数据库 mongodb 人工智能 AI
MongoDB+VoyageAI详解：重塑数据库与AI的协同范式2025年2月，MongoDB官方宣布收购VoyageAI，这一举措标志着数据库与人工智能技术的深度融合迈入新阶段。通过整合VoyageAI的先进AI检索与嵌入模型能力，MongoDB旨在重新定义AI时代的数据库架构，为企业构建智能应用提供端到端的数据基础设施。一、收购背景与技术战略1.行业趋势驱动AI数据挑战：随着生成式AI与大语言
HarmonyOS5.0仓颉引擎与盘古大模型：个性化作业批改系统架构设计与实现 H老师带你学鸿蒙系统架构 HarmonyOS5.0 鸿蒙华为仓颉教育
人工智能与边缘计算的融合正在重塑教育评价体系。本文将展示如何基于HarmonyOS5.0仓颉并发引擎和盘古大模型，构建新一代智能作业批改系统。系统架构全景graphTDA[学生端设备]-->|提交作业|B[仓颉边缘处理]B-->C[盘古大模型分析]C-->D[个性化反馈生成]D-->E[学生终端]D-->F[教师仪表盘]subgraphHarmonyOS分布式系统B-->|设备协同|G[教室平板集
医咖会免费STATA教程学习笔记——单因素方差分析 Unacandoit stata 单因素方差分析
单因素方差分析和单因素回归分析相同1.单因素方差分析需要满足的假设：（1）因变量为连续变量（2）至少有一个分类变量（大于等于2类）（3）观测值相互独立（4）没有异常值（5）服从正态分布（6）方差齐性2.准备工作（1）导入数据集：webusesystolic,clear（2）检验是否存在异常值：方法一：图形——箱线图——在变量中选择systolic——确定方法二：grahboxsystolic,ov
阿里云瑶池数据库 Data Agent for Meta 正式发布，让 AI 更懂你的业务！数据库观点资讯人工智能
背景随着生成式人工智能（GenerativeAI）从概念验证迈向规模化商业落地，AIAgent已成为企业核心业务流程的重要组成部分。然而，当模型调用日益便捷时，核心痛点已不再是模型本身，而是集中在一个关键要素上：数据。AIAgent的落地瓶颈已从技术能力转向高质量、高相关性、安全合规的数据供给。企业面临的核心挑战在于：数据孤岛导致知识库分散，通用大模型难以理解专业业务传统数据管理依赖人工开发维护，
【TVM 教程】如何处理 TVM 报错
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/运行TVM时，可能会遇到如下报错：---------------------------------------------------------------AnerroroccurredduringtheexecutionofTVM.F
【限时干货】Calibre智能分类，轻松突破内网限制畅享电子书库比头发还脆弱服务器 tcp/ip linux
文章目录前言1.网络书库软件下载安装2.网络书库服务器设置3.内网穿透工具设置4.公网使用kindle访问内网私人书库前言本研究旨在构建一套运行于微软操作系统环境下的独立电子图书管理体系，核心目标是建立可远程操作的资源访问机制。该架构采用高可用性设计，在第三方阅读平台服务中断时仍能保障数字内容传输的稳定性。系统创新性地融合了两大核心技术组件：通过Calibre开源软件实现文献分类算法与格式转换功能
【PaddleOCR】OCR文本检测与文本识别数据集整理，持续更新......
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
多模态大模型的技术应用与未来展望：重构AI交互范式的新引擎 zhaoyi_he 重构人工智能
一、引言：为什么多模态是AI发展的下一场革命？过去十年，深度学习推动了计算机视觉和自然语言处理的飞跃，但两者的发展路径长期割裂。随着生成式AI和大模型时代的到来，**多模态大模型（MultimodalFoundationModels）**以统一的建模方式处理图像、文本、音频、视频等多源数据，重塑了“感知-认知-决策”链条，为AGI迈出关键一步。OpenAI的GPT-4o、Google的Gemini
说话人识别python_基于各种分类算法的说话人识别（年龄段识别） weixin_39673184 说话人识别python
基于各种分类算法的语音分类(年龄段识别)概述实习期间作为帮手打杂进行了一段时间的语音识别研究，内容是基于各种分类算法的语音的年龄段识别，总结一下大致框架，基本思想是：获取语料库TIMIT提取数据特征，进行处理MFCC/i-vectorLDA/PLDA/PCA语料提取，基于分类算法进行分类SVM/SVR/GMM/GBDT...用到的工具有HTK(C,shell)/Kaldi(C++,shell)/L
使用 C++ 实现 MFCC 特征提取与说话人识别系统 whoarethenext c++开发语言 mfcc 语音识别
使用C++实现MFCC特征提取与说话人识别系统在音频处理和人工智能领域，C++凭借其卓越的性能和对硬件的底层控制能力，在实时音频分析、嵌入式设备和高性能计算场景中占据着不可或缺的地位。本文将引导你了解如何使用C++库计算核心的音频特征——梅尔频率倒谱系数(MFCCs)，并进一步利用这些特征构建一个说话人识别（声纹识别）系统。Part1:在C/C++中计算MFCCs直接从零开始实现MFCC的所有计算
Logistic回归预测模型2：R语言实现模型的内部和外部验证
前面我们讲了logistic回归预测模型的建立，今天介绍的是模型的验证，可以在训练集和验证集中通过ROC曲线、校准曲线和决策曲线分别进行验证。1、原始数据原始数据分为训练集和验证集，其中训练集用于模型的构建和内部验证，验证集用于外部验证。两个数据集都包含5列，且列名相同。组别Group为因变量，1代表阳性结局，0代表阴性结局。自变量1和4为连续性变量，自变量2和3为二分类变量。2、安装所需要的R包
ImportError: /nvidia/cusparse/lib/libcusparse.so.12: undefined symbol: __nvJitLinkComplete_12_4 爱编程的喵喵 Python基础课程 python ImportError torch nvJitLink 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ImportError:/home/
【Prometheus】cAdvisor工作原理介绍码上淘金 prometheus
cAdvisor（ContainerAdvisor）是Google开源的容器监控工具，专注于实时采集和暴露容器级别的资源使用数据。其底层实现基于Linux内核的多项技术，结合高效的事件驱动架构，实现对容器资源的细粒度监控。以下从核心机制、数据采集原理和架构实现三方面详细解析：一、核心依赖技术cAdvisor的监控能力建立在Linux内核提供的底层机制之上：cgroups（控制组）资源隔离与统计：c
【机器学习笔记 Ⅱ】11 决策树模型巴伦是只猫机器学习机器学习笔记决策树
决策树模型（DecisionTree）详解决策树是一种树形结构的监督学习模型，通过一系列规则对数据进行分类或回归。其核心思想是模仿人类决策过程，通过不断提问（基于特征划分）逐步逼近答案。1.核心概念节点类型：根节点：起始问题（最佳特征划分点）。内部节点：中间决策步骤（特征判断）。叶节点：最终预测结果（类别或数值）。分支：对应特征的取值或条件判断（如“年龄≥30？”）。2.构建决策树的关键步骤(1)
【机器学习笔记 Ⅱ】10 完整周期
机器学习的完整生命周期（End-to-EndPipeline）机器学习的完整周期涵盖从问题定义到模型部署的全过程，以下是系统化的步骤分解和关键要点：1.问题定义（ProblemDefinition）目标：明确业务需求与机器学习任务的匹配性。关键问题：这是分类、回归、聚类还是强化学习问题？成功的标准是什么？（如准确率>90%、降低10%成本）输出：项目目标文档（含评估指标）。2.数据收集（DataC
【机器学习笔记Ⅰ】6 多类特征巴伦是只猫机器学习机器学习笔记人工智能
多类特征（Multi-classFeatures）详解多类特征是指一个特征（变量）可以取多个离散的类别值，且这些类别之间没有内在的顺序关系。这类特征是机器学习中常见的数据类型，尤其在分类和回归问题中需要特殊处理。1.核心概念(1)什么是多类特征？定义：特征是离散的、有限的类别，且类别之间无大小或顺序关系。示例：颜色：红、绿、蓝（无顺序）。城市：北京、上海、广州（无数学意义的大小关系）。动物类别：猫
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul