让AI服务于我

Image as Set of Points

摘要

什么是图像以及如何提取潜在特征？卷积网络（ConvNets）将图像视为矩形的有组织像素，并通过局部区域的卷积运算提取特征；视觉转换器（ViTs）将图像视为一系列补丁，并通过全局范围内的注意力机制提取特征。在这项工作中，我们介绍了一种直观而有前途的视觉表示范式，称为上下文聚类。上下文聚类将图像视为一组无组织点，并通过简化的聚类算法提取特征。详细地，每个点包括原始特征（例如，颜色）和位置信息（例如，坐标），并且采用简化的聚类算法来分层地对深度特征进行分组和提取。我们的CoC是无卷积和注意力的，并且只依赖于聚类算法进行空间交互。由于设计简单，我们表明CoCs通过聚类过程的可视化赋予了令人满意的可解释性。我们的CoCs旨在为图像和视觉表现提供一个新的视角，这可能在不同领域有广泛的应用，并展现出深刻的见解。尽管我们没有针对SOTA性能，但在几个基准测试中，COC仍然取得了与ConvNets或ViT相当甚至更好的结果。代码位于：https://github.com/ma-xu/Context-Cluster.

1.介绍

我们提取特征的方式在很大程度上取决于我们如何解读图像。卷积神经网络（Convolutional Neural Networks，简称ConvNets）作为一种基本范式，近年来在计算机视觉领域占据主导地位，大大提高了各种视觉任务的性能（He等人，2016；Xie等人，2021；Ge等人，2021）。在方法上，ConvNets将图片概念化为矩形形式的排列像素的集合，并以滑动窗口的方式使用卷积来提取局部特征。得益于一些重要的归纳偏置，如locality 和translation equivariance，ConvNets被认为是高效的。最近，视觉变形金刚（ViTs）对ConvNets在视觉领域的霸主地位提出了重大挑战。源于语言处理，Transformers（Vaswani et al.，2017）将图像视为一系列补丁，并采用全局范围的自注意操作来自适应地融合来自补丁的信息。利用所得模型（即ViT），ConvNets中的固有归纳偏置被放弃，并获得了令人满意的结果（Touvron等人，2021）。

最近的研究表明，视觉社区取得了巨大的进步，这主要建立在卷积或注意力之上（例如，ConvNeXt（Liu等人，2022）、MAE（He等人，2021）和CLIP（Radford等人，2021））。同时，一些尝试将卷积和注意力结合在一起，如CMT（Guo等人，2022a）和CoAtNet（Dai等人，2021）。这些方法在网格中扫描图像（卷积），但探索序列的相互关系（注意力），在不牺牲全局接收（注意力）的情况下享受局部先验（卷积）。虽然它们继承了两者的优势，并取得了更好的实证表现，但见解和知识仍然局限于ConvNets和ViTs。我们强调，除了卷积和关注之外，一些特征提取器也值得研究，而不是被引诱进入追求增量改进的陷阱。虽然卷积和注意力被认为对视野有显著的好处和巨大的影响，但它们并不是唯一的选择。基于MLP的体系结构（Touvron等人2022发表的论文,Tolstikhin等人，2021发表的会议论文）表明，纯基于MLP设计也可以实现类似的性能。此外，将图网络作为特征提取器被证明是可行的（Han et al.，2022）。因此，我们期待一种新的特征提取范式，它可以提供一些新的见解，而不是渐进的性能改进。

在这项工作中，我们回顾了基础视觉表示的经典算法，聚类方法（Bishop和Nasrabadi，2006）。从整体上讲，我们将图像视为一组数据点，并将所有点分组到聚类中。在每个聚类中，我们将点聚合到一个中心，然后自适应地将中心点分配给所有点。我们将此设计称为上下文聚类。图1说明了该过程。具体来说，我们将每个像素视为具有颜色和位置信息的5维数据点。从某种意义上说，我们将图像转换为一组点云，并利用点云分析的方法（Qi et al.，2017b；Ma et al.，2022）进行图像视觉表示学习。这桥接了图像和点云的表示，显示出强大的泛化能力，并为多种模态的轻松融合开辟了可能性。对于一组点，我们引入了一种简化的聚类方法来将点分组为聚类。聚类处理与SuperPixel（Ren&Malik，2003）有着相似的想法，将相似的像素分组，但它们有着根本的不同。据我们所知，我们是第一个为通用视觉表示引入聚类方法并使其发挥作用的人。相反，SuperPixel和更高版本主要用于图像预处理（Jampani等人，2018）或语义分割等特定任务（Yang等人，2020；Yu等人，2022b）。

我们基于上下文聚类实例化我们的深度网络，并将生成的模型命名为上下文聚类（context Clusters，CoCs）。我们的新设计本质上不同于ConvNets或ViTs，但我们也从中继承了一些积极的哲学，包括ConvNets的层次表示（Liu et al.，2022）和ViTs的Metaformer（Yu et al.，2022c）框架。CoCs显示出明显的优势。首先，通过将图像视为一组点，CoCs对不同的数据域（如点云、RGBD图像等）表现出很强的泛化能力。其次，上下文聚类处理为CoCs提供了令人满意的可解释性。通过可视化每一层中的聚类，我们可以明确地理解每一层的学习。尽管我们的方法不以SOTA性能为目标，但在几个基准测试中，它仍然取得了与ConvNets或ViT相当甚至更好的性能。我们希望我们的上下文聚类将为愿景社区带来新的突破。

2.相关工作

图像处理中的聚类：虽然图像处理中的聚类方法（Castleman，1996）在深度学习时代已经失宠，但它们从未从计算机视觉中消失。SuperPixel是一项历史悠久的工作（Ren&Malik，2003），它通过将一组具有共同特征的像素分组，将图像分割成多个区域。鉴于所需的稀疏性和简单的表示，SuperPixel已经成为图像预处理的常见实践。SuperPixel应用在整个图像上对像素进行了详尽的聚类（例如，通过K-means算法），这使得计算成本很高。为此，SLIC（Achanta et al.，2012）将聚类操作限制在局部区域，并均匀地初始化K均值中心，以实现更好、更快的收敛。近年来，聚类方法的兴趣激增，并与深度网络密切相关（Li&Chen，2015；Jampani等人，2018；Qin等人，2018年；Yang等人，2020）。为了创建深度网络的超级像素，SSN（Jampani et al.，2018）提出了一种可微分的SLIC方法，该方法是端到端可训练的，并享有良好的运行时间。最近，人们尝试将聚类方法应用于特定视觉任务的网络，如分割（Yu et al.，2022b；Xu et al.，2022）和细粒度识别（Huang&Li，2020）。例如，CMT DeepLab（Yu et al.，2022a）将分割任务中的对象查询作为聚类中心，并将分组像素分配给每个聚类的分割。然而，据我们所知，还没有通过聚类进行一般视觉表示的工作。我们的目标是弥补空缺，同时从数字和视觉上证明其可行性。

ConvNets &ViTs：自深度学习时代以来，ConvNets一直主导着视觉社区（Si-monyan和Zisserman，2015；He等人，2016）。最近，ViTs（Dosovitskiy et al.，2020）向视觉社区引入了纯粹基于注意力的转换器（Vaswani et al.，2017），并在各种视觉任务上设置了新的SOTA性能。一个常见且可信的推测是，这些令人欣慰的成就归功于自我注意机制。然而，这种直观的联想很快就受到了挑战。大量实验还表明，ResNet（He等人，2016）可以通过适当的训练配方和最少的修改实现与ViT相当甚至更好的性能（Wightman等人，2021；Liu等人，2022年）。我们强调，虽然卷积和注意力可能具有独特的优点（即，ConvNets具有归纳偏置（Liu et al.，2022），而ViTs擅长泛化（Yuan et al.，2021b）），但它们没有表现出显著的性能差距。与卷积和注意力不同，在这项工作中，我们从根本上提出了一种使用聚类算法进行视觉表示的新范式。通过定量和定性分析，我们表明我们的方法可以作为一个新的通用主干，并具有令人满意的可解释性。

最新进展：在ConvNets和ViT的框架内，已经做出了大量努力来提高视觉任务的性能（Liu等人，2021b；Ding等人，2022b；Wu等人，2021）。为了利用卷积和注意力，一些工作学习以混合模式混合这两种设计，如CoAtNet（Dai等人，2021）和Mobile-Former（Chen等人，2022b）。我们还注意到，最近的一些进展探索了更多的视觉表示方法，超越了卷积和注意力。类MLP模型（Tolstikhin等人，2021；Touvron等人，2022；Hou等人，2022.Chen等人，2022a）直接考虑空间交互的MLP层。此外，一些工作采用转换（Lian等人，2021；Huang等人，2021）或池化（Yu等人，2022c）进行局部的信息传递。与我们将图像视为无序数据集的工作类似，Vision GNN（ViG）（Han et al.，2022）为视觉任务提取图级特征。不同的是，我们直接应用了传统图像处理中的聚类方法，并表现出了很好的泛化能力和可解释性。

3.方法

上下文聚类放弃了流行的卷积或注意力机制，转而新颖地考虑经典算法聚类来表示视觉学习。在本节中，我们首先描述上下文聚类的pipeline。然后对所提出的用于特征提取的上下文聚类操作（如图2所示）进行了全面解释。之后，我们建立了上下文聚类的体系结构。最后，一些公开的讨论可能有助于个人理解我们的工作，并根据我们的上下文聚类探索更多方向。

3.1 上下文聚类算法的流程

从图像到点集：给定一个图像 $\in R^{3 \times w \times h}$ ，我们首先用每个像素 $I_{ij}$ 的2D坐标来增强图像,其中每个像素的坐标表示为 $[i / w - 0.5 ， j / h - 0.5]$ 。研究进一步的位置增强技术以潜在地提高性能是可行的。考虑到这种设计的简单性和实用性。然后将增强图像转换为点（即像素）的集合 $P∈R^{5×n}$ ，其中 $n = w \times h$ 是点的数量，并且每个点都包含特征（颜色）和位置（坐标）信息；因此，点集可能是无序和无组织的。

我们通过提供一个新的图像视角，一组点，获得了出色的泛化能力。一组数据点可以被认为是通用的数据表示，因为大多数领域中的数据可以作为特征和位置信息的组合（或两者中的任何一个）给出。这启发我们将图像概念化为一组点。

特征提取与图像点集 根据ConvNets方法（He et al.，2016；Liu et al.，2022），我们使用上下文聚类块分层提取深层特征（见图2供参考， $§3.2$ 供解释）。图3显示了我们的上下文聚类架构。给定一组点 $P∈R^{5×n}$ ，为了计算效率，我们首先减少点的数量，然后应用一系列上下文聚类块来提取特征。为了减少点的数量，我们在空间中均匀地选择一些锚点，并通过线性投影连接和融合最近的 $k$ 个点。注意，如果所有点都按顺序排列，并且 $k$ 被正确设置（比如4和9等），则这种减少可以通过卷积运算来实现，就像在ViT中一样（Dosovitskiy等人，2020）。为了明确前面所述的中心和锚，我们强烈建议读者查看附录 $§ B$ 。

特定任务的应用程序 对于分类，我们对最后一个块的输出的所有点进行平均，并使用FC层进行分类。对于检测和分割等下游密集预测任务，我们需要在每个阶段后按位置重新排列输出点，以满足大多数检测和分割头的需求（例如，Mask RCNN（He et al.，2017））。也就是说，上下文聚类在分类方面提供了显著的灵活性，但仅限于密集预测任务的需求和我们的模型配置之间的折衷。我们希望创新的检测和分割头（如DETR（Carion et al.，2020））能够与我们的方法无缝集成。

3.2 上下文聚类操作

在本小节中，我们将介绍我们工作中的关键贡献，即上下文聚类操作。从整体上讲，我们首先将特征点分组为聚类；然后，每个聚类中的特征点将被聚合，然后被调度回原来的像素点，如图1所示。

上下文聚类. 给定一组特征点 $P∈R^{n×d}$ ，我们根据相似性将所有点分为几个组，每个点只分配给一个聚类。我们首先将 $P$ 线性投影到 $P_s$ 以进行相似性计算。根据传统的超级像素方法SLIC（Achanta et al.，2012），我们在空间中均匀地提出 $c$ 个中心，并且通过对其 $k$ 个最近点进行平均来计算中心特征。然后，我们计算 $P_s$ 和由此产生的中心点集之间的成对余弦相似矩阵 $S∈R^{c×n}$ 。由于每个点都包含特征和位置信息，在计算相似性时，我们隐式地突出了点的距离（位置）以及特征相似性。之后，我们将每个点分配到最相似的中心，从而产生 $c$ 个聚类。值得注意的是，每个聚类可能具有不同数量的点。在极端情况下，一些聚类可能有零点，在这种情况下它们是多余的。

特征聚合. 我们根据与中心点的相似性动态聚合各个簇中的所有点。假设一个簇包含 $m$ 个点（ $P$ 中的一个子集），并且 $m$ 个点和中心之间的相似性是 $s∈R^m$ （ $s$ 中的一个子集），我们将这些点映射到值空间，得到 $P_v∈R^{m×d^′}$ ，其中 $d^′$ 是值维。我们还提出了价值空间中的中心 $v_c$ ，就如同提出的聚类中心。聚合特征 $g∈R^{d^′}$ 由下式给出:

这里， $α$ 和 $β$ 是可学习的标量，用于缩放和移动相似性， $s i g （ \cdot ）$ 是sigmoid函数，用于将相似性重新缩放到（0,1）。 $v_i$ 表示 $P_v$ 中的第 $i$ 个点。根据经验，这种策略将比直接应用原始相似性获得更好的结果，因为不涉及负值。不考虑Softmax，因为这些点彼此不矛盾。我们在公式1中加入了数值中心 $v_c$ ，以获得数值稳定性，并进一步强调局部性。为了控制大小，通过因子 $C$ 对聚合特征进行归一化。

聚合特征的分派.
然后基于相似性将聚合特征 $g$ 自适应地分派到聚类中的每个点。通过这样做，点可以相互通信，并共享聚类中所有点的特征，如图1所示。对于每个点 $p_i$ ，我们将其更新为:

在这里，我们遵循相同的过程来处理相似性，并应用完全连接（FC）层来匹配特征维度（从值空间维度 $d^′$ 到原始维度 $d$ ）

多头计算. 我们承认自我注意机制中的多头设计（Vaswani et al.，2017），并使用它来增强我们的上下文聚类。为了简单起见，我们考虑了 $h$ 个头，并将值空间 $P_v$ 和相似性空间 $P_s$ 的维数都设置为 $d^′$ 。多头操作的输出通过FC层进行级联和融合。正如我们经验证明的那样，多头架构也有助于我们的上下文聚类得到令人满意的改进。

3.3 结构初始化

虽然上下文聚类从根本上不同于卷积和注意力，但ConvNets和ViTs的设计哲学，如层次表示和元变换器架构（Yu et al.，2022c），仍然适用于上下文聚类。为了与其他网络保持一致，并使我们的方法与大多数检测和分割算法兼容，我们在每个阶段中以16、4、4和4的因子逐渐减少点数。在第一阶段，我们为选定的锚点考虑16个最近邻居，在其余阶段，我们选择他们的9个最近邻居。一个根本问题是计算效率。假设我们有 $n$ 个 $d$ 维点和 $c$ 个聚类，计算特征相似性的时间复杂度将为 $O （ n c d ）$ ，当输入图像分辨率高时（例如，224×224），这是不可接受的。为了避免这个问题，我们通过将点划分为几个局部区域来引入区域划分，如Swin Transformer（Liu et al.，2021b），并局部计算相似性。因此，当局部区域的数量设置为r时，我们显著地将时间复杂度降低了r的因子，从O（ncd）降低到 $O （ r \times n / r \times c / r \times d ）$ 。详细配置见附录 $§ A$ 。请注意，如果我们将点集划分为几个局部区域，则会限制上下文聚类的接受域，并且局部区域之间没有可用的通信。

3.4 讨论

聚类的固定中心还是动态中心？传统的聚类算法和SuperPixel技术都会迭代更新中心，直到收敛。然而，当聚类被用作每个构建块中的关键组件时，这将导致高昂的计算成本。推理时间将呈指数级增长。在上下文聚类中，我们将固定中心视为推理效率的替代方案，这可以被认为是准确性和速度之间的折衷。
重叠聚类还是非重叠聚类？我们只将点分配给一个特定的中心，这与以前的点云分析设计理念不同。我们有意坚持传统的聚类方法（非重叠聚类），因为我们想证明简单和传统的算法可以作为通用的主干。尽管重叠聚类可能会产生更高的性能，但它对我们的方法来说并不是必不可少的，并且可能会导致额外的计算负担。

4.实验

我们在ImageNet-1K（Deng et al.，2009）、ScanObjectNN（Uy et al.，2019）、MS COCO（Lin et al.，2014）和ADE2K（Zhou et al.，2017）数据集上验证了上下文聚类，用于图像分类、点云分类、对象检测、实例分割和语义分割任务。即使我们没有像ConvNeXt（Liu et al.，2022）和DaViT（Ding et al.，2022a）那样追求最先进的性能，上下文聚类在所有任务上仍然呈现出有希望的结果。详细的研究证明了我们的上下文聚类的可解释性和泛化能力。

4.1 ImageNet-1K上的图像分类

我们在ImageNet-1K训练集（约130万张图像）上训练上下文聚类，并在验证集时进行评估。在这项工作中，我们遵守（Dai等，2021; Wightman，2019; Touvron等，2021; Yu等，2022cc）的常规训练配方。对于数据增强，我们主要采用随机的水平翻转，随机像素擦除，混合，cutmix和标签平滑。Adamw（Loshchilov＆Hutter，2019年）用于在310个epoch内训练我们的所有模型，动量为0.9，重量衰减为0.05。默认情况下，学习率设置为0.001，并使用余弦计划（Loshchilov＆Hutter，2017）进行调整。默认情况下，对8个A100 GPU进行了培训，其小批量大小为128（总计1024）。我们使用指数移动平均值（EMA）来增强训练，类似于较早的研究（Guo等，2022b； Touvron等，2021）。表1报告了使用的参数，FLOPs，分类精度和吞吐量。•表示我们用来将点分为[49,49,1,1]的不同区域分区方法。从经验上讲，表1中的结果表明我们提出的上下文聚类的有效性。我们的上下文聚类能够使用类似数量的参数和FLOPs获得比广泛使用的基线的可比性甚至更好的性能。我们的上下文聚类约有2500万参数，超过了增强的Resnet50（Wightman等，2021），而Pvt-Small则超过1.1％，并达到80.9％的TOP-1准确性。此外，我们的上下文聚类显然优于基于MLP的方法。这种现象表明，我们方法的性能不记入MLP块，并且上下文聚类块基本上有助于视觉表示。上下文聚类-TI和上下文聚类-TI之间的性能差异可以忽略不计，这证明了我们上下文聚类对局部区域分配策略的稳健性。我们认识到我们的结果无法与SOTA性能相匹配（例如，CoatNet-0到达81.6％的精度，具有可比数量的参数（与COC-Tiny）相当），但我们强调，我们正在追求并证明新功能提取范式的可行性。我们通过将图像概念化为一组点并自然应用聚类算法以进行特征提取来成功放弃网络中的卷积和关注。与卷积和关注相反，我们的上下文聚类对其他领域数据具有极好的普遍性，并具有有希望的解释性。

组件消融表2报告了在ImageNet-1K上消除Context Cluster Small变体中的每个单独成分的结果。为了去除多头设计，我们为每个块使用一个头部，并在四个阶段中将头部尺寸编号分别设置为[16,32,96,128]。当位置信息被去除时，由于点是无序的，模型变得不可访问。从cifar（Krizhevsky et al.，2009）数据集中也可以看到类似的现象。在没有控制聚类操作的情况下，性能下降了3.3%。此外，多头设计能够将结果提高0.9%。结合所有组件，我们达到了77.5%的top-1精度。

4.2 可视化聚类

为了更好地理解上下文聚类，我们在图4中绘制了聚类图，我们还展示了ViTs的注意力图和ConvNets的类激活图（即CAM）（Zhou et al.，2016）。请注意，这三种Map在概念上是不同的，不能直接进行比较。我们列出了另外两个（注意力和类激活）映射供参考，并演示了ViTs、ConvNets和我们的上下文聚类中的内部操作。详细设置可以在图4的标题中找到。随着点数的减少，细节被合并以形成上下文聚类。三个观察结果证明了我们的上下文聚类的正确性和有效性。首先，我们的方法在最后阶段将单个鹅作为一个对象上下文进行了明确的聚类，并将背景草分组在一起。从之前的阶段也可以观察到类似的现象，但在更详细的局部区域。其次，我们的上下文聚类甚至可以在非常早期的阶段（例如，第一和第二阶段）对类似的上下文进行聚类。放大红框中的细节，我们可以看到属于鹅颈的点清楚地聚集在一起，这表明我们的方法具有强大的聚类能力。最后，我们注意到，大多数聚类强调局部性，而一些聚类（颜色为亮绿色）非常显示全局性，如最后阶段的聚类图所示。这进一步证明了设计理念；我们鼓励将相似的点分组，但对感受野没有限制。可视化聚类图和详细分析表明，我们的上下文聚类是有效的，并表现出很好的可解释性。值得注意的是，当删除区域划分操作时，我们的方法以SuperPixel风格展示了有希望的聚类结果。更多示例请参见附录。

4.3 三维点云分类ScanObjectNN

上下文聚类是点云的自然拟合Qi等人（2017b）；Lu等人（2022）。因此，我们还研究了我们的点云分类方法。我们选择PointMLP（Ma et al.，2022）作为我们模型的基础，因为它的性能和易用性。详细地说，我们只考虑一个头部，并将头部尺寸数设置为 $min （ C /4 ， 32 ）$ ，其中$c￥表示每层中的通道数。我们将上下文线索块放在PointMLP中的每个残差点块之前。由此产生的模型被称为PointMLP-CoC。请注意，更好的设置会提高性能，但这不是我们研究的重点。我们在表3中报告了所有类别的平均准确度（mAcc）和所有实例的总体准确度（OA）。在表3中，我们给出了所有类别的平均准确度（mAcc）和所有样本的总体准确度（OA）。实验结果表明，我们的方法可以显著提高PointMLP的性能，平均精度提高了0.5%（84.4%对83.9%），总体精度提高了0.8%（86.2%对85.4%）。请注意，只有在上下文聚类中引入一个头部才能获得有希望的增益；有了更多的头和精心的设置，性能就会得到提高。最重要的是，结果表明，我们的方法可以高度推广到不同的领域，例如点云。我们预计，当应用于更多的域时，我们的上下文聚类将令人满意地运行，几乎没有修改。

4.4 MS-COCO上的对象检测和实例分割

接下来，我们研究了上下文聚类对下游任务的泛化能力，包括对象检测和实例分割。我们在MS COCO 2017基准（Lin et al.，2014）上进行了实验，该基准有118k张图像用于训练，5k张图像用于验证。在之前的工作之后，我们将我们的模型与Mask RCNN（He et al.，2017）集成，用于对象检测和实例分割任务。所有模型都使用1×scheduler （12个时期）进行训练，并使用ImageNet预训练的权重进行初始化。为了进行比较，我们认为ResNet是ConvNets的代表，PVT是ViTs的代表。我们在表4中报告了评估指标平均精度（mAP）。我们注意到，由于图像分辨率的差异，直接采用ImageNet的上下文聚类配置可能不适合下游任务。对于分类任务，我们将在一个局部区域中有49个点和4个中心。检测和分割任务对于图像大小（1280，800）具有相同配置的1000个点。很明显，将1000个点分组为4个聚类会产生较差的结果。为此，我们研究了局部区域的4个、25个和49个中心，并将得到的模型分别称为Small/4、Small/25和Small/49。表4中的结果表明，我们的上下文聚类对下游任务表现出了很好的泛化能力。如果配置得当（局部区域有25个中心），我们的CoC Small/25在检测和实例分割任务上都优于ConvNet和ViT基线。与我们的预期一致，只有4个中心无法准确建模大型局部区域，不必要的中心也无法进一步提高性能。更多结果见附录 $§ C$ 。

4.5 ADE20K上的语义分割

我们在ADE20K（Zhou et al.，2017）数据集上检查了配备语义FPN（Kirillov et al.，2019）的上下文聚类，用于语义分割任务。对于训练、验证和测试，ADE20K包括20k、2k和3k个图像，每个图像对应于150个语义类别中的一个。为了进行公平的比较，我们在四个V100 GPU上对批量大小为16的所有模型进行80k次迭代的训练，并采用PVT中使用的标准数据增强方法（Wang等人，2021）。AdamW优化器的初始学习率为 $2×10^{-4}$ ，用于训练我们所有的模型。我们使用0.9次方的多项式衰减时间表来降低学习率。

表5中报告了ADE20K的实验结果。我们展示了我们的上下文聚类使用相似数量的参数明显优于PVT和ResNet。这些有希望的改进可以归功于我们新颖的上下文聚类操作。我们的上下文聚类类似于SuperPixel，它是一种过度分割技术。当应用于特征提取时，我们期望上下文聚类可以过度分割中间特征中的上下文，并显示语义分割任务的改进。与对象检测和语义分割任务不同，中心数对结果的影响很小。更多结果见附录 $§ C$ .

5.结论

我们介绍了上下文聚类，这是一种新的用于视觉表示的特征提取范式。受点云分析和SuperPixel算法的启发，我们将图像视为一组无组织的点，并使用简化的聚类方法来提取特征。在图像解释和特征提取操作方面，上下文聚类从根本上不同于ConvNets和ViTs，并且在我们的架构中不涉及卷积或注意力。我们没有追求SOTA性能，而是表明我们的上下文聚类可以在多个任务和域上实现与ConvNet和ViT基线相当甚至更好的结果。最值得注意的是，我们的方法显示出良好的解释性和泛化性。我们希望我们的上下文聚类除了卷积和注意力之外，还可以被认为是一种新颖的视觉表示方法。正如 $§3$ 末尾所讨论的，我们新的视觉表现视角和设计也带来了新的挑战，主要是在准确性和速度之间的折衷。更好的策略值得探索。脱离当前的检测和分割框架，将我们的上下文聚类哲学应用于其他任务也是一个值得追求的方向。

References

Image as Set of Points

基于深度学习的手写数字和符号识别系统：YOLOv5/v6/v7/v8/v10模型实现与UI界面集成 YOLO实战营深度学习 YOLO ui 人工智能目标检测计算机视觉
1.引言随着人工智能和深度学习技术的发展，手写数字和符号识别已经成为计算机视觉领域的重要研究方向。手写识别在很多实际应用中扮演着关键角色，例如邮政编码识别、表单自动处理和智能教育系统等。传统的手写识别方法通常依赖于复杂的特征工程，而深度学习则能够自动从数据中学习到特征，极大地提高了识别精度和速度。本文将介绍如何构建一个基于YOLO系列模型（YOLOv5、YOLOv6、YOLOv7、YOLOv8、Y
从零开始：搭建你的人工智能开发环境人工智能教程人工智能 YOLO 机器学习 transformer 线性回归动态规划排序算法
前言在人工智能和机器学习的旅程中，一个稳定且高效的开发环境是成功的关键第一步。无论是初学者还是经验丰富的开发者，一个配置良好的开发环境都能大大提高工作效率，减少遇到的问题。本文将从零开始，逐步指导你如何搭建一个完整的人工智能开发环境，包括操作系统选择、Python安装、常用库的配置以及开发工具的选择。一、选择合适的操作系统（一）主流操作系统介绍在搭建人工智能开发环境时，首先需要选择一个合适的操作系
AI作画：AI人工智能激发艺术创作灵感 AGI大模型与大数据研究院 AI作画人工智能 ai
AI作画：AI人工智能激发艺术创作灵感关键词：AI作画、生成艺术、深度学习、神经网络、艺术创作、人工智能、创意工具摘要：本文深入探讨AI作画技术如何激发艺术创作灵感。我们将从基础概念出发，解释AI如何"学习"艺术风格并生成新作品，分析核心技术原理，提供实际应用案例，并展望这一领域的未来发展趋势。通过通俗易懂的讲解和实际代码示例，帮助读者理解这项融合科技与艺术的创新技术。背景介绍目的和范围本文旨在向
基于机器学习的加密货币资金费率预测与套利策略云梦量化科技 python
一、资金费率机制解析永续合约的资金费率是加密货币衍生品市场独有的机制，旨在使永续合约价格锚定现货价格。资金费率每8小时结算一次，结算时多空双方互相支付资金费用：费率为正时，多头支付给空头；费率为负时，空头支付给多头。此机制既促使永续合约价格回归现货价格，也反映市场多空情绪。某安永续合约资金费率计算公式通常为：资金费率 F = 平均溢价指数 P + Clamp(综合利率 I − 溢价指数 P, +0
Jetson平台编译Tengine space01 AIoT Jetson 人工智能深度学习计算机视觉
1.Tengine简介Tengine于2017年在GitHub（https://github.com/OAID/Tengine）开源，是OPENAILAB（开放智能）推出的自主知识产权的边缘AI计算框架，致力于解决AIoT产业链碎片化问题，加速AI产业化落地。Tengine兼容多种操作系统和深度学习算法框架，简化和加速面向场景的AI算法在嵌入式边缘设备上快速迁移，以及实际应用部署落地，可以十倍提升
机器人-组成结构-感知 - 决策 - 执行具身智能-查布嘎具身智能机器人人工智能
目录一、感知系统内部传感器：外部传感器：二、智能决策系统机器学习家族1.1机器学习2.1深度学习2.2深度学习模型(主要属于监督/强化学习范畴，但结构通用)：3.1监督学习3.2监督学习模型4.1半监督学习4.2无/半监督学习模型：5.1无监督学习5.2生成模型(可属于监督/无监督)：6.1强化学习7.1其他学习三、控制系统（运控）①对应小脑和脊柱一、感知系统①对应人体的五官。由具有不同功能的各种
深度学习篇---矩阵 Atticus-Orion 嵌入式知识篇上位机知识篇嵌入式硬件篇深度学习矩阵人工智能
在机械臂解算、深度学习网络等硬件和软件领域中，矩阵运算作为核心数学工具，承担着数据表示、变换、映射和优化的关键作用。以下从具体领域出发，详细总结涉及的矩阵运算及对应的核心知识：一、机械臂解算领域机械臂解算（运动学、动力学分析）的核心是描述“关节空间”与“操作空间”的映射关系，矩阵运算用于精准刻画坐标系转换、运动传递和力/力矩分析。1.运动学解算（正/逆运动学）核心目标：通过矩阵描述关节角度与末端执
机器学习入门（五）：线性回归—从模型函数到目标函数米饭超人
从数据反推公式假设我们获得了这样一张表格，上面列举了美国纽约若干程序员职位的年薪：enterimagedescriptionhere大家可以看到，表格中列举了职位、经验、技能、国家和城市几项特征。除了经验一项，其他都是一样的。不同的经验（工作年限），薪水不同。而且看起来，工作年头越多，工资也就越高。那么我们把Experience与Salary抽取出来，用x和y来分别指代它们。enterimaged
Python深度学习实践：LSTM与GRU在序列数据预测中的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：LSTM与GRU在序列数据预测中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来序列数据预测是机器学习领域的一个重要研究方向，涉及时间序列分析、自然语言处理、语音识别等多个领域。序列数据具有时间依赖性，即序列中每个元素都受到前面元素的影响。传统的机器学习算法难以捕捉这种时间依赖性，而深度学习
一个例子带你入门机器学习
目录1.为建模选择数据2.选择预测目标3.选择“特征”4.构建您的模型（这篇文章将使用经典墨尔本房价数据集作为例子，引导机器学习的流程，数据集为melb_data.csv，请在csdn的下载区自行下载，运行代码时需要将数据集下载在同个目录下）1.为建模选择数据数据集有太多的变量，多到难以理解，甚至无法很好地打印出来。如何将这海量的数据削减为能够理解的内容？我们将首先凭借直觉选择几个变量。后续将介绍
初探机器学习与力学研究的交叉领域 faderbic 机器学习人工智能深度学习
目录关于如何踏入机器学习领域机器学习与力学研究的交叉方向1.使用机器学习加速有限元求解2.结合有限元计算和机器学习预测复杂材料结构与力学性能的关系3.结构健康检测4.疲劳寿命预测总结关于如何踏入机器学习领域因为我本科的专业是力学，所以当我开始关注机器学习领域时，首先考虑的是机器学习和力学的交叉领域。对于很多对人工智能感兴趣的朋友，想加入人工智能的潮流却不知道从何学起，我提供一个思路，我认为将自己学
[NIPST AI]对抗性机器学习攻击和缓解的分类和术语 Anooyman 人工智能网络安全人工智能大语言模型网络安全安全
原文link：https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-2e2025.pdfIntroduction人工智能（AI）系统在过去几年中持续全球扩展。这些系统正在被众多国家开发并广泛部署于各自的经济体系中，人们在生活的许多领域都获得了更多使用AI系统的机会。本报告区分了两大类AI系统：预测型AI（PredictiveAI，PredAI）和生成型A
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现打架检测（C#代码，UI界面版）格林威工业相机机器视觉数码相机 YOLO 深度学习计算机视觉人工智能
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现打架检测（C#代码，UI界面版）工业相机使用YoloV8模型实现打架检测工业相机通过YoloV8模型实现打架检测的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实现
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人脸识别检测（C#代码，UI界面版）格林威机器视觉工业相机数码相机 YOLO 深度学习人工智能视觉检测 c#
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人脸识别检测（C#代码，UI界面版）工业相机使用YoloV8模型实现人脸的检测工业相机通过YoloV8模型实现人脸识别检测的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人物识别（C#代码，UI界面版）格林威工业相机机器视觉数码相机 YOLO c#人工智能计算机视觉开发语言
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人物识别（C#代码，UI界面版）工业相机使用YoloV8模型实现人物识别工业相机实现YoloV8模型实现人物识别的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实现
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现动物分类（C#源码，UI界面版）格林威机器视觉工业相机数码相机 YOLO 深度学习计算机视觉人工智能视觉检测 c#
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现动物分类（C#源码，UI界面版））工业相机使用YoloV8模型实现动物分类工业相机实现YoloV8模型实现动物分类的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实
通俗易懂：什么是决策树？淦暴尼算法 python 决策树算法机器学习
1.引言：决策树就像“选择题”你是否曾经在生活中做过“选择题”？比如：今天要不要带伞？晚饭吃什么？该不该买那件心仪已久的商品？其实，我们的大脑经常会像“决策树”一样，通过一连串问题和判断，逐步缩小选择范围，最终做出决定。**决策树（DecisionTree）**就是这样一种模拟人类决策过程的机器学习模型。它通过“提问-分支-决策”的方式，把复杂问题拆解成一系列简单的判断，广泛应用于分类（如判断邮件
java毕业设计-基于Javaweb的家常小菜烹饪学习管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿刘 vue spring boot 毕业设计 java 课程设计学习
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费开题报告、任务书、全bao定制+
java毕业设计源码案例-基于ssm+协同过滤的个性化小说推荐系统设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 项目帮 springboot java 计算机毕设 java 课程设计开发语言
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
AI 大模型重塑软件开发流程万花丛中一抹绿人工智能
一、AI大模型的定义与发展历史AI大模型是基于海量数据训练的深度学习模型，具备强大的自然语言理解、逻辑推理和知识生成能力。在软件开发领域，以GPT-4、CodeLlama、GitHubCopilotX为代表的大模型，能理解代码语法、语义及业务逻辑，实现代码生成、漏洞检测等复杂任务。其发展可追溯至2017年，谷歌提出Transformer架构，为大模型奠定了核心基础。2018年，GPT-1问世，参数
机器学习中的数据预处理：从入门到实践耐思nice～机器学习由浅入深-吴恩达机器学习人工智能
在当今的智能时代，机器学习已经渗透到我们生活的方方面面。比如我们常用的推荐系统，它能根据我们的浏览记录精准推送喜欢的商品或视频，这背后就离不开机器学习的支撑。而一个优秀的机器学习模型，离不开高质量的数据，数据预处理正是保证数据质量的关键环节，它就像烹饪前的食材处理，直接影响着最终“菜品”的口感，也就是模型的性能。今天，我们就来全面学习机器学习中数据预处理的关键步骤。一、数据预处理的重要性数据预处理
计算机专业大数据毕业设计-基于 Spark 的音乐数据分析项目(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿八哥数据可视化计算机毕设 spark 大数据课程设计 spark
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
Protein FID：AI蛋白质结构生成模型评估新指标
一、引言：蛋白质生成模型面临的评估挑战近年来，AI驱动的蛋白质结构生成模型取得了令人瞩目的进展，但如何有效评估这些模型的质量却一直是一个悬而未决的问题。虽然实验验证仍然是金标准，但计算机模拟评估对于快速开发和比较机器学习模型至关重要。然而，尽管最先进的模型在当前评估指标上表现卓越，但它们在实际设计应用中的成功率仍然相对有限。例如，有研究报告显示生成结构的实验成功率仅为3%，而计算机模拟评分却远高于
在 Conda 中删除环境及所有安装的库 Studying 开龙wu conda
注意事项1.删除环境前确保你没有在该环境中运行任何程序。2.删除操作是不可逆的，所有该环境中的包和配置都会被永久删除。3.如果你想保留环境的配置信息，可以在删除前使用condaenvexport>environment.yml导出环境配置。关于requirements.txt和environment.yaml文件使用介绍详情可参考以往文章，争对机器学习和深度学习里Python项目开发管理项目依赖的
OpenCV学习（二）-二维、三维识别香蕉可乐荷包蛋 #OpenCV opencv 学习人工智能
OpenCV是一个功能强大的计算机视觉库，可以用于识别和处理二维图像和三维图像。以下是关于二维图像和三维图像识别的基础知识和示例代码。1.二维图像识别二维图像识别通常包括图像分类、对象检测、特征提取等任务。以下是一些常见的操作：1.1图像分类使用预训练模型对图像进行分类，例如使用深度学习模型（如ResNet、MobileNet等）。importcv2#加载预训练的深度学习模型net=cv2.dnn
【人工智能之深度学习】6. 卷积核工作原理：从边缘检测到特征抽象的逐层演进（附可视化工具与行业实战代码） AI_DL_CODE 人工智能深度学习卷积核特征提取卷积神经网络边缘检测特征可视化
摘要：卷积核是卷积神经网络（CNN）的核心组件，其通过局部感受野与参数共享机制实现高效特征提取。本文从数学本质出发，揭示卷积操作的空域-频域对偶性：空域卷积等价于频域乘积（F{f∗g}=F{f}⋅F{g}F\{f*g\}=F\{f\}⋅F\{g\}F{f∗g}=F{f}⋅F{g}），解释边缘检测核（Sobel、Laplacian）的频域响应特性。通过特征可视化实验表明，CNN特征呈现逐层抽象规律：
颠覆未来：创新代码引领人工智能与量子计算深度融合金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 人工智能量子计算
摘要在信息时代飞速演进的背景下，人工智能与量子计算正以前所未有的速度互相融合，推动着科技边界的不断拓展。本文回顾了经典算法的智慧，展示了前沿深度学习模型的构建，并通过量子电路设计探讨了创新代码的可能性，为探索未来科技变革提供了全新视角。1.引言当前，科技创新正处于高速迭代的关键阶段，传统计算方法与新型技术的交汇处正成为研究热点。人工智能的发展已渗透到各行各业，而量子计算的崛起则为解决复杂计算问题提
使用UV管理PyTorch项目
PyTorch是深度学习研究和开发的流行选择。可以使用uv管理PyTorch项目，包括不同Python版本依赖、管理环境、甚至加速器选择等。安装Pytorch从打包角度来看，PyTorch有几个不常见的特点：许多PyTorchwheel托管在专门的索引上，而非Python包索引（PyPI）。因此，安装PyTorch通常需要配置项目使用PyTorch专属索引。PyTorch为每种加速器生成不同的构建
AI新纪元：2025年深度学习技术突破与行业应用全景像素笔记杂谈人工智能深度学习 ai 自动驾驶工业数字化转型未来趋势技术创新
2025年，人工智能技术迎来爆发式增长，大模型、生成式AI和多模态技术持续突破，人形机器人量产元年正式开启，自动驾驶商业化进程加速，工业数字化转型全面铺开。这些进展不仅重塑了技术边界，更在多个行业创造了实际价值，推动AI从实验室走向产业化。本文将深入剖析2025年深度学习与AI领域的核心技术突破、行业应用案例及未来发展趋势，为技术从业者提供全面视角。一、深度学习核心技术突破：大模型、生成式AI与多
模型移植实战：从PyTorch到ONNX完整指南慕婉0307 神经网络 pytorch 人工智能 python
一、认识ONNXONNX（OpenNeuralNetworkExchange）是一种开放的模型表示格式，由微软和Facebook（现Meta）在2017年共同推出，旨在解决深度学习模型在不同框架之间的互操作性问题。ONNX的主要优势包括：跨框架兼容性：支持主流深度学习框架间的模型转换，包括PyTorch、TensorFlow、MXNet、CNTK等例如，可以将PyTorch训练的ResNet模型导
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio

Image as Set of Points

摘要

1.介绍

2.相关工作

3.方法

3.1 上下文聚类算法的流程

3.2 上下文聚类操作

3.3 结构初始化

3.4 讨论

4.实验

4.1 ImageNet-1K上的图像分类

4.2 可视化聚类

4.3 三维点云分类ScanObjectNN

4.4 MS-COCO上的对象检测和实例分割

4.5 ADE20K上的语义分割

5.结论

References

你可能感兴趣的:(深度学习,机器学习,计算机视觉)