hitrjj

【AI视野·今日CV 计算机视觉论文速览第234期】Fri, 24 Sep 2021

AI视野·今日CS.CV 计算机视觉论文速览
Fri, 24 Sep 2021
Totally 41 papers
上期速览✈更多精彩请移步主页

Daily Computer Vision Papers

MARMOT: A Deep Learning Framework for Constructing Multimodal Representations for Vision-and-Language Tasks
Authors Patrick Y. Wu, Walter R. Mebane Jr
社交媒体上的政治活动为了解政治行为提供了一个数据丰富的窗口，但海量数据意味着几乎所有社交媒体的内容分析都需要数据标记步骤。然而，大多数自动化机器分类方法忽略了发布内容的多模态，专注于文本或图像。最先进的视觉和语言模型无法用于大多数政治科学研究，它们要求所有观察都具有图像和文本，并且需要计算成本高昂的预训练。本文提出了一种新的视觉和语言框架，称为使用模态翻译 MARMOT 的多模态表示。 MARMOT 提出了两个方法论贡献，它可以构建缺失图像或文本的观察表示，并用模态转换代替计算成本高的预训练。在 2016 年美国大选期间报告选举事件的推文的多标签分类中，MARMOT 在 20 个类别中的 19 个类别中的表现优于纯文本分类器。

End-to-End AI-based MRI Reconstruction and Lesion Detection Pipeline for Evaluation of Deep Learning Image Reconstruction
Authors Ruiyang Zhao, Yuxin Zhang, Burhaneddin Yaman, Matthew P. Lungren, Michael S. Hansen
深度学习技术已成为高度加速 MRI 的一种有前途的方法。然而，最近的重建挑战显示了当前深度学习方法的几个缺点，包括即使使用在全局质量指标方面表现良好的模型也会丢失精细的图像细节。在这项研究中，我们提出了一种用于图像重建和病理检测的端到端深度学习框架，该框架能够对深度学习重建质量进行临床评估。该解决方案针对在膝关节 MRI 研究中检测半月板撕裂的用例进行了演示，最终发现使用常见重建方法丢失了精细图像细节，表现为检测半月板撕裂等重要病理的能力降低。

How much "human-like" visual experience do current self-supervised learning algorithms need to achieve human-level object recognition?
Authors A. Emin Orhan
本文解决了一个基本问题，我们当前的自监督视觉表示学习算法相对于人类有多好更具体地说，这些算法需要多少人类喜欢的自然视觉体验才能在复杂、逼真的视觉对象识别中达到人类水平的性能ImageNet 等任务使用缩放实验，在这里我们估计答案大约是一百万年的自然视觉体验，换句话说，比人类的一生长几个数量级。然而，这个估计对一些潜在的假设非常敏感，强调需要进行仔细控制的人体实验。

LGD: Label-guided Self-distillation for Object Detection
Authors Peizhen Zhang, Zijian Kang, Tong Yang, Xiangyu Zhang, Nanning Zheng, Jian Sun
在本文中，我们提出了第一个用于一般物体检测的自蒸馏框架，称为 LGD 标签引导自蒸馏。以前的研究依赖于强大的预训练教师为蒸馏提供指导性知识。但是，这在现实世界场景中可能不可用。相反，我们通过对象之间的内部和内部关系建模来生成有指导意义的知识，只需要学生表示和常规标签。详细地说，我们的框架涉及稀疏标签外观编码、对象间关系自适应和对象内知识映射以获得指导性知识。 LGD 中的模块使用学生检测器进行端到端的训练，并在推理中被丢弃。根据经验，LGD 在各种检测器、数据集和广泛的任务（如实例分割）上获得了不错的结果。例如，在 MS COCO 数据集中，LGD 在 2x 单尺度训练下使用 ResNet 50 改进了 RetinaNet，从 36.2 到 39.0 mAP 2.8。对于更强大的检测器，如 FCOS 和 ResNeXt 101 DCN v2 在 2x 多尺度训练 46.1 下，LGD 达到 47.9 1.8。

Self-supervised Learning for Semi-supervised Temporal Language Grounding
Authors Fan Luo, Shaoxiang Chen, Jingjing Chen, Zuxuan Wu, Yu Gang Jiang
给定文本描述，时间语言基础 TLG 旨在定位未修剪视频中包含指定语义的片段的时间边界。 TLG 本质上是一项具有挑战性的任务，因为它需要对视频内容和文本句子有全面的理解。以前的工作要么在需要大量手动注释的完全监督的设置中解决此任务，要么在无法获得令人满意的性能的弱监督设置中处理此任务。为了在有限的注释下获得良好的性能，我们以半监督的方式处理这个任务，并提出了一个统一的半监督时间语言接地 STLG 框架。 STLG 由两部分组成 1 伪标签生成模块，根据来自教师模型的预测为未标记数据生成自适应即时伪标签 2 具有两个顺序扰动（即时间滞后和时间缩放）的自监督特征学习模块，用于改进通过模态间和模态内对比学习的视频表示。

Semantic Segmentation-assisted Scene Completion for LiDAR Point Clouds
Authors Xuemeng Yang, Hao Zou, Xin Kong, Tianxin Huang, Yong Liu, Wanlong Li, Feng Wen, Hongbo Zhang
户外场景补全是 3D 场景理解中的一个具有挑战性的问题，在智能机器人和自动驾驶中扮演着重要的角色。由于 LiDAR 采集的稀疏性，3D 场景补全和语义分割要复杂得多。由于语义特征可以为完成任务提供约束和语义先验，因此它们之间的关系值得探索。因此，我们提出了一个端到端的语义分割辅助场景补全网络，包括一个 2D 补全分支和一个 3D 语义分割分支。具体来说，网络以原始点云为输入，将来自分割分支的特征分层合并到完成分支以提供语义信息。通过采用 BEV 表示和 3D 稀疏卷积，我们可以在保持有效表达的同时受益于较低的操作数。此外，分割分支的解码器用作辅助，可以在推理阶段丢弃以节省计算消耗。大量实验表明，我们的方法在 SemanticKITTI 数据集上以低延迟实现了具有竞争力的性能。

DeepRare: Generic Unsupervised Visual Attention Models
Authors Phutphalla Kong, Matei Mancas, Bernard Gosselin, Kimtho Po
人类视觉系统在工程领域建模，提供特征工程方法，将对比惊人的异常数据检测到图像中。这些数据对人类来说很有趣，并导致了许多应用。深度学习 DNN 极大地提高了主要基准数据集的算法效率。然而，基于 DNN 的模型是反直觉的，令人惊讶的或不寻常的数据根据定义很难学习，因为它的出现概率很低。实际上，基于 DNN 的模型主要学习自上而下的特征，例如人脸、文本、人物或动物等通常会引起人们注意的特征，但在提取图像中令人惊讶或不寻常的数据方面效率低下。在本文中，我们提出了一种名为 DeepRare2021 DR21 的新视觉注意模型，它利用了 DNN 特征提取的强大功能和特征工程算法的通用性。该算法是基于通用框架的先前版本 DeepRare2019 DR19 的演变。 DR21 1 不需要任何训练并使用默认的 ImageNet 训练，2 即使在 CPU 上也很快，3 在四个非常不同的眼动追踪数据集上进行了测试，表明 DR21 是通用的，并且始终在所有数据集的顶级模型中，并且指标，而没有其他模型表现出这样的规律性和通用性。最后，DR21 4 使用多种网络架构（例如 VGG16 V16、VGG19 V19 和 MobileNetV2 MN2 和 5）进行了测试，尽管使用了基于 DNN 的特征提取器，但它提供了关于图像的哪些部分在不同级别上最令人惊讶的解释和透明度。

Layered Neural Atlases for Consistent Video Editing
Authors Yoni Kasten, Dolev Ofri, Oliver Wang, Tali Dekel
我们提出了一种将输入视频分解或展开为一组分层 2D 图集的方法，每个图集都提供了视频上对象或背景外观的统一表示。对于视频中的每个像素，我们的方法会估计每个图集中其对应的 2D 坐标，从而为我们提供一致的视频参数化以及相关的 alpha 不透明度值。重要的是，我们将我们的地图集设计为可解释和语义化的，这有助于在地图集域中进行简单直观的编辑，所需的手动工作最少。应用于单个 2D 图集或输入视频帧的编辑会自动且一致地映射回原始视频帧，同时保留遮挡、变形和其他复杂场景效果，例如阴影和反射。我们的方法采用基于坐标的多层感知器 MLP 表示，用于映射、图集和 alpha，它们在每个视频的基础上联合优化，使用视频重建和正则化损失的组合。通过纯粹在 2D 中操作，我们的方法不需要任何关于场景几何或相机姿势的先验 3D 知识，并且可以处理复杂的动态现实世界视频。

Hierarchical Memory Matching Network for Video Object Segmentation
Authors Hongje Seong, Seoung Wug Oh, Joon Young Lee, Seongwon Lee, Suhyeon Lee, Euntai Kim
我们提出了用于半监督视频对象分割的分层内存匹配网络 HMMN。基于最近的基于内存的方法 33，我们提出了两个先进的内存读取模块，使我们能够在利用时间平滑性的同时以多个尺度执行内存读取。我们首先提出了一个内核引导的内存匹配模块，它取代了以前基于内存的方法中普遍采用的非本地密集内存读取。该模块在内存读取中强加了时间平滑性约束，从而实现了准确的内存检索。更重要的是，我们引入了一种分层内存匹配方案，并提出了一个前 k 个引导内存匹配模块，其中细粒度的内存读取由粗粒度的内存读取引导。通过该模块，我们可以高效地在多个尺度上执行内存读取，并利用高级语义和低级细粒度内存功能来预测详细的对象掩码。我们的网络在 DAVIS 2016 2017 90.8 和 84.7 和 YouTube VOS 2018 2019 82.6 和 82.5 的验证集以及 DAVIS 2017 78.6 的测试开发集上实现了最先进的性能。

A Skeleton-Driven Neural Occupancy Representation for Articulated Hands
Authors Korrawe Karunratanakul, Adrian Spurr, Zicong Fan, Otmar Hilliges, Siyu Tang
我们提出了 Hand ArticuLated Occupancy HALO，这是一种新型的铰接手表示，它结合了 3D 关键点和神经隐式表面的优点，可用于端到端的可训练架构。与现有的统计参数手模型不同，例如MANO ，HALO 直接利用 3D 关节骨架作为输入，并产生表示姿势手表面的神经占用体积。 HALO 的主要优点是 1 它由 3D 关键点驱动，在准确性方面具有优势，并且比潜在手部模型参数更容易学习神经网络 2 它提供了姿势手的可微体积占用表示 3 它可以端到端地训练，允许在手表面上制定有利于 3D 关键点学习的损失。我们展示了 HALO 对抓握 3D 对象的手的有条件生成任务的适用性。

Scene Graph Generation for Better Image Captioning?
Authors Maximilian Mozes, Martin Schmitt, Vladimir Golkov, Hinrich Sch tze, Daniel Cremers
我们通过提出一个利用检测到的对象和自动生成的视觉关系来描述自然语言图像的模型，研究将视觉关系纳入监督图像标题生成任务。为此，我们首先通过识别单个对象以及它们之间的视觉关系从原始图像像素生成场景图。这个场景图然后作为我们图到文本模型的输入，生成最终的标题。与之前的方法相比，我们的模型因此明确地对图像中的对象和视觉关系的检测进行建模。在我们的实验中，我们从 Visual Genome 和 MS COCO 的交集构建了一个新数据集，其中包含具有相应的金色场景图和人工编写的标题的图像。

Cross Attention-guided Dense Network for Images Fusion
Authors Zhengwen Shen, Jun Wang, Zaiyu Pan, Yulian Li, Jiangyu Wang
近年来，基于深度学习的计算机视觉中的各种应用取得了实质性进展，深度学习已被广泛用于图像融合并显示出足够的性能。然而，由于对不同源图像的空间对应建模能力有限，现有的无监督图像融合模型如何提取合适的特征并实现自适应均衡融合仍然是一个很大的挑战。在本文中，我们提出了一种新颖的交叉注意力引导图像融合网络，它是用于多模态图像融合、多曝光图像融合和多焦点图像融合的统一无监督框架。与现有的自注意力模块不同，我们的交叉注意力模块专注于对不同源图像之间的互相关进行建模。使用所提出的交叉注意模块作为核心块，构建了一个密集连接的交叉注意引导网络来动态学习空间对应关系，从而更好地对齐不同输入图像的重要细节。同时，还设计了一个辅助分支来对远程信息进行建模，并附加一个合并网络来最终重建融合图像。

Recent Advances of Continual Learning in Computer Vision: An Overview
Authors Haoxuan Qu, Hossein Rahmani, Li Xu, Bryan Williams, Jun Liu
与一次性提供所有训练数据的批量学习相反，持续学习代表了一系列方法，这些方法积累知识并使用按顺序可用的数据连续学习。类似于人类学习过程，具有学习、融合和积累不同时间步长新知识的能力，持续学习被认为具有很高的现实意义。因此，已经在各种人工智能任务中研究了持续学习。在本文中，我们全面回顾了计算机视觉中持续学习的最新进展。特别是，作品按其代表性技术分组，包括正则化、知识蒸馏、记忆、生成重放、参数隔离以及上述技术的组合。对于这些技术的每一类，都介绍了其在计算机视觉中的特点和应用。

PRANet: Point Cloud Registration with an Artificial Agent
Authors Lisa Tse, Abdoul Aziz Amadou, Axen Georget, Ahmet Tuysuzoglu
点云配准在众多计算机视觉任务中起着至关重要的作用，例如姿态估计和 3D 定位。最近，大量的深度学习方法被制定出来，旨在解决这个问题。这些方法中的大多数找到点或特征的对应关系，从中计算变换。我们给出了不同的观点，并将注册问题构建为马尔可夫决策过程。问题不是直接搜索变换，而是找到与该变换等效的一系列平移和旋转动作。为此，我们提出了一种使用深度监督学习端到端训练的人工代理。与传统的强化学习技术相比，观察结果是 i.i.d 采样的。因此不需要经验回放缓冲区，从而使训练过程更加简化。

Towards Generalized and Incremental Few-Shot Object Detection
Authors Yiting Li, Haiyue Zhu, Jun Ma, Chek Sing Teo, Cheng Xiang, Prahlad Vadakkepat, Tong Heng Lee
非常希望现实世界的对象检测配备学习可扩展性，可以逐步扩大其检测类别。此外，这种仅从少量带注释的训练样本中学习进一步增加了目标检测器的灵活性，这在自动驾驶、机器人技术等许多应用中备受期待。然而，这种具有很少镜头训练样本的顺序学习场景通常会导致灾难性的遗忘和戏剧性的过度拟合。在本文中，为了解决上述增量小镜头学习问题，提出了一种新颖的增量小镜头目标检测 iFSOD 方法，以实现从小镜头样本中进行有效的连续学习。具体而言，提出了一种双分支框架 DBF 来解耦基础类和新的少镜头类的特征表示，从而同时促进旧知识保留和新类适应。此外，执行渐进式模型更新规则以在适应顺序新类时有效地保留旧类的长期记忆。此外，提出了一个任务间类分离损失来扩展新类的决策区域，以更好地区分特征。

Multi-resolution deep learning pipeline for dense large scale point clouds
Authors Thomas Richard, Florent Dupont, Guillaume Lavoue
3D 传感器的最新发展允许获取大规模场景的极其密集的 3D 点云。处理如此大的点云的主要挑战仍然是数据的大小，这会导致昂贵的计算和内存成本。在这种情况下，全分辨率云尤其难以处理，它带来的细节很少被利用。尽管细粒度的细节对于检测小物体很重要，但它们可以改变大型结构部件的局部几何形状并误导深度学习网络。在本文中，我们引入了一种新的通用深度学习管道，以利用大规模点云的全部精度，但仅适用于需要细节的对象。我们方法的核心思想是将过程拆分为多个子网络，这些子网络以不同的分辨率运行，并且每个子网络都具有要检索的特定类。

Deep Learning Strategies for Industrial Surface Defect Detection Systems
Authors Dominik Martin, Simon Heinzel, Johannes Kunze von Bischhoffshausen, Niklas K hl
深度学习方法已被证明在图像处理的各个领域都优于传统的计算机视觉方法。然而，由于训练数据量不足、数据生成过程昂贵、尺寸小、表面缺陷很少发生，深度学习在工业表面缺陷检测系统中的应用具有挑战性。从文献和聚合物产品制造用例中，我们确定了反映上述挑战的设计要求。针对这些问题，我们对深度学习研究提供的设计原则和功能进行了概念化。最后，我们以基于工业表面缺陷检测用例的可操作指南和策略的形式实例化和评估获得的设计知识。

End-to-End Dense Video Grounding via Parallel Regression
Authors Fengyuan Shi, Limin Wang, Weilin Huang
视频基础旨在在给定语言查询的情况下定位未修剪视频中相应的视频时刻。现有方法通常以间接方式解决此任务，将其转换为提议和匹配或融合和检测问题。解决这些替代问题通常需要在训练过程中进行复杂的标签分配，并手工去除几乎重复的结果。同时，现有的工作通常专注于以单个句子作为输入的稀疏视频基础，由于其描述不明确，可能会导致定位不明确。在本文中，我们通过以段落作为输入同时定位多个时刻来解决密集视频接地的新问题。从视频基础作为语言条件回归的角度来看，我们通过重新利用类似于 Transformer 的架构 PRVG 来呈现端到端的并行解码范式。我们 PRVG 的关键设计是使用语言作为查询，并根据语言调制的视觉表示直接回归矩边界。由于其设计简单，我们的 PRVG 框架可以应用于不同的测试方案稀疏或密集的基础，并允许在没有任何后处理技术的情况下进行有效推理。此外，我们设计了一个强大的建议级别注意力损失来指导 PRVG 的训练，它对时刻持续时间是不变的，并有助于模型收敛。我们对 ActivityNet Captions 和 TACoS 的两个视频接地基准进行了实验，证明我们的 PRVG 可以显着优于以前的方法。

Pairwise Emotional Relationship Recognition in Drama Videos: Dataset and Benchmark
Authors Xun Gao, Yin Zhao, Jie Zhang, Longjun Cai
识别人的情绪状态是视频理解中一项基本但具有挑战性的任务。在本文中，我们提出了该领域的一项新任务，名为 Pairwise Emotional Relationship Recognition PERR。此任务旨在识别给定视频剪辑中两个互动角色之间的情感关系。它不同于传统的情感和社会关系识别任务。包括角色外观、行为、面部表情、对话、背景音乐以及字幕在内的各种信息对最终结果的贡献不同，这使得任务更具挑战性，但在开发更高级的多模态模型时更有意义。为了便于完成这项任务，我们基于戏剧和电影开发了一个名为交互 ERATO 的情感关系的新数据集。 ERATO 是一个用于 PERR 任务的大规模多模态数据集，它有 31,182 个视频剪辑，持续约 203 个视频小时。与现有数据集不同，ERATO 包含以交互为中心的视频，具有多镜头、不同的视频长度和多种形式，包括视觉、音频和文本。作为次要贡献，我们提出了一个由同步模态时间注意 SMTA 单元组成的基线模型，以融合 PERR 任务的多模态信息。与其他流行的注意力机制相比，我们提出的 SMTA 可以稳定地将性能提高约 1 。

Towards Fine-grained 3D Face Dense Registration: An Optimal Dividing and Diffusing Method
Authors Zhenfeng Fan, Silong Peng, Shihong Xia
3D 人脸之间的密集顶点到顶点对应是 3D 2D 人脸分析的一个基本且具有挑战性的问题。虽然稀疏地标具有解剖学上的真实对应，但大多数面部区域上的密集顶点对应是未知的。从这个角度来看，当前的文献通常会产生合理但多样的解决方案，这些解决方案偏离了最优到 3D 人脸密集配准问题。在本文中，我们通过维度退化问题重新审视密集配准，即直线的比例分割，并采用迭代划分和扩散方法来唯一地达到最终解决方案。然后，通过制定用于划分的局部配准问题和用于扩散的线性最小二乘问题，以及对固定特征的约束，将该方法扩展到 3D 表面。在此基础上，我们进一步提出了一种多分辨率算法来加速计算过程。所提出的方法与一种新的局部缩放度量相关联，我们将物理意义说明为 3D 面部形状的局部细胞的平滑重排。在公共数据集上的大量实验证明了所提出方法在各个方面的有效性。通常，所提出的方法导致用于细粒度 3D 人脸密集配准的连贯局部配准和优雅的网格例程，这显着有益于许多下游应用。它也可以应用于不限于人脸的其他格式数据的密集对应。

OH-Former: Omni-Relational High-Order Transformer for Person Re-Identification
Authors Xianing Chen, Jialang Xu, Jiale Xu, Shenghua Gao
Transformers 在许多视觉任务中都表现出更好的性能。然而，对于行人重新识别 ReID 的任务，vanilla Transformers 在高阶特征关系上留下了丰富的上下文，并且会劣化局部特征细节，由于行人的剧烈变化，这些细节是不够的。在这项工作中，我们提出了一个 Omni Relational High Order Transformer OH 模型来为 ReID 建模全向关系特征。首先，为了加强视觉表示的能力，我们不是根据每个空间位置的查询和孤立键对获得注意力矩阵，而是进一步为非局部机制的高阶统计信息建模。我们使用先验混合机制共享每个订单对应层中的注意力权重，以降低计算成本。然后，提出了基于卷积的局部关系感知模块来提取局部关系和二维位置信息。

A Novel Factor Graph-Based Optimization Technique for Stereo Correspondence Estimation
Authors Hanieh Shabanian, Madhusudhanan Balasubramanian
多个视图之间的密集差异对于基于场景与视图或相机之间的几何关系估计场景的 3D 架构至关重要。具有更大程度的异质纹理、多个视图之间不同的场景照明以及具有遮挡对象的场景会影响估计视差的准确性。用于视差估计的基于马尔可夫随机场 MRF 的方法使用观测之间和视差估计之间的空间依赖性来解决这些限制。然而，这些方法受到空间固定和较小的邻域系统或派系的限制。在这项工作中，我们提出了一种新的基于因子图的概率图模型用于视差估计，该模型允许基于局部场景特征确定更大的空间可变邻域结构。我们使用 Middlebury 基准立体数据集和 Middlebury 评估数据集 3.0 版评估了我们的方法，并将其性能与最近最先进的视差估计算法进行了比较。与最近的非学习和基于学习的视差估计算法相比，新的基于因子图的方法提供了更准确的视差估计。

Learning to Downsample for Segmentation of Ultra-High Resolution Images
Authors Chen Jin, Ryutaro Tanno, Thomy Mertzanidou, Eleftheria Panagiotaki, Daniel C. Alexander
使用深度学习对超高分辨率图像进行分割具有挑战性，因为它们的尺寸巨大，通常有数百万甚至数十亿像素。典型的解决方案是对图像进行大幅度的统一下采样以满足内存限制，通过在所有空间位置以相同的密度进行采样，隐含地假设所有像素同样重要。然而，这种假设是不正确的，并且会损害已在标准尺寸图像上证明强大的深度学习技术的性能。例如使用均匀下采样，参见图 1 中的绿色框区域，当树木和建筑物被过采样时，骑手和自行车没有足够的对应样本，这导致对低分辨率下采样图像的分割预测产生负面影响。在这项工作中，我们表明学习空间变化的下采样策略与分割相结合，在以有限的计算预算分割大图像方面具有优势。图 1 显示我们的方法调整了不同位置的采样密度，以便从小的重要区域收集更多的样本，而从其他区域收集的样本更少，这反过来又会导致更好的分割精度。

A two-step machine learning approach for crop disease detection: an application of GAN and UAV technology
Authors Aaditya Prasad 1 , Nikhil Mehta 1 , Matthew Horak 2 , Wan D. Bae 3 1 Tesla STEM High School, 2 Lockheed Martin Corporation, 3 Seattle University
自动化植物诊断是一项有望大幅提高农业成本效率的技术。然而，多种问题降低了无人机的有效性，包括分辨率和速度之间的反比关系以及缺乏足够的标记训练数据。本文提出了一种两步机器学习方法，该方法按顺序分析低保真和高保真图像，同时保持效率和准确性。两个数据生成器还用于最小化高保真数据集中的类不平衡，并生成代表无人机图像的低保真数据。应用程序和方法的分析是在高保真苹果树图像数据库上进行的，这些图像因类不平衡而损坏。该应用程序首先使用生成网络生成高保真数据，然后使用这些新数据与原始高保真数据一起生成低保真图像。机器学习标识符识别植物并将它们标记为可能患病或未患病。然后给机器学习分类器提供可能患病的植物图像，并返回这些植物的实际诊断结果。结果显示高保真系统的准确率为 96.3，我们的低保真系统的置信水平为 75.5。

Towards practical object detection for weed spraying in precision agriculture
Authors Adrian Salazar Gomez, Madeleine Darbyshire, Junfeng Gao, Elizabeth I Sklar, Simon Parsons
在过去的 4 到 5 年间，更小、更快的处理器和更便宜的数字存储机制的发展极大地增加了在广泛的实际环境中集成智能技术以解决广泛任务的机会。此类技术的一个令人兴奋的应用领域是精准农业，其中将机载机器视觉与数据驱动的驱动相集成的能力意味着农民可以在单个植物而非整个田地层面做出作物护理和收获的决策。这在经济和环境上都是有意义的。但是，此功能的关键驱动因素是快速且强大的机器视觉，通常由机器学习 ML 解决方案驱动并依赖于准确的建模。一个关键的挑战是，大部分基于机器学习的视觉研究只考虑评估对象检测准确性的指标，而没有评估实际因素。

Cross-Modal Coherence for Text-to-Image Retrieval
Authors Malihe Alikhani, Fangda Han, Hareesh Ravi, Mubbasir Kapadia, Vladimir Pavlovic, Matthew Stone
常见的图像文本联合理解技术假定图像和相关文本可以普遍地由单个隐式模型表征。然而，共同出现的图像和文本可以以不同的方式相关联，并且对其进行显式建模可以提高当前联合理解模型的性能。在本文中，我们为文本到图像检索任务训练了一个跨模态相干模型。我们的分析表明，使用图像文本连贯关系训练的模型可以比连贯性不可知模型更频繁地检索最初与目标文本配对的图像。我们还通过人工评估表明，所提出的相干感知模型检索到的图像在很大程度上优于相干不可知基线。

A Benchmark Comparison of Visual Place Recognition Techniques for Resource-Constrained Embedded Platforms
Authors Rose Power, Mubariz Zaffar, Bruno Ferrarini, Michael Milford, Klaus McDonald Maier, Shoaib Ehsan
视觉位置识别 VPR 在过去 15 到 20 年中一直是重要研究的主题。 VPR 是自主导航的一项基本任务，因为它可以在环境中实现自我定位。尽管机器人通常配备资源受限的硬件，但 VPR 技术的计算要求和影响却很少受到关注。在这项工作中，我们对公共数据集上的许多最先进的 VPR 技术进行了以硬件为中心的基准评估。除了商用台式机和笔记本电脑外，我们还考虑了流行的单板计算机，包括 ODroid、UP 和 Raspberry Pi 3。我们基于几个关键指标进行分析，包括位置匹配精度、图像编码时间、描述符匹配时间和内存需求。解决的关键问题包括 1 VPR 技术的性能准确性如何随处理器架构而变化 2 不同 VPR 技术和嵌入式平台的功耗如何变化 3 与当今的嵌入式平台存储相比，描述符大小的重要性如何 4

An Efficient and Scalable Collection of Fly-inspired Voting Units for Visual Place Recognition in Changing Environments
Authors Bruno Arcanjo, Bruno Ferrarini, Michael Milford, Klaus D. McDonald Maier, Shoaib Ehsan
目前正在利用基于深度学习的方法实现最先进的视觉位置识别性能。尽管最近在设计基于轻量级卷积神经网络的模型方面做出了努力，但对于大多数硬件受限的机器人应用来说，这些模型仍然过于昂贵。低开销 VPR 技术不仅可以使平台配备低端、廉价的硬件，还可以减少更强大系统上的计算，允许将这些资源分配给其他导航任务。在这项工作中，我们的目标是提供一种极其紧凑和高效的算法，同时实现对外观变化和小视角变化的最先进的鲁棒性。我们的第一个贡献是 DrosoNet，这是一个非常紧凑的模型，其灵感来自果蝇 Drosophyla melanogaster 的气味处理能力。我们的第二个也是主要的贡献是一种投票机制，与单个分类器相比，它利用多个小而高效的分类器来实现更健壮和一致的 VPR。我们使用 DrosoNet 作为投票机制的基线分类器，并在五个基准数据集上评估我们的模型，评估中度到极端的外观变化和小到中度的视点变化。

Learning Contrastive Representation for Semantic Correspondence
Authors Taihong Xiao, Sifei Liu, Shalini De Mello, Zhiding Yu, Jan Kautz, Ming Hsuan Yang
语义相关图像之间的密集对应已被广泛研究，但仍面临两个挑战：1 即使对于同一类别的对象，外观、尺度和姿势也存在较大变化，2 标记像素级密集对应是劳动密集型的，并且无法缩放。大多数现有方法专注于使用完全监督的 ImageNet 预训练网络设计各种匹配方法。另一方面，虽然提出了各种自监督方法来明确测量图像级别的相似性，但与像素级别的对应匹配仍在探索中。在这项工作中，我们提出了一种用于语义匹配的多级对比学习方法，该方法不依赖于任何 ImageNet 预训练模型。我们表明，图像级对比学习是鼓励卷积特征找到相似对象之间对应关系的关键组成部分，而通过在中间特征级别调整跨实例循环一致性可以进一步提高性能。在 PF PASCAL、PF WILLOW 和 SPair 71k 基准数据集上的实验结果表明，我们的方法与最先进的方法相比表现良好。

T6D-Direct: Transformers for Multi-Object 6D Pose Direct Regression
Authors Arash Amini, Arul Selvam Periyasamy, Sven Behnke
6D 姿态估计是预测给定输入图像中物体的平移和方向的任务，这是许多机器人和增强现实应用的关键先决条件。最近，配备多头自注意力机制的 Transformer 网络架构正在出现，以在许多计算机视觉任务中实现最先进的结果。 DETR 是一种基于 Transformer 的模型，将目标检测制定为一个集合预测问题，并在没有标准组件（如兴趣区域池化、非最大抑制和边界框建议）的情况下取得了令人印象深刻的结果。在这项工作中，我们提出了 T6D Direct，这是一种实时单级直接方法，具有基于 DETR 的基于转换器的架构，用于执行 6D 多对象姿态直接估计。我们评估了我们的方法在 YCB 视频数据集上的性能。

Leveraging distributed contact force measurements for slip detection: a physics-based approach enabled by a data-driven tactile sensor
Authors Pietro Griffa, Carmelo Sferrazza, Raffaello D Andrea
抓取物理特性未知的物体仍然是机器人技术中的一大挑战。大多数解决方案完全依靠视觉数据来规划最佳抓取策略。然而，为了匹配人类的能力并能够可靠地拾取和握持未知物体，在机器人系统中集成人工触觉至关重要。本文描述了一种基于新模型的滑动检测管道，它可以实时预测可能的抓握失败并发出抓握力的必要增加信号。因此，滑动检测器不依赖于手动收集的数据，而是利用物理学来概括不同的任务。为了评估该方法，将准确估计分布力的最先进的基于视觉的触觉传感器集成到由六自由度协作机器人和两指抓手组成的抓取装置中。结果表明，该系统可以在操纵不同形状、材料和重量的物体时可靠地预测滑移。

Improving Tuberculosis (TB) Prediction using Synthetically Generated Computed Tomography (CT) Images
Authors Ashia Lewis, Evanjelin Mahmoodi, Yuyue Zhou, Megan Coffee, Elena Sizikova
在放射图像上评估传染病过程是医学图像分析中一项重要且具有挑战性的任务。肺部感染通常可以通过计算机断层扫描 CT 扫描进行最佳成像和评估，这在资源匮乏的环境中通常不可用，并且危重患者难以获得。另一方面，X 射线是一种不同类型的成像程序，价格低廉，通常可在床边使用，而且使用范围更广，但提供更简单的二维图像。我们表明，通过学习从 X 射线合成 CT 图像的模型，我们可以提高自动疾病分类的准确性，并为临床医生提供对肺部疾病过程的不同看法。具体来说，我们研究了结核病，这是一种致命的细菌传染病，主要影响肺部，但也影响其他器官系统。

Revisit Geophysical Imaging in A New View of Physics-informed Generative Adversarial Learning
Authors Fangshu Yang, Jianwei Ma
地震全波形反演 FWI 是一种强大的地球物理成像技术，它通过迭代最小化模拟和观察到的地震图之间的不匹配来生成高分辨率的地下模型。不幸的是，具有最小二乘函数的传统 FWI 存在许多缺点，例如局部最小值问题和显式梯度的计算。对于受污染的测量或糟糕的起始模型，这尤其具有挑战性。最近依赖偏微分方程和神经网络的工作显示出二维 FWI 的良好性能。受生成对抗网络竞争学习的启发，我们提出了一种无监督学习范式，该范式将波动方程与判别网络相结合，以准确估计分布意义上的物理一致性模型。我们的框架不需要标记的训练数据，也不需要网络的预训练，可以灵活地以最少的用户交互实现多参数反演。所提出的方法忠实地恢复了优于经典算法的众所周知的合成模型。

The Hilti SLAM Challenge Dataset
Authors Michael Helmberger, Kristian Morin, Nitish Kumar, Danwei Wang, Yufeng Yue, Giovanni Cioffi, Davide Scaramuzza
准确和稳健的姿态估计是自主系统导航、映射和执行任务的基本能力。特别是，由于稀疏性、光照条件变化和动态对象，施工环境对同时定位和映射 SLAM 算法提出了具有挑战性的问题。当前 SLAM 的学术研究侧重于开发更准确和稳健的算法，例如通过融合不同的传感器模式。为了帮助这项研究，我们提出了一个新的数据集，即喜利得 SLAM 挑战数据集。用于收集此数据集的传感器平台包含许多经过严格校准的视觉、激光雷达和惯性传感器。所有数据都在时间上对齐，以支持精确的多传感器融合。每个数据集都包含准确的地面实况，以允许直接测试 SLAM 结果。提供了来自各种环境中十二个数据集的原始数据以及内在和外在传感器校准数据。

Predicting the Timing of Camera Movements From the Kinematics of Instruments in Robotic-Assisted Surgery Using Artificial Neural Networks
Authors Hanna Kossowsky, Ilana Nisky
机器人辅助手术对外科医生和患者都有好处，但是，外科医生经常需要调整内窥镜摄像头以获得良好的视角。同时控制相机和手术器械是不可能的，因此，这些相机调整反复中断手术。自主摄像头控制可以帮助克服这一挑战，但大多数现有系统都是被动的，例如，让摄像头跟随手术器械。我们提出了一种预测方法，用于使用人工神经网络预测何时会发生相机移动。我们使用了手术器械的运动学数据，这些数据是在猪模型的机器人辅助手术训练期间记录的。我们将数据分成多个段，并将每个段标记为紧接在相机移动之前的段，或不紧跟的段。由于大的类不平衡，我们训练了一组网络，每个网络都在训练数据的平衡子集上。我们发现仪器的运动学数据可用于预测摄像机何时会发生移动，并评估不同片段持续时间和集合大小的性能。我们还研究了可以提前多少时间预测即将发生的相机运动，并发现在它们发生之前 0.25、0.5 和 1 秒预测相机运动相对于即将发生的相机运动的预测实现了 98、94 和 84 的准确度。

Clustering performance analysis using new correlation based cluster validity indices
Authors Nathakhun Wiroonsri
有多种聚类有效性度量可用于评估聚类结果。使用这些措施的主要目标之一是寻找最佳的未知簇数。一些措施适用于具有不同密度、大小和形状的集群。然而，这些有效性度量所共有的弱点之一是它们有时只提供一个明确的最佳聚类数。这个数字实际上是未知的，并且用户可能希望根据不同的应用程序进行选择的潜在次优选项可能不止一个。我们基于一对数据点之间的实际距离与两个点所在集群的质心距离之间的相关性开发了两个新的集群有效性指数。我们提出的指数在不同数量的集群上不断产生几个峰值，克服了这个弱点之前说过。此外，引入的相关性还可用于评估所选聚类结果的质量。

Adversarial Transfer Attacks With Unknown Data and Class Overlap
Authors Luke E. Richards, Andr Nguyen, Ryan Capps, Steven Forsythe, Cynthia Matuszek, Edward Raff
将对抗性攻击从一个模型（代理）转移到另一个模型（受害者）的能力一直是机器学习 ML 社区关注的问题。成功规避看不见的模型的能力代表了实施攻击的难易程度。在这项工作中，我们注意到，正如所研究的那样，当前的传输攻击研究对攻击者具有不切实际的优势，攻击者具有与受害者完全相同的训练数据。我们提出了第一个转移对抗性攻击的研究，重点是在不完美的设置下攻击者和受害者可用的数据，而不询问受害者，其中使用的确切数据或每个模型学习的类存在一定程度的重叠。此威胁模型与医学、恶意软件和其他应用程序相关。在这种新的威胁模型下，攻击成功率与人们预期的数据或类别重叠无关，而是随数据集而变化。这使得攻击者和防御者难以相互推理，并有助于更广泛地研究模型稳健性和安全性。

Rational Polynomial Camera Model Warping for Deep Learning Based Satellite Multi-View Stereo Matching
Authors Jian Gao, Jin Liu, Shunping Ji
卫星多视图立体 MVS 图像特别适用于大规模地球表面重建。不同于近景和航拍相机常用的透视相机模型针孔模型，三次有理多项式相机RPC模型是推扫式线阵卫星相机的主流模型。然而，流行的基于学习的 MVS 方法中使用的单应性扭曲仅适用于针孔相机。为了将基于 SOTA 学习的 MVS 技术应用于大规模地球表面重建的卫星 MVS 任务，应考虑 RPC 翘曲。在这项工作中，我们首次提出了一个严格的 RPC 变形模块。有理多项式系数被记录为一个张量，RPC 翘曲被表述为一系列张量变换。基于RPC扭曲，我们提出了基于深度学习的卫星MVS SatMVS框架，用于大规模和宽深度范围的地球表面重建。我们还介绍了一个由 519 5120 乘 5120 张图像组成的大规模卫星图像数据集，我们称之为 TLC SatMVS 数据集。卫星图像是从三行相机 TLC 获取的，该 TLC 可同时捕获三视图图像，对现有的具有单扫描线图像的开源 WorldView 3 数据集形成了有价值的补充。实验表明，与针孔拟合方法和传统 MVS 方法相比，所提出的 RPC 变形模块和 SatMVS 框架可以实现更高的重建精度。

Unseen Object Amodal Instance Segmentation via Hierarchical Occlusion Modeling
Authors Seunghyeok Back, Joosoon Lee, Taewon Kim, Sangjun Noh, Raeyoung Kang, Seongho Bak, Kyoobin Lee
对于非结构化环境中的机器人系统，对看不见的对象进行实例感知分割是必不可少的。尽管以前的工作取得了令人鼓舞的结果，但它们仅限于分割看不见的物体的唯一可见区域。对于杂乱场景中的机器人操作，需要非模态感知来处理其他物体后面的遮挡物体。本文解决了 Unseen Object Amodal Instance Segmentation UOAIS，以检测 1 个可见掩码、2 个 amodal 掩码和 3 个看不见的对象实例上的遮挡。为此，我们提出了一种分层遮挡建模 HOM 方案，旨在通过将层次分配给特征融合和预测顺序来推理遮挡。我们在三个基准桌面、室内和垃圾箱环境中评估了我们的方法，并实现了最先进的 SOTA 性能。

The CAMELS Multifield Dataset: Learning the Universe's Fundamental Parameters with Artificial Intelligence
Authors Francisco Villaescusa Navarro, Shy Genel, Daniel Angles Alcazar, Leander Thiele, Romeel Dave, Desika Narayanan, Andrina Nicola, Yin Li, Pablo Villanueva Domingo, Benjamin Wandelt, David N. Spergel, Rachel S. Somerville, Jose Manuel Zorrilla Matilla, Faizan G. Mohammad, Sultan Hassan, Helen Shao, Digvijay Wadekar, Michael Eickenberg, Kaze W.K. Wong, Gabriella Contardo, Yongseok Jo, Emily Moser, Erwin T. Lau, Luis Fernando Machado Poletti Valle, Lucia A. Perez, Daisuke Nagai, Nicholas Battaglia, Mark Vogelsberger
我们通过机器学习模拟 CAMELS 多场数据集 CMD 展示了宇宙学和天体物理学，该数据集包含数十万张 2D 地图和 3D 网格，其中包含来自 2000 个不同模拟宇宙在多个宇宙时间的许多不同性质的宇宙气体、暗物质和恒星. 2D 地图和 3D 网格代表了跨越 1 亿光年的宇宙区域，并且是从 CAMELS 项目的数千个最先进的流体动力学和重力仅 N 体模拟中生成的。 CMD 旨在训练机器学习模型，是同类数据中最大的数据集，包含超过 70 TB 的数据。在本文中，我们详细描述了 CMD 并概述了它的一些应用。我们将注意力集中在一个这样的任务上，参数推理，将我们面临的问题表述为对社区的挑战。

Mixed-supervised segmentation: Confidence maximization helps knowledge distillation
Authors Bingyuan Liu, Christian Desrosiers, Ismail Ben Ayed, Jose Dolz
尽管在广泛的医学图像分割任务中取得了有希望的结果，但深度神经网络需要具有像素级注释的大型训练数据集。获取这些精选的数据集是一个繁琐的过程，这限制了在注释图像稀缺的场景中的应用。混合监督是减轻这一障碍的有吸引力的替代方案，其中只有一小部分数据包含完整的像素级注释，而其他图像的监督形式较弱。在这项工作中，我们提出了一种双分支架构，其中上层教师接受强注释，而底层学生由有限监督驱动并由上层指导。结合标记像素上的标准交叉熵损失，我们的新公式集成了两个重要的术语，即在较少监督的图像上定义的香农熵损失，这鼓励了底部分支中的自信学生预测和 ii Kullback Leibler KL 散度项，它转移将强监督分支的知识转移到较少监督分支，并引导熵学生置信项避免琐碎的解决方案。我们表明，熵和 KL 散度之间的协同作用可以显着提高性能。我们还讨论了香农熵最小化和标准伪掩码生成之间的有趣联系，并认为前者应该优于后者，以利用来自未标记像素的信息。两个公开可用数据集的定量和定性结果表明，我们的方法明显优于混合监督框架内的其他语义分割策略，以及最近的半监督方法。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

Interesting:

, (from )

pic from pexels.com

你可能感兴趣的:(计算机视觉,Papers,transformer,计算机视觉,多模态学习,目标检测,图像分割)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
OpenWebUI(12)源码学习-后端constants.py常量定义文件青苔猿猿 AI大模型 openwebui constants常量定义
目录文件名：`constants.py`功能概述：主要功能点详解1.**MESSAGES枚举类**2.**WEBHOOK_MESSAGES枚举类**3.**ERROR_MESSAGES枚举类**✅默认错误模板✅认证与用户相关错误✅资源冲突与重复错误✅验证失败类错误✅权限限制类错误✅文件上传与格式错误✅模型与API错误✅请求频率与安全限制✅数据库与配置错误4.**TASKS枚举类**✅总结实际应用场
RocketMQ 基础教程-应用篇-死信队列码炫课堂-码哥 rocketmq专题 rocketmq java
作者简介：大家好，我是smart哥，前中兴通讯、美团架构师，现某互联网公司CTO联系qq：184480602，加我进群，大家一起学习，一起进步，一起对抗互联网寒冬学习必须往深处挖，挖的越深，基础越扎实！阶段1、深入多线程阶段2、深入多线程设计模式阶段3、深入juc源码解析阶段4、深入jdk其余源码解析
【目标检测】机场内部目标检测数据集4106张YOLO+VOC格式
数据集格式：VOC格式+YOLO格式压缩包内含：3个文件夹，分别存储图片、xml、txt文件JPEGImages文件夹中jpg图片总计：4106Annotations文件夹中xml文件总计：4106labels文件夹中txt文件总计：4106标签种类数：7标签名称:["Ground_vehicles","Horizontal_sign","Runaway_limit","Taxiway","Ver
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
OKHttp3源码分析——学习笔记 Sincerity_ 源码相关 Okhttp 源码解析读书笔记 httpclient cache
文章目录1.HttpClient与HttpUrlConnection的区别2.OKHttp源码分析使用步骤:dispatcher任务调度器,（后面有详细说明）Request请求RealCallAsyncCall3.OKHttp架构分析1.异步请求线程池,Dispather2.连接池清理线程池-ConnectionPool3.缓存整理线程池DisLruCache4.Http2异步事务线程池,http
JavaScript 基础09：Web APIs——日期对象、DOM节点梦想当全栈 JavaScript javascript 前端开发语言
JavaScript基础09：WebAPIs——日期对象、DOM节点进一步学习DOM相关知识，实现可交互的网页特效能够插入、删除和替换元素节点。能够依据元素节点关系查找节点。一、日期对象掌握Date日期对象的使用，动态获取当前计算机的时间。ECMAScript中内置了获取系统时间的对象Date，使用Date时与之前学习的内置对象console和Math不同，它需要借助new关键字才能使用。1.实例
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）基于历史对话重新生成Query？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain RAG
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Q
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）其他Query优化相关策略？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？一
传奇修改map地图教程_传奇技能第三祭：NPC的增加、隐藏和脚本修改垃圾箱博物馆传奇修改map地图教程
技能献祭，Get新技能：传奇技能——NPC功能与实现跟航家学技能，用干货带你飞，现学现用，底部有配套学习资源本篇内容简介：通过对游戏内NPC的控制，可以让NPC出现在地图中的任意位置，还可以控制外观显示、自定义命名，新增与隐藏以及脚本功能的实现。一、NPC总控制文本所在路径：D:MirServerMir200EnvirEnvir目录下，找到NPC总控制文本：Merchant，游戏内的所有NPC都在
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？ ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 机器学习算法深度学习人工智能
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？在大语言模型（LLM）中，最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息，这是由LLM的核心架构（以Transformer为基础）决定的，具体可以从以下角度理解：1.核心机制：自注意力（Self-Attention）的作用现代LLM（如GPT系列、Qwen等）均基于Transformer架构，其核心是自注意力机制。在
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
AI Agent开发学习系列 - langchain之Chains的使用(7)：用四种处理文档的预制链轻松实现文档对话 alex100 AI Agent 学习人工智能 langchain prompt 语言模型 python
在LangChain中，四种文档处理预制链（stuff、refine、mapreduce、mapre-rank）是实现文档问答、摘要等任务的常用高阶工具。它们的核心作用是：将长文档切分为块，分步处理，再整合结果，极大提升大模型处理长文档的能力。stuff直接拼接所有文档内容到prompt，一次性交给大模型处理。适合文档较短、token不超限的场景。refine递进式摘要。先对第一块文档生成初步答案
.NET 一款基于BGInfo的红队内网渗透工具 dot.Net安全矩阵网络 .net 安全 .netcore web安全矩阵
01阅读须知此文所提供的信息只为网络安全人员对自己所负责的网站、服务器等（包括但不限于）进行检测或维护参考，未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作。利用此文所提供的信息而造成的直接或间接后果和损失，均由使用者本人负责。本文所提供的工具仅用于学习，禁止用于其他方面02基本介绍在内网渗透过程中，白名单绕过是红队常见的技术需求。Sharp4Bginfo.exe是一款基于微软签名工具
LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 计算机视觉人工智能机器学习算法深度学习
LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的有个假设：就是最后一个词语融合了前面词语的信息减法操作主要用于提取模型内部表征中的"诚实性"概念向量。具体来说，这是通过对比诚实和不诚实场景下的模型隐藏状态实现的。importtorchfromtransformersimportAutoModelForCausalLM,AutoTokenizer,AutoConfigimportnum
Python学习笔记5|条件语句和循环语句 iamecho9 Python从0到1学习笔记 python 学习笔记
一、条件语句条件语句用于根据不同的条件执行不同的代码块。1、if语句基本语法：if布尔型语句1:代码块#语句1为True时执行的代码示例：age=int(input("请输入你的年龄:"))ifage>=18:print("你已成年")2、if-else语句如果if条件不成立，则执行else代码块：if布尔型语句1:代码块#语句1为True时执行的代码else:代码块#语句1为False时执行的代
2025年渗透测试面试题总结-2025年HW(护网面试) 43（题目+回答）独行soc 2025年护网面试职场和发展 linux 科技渗透测试安全护网
安全领域各种资源，学习文档，以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具，欢迎关注。目录2025年HW(护网面试)431.自我介绍与职业规划2.Webshell源码级检测方案3.2025年新型Web漏洞TOP54.渗透中的高价值攻击点5.智能Fuzz平台架构设计6.堆栈溢出攻防演进7.插桩技术实战应用8.二进制安全能力矩阵9.C语言内存管理精要10.Pyth
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs

【AI视野·今日CV 计算机视觉论文速览 第234期】Fri, 24 Sep 2021

Daily Computer Vision Papers

Interesting:

你可能感兴趣的:(计算机视觉,Papers,transformer,计算机视觉,多模态学习,目标检测,图像分割)

【AI视野·今日CV 计算机视觉论文速览第234期】Fri, 24 Sep 2021