hitrjj

【今日CV 计算机视觉论文速览第130期】Thu, 13 Jun 2019

今日CS.CV 计算机视觉论文速览
Thu, 13 Jun 2019
Totally 39 papers
?上期速览✈更多精彩请移步主页

Interesting:

?LED2Netz照明条件估计的去雾和低光图像增强方法, 研究人员提出了一种基于环境光照估计的低光照图像去雾与细节提升算法。基于环境照明的估计，研究人员同时实现了大气光照估计、投射图估计和低光照提升三个任务。从FADE数据合成了雾图和低光图用于训练。结果表明这一算法对于图像细节提升和去雾具有十分优异的表现没有色差的晕轮。(from Chung-Ang University韩国中央大学)
网络主要进行了环境光照明(e illumination map)的估计,随后用于暗光增强和去雾，最后进行细节提升和优化：

一些结果的比较：

对于暗光增强的结果：

real world dataset:Fattal dataset [13]

?人体行为识别综述,综述了不同的行为识别方法、设备和分类。基于行为、移动和交互的行为识别以及十个不同的子类别，并综述了各个领域的最新研究结果的度量标准 (from 悉尼Macquarie University)

识别技术的分类：

?全天候全气候室外光照估计, (from adobe)

code:http://lvsn.github.io/allweather

?压缩模型过拟合用于图像超分辨, (from SIAT-SenseTime Joint Lab 中科院深圳)

Daily Computer Vision Papers

Presence-Only Geographical Priors for Fine-Grained Image Classification
Authors Oisin Mac Aodha, Elijah Cole, Pietro Perona
单独的外观信息通常不足以准确区分细粒度的视觉类别。人类专家利用其他线索，例如拍摄给定图像的位置和时间，以便为最终决定提供信息。该上下文信息在许多在线图像集合中容易获得，但是现有的图像分类器仅仅关注于基于图像内容进行预测而未充分利用。

LAEO-Net: revisiting people Looking At Each Other in videos
Authors Manuel J. Marin Jimenez, Vicky Kalogeiton, Pablo Medina Suarez, Andrew Zisserman
捕捉人们的相互凝视对于理解和解释他们之间的社会互动至关重要。为此，本文解决了在视频序列中检测人们看彼此LAEO的问题。为此，我们提出了LAEO Net，这是一个新的深度CNN，用于确定视频中的LAEO。与之前的作品相比，LAEO Net将时空轨迹作为输入和整个轨道的原因。它由三个分支组成，一个用于每个角色的跟踪头部，另一个用于相对位置。此外，我们介绍了两个新的LAEO数据集UCO LAEO和AVA LAEO。彻底的实验评估证明了LAEONet成功确定两个人是否是LAEO的能力以及它发生的时间窗口。我们的模型在现有的TVHID LAEO视频数据集上实现了最先进的结果，明显优于以前的方法。最后，我们将LAEO Net应用于社交网络分析，我们根据他们LAEO的频率和持续时间自动推断出一对人之间的社会关系。

Compressed Sensing MRI via a Multi-scale Dilated Residual Convolution Network
Authors Yuxiang Dai, Peixian Zhuang
磁共振成像MRI重建是一个主动的反问题，可以通过传统的压缩感知CS MRI算法来解决，该算法在基于迭代优化的方式中利用MRI的稀疏性质。然而，基于迭代优化的CSMRI方法的两个主要缺点是耗时且在模型容量方面受限。同时，最近基于深度学习的CSMRI的一个主要挑战是模型性能和网络规模之间的权衡。为了解决上述问题，我们开发了一种新的多尺度扩张网络，用于MRI重建，具有高速和卓越的性能。与具有相同感受野的卷积核相比，扩散卷积减少了较小核的网络参数，并扩展了核的接收域以获得几乎相同的信息。为了保持丰富的特征，我们提供全局和局部残差学习，以提取更多的图像边缘和细节。然后我们利用连接层融合多尺度特征和残差学习，以便更好地重建。与几种非深度和深度学习CSMRI算法相比，该方法可以提供更好的重建精度和明显的视觉改进。此外，我们执行噪声设置以验证模型稳定性，然后在MRI超分辨率任务上扩展所提出的模型。

**Handwritten Text Segmentation via End-to-End Learning of Convolutional Neural Network
Authors Junho Jo, Hyung Il Koo, Jae Woong Soh, Nam Ik Cho
我们通过端到端训练卷积神经网络CNN来提出一种新的手写文本分割方法。许多传统方法通过提取连接的组件然后对它们进行分类来解决该问题。然而，当手写组件和机器印刷部件重叠时，这两步方法具有局限性。与传统方法不同，我们针对此问题开发了端到端深度CNN，不需要任何预处理步骤。由于没有针对此目标的公开数据集，并且像素明智的注释耗时且成本高，我们还提出了一种生成实际训练样本的数据合成算法。为了训练我们的网络，我们开发了基于交叉熵的损失函数来解决不平衡问题。合成图像和真实图像的实验结果表明了该方法的有效性。具体而言，所提出的网络仅针对合成图像进行了训练，然而在真实文档中删除手写文本将OCR性能从71.13提高到92.50，显示了我们的网络和合成图像的泛化性能。

Towards Real-Time Head Pose Estimation: Exploring Parameter-Reduced Residual Networks on In-the-wild Datasets
Authors Ines Rieger, Thomas Hauenstein, Sebastian Hettenkofer, Jens Uwe Garbas
头部姿势是人体交流的关键组成部分，因此是人机交互的决定性因素。实时头部姿势估计在人类机器人交互或驾驶员辅助系统的背景下是至关重要的。用于头部姿势估计的最有希望的方法基于卷积神经网络CNN。然而，CNN模型通常太复杂而无法实现实时性能。为了应对这一挑战，我们探索了一个受欢迎的CNN子组，剩余网络ResNets并对其进行修改以减少参数数量。 ResNets针对不同的图像尺寸进行了修改，包括低分辨率图像和不同数量的图层。他们接受野生数据集的培训，以确保真实世界的适用性。因此，我们证明可以在减少参数数量的同时保持ResNets的性能。修改后的ResNets实现了最先进的精确度，并为实时适用性提供了快速推理。

Tackling Partial Domain Adaptation with Self-Supervision
Authors Silvia Bucci, Antonio D Innocente, Tatiana Tommasi
域适应方法已经显示出减少视域之间的边际分布差异的有希望的结果。它们允许训练可靠的模型，这些模型适用于不同性质的照片，绘画等数据集，但是当域不共享相同的标签空间时，它们仍然很难。在部分域适配设置中，其中目标仅覆盖源类的子集，在不引起负转移的情况下减小域间隙是具有挑战性的。许多解决方案只是通过添加启发式样本加权策略来保持标准域自适应技术。在这项工作中，我们展示了如何从补丁的空间协同定位获得的自监控信号如何定义支持适应的辅助任务，而不管跨域的确切标签共享条件。我们构建了最近的一项工作，该工作引入了用于领域泛化的拼图游戏任务，我们描述了如何重新构建部分领域适应的这种方法，并且我们展示了它如何在与它们结合时增强现有的自适应解决方案。获得的三个数据集的实验结果支持了我们的方法的有效性。

Vispi: Automatic Visual Perception and Interpretation of Chest X-rays
Authors Xin Li, Rui Cao, Dongxiao Zhu
医学成像包含用于提供诊断和治疗决策的基本信息。检查视觉感知和解释图像以生成报告是放射科医师的繁琐临床程序，其中自动化预期将大大减少工作量。尽管自然图像字幕的快速发展，计算机辅助医学图像视觉感知和解释仍然是一项具有挑战性的任务，主要是由于缺乏高质量的注释图像报告对和量身定制的生成模型，足以提取和利用局部语义特征，特别是那些与异常有关。为了应对这些挑战，我们提出了一种自动医学图像解释系统Vispi，该系统首先通过视觉支持对常见胸部疾病进行分类和定位，然后通过细致的LSTM模型生成报告，对图像进行注释。通过分析开放的IU X射线数据集，我们使用自动性能评估指标ROUGE和CIDEr证明了Vispi在疾病分类，本地化和报告生成方面的卓越性能。

Boosting Few-Shot Visual Learning with Self-Supervision
Authors Spyros Gidaris, Andrei Bursuc, Nikos Komodakis, Patrick P rez, Matthieu Cord
少数镜头学习和自我监督学习解决了同一问题的不同方面如何训练具有很少或没有标记数据的模型。很少有镜头学习的目的是优化方法和模型，可以有效地学习识别低数据体系中的模式。自我监督学习的重点是未标记的数据，并调查监测信号以提供高容量的深度神经网络。在这项工作中，我们利用这两个领域的互补性，并提出一种通过自我监督改善少数镜头学习的方法。我们使用自我监督作为一些镜头学习管道中的辅助任务，使特征提取器能够学习更丰富和更可转移的视觉表示，同时仍然使用少量注释样本。通过自我监督，我们的方法可以自然地扩展到在少数镜头设置中使用来自其他数据集的各种未标记数据。我们报告了一系列架构，数据集和自我监督技术的持续改进。

Evaluation of Dataflow through layers of Deep Neural Networks in Classification and Regression Problems
Authors Ahmad Kalhor, Mohsen Saffar, Melika Kheirieh, Somayyeh Hoseinipoor, Babak N. Araabi University of Tehran, College of Engineering, School of Electrical and Computer Engineering, Tehran, Iran
本文介绍了两个简单有效的指标来评估输入数据和流经前馈深度神经网络层的数据。对于分类问题，数据流空间中目标标签的分离率被解释为表明设计层在改善网络泛化方面的性能的关键因素。根据所解释的概念，提出了基于无形距离的评估指标。类似地，对于回归问题，数据流空间中目标输出的平滑率被解释为表示设计层在改善网络泛化方面的性能的关键因素。根据所解释的平滑概念，针对回归问题提出了基于无形距离的平滑度指数。为了更严格地考虑分离和平滑的概念，引入了它们的扩展版本，并且通过将回归问题解释为分类问题，表明分离和平滑度指数是相关的。通过四个案例研究，显示了使用引入指数的利润。在第一个案例研究中，对于分类和回归问题，一些已知输入数据集的挑战性分别通过提出的分离和平滑度指数进行比较。在第二个案例研究中，数据流的质量通过Cifar10和Cifar100分类中的两个预先训练的VGG 16网络层进行评估。在第三个案例研究中，表明正确的分类率和分离指数几乎相同，特别是在锯齿指数增加时。在最后一个案例研究中，通过使用所提出的平滑度指数逐层比较两个用于预测波士顿房价的多层神经网络。

Recognizing Manipulation Actions from State-Transformations
Authors Nachwa Aboubakr, James L. Crowley, Remi Ronfard
操纵动作将对象从初始状态转换为最终状态。在本文中，我们报告使用对象状态转换作为识别操作动作的手段。我们的方法受到直觉的启发，即对象状态在视觉上比静止帧的动作更明显，因此提供与空间时间动作识别互补的信息。我们首先定义一个状态转换矩阵，将动作标签映射到前置状态和后置状态。从每个关键帧，我们学习对象及其状态的外观模型。然后可以从状态转移矩阵识别操纵动作。我们报告了EPIC厨房行动识别挑战的结果。

High Accuracy Classification of White Blood Cells using TSLDA Classifier and Covariance Features
Authors Hamed Talebi, Amin Ranjbar, Alireza Davoudi, Hamed Gholami, Mohammad Bagher Menhaj
近几十年来，通过应用工程工具在医学科学的不同领域创建自动化流程是一个高度发展的领域。在这种背景下，许多医学图像处理和分析研究人员在人工智能中使用有价值的方法，这可以减少必要的人力，同时提高结果的准确性。在各种医学图像中，血液显微图像在心力衰竭诊断中起重要作用，例如，血癌。血癌诊断中的突出成分是白细胞WBC，由于其在显微图像中的一般特征，有时难以识别和分类任务，例如不均匀的颜色照度，不同的形状，尺寸和纹理。此外，骨髓图像中与红细胞相邻的重叠WBC被识别为分类部分中的错误的原因。在本文中，我们努力通过Na ve Bayes聚类方法在医学图像中分割各个部分，并在下一阶段通过TSLDA分类器进行分割，TSLDA分类器由从协方差描述符结果98.02准确度获得的特征提供。看来这个结果在WBC识别中是令人愉快的。

LED2Net: Deep Illumination-aware Dehazing with Low-light and Detail Enhancement
Authors Guisik Kim, Junseok Kwon
我们提出了一种基于照明图的新型去雾和低光增强方法，该方法由卷积神经网络CNN精确估计。在本文中，照明图被用作三个不同任务的组件，即大气光估计，透射图估计和弱光增强。为了基于视网膜理论同时训练CNN用于去雾和低光增强，我们从来自FADE数据集的正常模糊图像合成了许多低光和模糊图像。此外，我们使用细节增强进一步改善网络。实验结果表明，我们的方法在数量上和质量上都优于theart算法的最新状态。特别是，我们的无雾图像呈现鲜艳的色彩，增强了可见度，没有光晕效果或颜色失真。

***Pose from Shape: Deep Pose Estimation for Arbitrary 3D Objects
Authors Yang Xiao, Xuchong Qiu, Pierre Alain Langlois, Mathieu Aubry, Renaud Marlet
大多数深度姿态估计方法需要针对特定对象实例或类别进行训练。在这项工作中，我们提出了一种完全通用的深度姿态估计方法，该方法不要求网络在相关类别上进行训练，也不要求类别中的对象具有规范姿势。我们相信这是设计机器人系统的关键步骤，该机器人系统可以与不属于预定义类别的野外新对象进行交互。我们的主要观点是通过表示目标对象的3D形状来动态地调整姿势估计。更确切地说，我们训练卷积神经网络，其将测试图像和3D模型作为输入，并输出相对于3D模型的输入图像中的对象的相对3D姿势。我们证明了我们的方法提高了标准基准的监督类别姿态估计的性能，即Pascal3D，ObjectNet3D和Pix3D，我们提供的结果优于现有技术。更重要的是，我们通过在LINEMOD数据集以及ImageNet上的动物等自然实体上提供结果，表明我们的网络训练了来自ShapeNet的日常人造物体，无需对全新类型的3D物体进行任何额外培训。

Different Approaches for Human Activity Recognition: A Survey
Authors Zawar Hussain, Michael Sheng, Wei Emma Zhang
近年来，人类活动识别因其在健康，安全和监视，娱乐和智能环境等各个领域的应用而变得越来越重要。在人类活动识别方面已经做了大量工作，研究人员利用不同的方法，如可穿戴，物体标记和无设备，来识别人类活动。在本文中，我们对2010年至2018年期间在人类活动识别的各个领域开展的工作进行了全面调查，主要关注无设备解决方案。无设备方法变得非常流行，因为主体不需要携带任何东西，相反，环境被标记有设备以捕获所需信息。我们提出了一种新的分类法，用于对在活动识别领域进行的研究工作进行分类，并将现有文献分为基于行动，基于运动和基于交互的三个子领域。我们进一步将这些领域划分为十个不同的子主题，并介绍这些子主题的最新研究工作。与之前仅关注一种活动的调查不同，据我们所知，我们涵盖了活动识别中的所有子领域，并对这些子领域的最新研究工作进行了比较。具体来说，我们讨论了所提出工作的关键属性和设计方法。然后，我们基于10个重要指标提供广泛的分析，为读者提供人类活动识别的不同子领域的最新技术和趋势的完整概述。最后，我们讨论了开放式研究问题，并提供了人类活动识别领域的未来研究方向。

Indoor image representation by high-level semantic features
Authors Chiranjibi Sitaula, Yong Xiang, Yushu Zhang, Xuequan Lu, Sunil Aryal
室内图像特征提取是图像处理，模式识别，机器人等多个领域的基本问题。然而，基于像素，颜色，形状对象部分或图像上的对象提取特征的大多数现有特征提取方法在描述语义信息（例如，对象关联）方面具有有限的能力。因此，这些技术涉及不期望的分类性能。为了解决这个问题，我们提出了高级语义特征的概念，并设计了四个步骤来提取它们。具体来说，我们首先通过提取图像中的原始对象来构造对象模式字典，然后从对象模式字典中检索和提取语义对象。我们最终基于计算的概率和del参数提取我们的高级语义特征。在三个公开可用的数据集MIT 67，Scene15和NYU V1上的实验表明，我们的特征提取方法优于用于室内图像分类的最先进的特征提取方法，因为我们的特征的维度低于那些方法。

***DeepSquare: Boosting the Learning Power of Deep Convolutional Neural Networks with Elementwise Square Operators
Authors Sheng Chen, Xu Wang, Chao Chen, Yifan Lu, Xijin Zhang, Linfu Wen
能够显着提高学习能力的现代神经网络模块通常会给原始神经网络增加太多的计算复杂性。在本文中，我们追求非常有效的神经网络模块，它可以显着提高深度卷积神经网络的学习能力，而且额外的计算成本可以忽略不计。我们首先在理论上和实验上都提出元素方形算子有可能增强神经网络的学习能力。然后，我们设计了四种带有元素方形算子的轻量级模块，命名为Square Pooling，Square Softmin，Square Excitation和Square Encoding。我们将四个轻量级模块添加到Resnet18，Resnet50和ShuffleNetV2，以便在ImageNet 2012数据集的实验中获得更好的性能。实验结果表明，我们的模块可以为基本卷积神经网络模型带来显着的精度提升。我们的轻量级模块的性能甚至可以与许多复杂的模块相媲美，例如双线性池，挤压和激励以及Gather Excite。我们的高效模块特别适用于移动型号。例如，当配备单个Square Pooling模块时，ImageNet 2012上ShuffleNetV2 0.5x的前1个分类精度绝对提高1.45，没有额外的参数和可忽略的推理时间开销。

CDPM: Convolutional Deformable Part Models for Person Re-identification
Authors Kan Wang, Changxing Ding, Stephen J. Maybank, Dacheng Tao
部分级别表示对于健壮的人员识别至关重要。由于行人检测中的错误，对于身体部位通常存在严重的错误对齐问题，这降低了部件表示的质量。为了解决这个问题，我们提出了一种名为Convolutional Deformable Part Models CDPM的新模型。 CDPM通过将复杂的零件对齐过程分离为两个更简单的步骤来工作。首先，垂直对准步骤借助多任务学习模型检测垂直方向上的每个部分。其次，基于自我关注的水平细化步骤抑制每个检测到的身体部位周围的背景信息。由于这两个步骤是正交和顺序执行的，因此部分对齐的难度显着降低。在测试阶段，CDPM能够精确对准柔性身体部位，而无需任何外部信息。广泛的实验结果证明了CDPM对零件对齐的有效性。最令人印象深刻的是，CDPM在三个大型数据集市场1501，DukeMTMC ReID和CUHK03上实现了最先进的性能。

Synthesizing Diverse Lung Nodules Wherever Massively: 3D Multi-Conditional GAN-based CT Image Augmentation for Object Detection
Authors Changhee Han, Yoshiro Kitamura, Akira Kudo, Akimichi Ichinose, Leonardo Rundo, Yujiro Furukawa, Kazuki Umemoto, Hideki Nakayama, Yuanzhong Li
准确的计算机辅助诊断，依靠大规模注释的病理图像，可以减轻忽视诊断的风险。不幸的是，在医学成像中，大多数可用数据集都是小碎片。为了解决这个问题，作为数据增强DA方法，3D条件生成对抗网络GAN可以将期望的真实多样化3D图像合成为附加训练数据。然而，对于基于一般边界框的3D对象检测，不存在基于3D条件GAN的DA方法，而与严格的3D分割不同，它可以以医生最小的注释成本来定位疾病区域。此外，由于病变位置大小衰减不同，因此基于GAN的进一步DA性能需要多种条件。因此，我们建议3D多条件GAN MCGAN生成逼真的多样化32 x 32 x 32结节，这些结节自然放置在肺部计算机断层扫描图像上，以提高3D物体检测的灵敏度。我们的MCGAN采用两个鉴别器来调节上下文鉴别器学习将真实与合成结节分类为具有噪声盒居中环境的对，结节鉴别器试图将具有大小衰减条件的真实与合成结节分类。结果表明，基于三维卷积神经网络的检测可以在固定的假阳性率下在任何结节大小衰减下实现更高的灵敏度，并且克服了MCGAN生成的真实结节的医疗数据缺乏，甚至专家医生也无法将它们与视觉图灵中的真实区分开来。测试。

**Hand Orientation Estimation in Probability Density Form
Authors Kazuaki Kondo, Daisuke Deguchi, Atsushi Shimada
手部定位是理解手部行为并随后支持人类活动所必需的基本特征。在本文中，我们提出了一种估计概率密度形式的手方向的新方法。它可以解决直接角度表示中的循环性问题，并且可以基于不同的特征集成多个预测。我们验证了所提方法的性能以及使用我们的数据集的集成示例，该数据集捕获了协作组的工作。

Pay Attention to Convolution Filters: Towards Fast and Accurate Fine-Grained Transfer Learning
Authors Xiangxi Mo, Ruizhe Cheng, Tianyi Fang
我们提出了一种有效的转移学习方法，用于使ImageNet预训练的卷积神经网络CNN适应细粒度图像分类任务。传统的转移学习方法通常面临训练时间和准确性之间的权衡。通过将注意模块添加到预训练网络的每个卷积滤波器，我们能够在端到端流水线中对每个卷积信号的重要性进行排序和调整。在本报告中，我们展示了我们的方法可以在几个时期内使预先测试的ResNet50适应细粒度转移学习任务，并且实现高于传统转移学习方法的准确性，并接近从头开始训练的模型。我们的模型还提供可解释的结果，因为卷积信号的等级显示利用和放大哪些卷积通道以获得更好的分类结果，以及哪些信号应被视为特定转移学习任务的噪声，可以将其修剪为更低型号尺寸。

Semi-Supervised Exploration in Image Retrieval
Authors Cheng Chang, Himanshu Rai, Satya Krishna Gorti, Junwei Ma, Chundi Liu, Guangwei Yu, Maksims Volkovs
我们提出了我们的Landmark图像检索挑战2019的解决方案。这一挑战基于大型Google标志性数据集V2 9。目标是为每个提供的查询图像检索包含相同地标的所有数据库图像。我们的解决方案是全局和本地模型的组合，以形成初始KNN图。然后，我们使用最近提出的图形遍历方法EGT 1的新扩展，称为半监督EGT，以细化图形并检索更好的候选者。

Recurrent U-Net for Resource-Constrained Segmentation
Authors Wei Wang, Kaicheng Yu, Joachim Hugonot, Pascal Fua, Mathieu Salzmann
现有技术的分割方法依赖于非常深的网络，这些网络在没有非常大的训练数据集的情况下并不总是容易训练，并且在标准GPU上运行往往相对较慢。在本文中，我们介绍了一种新颖的循环U Net架构，它保留了原始U Net的紧凑性，同时大大提高了其性能，使其在几个基准测试中表现优于最新技术水平。我们将展示其在多个任务中的有效性，包括手部分割，视网膜血管分割和道路分割。我们还引入了用于手部分割的大规模数据集。

**Inferring 3D Shapes from Image Collections using Adversarial Networks
Authors Matheus Gadelha, Aartika Rai, Subhransu Maji, Rui Wang
我们研究了在三维形状下学习概率分布的问题，给出了从未知视点获取的多个对象的二维视图。我们的方法称为投影生成对抗网络PrGAN训练3D形状的深度生成模型，其投影或渲染与所提供的2D分布的分布相匹配。通过添加可微分投影模块，我们可以在学习阶段推断出潜在的3D形状分布，而无需访问任何明确的3D或视点注释。我们展示了我们的方法可以生成与直接在3D数据上训练的GAN相当的3D形状。适用于多种形状类别，包括椅子，飞机和汽车。实验还表明，二维形状在几何和视点上的解缠结表示导致二维形状的良好生成模型。我们模型的关键优势在于它可以估计3D形状，视点，并以完全无监督的方式从输入图像生成新颖的视图。我们进一步研究如何在训练时获得诸如深度，视点或部分分割等附加信息的情况下如何改进生成模型。为此，我们提出了新的可微分投影算子，可供PrGAN用于学习更好的3D生成模型。我们的实验表明，我们的方法可以成功地利用额外的视觉线索来创建更多样化和准确的形状。

All-Weather Deep Outdoor Lighting Estimation
Authors Jinsong Zhang, Kalyan Sunkavalli, Yannick Hold Geoffroy, Sunil Hadap, Jonathan Eisenmann, Jean Fran ois Lalonde
我们提出了一种神经网络，可以从单个LDR图像预测HDR室外照明。我们工作的核心是在任何天气条件下从LDR全景图准确学习HDR照明的方法。我们通过在合成图像和真实图像的组合上训练另一个CNN来获得这一点，以作为LDR全景图的输入，并回归Lalonde Matthews室外照明模型的参数。训练该模型使得它重建天空的外观，并且b渲染由该照明点亮的物体的外观。我们使用该网络标记具有照明参数的LDR全景图的大规模数据集，并使用它们来训练我们的单图像户外照明估计网络。我们通过大量实验证明，我们的全景和单幅图像网络都优于现有技术，与以前的工作不同，能够处理从晴天到阴天的天气状况。

Compressive Hyperspherical Energy Minimization
Authors Rongmei Lin, Weiyang Liu, Zhen Liu, Chen Feng, Zhiding Yu, James M. Rehg, Li Xiong, Le Song
最近关于最小超球面能量MHE的研究已经证明了它在规范神经网络和改进它们的推广方面的潜力。 MHE的灵感来自物理学中的汤姆逊问题，其中单个球体上的多个推进电子的分布可以通过最小化一些势能来建模。尽管具有实际效果，但MHE受到局部最小值的影响，因为它们的数量在高维度上急剧增加，从而限制了MHE释放其在改善网络泛化方面的全部潜力。为了解决这个问题，我们提出压缩最小超球面能CoMHE作为神经网络的替代正则化。具体而言，CoMHE利用投影映射来降低神经元的维数并最小化它们的超球面能量。根据投影矩阵的不同结构，我们提出了随机投影CoMHE和角度保持CoMHE两个主要变量。此外，我们提供理论见解来证明其有效性。我们表明，CoMHE在综合实验中始终优于MHE，并展示了其在各种任务中的多样化应用，如图像识别和点云识别。

Visual Relationships as Functions: Enabling Few-Shot Scene Graph Prediction
Authors Apoorva Dornadula, Austin Narcomey, Ranjay Krishna, Michael Bernstein, Li Fei Fei
在视觉场景中对对象组和谓词进行分类的场景图预测需要大量的训练数据。然而，长尾关系的分布可能是这种方法的障碍，因为它们只能在带有足够标签的一小组谓词上进行训练。我们引入了第一个场景图预测模型，它支持很少的谓词镜头学习，使场景图方法能够推广到一组新的谓词。首先，我们引入一个新的谓词模型作为对象特征或图像位置进行操作的函数。接下来，我们定义一个场景图模型，其中这些函数在新的图卷积框架中被训练为消息传递协议。我们使用频繁出现的谓词训练框架，并表明我们的方法优于那些在召回50时使用相同数量的监督1.78并且与其他场景图模型相同的方法。接下来，我们提取由训练的谓词函数生成的对象表示，以在罕见的谓词上训练几个镜头谓词分类器，其中只有1个标记示例。与强大的基线相比，例如从现有技术表现形式的转移学习，我们通过4.16回忆1显示改进的5镜头表现。最后，我们展示我们的谓词函数生成可解释的可视化，启用第一个可解释的场景图模型。

Task-Aware Deep Sampling for Feature Generation
Authors Xin Wang, Fisher Yu, Trevor Darrell, Joseph E. Gonzalez
基于过去的经验，人类想象新颖物体的各种外观的能力对于基于少数例子快速学习新颖的视觉概念是至关重要的。赋予具有类似能力的机器可以为新的视觉概念生成特征分布，这是对高效模型概括进行抽样的关键。在这项工作中，我们提出了一种适用于零点设置中的特征生成的新型发生器架构。我们引入任务感知深度采样TDS，其在发生器中逐层注入任务感知噪声，与现有浅采样SS方案相反，其中随机噪声仅在发生器的输入层处被采样一次。我们提出了一种样本有效学习模型，其由TDS生成器，鉴别器和分类器（例如，软最大分类器）组成。我们发现我们的模型在组合零射击学习基准上实现了最先进的结果，并且以更快的收敛速度改进了传统零射击学习中的既定基准。

Edge-Direct Visual Odometry
Authors Kevin Christensen, Martial Hebert
在本文中，我们提出了一种边缘直接视觉测距算法，该算法有效地利用边缘像素来找到最小化图像之间光度误差的相对姿势。利用边缘像素的先前工作将边缘视为特征，并采用各种技术来匹配边缘线或像素，这增加了不必要的复杂性。直接方法通常对所有像素强度进行操作，这被证明是高度冗余的。相比之下，我们的方法建立在直接视觉测距方法的基础之上，自然而它不仅比直接密集方法更有效，因为我们使用一小部分像素进行迭代，但也更准确。我们通过仅从一个图像中提取边缘来实现高精度和高效率，并且利用鲁棒的高斯牛顿来最小化这些边缘像素的光度误差。这同时找到参考图像中的边缘像素，以及最小化光度误差的相对相机姿势。我们测试各种边缘检测器，包括学习边缘，并确定该方法的最佳边缘检测器是使用自动阈值处理的Canny边缘检测算法。我们强调了边缘直接方法和直接密集方法之间的关键差异，特别是更高级别的图像金字塔如何导致显着的混叠效应并导致不正确的解决方案收敛。我们通过实验证明，减少边缘像素的光度误差也会降低所有像素的光度误差，我们通过消融研究显示通过优化边缘像素获得的精度提高。我们在RGB D TUM基准测试中评估我们的方法，在此基础上我们实现了最先进的性能。

Weakly-supervised Compositional FeatureAggregation for Few-shot Recognition
Authors Ping Hu, Ximeng Sun, Kate Saenko, Stan Sclaroff
从一些例子中学习是机器学习的一项具有挑战性的任务。虽然最近已经对这个问题取得了进展，但是大多数现有方法忽略了视觉概念表示中的组合性，例如对象是由部分构建的或由语义属性组成，这是人类从少量示例中轻松学习的能力的关键。为了增强具有组合性的少数镜头学习模型，在本文中，我们提出了简单而强大的组合特征聚合CFA模块作为深度网络的弱监督正则化。给定从输入中提取的深度特征图，我们的CFA模块首先将特征空间解开为不相交的语义子空间，这些子空间模拟不同的属性，然后双线性地聚合每个子空间内的局部特征。 CFA明确地使用语义和空间组合来规范表示，以产生用于少数镜头识别任务的辨别表示。此外，我们的方法在训练过程中不需要对属性和对象部分进行任何监督，因此可以方便地插入到现有模型中进行端到端优化，同时保持模型大小和计算成本几乎相同。对少数镜头图像分类和动作识别任务的广泛实验表明，我们的方法相对于最近的现有技术方法提供了实质性的改进。

Suppressing Model Overfitting for Image Super-Resolution Networks
Authors Ruicheng Feng, Jinjin Gu, Yu Qiao, Chao Dong
大型深度网络在单图像超分辨率SISR中表现出竞争性，涉及大量数据。然而，在现实世界场景中，由于可访问的训练对有限，大型模型表现出不合适的行为，例如过度拟合和记忆。为了抑制模型过度拟合并进一步享受大模型容量的优点，我们彻底研究了提供额外训练数据对的通用方法。特别是，我们引入了一个简单的学习原理MixUp来训练网络对样本对的插值，这鼓励网络支持训练样本之间的线性行为。此外，我们提出了一种具有学习退化的数据合成方法，使模型能够使用具有更高内容多样性的超高质量图像。该策略证明可以成功地减少数据偏差。通过将这些组件MixUp和合成训练数据相结合，可以在非常有限的数据样本下训练大型模型而不会过度拟合，并获得令人满意的泛化性能。我们的方法在NTIRE2019 Real SR Challenge中获得第二名。

Differential Imaging Forensics
Authors Aur lien Bourquard, Jeff Yan
我们介绍了一些基于差分成像的新取证，其中通过光与场景的微妙相互作用（例如暗淡反射）创建的一类新的视觉证据可以通过比较分析从附加图像中进行计算提取和放大。在类似条件下获得的参考基线图像。这种差异成像取证DIF的范例使得法医检查员第一次能够检索在图像或视频镜头中容易获得的所述视觉证据，但是否则对于人类观察者来说仍然是微弱的甚至是不可见的。我们通过实践实验证明了我们方法的相关性和有效性。我们还展示了DIF提供了一种检测伪造图像和视频剪辑的新方法，包括深度伪造。

Continual and Multi-Task Architecture Search
Authors Ramakanth Pasunuru, Mohit Bansal
架构搜索是自动学习最适合给定任务的神经模型或细胞结构的过程。最近，该方法使用称为Efficient Neural Architecture Search ENAS的权重共享策略，在合理的训练速度下，在语言建模和图像分类方面表现出了有希望的性能改进。在我们的工作中，我们首先介绍一种新颖的连续架构搜索CAS方法，以便在几个任务的顺序训练期间不断演化模型参数，而不会通过块稀疏性和正交性约束损失先前学习的任务的性能，从而实现终身学习。接下来，我们探索一种基于ENAS的多任务架构搜索MAS方法，用于找到通过联合控制器奖励在多个任务中表现良好的统一单细胞结构，因此允许更广泛地将细胞结构知识转移到看不见的新任务。我们凭经验证明了我们的顺序连续学习和基于并行多任务学习的架构搜索方法对不同句子对分类任务GLUE和基于多模式生成的视频字幕任务的有效性。此外，我们提出了几个关于学习细胞结构的消融和分析。

Manifold Graph with Learned Prototypes for Semi-Supervised Image Classification
Authors Chia Wen Kuo, Chih Yao Ma, Jia Bin Huang, Zsolt Kira
半监督学习方法的最新进展依赖于使用在标记数据伪标记上训练的模型估计未标记数据的类别，并使用未标记数据用于各种基于一致性的正则化。在这项工作中，我们建议另外明确地利用数据流形的结构，该结构基于在特征空间内的图像实例上构建的流形图。具体而言，我们提出了一种基于图形网络的体系结构，它以端到端的方式联合优化特征提取，图形连接以及特征传播和聚合到未标记数据。此外，我们提出了一种新颖的原型生成器，用于生成各种原型，紧凑地代表每个类别，支持特征传播。为了评估我们的方法，我们首先提供了一个强大的基线，它结合了两个基于一致性的正则化器，这些正则化器已经实现了最先进的结果，特别是标签更少然后，我们表明，当与这些损失相结合时，所提出的方法有助于将信息从生成的原型传播到图像数据，以进一步改善结果。我们在半监督基准测试中提供了广泛的定性和定量实验结果，证明了我们的设计所带来的改进，并表明我们的方法与使用单一模型和与集合方法相当的现有方法相比，实现了最先进的性能。具体来说，我们在SVHN上的错误率为3.35，在CIFAR 10上为8.27，在CIFAR 100上的错误率为33.97。由于标签少得多，我们的显着优势超过了现有技术水平，平均有39个相对误差减少。

Stereoscopic Omnidirectional Image Quality Assessment Based on Predictive Coding Theory
Authors Zhibo Chen, Jiahua Xu, Chaoyi Lin, Wei Zhou
立体全方位图像的客观质量评估是一个具有挑战性的问题，因为它受到多个方面的影响，如投影变形，视野FoV范围，双目视觉，视觉舒适度等。现有研究表明经典的2D或3D图像质量评估IQA指标不能很好地表现立体全方位图像。然而，很少有研究工作集中在评估全方位图像的感知视觉质量，特别是对于立体全方位图像。在本文中，基于人类视觉系统HVS的预测编码理论，我们提出了一种立体全方位图像质量评估器SOIQE，以应对3D 360度图像的特征。基于SOIQE预测编码理论的双目竞争模块和多视图融合模块涉及两个模块。在双目竞争模块中，我们引入预测编码理论来模拟高层次模式之间的竞争，并计算相似性和竞争优势，以获得视口图像的质量分数。此外，我们开发了多视图融合模块，借助于内容权重和位置权重来聚合视口图像的质量分数。建议的SOIQE是一个参数模型，没有必要的回归学习，这确保了它的可解释性和泛化性能。我们发布的立体全方位图像质量评估数据库SOLID的实验结果表明，我们提出的SOIQE方法优于现有技术指标。此外，我们还验证了每个提议的模块在公共立体图像数据集和全景图像数据集上的有效性。

eSLAM: An Energy-Efficient Accelerator for Real-Time ORB-SLAM on FPGA Platform
Authors Runze Liu, Jianlei Yang, Yiran Chen, Weisheng Zhao
同时本地化和映射SLAM是自主导航的关键任务。然而，由于SLAM算法的计算复杂性，很难在低功耗平台上实现实时实现。我们提出了一种节能架构，用于实时ORB定向FAST和基于旋转简介的可视SLAM系统，加速最耗时在FPGA平台上进行特征提取和匹配的阶段。此外，原始ORB描述符模式被改造为旋转对称方式，更加硬件友好。进一步利用包括重新调度和并行化的优化来提高吞吐量并减少存储器占用。与TUM数据集上的Intel i7和ARM Cortex A9 CPU相比，我们的FPGA实现分别实现了高达3倍和31倍的帧速率提升，以及高达71倍和25倍的能效提升。

Non-Parametric Calibration for Classification
Authors Jonathan Wenger, Hedvig Kjellstr m, Rudolph Triebel
分类方法的许多应用不仅需要高精度，而且还需要对预测不确定性的可靠估计。然而，虽然许多当前的分类框架，特别是深度神经网络架构，在准确性方面提供了非常好的结果，但是它们倾向于低估它们的预测不确定性。在本文中，我们提出了一种方法，它可以校正一般分类器的置信度输出，使其接近正确分类的真实概率。与现有方法相比，该分类器校准基于使用潜在高斯过程的非参数表示并且专门设计用于多类分类。它可以应用于输出置信度估计的任何分类方法，并且不限于神经网络。我们还提供了关于分类器的过度和不足以及其与校准的关系的理论分析。在实验中，我们展示了我们的方法在不同的分类器和基准数据集中的普遍强大的性能，与现有的分类器校准技术相比。

Adaptive Navigation Scheme for Optimal Deep-Sea Localization Using Multimodal Perception Cues
Authors Arturo Gomez Chavez, Qingwen Xu, Christian A. Mueller, S ren Schwertfeger, Andreas Birk
水下机器人干预需要高水平的安全性和可靠性。要解决的一个主要挑战是强大而准确地获取本地化估算，因为这是实现更复杂任务的先决条件，例如：浮动操纵和映射。商业运营中的现有技术导航，例如石油天然气生产OGP，依赖于昂贵的仪器。这些可以通过视觉导航方法部分地替换或辅助，尤其是在设备部署具有高成本和风险的深海场景中。我们的工作提出了一种多模式方法，它适应陆地机器人技术的最新方法，即密集点云生成与平面表示和配准相结合，以提高水下定位性能。提出了一种两阶段导航方案，其初始生成工作空间的粗略概率图，其用于从第二阶段中的计算点云和平面过滤噪声。此外，引入了自适应决策方法，其确定将哪些感知提示结合到定位滤波器中以优化准确性和计算性能。我们首先在模拟中研究我们的方法，然后使用OGP监测和维护方案中的现场试验数据进行验证。

Using Small Proxy Datasets to Accelerate Hyperparameter Search
Authors Sam Shleifer, Eric Prokop
机器学习工作流程中最大的瓶颈之一是等待模型训练。根据可用的计算资源，可能需要数天到数周才能在具有许多类（如ImageNet）的大型数据集上训练神经网络。对于试验新算法方法的研究人员来说，这是不切实际的耗时且成本高昂的。我们的目标是生成较小的代理数据集，其中实验运行成本更低，但结果与完整数据集上的实验结果高度相关。我们使用从示例或类中随机抽样来生成这些代理数据集，仅对最简单或最难的示例进行培训，并对数据蒸馏生成的合成示例进行培训。我们将这些技术与更广泛使用的完整数据集训练基线进行比较，以获得更少的时期。对于每个代理策略，我们估计代理质量的三个度量可以通过代理数据集上的实验结果来解释实验结果在完整数据集上的多少方差。

Joint 3D Localization and Classification of Space Debris using a Multispectral Rotating Point Spread Function
Authors Chao Wang, Grey Ballard, Robert Plemmons, Sudhakar Prasad
我们使用多光谱旋转点扩散函数RPSF考虑了未解决的空间碎片的联合三维3D定位和材料分类的问题。 RPSF的使用允许人们从由单个2D传感器阵列获取的旋转图像估计点源的3D位置，因为每个源图像关于其x，y位置的旋转量取决于其轴向距离z。使用多光谱图像，每个光谱带有一个RPSF，我们不仅可以定位空间碎片的3D位置，还可以对其材料成分进行分类。我们提出了一种实现联合定位和分类的三阶段方法。在阶段1中，我们采用用于定位的优化方案，其中假设每种材料的光谱特征是均匀的，这显着提高了效率并且产生比单个光谱带更好的定位结果。在阶段2中，我们通过交替方法估计光谱特征并细化定位结果。我们在最后阶段处理分类。考虑了泊松噪声和高斯噪声模型，并讨论了各自的实现。使用来自NASA的多光谱数据的数值测试显示了我们的三阶段方法的效率，并说明了在单个频带上使用多个频带的点源定位和光谱分类的改进。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com

你可能感兴趣的:(视觉,深度学习,机器学习,计算机视觉,图像提升,数据集,Papers,Computervision,paper)

读《认知天性》（1）云城梦天
认知是对天性是挑战认知可以用数学统计与实践客观来评价，而我感觉是一种自我感知。当未知时，感知痛苦然而这是个时习之中乐的过程。也可以通过rain和轻疗的方法安抚情绪编码，可以以好奇心与视觉画面联动来做记忆编码的过程，因人是视觉性爬行动物，且好奇心也是人的天性好奇时会主动探索算是翻转式学习的一种，编码是记忆过程。另外你可能对记忆中某一刻的感觉记得很清楚，然而忘记了内容，人或许也是感觉爬行动物。巩固，可
VSCode使用Jupyter完整指南配置机器学习环境 z日火校招学习日记 vscode jupyter 机器学习
接下来开始机器学习部分第一步配置环境：VSCode使用Jupyter完整指南1.安装必要的扩展打开VSCode，按Ctrl+Shift+X打开扩展市场，搜索并安装以下扩展：必装扩展：Python(Microsoft官方)-Python语言支持Jupyter(Microsoft官方)-Jupyternotebook支持Pylance(Microsoft官方)-Python智能提示和语法检查推荐扩展：
养老院管理系统基于SpringBoot的养老院管理系统系统设计与实现（源码+论文+部署讲解等）
博主介绍：✌全网粉丝60W+,csdn特邀作者、Java领域优质创作者、csdn/掘金/哔哩哔哩/知乎/道客/小红书等平台优质作者，计算机毕设实战导师，目前专注于大学生项目实战开发,讲解,毕业答疑辅导，欢迎高校老师/同行前辈交流合作✌技术栈范围：SpringBoot、Vue、SSM、Jsp、HLMT、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习、单片机
AI产品经理成长记《零号列车》第一集邂逅0XAI列车黑客思维者 AI产品经理养成人工智能 AI产品经理大模型智能体
《零号列车》绝非传统意义上的AI产品经理教程——它是我沉淀二十多年跨行业数字化转型与工业4.0实战经验后，首创的100集大型小说体培养指南。那些曾在千行百业验证过的知识与经验，不再是枯燥的文字堆砌，而是化作一场沉浸式的学习旅程。这里没有生硬的理论灌输，而是用跌宕起伏的故事情节，串联起AI技术的底层逻辑。你会跟着角色的脚步推进剧情，在不知不觉中吃透机器学习、大模型应用等专业概念；更有深入浅出的技术拆
人工智能时代下的数据新职业：新兴工作岗位版图研究司南锤 economics 人工智能
目录摘要第一章：AI驱动的数据价值链重构1.1从“沉睡金矿”到“流动的血液”：数据作为核心经济资产的激活1.2知识的新经济学：零边际成本革命1.3AI作为新的“操作系统”：重塑产业竞争格局第二章：基石层：数据准备与质量保障中的角色2.1数据标注与标签领导力：数据标注经理/主管2.2“地面真实”的守护者：AI数据质量专家第三章：技术核心层：构建AI与机器学习全生命周期的工程角色3.1AI生产线架构师
MATC：通过数学推理和图表还原增强视觉语言预训练 AI专题精讲模型加速人工智能 AI技术应用多模态视觉语言
温馨提示：本篇文章已同步至"AI专题精讲"MATC：通过数学推理和图表还原增强视觉语言预训练摘要视觉语言数据，如图表、图形和信息图，在人类世界中无处不在。然而，现有的最先进的视觉语言模型在这些数据上的表现并不理想。我们提出了MATCHA（数学推理与图表去渲染预训练），旨在增强视觉语言模型在联合建模图表/图形与语言数据方面的能力。具体而言，我们提出了几个预训练任务，涵盖了图形解构和数值推理，这些是视
Python领域制造业的Python应用 Python编程之道 Python编程之道 python 开发语言 ai
Python在制造业中的应用：从自动化到智能制造关键词：Python、制造业、工业自动化、数据分析、机器学习、物联网、智能制造摘要：本文深入探讨Python编程语言在制造业中的广泛应用。从基础的自动化脚本到复杂的智能制造系统，Python凭借其丰富的库生态系统和易用性，正在重塑现代制造业。我们将分析Python在制造业中的核心应用场景，包括设备监控、质量控制、预测性维护和供应链优化等，并通过实际案
【机器学习】探索未来科技的前沿：人工智能、机器学习与大模型 AIGC零基础入门小白 AI大模型大模型教程人工智能机器学习科技 AI大模型 AIGC AI教程大模型教程
文章目录引言一、人工智能：从概念到现实1.1人工智能的定义1.2人工智能的发展历史1.3人工智能的分类1.4人工智能的应用二、机器学习：人工智能的核心技术2.1机器学习的定义2.2机器学习的分类2.3机器学习的实现原理2.4机器学习的应用2.5机器学习的示例代码2.6解释代码三、大模型：推动AI前沿发展的关键技术3.1大模型的定义3.2大模型的发展历程3.3深度学习与神经网络3.4大模型的优势与挑
基于YOLOv8的火灾智能检测系统设计与实现斟的是酒中桃深度学习人工智能 pyqt yolo
在各类安全事故中，火灾因其突发性强、破坏力大，一直是威胁人们生命财产安全的重大隐患。传统的火灾检测方式多依赖烟雾传感器、温度传感器等，存在响应滞后、易受环境干扰等问题。随着深度学习技术的飞速发展，基于计算机视觉的火灾检测方法凭借其实时性强、检测范围广等优势，逐渐成为研究热点。本文将简单介绍一款基于深度学习的火灾智能检测系统的设计与实现过程。一、系统整体设计本火灾智能检测系统旨在通过深度学习技术实现
人工智能入门指南：从基础概念到实际应用
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。https://www.captainbed.cn/north文章目录1.**人工智能的基本概念**1.1什么是人工智能？1.2人工智能的分类2.**人工智能的核心技术**2.1机器学习（MachineLearning）2.1.1机器学习的类型2.1.2机器学习流程2.2深度学习（DeepLearni
Java与机器学习的邂逅：Weka框架入门指南墨夶 Java学习资料1 java 机器学习数据挖掘
在这个数据驱动的时代，机器学习已经成为各行业创新和优化的关键技术。而Java，作为一门成熟且广泛应用的编程语言，在企业级应用开发中占据着重要地位。将二者结合起来，利用Java实现机器学习算法，不仅可以充分发挥其强大的生态系统优势，还能为开发者提供一个高效、稳定的开发环境。今天，我们将带您走进Java与机器学习的世界，探索如何使用Weka这一著名的机器学习库来开启您的智能之旅。Weka简介及其优势什
机器学习基础：从数据到智能的入门指南
一、何谓机器学习在我们的日常生活中，机器学习的身影无处不在。当你打开购物软件，它总能精准推荐你可能喜欢的商品；当你解锁手机，人脸识别瞬间完成；当你使用语音助手，它能准确理解你的指令。这些背后，都离不开机器学习的支撑。机器学习是一门让计算机能够从数据中学习并改进的学科。随着传感器技术的飞速发展，我们身边充满了各种传感器，如手机中的摄像头、麦克风，交通监控中的传感器等，它们收集了海量的数据。这些数据就
Datawhale X 魔塔 Ai夏令营 --深度学习基础
一、局部极小值与全局极小值全局极小值：在损失函数的整个定义域内，损失值最小的点。这是我们在训练深度学习模型时希望找到的点，因为它代表着模型的最佳性能。局部极小值：在损失函数的一个局部区域内，损失值达到最小，但在整个函数定义域内可能不是最小的。当优化算法陷入局部极小值时，它可能会误以为已经找到了全局最优解，从而停止搜索。局部极小值的检测两种直观的方法来检测局部极小值：可视化方法：对于低维问题，我们可
Unet源码实现（pytorch） wyn20001128 pytorch 人工智能 python
U-Net是一种用于生物医学图像分割的卷积神经网络架构。它通过引入一种新颖的网络结构和训练策略解决了传统方法在数据量不足时面临的挑战。U-Net的主要思想是利用数据增强技术来高效利用有限的标注样本，并通过独特的网络设计来提高分割精度。主要贡献U-Net的主要贡献包括：1、数据增强策略：使用随机弹性变形和其他形式的数据增强来增加训练数据的多样性，从而在有限的数据集上训练出更强大的模型。2、U形网络结
深度学习模块实践手册（第十二期）加油吧zkf 目标检测目标检测模块解析与实践深度学习人工智能计算机视觉目标检测 python
56、Ghost模块论文《GhostNet:MoreFeaturesfromCheapOperations》1、作用：Ghost模块是一种轻量级的特征提取模块，旨在通过廉价操作生成更多特征图，减少计算量的同时保持模型性能。传统卷积神经网络在生成特征图时存在大量冗余计算，Ghost模块通过将特征图生成过程分解为两个步骤，有效减少了计算复杂度，特别适合移动端和嵌入式设备部署。2、机制Ghost模块的机
DETR革命：目标检测的Transformer时代加油吧zkf 目标检测 YOLO python 开发语言人工智能图像处理
《DETR从0到1：目标检测Transformer的崛起》为什么会有DETR？在深度学习目标检测发展史上，2014~2019年几乎被基于卷积神经网络（CNN）的检测器统治：两阶段：FasterR-CNN、MaskR-CNN单阶段：YOLO、SSD、RetinaNet这些检测器虽然效果强大，但背后依赖：✅Anchor（先验框）✅NMS（非极大值抑制）✅特征金字塔、手工设计问题：结构复杂、调参困难、不
深度学习模块实践手册（第十一期）加油吧zkf 目标检测目标检测模块解析与实践深度学习人工智能计算机视觉目标检测 python
46、缩放点积注意力模块论文《AttentionIsAllYouNeed》1、作用：缩放点积注意力（ScaledDot-ProductAttention）是Transformer模型的核心组件，旨在解决序列建模中长距离依赖关系捕捉的问题。传统的循环神经网络（RNN）在处理长序列时存在梯度消失或爆炸的问题，且并行性较差。该模块通过计算查询（Query）、键（Key）和值（Value）之间的相似度，实
【Git】git lfs (Large File Storage)-管理大文件晴雨日记 Git git
GitLFS(LargeFileStorage)是Git的一个扩展，用于高效管理大文件（如图像、音频、视频、数据集、二进制文件等）。它能解决传统Git在处理大文件时面临的核心问题：仓库体积急剧膨胀、克隆和拉取操作变得极其缓慢。传统Git处理大文件的痛点：仓库膨胀：每次修改大文件，即使只改了一点，Git也会存储整个文件的新副本。历史记录中积累多个版本会快速耗尽磁盘空间。克隆/拉取缓慢：克隆或拉取仓库
物流3D工业相机：解锁自动化物流新纪元
在当今工业4.0浪潮中，物流自动化已成为企业提升效率、降低成本的战略核心。作为工业自动化领域的先锋，迁移科技凭借其先进的3D工业视觉技术，正重塑物流场景的运作模式。本文将从品牌介绍出发，深入剖析物流3D工业相机的应用价值，结合真实案例，揭示其如何从基础功能延伸至产业价值，助力企业实现智能化转型。迁移科技，工业视觉的引领者迁移科技成立于2017年，作为行业领先的3D工业相机和3D视觉系统供应商，已累
3D Gaussian Splatting (3DGS) 从入门到精通：安装、训练与常见问题全解析
3DGaussianSplatting(3DGS)从入门：安装、训练与常见问题全解析3DGaussianSplatting(3DGS)作为一种新兴的实时神经渲染技术，以其惊人的渲染速度和高质量的视觉效果迅速获得了社区的关注。然而，从环境配置到数据准备，再到模型训练和结果导出，整个流程中充满了各种可能令人困惑的“坑”。本文旨在为您提供一份全面的3DGS安装与使用指南，汇总了从环境搭建到最终结果产出的
【I3D 2024】Deblur-GS: 3D Gaussian Splatting from Camera Motion Blurred Images __星辰大海__ 论文阅读计算机视觉算法人工智能
文章目录1.李群与李代数2.相机运动模糊建模3.相机运动轨迹近似3.1.线性插值3.2.三次样条插值3.3.K阶贝塞尔曲线插值1.李群与李代数参考博客：视觉SLAM十四讲-李群与李代数。2.相机运动模糊建模运动模糊产生的原因是：相机在曝光期间捕捉到了移动的物体或自身发生了移动，导致场景中某些像素在成像过程中不是来自单一点，而是多个位置的光线的混合。假设在时间[t0,t0+T][t_0,t_0+T]
神经网络项目--基于FPGA的AI简易项目（1-9图片数字识别）霖12 深度学习 pytorch 神经网络 fpga开发人工智能机器学习
1.训练MNIST模型importtorch#导入pytorch核心库importtorch.nnasnn#神经网络模块，如卷积层importtorch.optimasoptim#优化器fromtorchvisionimportdatasets,transforms#数据集与图像预处理工具#定义CNN模型classSimpleCNN(nn.Module):#PyTorch库中所有神经网络的“基础模
基于NanoDet的健身姿势纠正系统开发 YOLO实战营人工智能 NanoDet 深度学习计算机视觉 ui
1.引言在现代健身行业中，正确的运动姿势至关重要，不仅能提升训练效果，还能预防运动损伤。尤其是在进行一些高强度的力量训练时，如深蹲、俯卧撑等，错误的姿势可能导致肌肉不平衡或关节损伤。传统的健身姿势纠正方式依赖教练的人工指导，但随着人工智能技术的发展，使用计算机视觉和深度学习技术来进行姿势纠正，逐渐成为一种高效且可扩展的解决方案。本文将详细介绍如何基于NanoDet（一个轻量化目标检测模型）开发一个
大模型算法工程师技术路线全解析：从基础到资深的能力跃迁 Mr.小海大模型算法数据挖掘人工智能机器学习深度学习机器翻译 web3
文章目录大模型算法工程师技术路线全解析：从基础到资深的能力跃迁一、基础阶段（0-2年经验）：构建核心知识体系与工程入门数学与机器学习基础编程与深度学习框架NLP与Transformer入门二、进阶阶段（2-4年经验）：深化模型技术与工程落地能力大模型预训练与微调技术预训练原理：数据与任务的协同设计微调工具：参数高效适配与工程优化对齐实践：价值观优化与实证效果分布式训练与框架工具并行策略：多维度协同
Go与Python在数据管道与分析项目中的抉择：性能与灵活性的较量真智AI 人工智能 python go
你正在设计一个全新数据管道或启动一个分析项目，此时你或许正在思考该选择Python还是Go。五年前，这甚至不是个值得讨论的问题——你会毫不犹豫地选择Python，故事到此为止。然而，近年来Go在数据领域，尤其是在数据基础设施和实时处理方面，正逐渐被更多人采用。实际上，这两种语言都已在现代数据技术栈中找到了各自的定位。Python依然非常适合机器学习和数据分析，而Go则逐步成为高性能数据基础设施的首
Python爬虫实战：从新浪财经爬取股票新闻的完整实现 Python爬虫项目 python 爬虫开发语言数据分析 php
第一部分：爬虫概述1.1什么是爬虫？爬虫是指通过程序模拟浏览器的行为，自动化地抓取网络上的数据。通过爬虫技术，能够从各种网站上提取信息，广泛应用于数据采集、数据分析、机器学习等领域。1.2新浪财经简介新浪财经是中国最大的财经信息平台之一，提供股票、基金、债券、外汇等多方面的财经新闻和数据。在股票领域，新浪财经提供了大量的股票行情、实时数据、新闻报道等信息，因此爬取新浪财经的股票新闻对于投资分析和决
C#进行串口应用开发如何处理串口的异常情况 openwin_top c#串口应用开发问题系列 c#开发语言串口通讯上位机
python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位C#视觉应用开发问题系列c#串口应用开发问题系列microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析在C#中进行串口应用开发时，处理串口的异常情况是非常重要的。常见的串口异常包括端口不可用、数据传输错误、超时等
AI 智能运维，重塑大型企业软件运维：从自动化到智能化的进阶实践 AI、少年郎人工智能运维自动化
一、引言：企业软件运维的智能化转型浪潮在数字化转型加速的背景下，大型企业软件架构日益复杂，微服务、多云环境、分布式系统的普及导致传统运维模式面临效率瓶颈。AI技术的渗透催生了智能运维（AIOps）的落地，通过机器学习、大模型、智能Agent等技术，实现从"人工救火"到"智能预防"的范式转变。本文结合头部企业实践，解析AI在运维领域的核心应用场景、技术架构及未来趋势，特别针对基础运维中流程重构、技术
Spring AI 概述与功能简介 drebander AI 编程 spring 人工智能 java
SpringAI是一个由Spring团队开发的开源框架，旨在为人工智能（AI）和机器学习（ML）提供一个成熟且高效的开发平台。它将Spring生态系统的设计理念应用于AI开发，尤其强调模块化、可移植性以及简洁的集成。SpringAI提供了丰富的功能，涵盖从AI模型的调用到与数据库的集成等多个方面，帮助开发者构建和管理AI驱动的应用程序。1.SpringAI背景SpringAI的背景源于Spring
在二分类任务中如何处理包含中文的类别特征 Dush32 分类数据挖掘人工智能机器学习数据分析
在机器学习中，处理类别特征（CategoricalFeatures）是常见的任务，特别是在中文数据中，很多类别特征如省份、城市等都是字符串类型。如何将这些类别变量转换为模型可以理解的数值格式，是每个数据科学家都必须面对的挑战。在这篇文章中，我们将探讨两种常见的类别特征编码方法：astype('category')和LabelEncoder，并比较它们在二分类任务中的效果。我们以“省份”这一类别特征
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f

【今日CV 计算机视觉论文速览 第130期】Thu, 13 Jun 2019

Interesting:

Daily Computer Vision Papers

你可能感兴趣的:(视觉,深度学习,机器学习,计算机视觉,图像提升,数据集,Papers,Computervision,paper)

【今日CV 计算机视觉论文速览第130期】Thu, 13 Jun 2019