hitrjj

【今日CV 计算机视觉论文速览第115期】Fri, 10 May 2019

今日CS.CV 计算机视觉论文速览
Fri, 10 May 2019
Totally 57 papers
?上期速览✈更多精彩请移步主页

Interesting:

?****手持设备多帧超分辨, 手机上的相机与单反相比传感器小、孔径小像素少使得成像质量不如单反、信噪比也比较低。这篇文章中研究人员提出直接从彩色滤光阵列（color filter arrays，CFAs）中的原始图像序列得到完整的RGB图像，并有效处理了手的震颤，并在移动、遮挡、场景变化的情况下取得了很好的效果，同时在移动端处理12M照片只需要100ms。(from google research)

速度和精度分析：

一些惊艳的结果：

?基于深度注意力采样模型处理宏像素,通过注意力机制模块采样需要处理的位置，代替先前处理大图像的下采样方法，使用图像片作为输入。使得大图像的原分辨率处理成为可能。基于此研究人员推导出了无偏估计器和可以用SGD训练的模型。 (from 洛桑理工)

?**基于自编码器点云有损压缩算法, 第一个直接处理点云数据的压缩模型。基于自编码器实现。(from 北大)
点云压缩架构，从n个点压缩到m个点：

提出的压缩方法码率更低峰值信噪比更高：

entropy_bottleneck:https://tensorflow.github.io/compression/docs/entropy_bottleneck.html

?***Deep Closest Point学习点云注册配准的表示, 为了学习出两个点云间的刚体选择方程，克服ICP陷入局域最小值的局限，研究人员提出了利用深度网络实现点云配准的方法DCP。模型包含点云嵌入网络和注意里模块结合的点云生成阶段实现粗配准，随后利用可差分的奇异值分解层抽取最后的刚体变化。并在ModelNet40上进行训练.具有泛化性，全局特征抽取性能好(from MIT)
模型架构包含了转换器结构：

一些点云配准的效果：

ref:ICPs和PointNetLK Transformer
code:https://github.com/WangYueFt/dcp
author:https://people.csail.mit.edu/yuewang/
Geometric Data Processing group:https://groups.csail.mit.edu/gdpgroup/
prof solomon:https://people.csail.mit.edu/jsolomon/

?提出识别和检索方法对于单视角三维重建, 研究人员发现现有的网络模型都是基于编码器来从单图像恢复三维结构的，但利用图像分类（聚类）和检索来替换了发现得到的重建结果更好。统计上图像分类和自编码器不可区分，意味着自编码器在做分类而不是重建。研究人员对此进行了深入研究并提出了改进的方向。(from 弗莱堡大学 intel)
We show that encoder-decoder methods are statistically indistinguishable from these baselines, thus indicating that the current state of the art in single-view object reconstruction does not actually perform reconstruction but image classification. We identify aspects of popular experimental procedures that elicit this behavior and discuss ways to improve the current state of research.

不同方法不确定度与IoU与训练样本间的关系：

dataset:ShapeNet,[ShapeNet Core55.](Li Yi, Lin Shao, Manolis Savva, et al. Large-scale 3D shape reconstruction and segmentation from ShapeNet Core55.CoRR, abs/1710.06104, 2017. 3)
ref:***Open3D：Qian-Yi Zhou, Jaesik Park, and Vladlen Koltun. Open3D: Amodern library for 3D data processing.
Open3D, doc

?D2-Net局域特征的联合描述与检测网络, 提出了一种在极差的图像情况下找到像素级的特征描述子，利用卷积网络同时实现了稠密特征描述和特征检测。通过后处理得到的关键点比传统方法具有更鲁棒的特征。这种方法可以有效用于SFM等重建任务。(from DI, ENS Inria ETH Zurich )
一些很难匹配的结果依然效果很好：

文章提出的方法，第二种：

检测和描述网络的结构：

与相关方法的比较：

code:https://github.com/mihaidusmanu/d2-net
dataset: Aachen Day-Night localization dataset InLoc indoor localization benchmark

?Cycle-IR图像重定向,针对图像重定向（缩略图）重新调整大小的任务（图像缩略图技术，在不引入大畸变情况下改变尺寸来适应各种尺寸平面），研究人员提出了基于深度学习的方法，其想法来自于如果一个拉伸变形后的图像可以恢复出原始图像，那么意味着它是有效的retarget。同时通过感知连续损失保持图像前传的连续性。并提出了retarget网络IRNet，加入了空间和通道注意力模块，可以识别出视觉重要性区域。(from 复旦)
模型思想和架构图：

空间注意力模块和通道注意力模块：

一些结果显示本方法的有效性，可以消除畸变并保持比例结构：

相关方法比较：

code：https://github.com/mintanwei/Cycle-IR
RetargetMe dataset：http://people.csail.mit.edu/mrub/retargetme/
ref:https://blog.csdn.net/piaomiaoju/article/details/9165583
A Comparative Study of Image Retargeting：http://people.csail.mit.edu/mrub/papers/retBenchmark.pdf

?ROSA对抗样本鲁棒的显著性目标检测, 通过噪声的引入来摧毁对抗扰动，并在这一噪声的基础上进行有效的显著性预测,框架中还包含了部分分割来保持边缘摧毁对抗扰动和报纸内容。(from 香港大学)

加入本方法后对于对抗样本处理的稳定性：

?PPGNet, 提出了一种检测线元素的网络，通过图来描述线的交点、线和关系，并利用PPGNet来抽取了图像周的线元素。(from 上海科技大学)
在图表示中，交点和连线可以更为容易有效的表示出来。

模型的架构图

dataset:g York Urban and Wireframe
CVPR2019 code:https://github.com/svip-lab/PPGNet

?***移动端视觉模型的加速技术综述, 综述了适用于移动环境的架构、操作算法，基于强化学习和递归网络改进模型精度速度的方法，最后回顾了软硬件架构和芯片级移动端hpc的发展现状。(from 华为)
一些常用的移动端深度学习计算框架：

?Learning to Evolve, 将进化算法引入深度强化学习来得到比随机方法更好的策略，充分利用了进化中的变异和组合方式来实现。(from TUM)

?JD landmark, 106个人脸关键点定位数据集,包含约16000张人脸数据(from 京东AI 百度VIS，中科大美图科大讯飞Iflytekco)
数据样本和106个人脸关键点：

架构和评测方法(3.2部分包含了比赛参赛者的一些模型数据)：

project:https://facial-landmarks-localization-challenge.github.io/
68关键点：300-W, 300-VW and Menpo challenges
300W [11, 10, 16], composed of LFPW [1],AFW [9], HELEN [7] and IBUG [12],
https://ibug.doc.ic.ac.uk/

?TE141K and TETGANs, 艺术字体迁移数据集和基准,包含了141081对艺术字体变形配对数据，共152中设计效果。最后比较了14中风格迁移模型，提出了自己的TET-GAN。(from 北大)

TETGAN的架构图：

14种相关方法的对比：

project:https://daooshee.github.io/TE141K/ could find emails

?OpenEDS, 通过虚拟显示头盔收集的眼部数据集，包含了152个对象，12759张全标记图像和252690张无标记图像。还包括了91200帧序列，143对左右眼点云数据。too那个是提供了对于瞳孔、视网膜、巩膜和背景的语义分割基准。 (from 伦敦大学学院)
瞳孔标注：

眼部标注信息：

一些实验的分割结果：

project:https://research.fb.com/programs/openeds-challenge

Daily Computer Vision Papers

Learning Interpretable Features via Adversarially Robust Optimization
Authors Ashkan Khakzar, Shadi Albarqouni, Nassir Navab
事实证明，神经网络在医学应用中的分类和诊断方面非常成功。然而，决策过程中的模糊性和学习特征的可解释性是一个值得关注的问题。在这项工作中，我们提出了一种改进神经网络分类器的特征可解释性的方法。最初，我们提出了一种基线卷积神经网络，其在准确性和弱监督定位方面具有最先进的性能。随后，修改损失以将对抗性示例的稳健性整合到训练过程中。在这项工作中，通过使用地面实况边界框评估弱监督定位来量化特征可解释性。还可以使用类激活图和显着性图来直观地评估可解释性。该方法适用于NIH ChestX ray14，这是目前最大的胸部x射线数据集。我们证明了对抗性强大的优化范例在数量上和视觉上都提高了特征可解释性。

Interactive Image Generation Using Scene Graphs
Authors Gaurav Mittal, Shubham Agrawal, Anuva Agarwal, Sushant Mehta, Tanya Marwah
近年来，在基于场景的文本描述中生成图像的领域中已经见证了一些令人兴奋的发展。这些方法主要集中在从静态文本描述生成图像，并且仅限于一次性生成图像。他们无法基于增量添加的文本描述以交互方式生成图像，这些描述更直观且类似于我们描述图像的方式。我们提出了一种基于场景描述场景图的一系列图形来递增地生成图像的方法。我们提出了一种循环网络架构，其保留在先前步骤中生成的图像内容，并根据新提供的场景信息修改累积图像。我们的模型利用Graph Convolutional Networks GCN来满足可变大小的场景图以及Generative Adversarial图像转换网络，以生成逼真的多目标图像，而无需在训练期间进行任何中间监督。我们使用Coco Stuff数据集进行实验，该数据集具有多个对象图像以及描述视觉场景的注释，并且表明我们的模型明显优于同一数据集上的其他方法，从而为增量增长的场景图生成视觉上一致的图像。

Show, Price and Negotiate: A Hierarchical Attention Recurrent Visual Negotiator
Authors Amin Parvaneh, Ehsan Abbasnejad, Qi Wu, Javen Shi
作为卖方或买方的谈判是在线购物的基本和复杂方面。对于智能代理来说是具有挑战性的，因为它需要提取和利用来自多个源的信息，例如照片，文本和数字，2预测产品的合适价格以达到最佳协议，3表达意图以自然语言的价格和4个一致的定价为条件。传统的对话系统不能很好地解决这些问题。例如，我们认为价格应该是谈判的驱动因素，并且可以由代理商理解。但是传统上，价格被简单地视为单词标记，即作为句子的一部分并且与其他单词共享相同的单词嵌入空间。为此，我们提出了我们的Visual Negotiator，它包含一个端到端的深度学习模型，可以预测初始协议价格并在生成引人注目的支持对话框时对其进行更新。对于1，我们的视觉谈判者利用注意机制从图像和文本描述中提取相关信息，并将价格和后来提炼的价格作为系统的几个阶段的单独重要输入，而不是简单地成为句子的一部分2，我们使用注意力来学习价格嵌入来估计初始值。随后，我们以编码器解码器的方式生成支持对话框，利用价格嵌入。此外，我们使用分层递归模型，该模型学习在一个级别上细化价格，同时在另一个级别生成支持对话框。对于这种分层模型，该层次模型提供一致的定价。根据经验，我们证明我们的模型在协议价格，价格一致性和语言质量方面显着改善了CraigslistBargain数据集的协商。

Fully Parallel Architecture for Semi-global Stereo Matching with Refined Rank Method
Authors Yiwu Yao, Yuhua Cheng
提出了具有精细秩方法的高效半全局匹配SGM的视差级完全并行架构。改进的SGM算法采用非参数统一秩模型实现，该模型是秩滤波器AD和秩SAD的组合。通过将局部图像结构的约束引入秩方法，秩SAD是一种新颖的定义。因此，具有Rank SAD的统一秩模型可以弥补Rank过滤器AD的缺陷。实验结果表明，精细SGM算法具有良好的主观质量和客观性能。 SGM硬件实现的完全并行结构采用合理的差异化策略。数据流的并行性允许具有可接受的最大频率的特定应用的适当吞吐量。 RTL仿真和综合的结果确保了所提出的并行架构适用于VLSI实现。

Tuned Inception V3 for Recognizing States of Cooking Ingredients
Authors Kin Ng
烹饪是一项必须每天进行的任务，因此这是许多人认为理所当然的活动。对于准备膳食的人来说很自然，但对于机器人来说，即使准备一个简单的三明治也会导致极其艰巨的任务。在机器人技术中，设计厨房机器人很复杂，因为烹饪依赖于各种物理相互作用，这些相互作用取决于不同的条件，例如环境的变化，顺序指令的正确执行，以及运动，以及检测烹饪成分的不同状态可以为他们正确的把握和操纵。在本文中，我们关注状态识别的挑战，并提出一个精细调整的卷积神经网络，通过重用Inception V3预训练模型来利用转移学习。该模型在由11个状态组成的烹饪数据集上训练和验证，例如去皮，切丁，整个等。本文提出的工作可以为找到解决问题的潜在解决方案提供见解。

Processing Megapixel Images with Deep Attention-Sampling Models
Authors Angelos Katharopoulos, Fran ois Fleuret
由于计算和存储器限制，现有的深层架构不能在诸如百万像素图像的非常大的信号上操作。为了解决这一局限，我们提出了一种完全可区分的端到端可训练模型，该模型仅对全分辨率输入图像的一小部分进行采样和处理。

Bilinear discriminant feature line analysis for image feature extraction
Authors Lijun Yan, Jun Bao Li, Xiaorui Zhu, Jeng Shyang Pan, Linlin Tang
提出了一种新的双线性判别特征线分析BDFLA用于图像特征提取。最近的特征线NFL是强大的分类器。最近引入了一些基于NFL的子空间算法。在大多数基于NFL的经典子空间学习方法中，输入样本是向量。对于图像分类任务，应首先将图像样本转换为矢量。该过程引起高计算复杂性并且还可能导致样品的几何特征的损失。提出的BDFLA是基于矩阵的算法。它旨在最小化类内散射，并基于二维2D NFL最大化类散射。两个图像数据库的实验结果证实了有效性。

Visualizing the Consequences of Climate Change Using Cycle-Consistent Adversarial Networks
Authors Victor Schmidt, Alexandra Luccioni, S. Karthik Mukkavilli, Narmada Balasooriya, Kris Sankaran, Jennifer Chayes, Yoshua Bengio
我们提出了一个项目，旨在使用Cycle Consistent Adversarial Networks CycleGAN生成描绘气候变化准确，生动和个性化结果的图像。通过在极端天气事件之前和之后的房屋的街景图像上训练我们的CycleGAN模型，例如洪水，森林火灾等，我们学习了一个映射，然后可以应用于尚未经历这些事件的位置的图像。这种视觉转换与气候模型预测相结合，以评估长期50年气候相关事件的可能性和类型，以便在观众心目中更接近未来。我们项目的最终目标是通过利用气候模型预测，在保持科学可信度的同时，通过更加深刻地了解气候变化的影响，使个人能够对气候未来做出更明智的选择。

Machine Vision in the Context of Robotics: A Systematic Literature Review
Authors Javad Ghofrani, Robert Kirschne, Daniel Rossburg, Dirk Reichelt, Tom Dimter
机器视觉对机器人技术至关重要，因为它依赖于视觉传感器（如自动移动机器人和智能生产系统）的输入。为了创建明天的智能家居和系统，对系统研究领域当前挑战的概述将用于确定以系统和可重复的方式创建的更多可能方向。在这项工作中，进行了系统的文献回顾，涵盖了过去10年的研究。我们从四个数据库中筛选了172篇论文，并选择了52篇相关论文。虽然稳健性和计算时间大大提高，但遮挡和光照变化仍然是最大的问题。根据最近出版物的数量，我们得出结论，观察到的领域与研究界具有相关性和关注性。该领域的许多领域出现了进一步的挑战。

Human Activity Recognition Using Visual Object Detection
Authors Schalk Wilhelm Pienaar, Reza Malekian
视觉人类活动识别HAR和与其他传感器的数据融合可以帮助我们跟踪地下矿工的行为和活动，几乎没有阻碍。现有模型，例如Single Shot Detector SSD，在上下文COCO数据集中的公共对象上训练，用于检测矿工的当前状态，例如受伤矿工与非受伤矿工。 Tensorflow用于实现机器学习算法的抽象层，虽然它使用Python来处理节点和张量，但实际算法在C库上运行，在性能和开发速度之间提供了良好的平衡。本文进一步讨论了用于确定机器学习准确性的评估方法，以及通过数据融合提高采矿环境中人们检测到的活动状态的准确性的方法。

Accurate Visual Localization for Automotive Applications
Authors Eli Brosh, Matan Friedmann, Ilan Kadar, Lev Yitzhak Lavy, Elad Levi, Shmuel Rippa, Yair Lempert, Bruno Fernandez Ruiz, Roei Herzig, Trevor Darrell
准确的车辆定位是建立有效的车辆到车辆网络和汽车应用的关键一步。然而，诸如移动电话提供的标准等级GPS数据通常是嘈杂的并且在许多城市区域中表现出显着的定位误差。从图像精确定位的方法通常依赖于基于结构的技术，因此在规模上受到限制并且计算成本高。在本文中，我们提出了一种可扩展的可视化本地化方法，旨在实现实时性能。我们提出了一种混合粗到精的方法，利用视觉和GPS定位线索。我们的解决方案使用自我监督的方法来学习紧凑的道路图像表示。该表示使得能够进行有效的视觉检索并提供粗略的定位提示，其与车辆自我运动融合以获得高精度的位置估计。作为评估我们视觉定位方法性能的基准，我们引入了一个新的大型驾驶数据集，该数据集基于从大规模连接的仪表板凸轮网络获得的视频和GPS数据。我们的实验证实，我们的方法在挑战城市环境方面非常有效，将定位误差降低了一个数量级。

A note on 'A fully parallel 3D thinning algorithm and its applications'
Authors Tao Wang, Anup Basu
3D细化算法逐层侵蚀3D二值图像以提取骨架。本文对Ma和Sonka的细化算法，一种完全并行的3D细化算法及其应用进行了修正，无法保持三维物体的连通性。我们从Ma和Sonka的算法开始，并检查其连通性保护的验证。我们的分析导致一组不同的删除模板，可以保持3D对象的连接。

Agnostic Lane Detection
Authors Yuenan Hou
车道检测是自动驾驶中的一项重要但具有挑战性的任务，其受许多因素的影响，例如，光照条件，由其他车辆引起的遮挡，道路上的无关标记以及车道固有的长而薄的特性。传统方法通常将车道检测视为语义分段任务，其将类标签分配给图像的每个像素。这种表述很大程度上取决于车道数量是预定义和固定的假设，并且没有发生车道变换，这并不总是成立。为了使车道检测模型适用于任意数量的车道和车道变换场景，我们采用实例分割方法，首先区分车道和背景，然后将每个车道像素分类到每个车道实例中。此外，利用多任务学习范例来更好地利用结构信息，并且使用特征金字塔结构来检测极薄的通道。三种流行的通道检测基准，即TuSimple，CULane和BDD100K，用于验证我们提出的算法的有效性。

Learning fashion compatibility across apparel categories for outfit recommendation
Authors Luisa F. Polania, Satyajit Gupte
本文解决了在用户对特定服装项目感兴趣的情况下生成完成服装的建议的问题。所提出的方法基于用于特征提取的暹罗网络，随后是用于学习时尚兼容性度量的完全连接的网络。由暹罗网络生成的嵌入增强了颜色直方图特征，这是由颜色在确定时尚兼容性中起重要作用所激发的。网络的训练被公式化为最大后验MAP问题，其中假设拉普拉斯分布用于暹罗网络的滤波器以促进稀疏性，并且假设矩阵变量正态分布用于度量网络的权重以有效地利用输入之间的相关性。每个完全连接层的单元。

OpenEDS: Open Eye Dataset
Authors Stephan J. Garbin, Yiru Shen, Immo Schuetz, Robert Cavin, Gregory Hughes, Sachin S. Talathi
我们提供了一个大规模的数据集，OpenEDS Open Eye Dataset，使用虚拟现实VR头戴式显示器拍摄的眼睛图像，该显示器安装有两个同步的眼镜摄像头，在受控照明下以200Hz的帧速率。该数据集是从从152个个体参与者收集的眼睛区域的视频捕获中编辑的，并且被分成4个子集，12,759个图像，其具有用于关键眼睛区域虹膜，瞳孔和巩膜的像素级注释ii 252,690个未标记的眼睛图像，iii 91,200个来自随机选择的帧持续时间为1.5秒的视频序列和静态143对左右点云数据，这些数据来自从子集中收集的眼部区域的角膜地形图，152个中的143个参与者。已经在OpenEDS上评估了基线实验，用于瞳孔，虹膜，巩膜和背景的语义分割任务，平均交叉联合mIoU为98.3。我们预计OpenEDS将为眼动追踪社区和更广泛的机器学习和计算机视觉社区的研究人员创造机会，以推进VR应用程序的眼动追踪状态。数据集可根据要求下载

Unsupervised automatic classification of Scanning Electron Microscopy (SEM) images of CD4+ cells with varying extent of HIV virion infection
Authors John M. Wandeto, Birgitta Dresp Langley
在数字图书馆中存档大量医学或细胞图像可能需要根据特定标准对随机分散的图像数据集进行排序，例如特定局部颜色的空间范围或显示生理结构，组织的不同有意义状态的对比内容，或以特定顺序的细胞，指示病理学的进展或衰退，或细胞结构对治疗的进行性反应。在这里，我们使用了我们早期工作中描述的基于自组织地图SOM，全自动和无监督的分类程序，并将其应用于CD4 T淋巴细胞的最小处理灰度和/或颜色处理的扫描电子显微镜SEM图像，所谓的辅助细胞具有不同HIV病毒粒子感染的程度。结果表明，训练后SOM输出中的量化误差允许在一系列图像中缩放空间大小和变化方向或局部像素对比度或颜色，其可靠性超过任何人类专家的可靠性。该过程易于实施且快速，并且代表了朝向低成本自动数字图像存档的有希望的步骤，其中人类操作员的干预最小。

Alignment-Free Cross-Sensor Fingerprint Matching based on the Co-Occurrence of Ridge Orientations and Gabor-HoG Descriptor
Authors Helala AlShehri, Muhammad Hussain, Hatim AboAlSamh, Qazi Emad ul Haq, Aqil M. Azmi
现有的自动指纹验证方法被设计为在假设安装相同的传感器用于登记和认证常规匹配的情况下工作。当使用一种基于接触的传感器进行登记而另一种基于接触的传感器用于认证交叉匹配或指纹传感器互操作性问题时，效率显着降低。指纹中的脊取向图案对于传感器类型是不变的。基于这一观察，我们提出了一种强健的指纹描述符，称为脊线方向Co Ror的共同出现，它对脊线方向的空间分布进行编码。利用该描述符，我们引入了一种有效的交叉匹配问题自动指纹验证方法。此外，为了增强该方法的鲁棒性，我们通过Gabor HoG描述符合并基于尺度的脊定向信息。将两个描述符与典型相关分析CCA融合，并使用城市街区距离计算两个指纹之间的匹配分数。所提出的方法是无对齐的并且可以处理匹配过程而无需注册步骤。两个基准数据库FingerPass和MOLF的强化实验显示了该方法的有效性，并揭示了其对现有技术方法的显着增强，如VeriFinger商业SDK，细节柱面代码MCC，带刻度的MCC和薄板样条TPS模型。拟议的研究将帮助安全机构，服务提供商和执法部门克服不同技术和交互类型的接触传感器的互操作性问题。

Inferring the Importance of Product Appearance: A Step Towards the Screenless Revolution
Authors Yongshun Gong, Jinfeng Yi, Dongdong Chen, Jian Zhang, Jiayu Zhou, Zhihua Zhou
如今，几乎所有的在线订单都是通过手机，平板电脑和电脑等屏蔽设备进行的。随着物联网物联网和智能家电的快速发展，越来越多的无屏智能设备，例如智能扬声器和智能冰箱，出现在我们的日常生活中。他们开辟了新的互动方式，可以为接触新客户和增加销售提供绝佳机会。然而，并非所有项目都适合无屏幕购物，因为一些项目外观在消费者决策中起着重要作用。典型的例子包括衣服，娃娃，包和鞋子。在本文中，我们的目的是推断每个项目在消费者决策中的重要性，并确定适合无屏购物的项目组。具体而言，我们将问题表述为分类任务，预测项目的外观是否对人们的购买行为产生重大影响。为了解决这个问题，我们从三个不同的视图中提取特征，即项目内在属性，项目图像和用户评论，并通过众包收集一组必要的标签。然后，我们提出了一个迭代半监督学习框架，其中包含三个精心设计的损失函数。我们对从在线零售巨头收集的真实世界交易数据集进行了大量实验

On Applying Machine Learning/Object Detection Models for Analysing Digitally Captured Physical Prototypes from Engineering Design Projects
Authors Jorgen F. Erichsen, Sampsa Kohtala, Martin Steinert, Torgeir Welo
虽然计算机视觉在过去十年中越来越受到计算机科学的关注，但很少有人将其用于工程设计研究。现有的数据集和技术使研究人员能够捕获和访问更多的观测和视频文件，因此分析正在成为一个限制因素。因此，本文正在研究机器学习的应用，即物体检测方法，以帮助分析物理定型。通过从早期开发项目访问来自850个原型的5950个图像的大型数字捕获物理原型数据集，作者研究了可用于分析该数据集的应用程序。作者使用物理原型图像的自定义图像集，从两个已知的框架（TensorFlow对象检测API和Darknet）中重新训练了两个经过预先训练的对象检测模型。结果，提出了四种训练模型的概念证明，其中两种模型用于检测基于木材的片材样品，两种模型用于检测包含微控制器的样品。所有模型都使用标准度量对象检测模型性能进行评估，并讨论了在工程设计研究中使用对象检测模型的适用性。结果表明，模型可以分别成功地分类材料的类型和预制组件的类型。但是，需要做更多的工作才能将对象检测模型完全集成到工程设计分析工作流程中。作者还推断，使用物体检测分析物理原型图像将大大减少在工程设计研究中分析大型数据集所需的工作量。

HAWQ: Hessian AWare Quantization of Neural Networks with Mixed-Precision
Authors Zhen Dong, Zhewei Yao, Amir Gholami, Michael Mahoney, Kurt Keutzer
模型大小和推理速度功率已经成为许多应用中神经网络部署的主要挑战。解决这些问题的有希望的方法是量化。然而，将模型均匀量化到超低精度会导致显着的精度降低。对此的新颖解决方案是使用混合精确量化，因为与其他层相比，网络的某些部分可能允许更低的精度。但是，没有系统的方法来确定不同层的精度。对于深度网络而言，强力方法是不可行的，因为混合精度的搜索空间是层数的指数。另一个挑战是在将模型量化为目标精度时用于确定逐块微调顺序的类似因子复杂度。在这里，我们介绍了Hessian AWare量化HAWQ，一种新颖的二阶量化方法来解决这些问题。 HAWQ允许基于层的Hessian谱自动选择每层的相对量化精度。此外，HAWQ基于二阶信息为量化层提供确定性微调顺序。我们使用ResNet20在Cifar 10上显示我们的方法的结果，使用Inception V3，ResNet50和SqueezeNext模型在ImageNet上显示我们的方法的结果。将HAWQ与现有技术进行比较表明，与DNAS引用wu2018混合相比，我们可以在ResNet20上实现8倍激活压缩比的类似更高精度，在ResNet50和Inception V3上使用多达14个较小型号可获得高达1倍的精度最近提出的RVQuant引用方法2018值和HAQ引用wang2018haq。此外，我们展示了我们可以将SqueezeNext量化为仅1MB的模型尺寸，同时在ImageNet上实现68以上的top1精度。

Measuring similarity between geo-tagged videos using largest common view
Authors Wei Ding, KwangSoo Yang, Kwang Woo Nam
本文提出了一种基于视频数据视场FoV发现相似轨迹的新问题。这个问题对于许多社会应用非常重要，例如对移动物体进行分组，对地理图像进行分类以及识别有趣的轨迹模式。先前的工作仅考虑空间位置或两个线段之间的空间关系。然而，这些方法显示了找到具有共同视图的类似移动对象的限制。在本文中，我们提出了一种新的算法，可以将空间位置和视点分组，以识别类似的轨迹。我们还提出了降低所提议工作的计算成本的新方法。使用真实世界数据集的实验结果表明，所提出的方法优于先前的工作并降低了计算成本。

Supervised Online Hashing via Hadamard Codebook Learning
Authors Mingbao Lin, Rongrong Ji, Hong Liu, Yongjian Liu
近年来，二进制代码学习，即a.k.a散列，在大规模多媒体检索中受到广泛关注。它旨在将高维数据点编码为二进制代码，因此可以通过汉明空间有效地近似原始高维度量空间。但是，大多数现有的散列方法采用离线批量学习，不适合处理带有流数据或新实例的增量数据集。相比之下，现有在线哈希的鲁棒性仍然是一个开放性问题，而有监督语义信息的嵌入几乎不会提高在线哈希的性能，这主要是由于监督学习中未知类别数的缺陷。在本文中，我们提出了一种在线哈希方案，称为Hadamard Codebook，基于在线哈希HCOH，旨在解决上述问题，以实现健壮和有监督的在线哈希。特别地，我们首先为每个类标签分配适当的高维二进制代码，该标签由Hadamard代码随机生成到每个类标签，该标签由Hadamard代码随机生成。随后，采用LSH根据哈希比特减少这种Hadamard码的长度，这可以在线调整预定义的二进制码，并在理论上保证语义相似性。最后，我们考虑随机数据采集的设置，这有利于我们的方法通过随机梯度下降SGD在线有效地学习相应的哈希函数。值得注意的是，所提出的HCOH可以嵌入有监督标签，并且不限于预定义的类别编号。对三种广泛使用的基准测试的广泛实验证明了所提出的方案优于现有技术方法的优点。

Improving Image-Based Localization with Deep Learning: The Impact of the Loss Function
Authors Isaac Ronald Ward, M. A. Asim K. Jalwana, Mohammed Bennamoun
这项工作制定了一个新的损失项，可以附加到仅RGB图像定位网络的损失函数，以改善其性能。当从图像回归相机的姿势时使用的常用技术是使用调谐的超参数作为系数将损失表示为位置和旋转误差的线性组合。在这项工作中，我们观察到旋转和位置的变化会相互影响捕获的图像，并且为了提高性能，网络丢失函数应包括一个结合位置和旋转误差的术语。为此，我们设计了一个几何损失项，它使用位置和旋转来考虑预测和地面真实姿势之间的相似性，并用它来增强现有的图像定位网络PoseNet。丢失项简单地附加到已经存在的图像定位网络的损失函数。与类似的管道相比，我们实现了室内场景网络定位精度的提高，中位数和旋转误差降低了9.64和2.99。

Deep AutoEncoder-based Lossy Geometry Compression for Point Clouds
Authors Wei Yan, Yiting shao, Shan Liu, Thomas H Li, Zhu Li, Ge Li
点云是一种基本的3D表示，广泛用于现实世界的应用，如自动驾驶。作为一种以复杂性和不规则性为特征的新开发的媒体格式，点云产生了对压缩算法的需求，该压缩算法比现有的编解码器更灵活。最近，自动编码器AE已经在许多视觉分析任务以及图像压缩中显示出它们的有效性，这激励我们在点云压缩中使用它。在本文中，我们提出了一种基于通用自动编码器的架构，用于有损几何点云压缩。据我们所知，它是第一个基于自动编码器的几何压缩编解码器，它直接将点云作为输入而不是体素网格或图像集合。与手工编解码器相比，这种方法可以更快地适应以前看不见的媒体内容和媒体格式，同时实现竞争性能。我们的架构包括基于点网的编码器，统一量化器，熵估计块和非线性合成变换模块。在点云的有损几何压缩中，结果表明，所提出的方法优于MPEG 3DG组在第125次会议上发布的第1类和第3类TMC13的测试模型，并且平均实现了73.15 BD速率增益。

Forecasting Pedestrian Trajectory with Machine-Annotated Training Data
Authors Olly Styles, Arun Ross, Victor Sanchez
行人轨迹的可靠预期对于自动驾驶车辆的操作是必不可少的，并且可以显着增强高级驾驶员辅助系统的功能。虽然在行人检测领域取得了重大进展，但由于行人的不可预测性和潜在有用特征的巨大空间，预测行人轨迹仍然是一个具有挑战性的问题。在这项工作中，我们提出了一种深度学习方法，用于使用单个车载摄像头进行行人轨迹预测。已经彻底改变计算机视觉其他领域的深度学习模型在轨迹预测方面的应用有限，部分原因是由于缺乏丰富的注释训练数据。我们通过引入可扩展的机器注释方案来解决缺少训练数据的问题，该方案使我们的模型能够使用大型数据集进行训练而无需人工注释。此外，我们提出动态轨迹预测器DTP，这是一种预测未来一秒钟的行人轨迹的模型。 DTP使用人工和机器注释数据进行训练，并预测线性模型未捕获的动态运动。实验评估证实了所提出模型的好处。

What Do Single-view 3D Reconstruction Networks Learn?
Authors Maxim Tatarchenko, Stephan R. Richter, Ren Ranftl, Zhuwen Li, Vladlen Koltun, Thomas Brox
用于单视图对象重建的卷积网络已经显示出令人印象深刻的性能并且已经成为研究的热门主题。所有现有技术通过具有编码器解码器网络的想法而联合，该编码器解码器网络执行关于输出空间的3D结构的非平凡推理。在这项工作中，我们设置了两种分别执行图像分类和检索的替代方法。这些简单的基线在质量和数量上都比现有技术方法产生更好的结果。我们示出编码器解码器方法在统计上与这些基线无法区分，因此指示单视图对象重建中的现有技术实际上不执行重建而是图像分类。我们确定了引发这种行为的流行实验程序的各个方面，并讨论了改善当前研究状态的方法。

Learning Loss for Active Learning
Authors Donggeun Yoo, In So Kweon
随着更多注释数据，深度神经网络的性能得到改善。问题是注释的预算是有限的。对此的一个解决方案是主动学习，其中模型要求人们注释其认为不确定的数据。已经提出了各种最近的方法来将主动学习应用于深度网络，但是大多数方法要么针对其目标任务而设计，要么对于大型网络而言计算效率低。在本文中，我们提出了一种新颖的主动学习方法，该方法简单但与任务无关，并且可以与深度网络一起高效地工作。我们将一个名为损耗预测模块的小参数模块附加到目标网络，并学习它以预测未标记输入的目标损失。然后，该模块可以建议目标模型可能产生错误预测的数据。这种方法与任务无关，因为无论目标任务如何，都可以从单一损失中学习网络。我们通过最近的网络架构，通过图像分类，对象检测和人体姿态估计来严格验证我们的方法。结果表明，我们的方法在任务上始终优于以前的方法。

Seesaw-Net: Convolution Neural Network With Uneven Group Convolution
Authors Jintao Zhang
在本文中，我们感兴趣的是提高利用倒置残差结构的卷积神经网络的表示能力。基于倒置残余结构Sandler等人的成功。 2018年和Interleaved Low Rank Group Convolutions Sun et al。 2018年，我们重新思考这两种神经网络结构模式，而不是NAS神经网络搜索方法Zoph和Le 2017 Pham等。 2018年刘等人。 2018b，我们引入了不均匀的点群组卷积，它为设计基本块提供了新的搜索空间，以在表示能力和计算成本之间获得更好的折衷。同时，我们提出了两种新颖的信息流模式，它们可以实现多组卷积层的跨组信息流，有或没有任何信道置换混洗操作。图像分类任务的密集实验表明，我们提出的模型，名为Seesaw Net，以有限的计算和内存成本实现了最先进的SOTA性能。我们的代码将是开源的，并与预先训练的模型一起提供。

S$^\mathbf{4}$L: Self-Supervised Semi-Supervised Learning
Authors Xiaohua Zhai, Avital Oliver, Alexander Kolesnikov, Lucas Beyer
这项工作解决了图像分类器的半监督学习问题。我们的主要观点是半监督学习领域可以从快速发展的自我监督视觉表征学习领域中受益。统一这两种方法，我们提出了自监督半监督学习S 4L的框架，并用它来推导出两种新颖的半监督图像分类方法。我们证明了这些方法与仔细调整的基线和现有的半监督学习方法相比的有效性。然后，我们表明S 4L和现有的半监督方法可以联合训练，在半监督的ILSVRC 2012上产生了一种新的最先进的结果，其中有10个标签。

TE141K: Artistic Text Benchmark for Text Effects Transfer
Authors Shuai Yang, Wenjing Wang, Jiaying Liu
文本效果是视觉元素的组合，例如轮廓，颜色和文本纹理，可以显着改善其艺术性。尽管文本效果在设计行业中被广泛使用，但它们通常由人类专家创建，因为它们极其复杂，这对于普通用户来说是费力且不实用的。近年来，已经对自动文本效果转移进行了一些努力，然而，缺乏数据限制了转移模型的能力。为了解决这个问题，我们引入了一个新的文本效果数据集TE141K，总共有141,081个文本效果字形对。我们的数据集由152个专业设计的文本效果组成，在包括英文字母，汉字，阿拉伯数字等字形上呈现。据我们所知，这是迄今为止最大的文本效果传输数据集。基于此数据集，我们提出了一种名为Text Effects Transfer GAN TET GAN的基线方法，该方法支持在一个模型中传输所有152种样式，并可以有效地扩展到新样式。最后，我们进行了全面的比较，其中14种风格转移模型进行了基准测试。实验结果证明了TET GAN在质量和数量上的优越性，并表明我们的数据集是有效和具有挑战性的。

Liver Lesion Segmentation with slice-wise 2D Tiramisu and Tversky loss function
Authors Karsten Roth, Tomasz Konopczy ski, J rgen Hesser
目前，病变分割仍由医学专家手动或半自动进行。为了促进这一过程，我们提供了一个全自动的病变分割管道。这项工作提出了一种方法，作为针对ISBI 17和MICCAI 17的LiTS肝肿瘤分割挑战竞赛的一部分，比较CT扫描中肝脏病变的自动化评估方法。通过利用级联，密集连接的2D U网和基于Tversky系数的损耗函数，我们的框架实现了非常好的形状提取，具有高检测灵敏度，在发布时具有竞争性分数。此外，在我们的Tversky丢失中调整超参数可以将网络调整为更高的灵敏度或稳健性。

Intra-frame Object Tracking by Deblatting
Authors Jan Kotera, Denys Rozumnyi, Filip roubek, Ji Matas
沿着复杂轨迹高速移动的物体经常出现在视频中，尤其是体育视频。这些物体在单个帧的曝光时间期间经过不可忽略的距离，因此它们在帧中的位置没有很好地限定。由于运动模糊，它们显示为半透明条纹，并且无法通过标准跟踪器可靠地跟踪。我们基于观察到运动模糊与物体的帧内轨迹直接相关，提出了一种称为Deblatting跟踪的新方法。通过解决两个相互交织的反问题，盲目去模糊和图像消光来估计模糊，我们称之为解卷。然后通过拟合分段二次曲线来估计轨迹，该曲线模拟物理上合理的轨迹。结果，跟踪对象被精确定位，具有比传统跟踪器更高的时间分辨率。所提出的TbD跟踪器是在新创建的视频数据集上进行评估的，该视频具有地面实况，由高速摄像机使用新的轨迹IoU度量获得，该度量推广了传统的联盟交叉点并测量帧内轨迹的准确性。所提出的方法在回忆和轨迹准确性方面都优于基线。

Fast and Efficient Zero-Learning Image Fusion
Authors Fayez Lahoud, Sabine S sstrunk
我们提出了一种使用预训练神经网络的实时图像融合方法。我们的方法生成包含来自多个源的特征的单个图像。我们首先将图像分解为表示大规模强度变化的基础层，以及包含小规模变化的细节层。我们使用视觉显着性融合基础层，并从预先训练的神经网络中提取深度特征图以融合细节层。我们进行消融研究以分析我们的方法参数，例如分解滤波器，重量构建方法，网络深度和架构。然后，我们验证其在热，医疗和多焦点融合方面的有效性和速度。我们还将其应用于多个图像输入，例如多重曝光序列。实验结果表明，我们的技术在视觉质量，客观评估和运行时效率方面达到了最先进的性能。

Learning Representations for Predicting Future Activities
Authors Mohammadreza Zolfaghari, zg n i ek, Syed Mohsin Ali, Farzaneh Mahdisoltani, Can Zhang, Thomas Brox
预见未来是智力的关键因素之一。它涉及对过去和当前环境的理解以及对其可能动态的体面经验。在这项工作中，我们在抽象的活动层面上讨论未来的预测。我们提出了一个网络模块，用于以自我监督的方式学习环境动态的嵌入。为了将未来活动中的含糊不清和高度差异考虑在内，我们使用可以代表多个未来的多假设方案。我们通过对Epic Kitchens and Breakfast数据集的未来活动进行分类来演示该方法。此外，我们生成描述未来活动的字幕

Feature Extraction and Classification Based on Spatial-Spectral ConvLSTM Neural Network for Hyperspectral Images
Authors Wen Shuai Hu, Heng Chao Li, Lei Pan, Wei Li, Ran Tao, Qian Du
近年来，深度学习在高光谱图像HSI分类方面取得了很大进展。特别地，长短期记忆LSTM作为一种特殊的深度学习结构，在视频时间维度或HSI频谱维度的长期依赖性建模方面表现出很强的能力。然而，空间信息的丢失使得获得更好的性能变得非常困难。为了解决这个问题，提出了两种新的深度模型，通过首次利用卷积LSTM ConvLSTM来提取更具辨别力的空间光谱特征。通过将局部滑动窗口中的数据块作为每个存储器单元带的输入，LSTM的2D扩展架构被考虑用于构建空间谱ConvLSTM 2 D神经网络SSCL2DNN以模拟谱域中的长程依赖性。。为了更有效地利用空间和光谱信息来提取更具辨别力的空间光谱特征表示，通过将LSTM扩展到3D版本，进一步提出了空间光谱ConvLSTM 3D神经网络SSCL3DNN。在三个常用的HSI数据集上进行的实验表明，所提出的深度模型具有一定的竞争优势，并且可以提供比其他现有技术方法更好的分类性能。

D2-Net: A Trainable CNN for Joint Detection and Description of Local Features
Authors Mihai Dusmanu, Ignacio Rocco, Tomas Pajdla, Marc Pollefeys, Josef Sivic, Akihiko Torii, Torsten Sattler
在这项工作中，我们解决了在困难的成像条件下找到可靠的像素级对应的问题。我们提出了一种方法，其中单个卷积神经网络起双重作用。它同时是一个密集的特征描述符和一个特征检测器。通过将检测推迟到后期阶段，基于早期检测低水平结构，获得的关键点比其传统对应点更稳定。我们表明，可以使用从容易获得的大规模SfM重建中提取的像素对应来训练该模型，而无需任何进一步的注释。所提出的方法在困难的亚琛日夜间定位数据集和InLoc室内定位基准测试中获得最先进的性能，以及用于图像匹配和3D重建的其他基准的竞争性能。

Cycle-IR: Deep Cyclic Image Retargeting
Authors Weimin Tan, Bo Yan, Chumin Lin, Xuejing Niu
由于摆脱了手工制作表达的限制，监督深度学习技术在各个领域取得了巨大成功。然而，大多数先前的图像重定目标算法仍然采用固定的设计原则，例如使用梯度图或手工制作的特征来计算显着性图，这不可避免地限制了它的一般性。深度学习技术可能有助于解决这个问题，但具有挑战性的问题是我们需要构建一个大规模的图像重定向数据集，用于深度重定向模型的训练。然而，构建这样的数据集需要巨大的人力。

Embedding Human Knowledge in Deep Neural Network via Attention Map
Authors Masahiro Mitsuhara, Hiroshi Fukui, Yusuke Sakashita, Takanori Ogata, Tsubasa Hirakawa, Takayoshi Yamashita, Hironobu Fujiyoshi
循环中的人HITL将人类知识引入机器学习，已用于细粒度识别，以根据局部特征的差异来估计类别。传统的HITL方法已成功应用于非深度机器学习，但由于模型参数数量众多，很难将其用于深度学习。为了解决这个问题，在本文中，我们建议使用注意分支网络ABN，它是一种视觉解释模型。 ABN将注意力映射用于视觉解释到注意机制。首先，我们根据人类知识手动修改从ABN获得的注意力图。然后，我们将修改后的注意力映射用于使ABN能够调整识别分数的注意机制。其次，为了将HITL应用于深度学习，我们提出了一种使用修改后的注意力图的微调方法。我们的微调通过使用从ABN输出的关注图计算的训练损失以及修改的注意力图来更新ABN的注意力和感知分支。该微调使得ABN能够输出与人类知识相对应的关注图。此外，我们使用更新的注意力图及其嵌入的人类知识作为感知分支的注意机制和推理，从而提高了ABN的性能。使用ImageNet数据集，CUB 200 2010数据集和IDRiD的实验结果表明，我们的方法在视觉解释方面阐明了注意力图，并提高了分类性能。

Grand Challenge of 106-Point Facial Landmark Localization
Authors Yinglu Liu, Hao Shen, Yue Si, Xiaobo Wang, Xiangyu Zhu, Hailin Shi, Zhibin Hong, Hanqi Guo, Ziyuan Guo, Yanqin Chen, Bi Li, Teng Xi, Jun Yu, Haonian Xie, Guochen Xie, Mengyan Li, Qing Lu, Zengfu Wang, Shenqi Lai, Zhenhua Chai, Xiaoming Wei
面部地标定位是众多面部相关应用中非常关键的一步，例如面部识别，面部姿势估计，面部图像合成等。然而，之前的面部地标定位竞赛，即300 W，300 VW和Menpo挑战旨在预测68点标志，这些标志无法描绘面部组件的结构。为了克服这个问题，我们构建了一个具有挑战性的数据集，名为JD landmark。每个图像都用106个点标记手动注释。该数据集涵盖了姿势和表情的大变化，这给预测准确的地标带来了很多困难。我们在此数据集上与IEEE国际多媒体和博览会ICME 2019一起举办了一场106点的面部地标本地化竞赛1。本次比赛的目的是发现有效且强大的面部地标本地化方法。

Multi-Person Pose Estimation with Enhanced Channel-wise and Spatial Information
Authors Kai Su, Dongdong Yu, Zhenqi Xu, Xin Geng, Changhu Wang
多人姿势估计是计算机视觉中的一个重要但具有挑战性的问题。尽管当前的方法通过融合多尺度特征图而取得了显着进步，但是他们很少关注增强特征图的频道和空间信息。在本文中，我们提出了两个新的模块来执行多人姿势估计的信息增强。首先，提出了一种信道混洗模块CSM，对不同级别的特征映射采用信道混洗操作，促进金字塔特征映射之间的跨信道信息通信。其次，空间，通道明智的注意残留瓶颈SCARB旨在通过注意机制来增强原始残差单元，在空间和通道明智的上下文中自适应地突出特征图的信息。我们提出的模块的有效性在COCO关键点基准上进行评估，实验结果表明我们的方法达到了最先进的结果。

DistillHash: Unsupervised Deep Hashing by Distilling Data Pairs
Authors Erkun Yang, Tongliang Liu, Cheng Deng, Wei Liu, Dacheng Tao
由于高存储和搜索效率，散列已经成为大规模相似性搜索的普遍现象。特别是，深度散列方法极大地提高了监督场景下的搜索性能。相反，由于缺乏可靠的监督相似性信号，无监督的深度散列模型很难实现令人满意的性能。为了解决这个问题，我们提出了一种新的深度无监督散列模型，称为DistillHash，它可以学习由具有置信相似性信号的数据对组成的蒸馏数据集。具体地，我们研究了从局部结构学习的初始噪声相似性信号与由贝叶斯最优分类器分配的语义相似性标签之间的关系。我们表明，在一个温和的假设下，一些数据对，其标签与贝叶斯最优分类器指定的标签一致，可以被潜在地提炼出来。受此事实的启发，我们设计了一种简单而有效的策略来自动提取数据对，并进一步采用贝叶斯学习框架从蒸馏数据集中学习哈希函数。三个广泛使用的基准数据集的广泛实验结果表明，提出的DistillHash始终如一地完成了最先进的搜索性能。

Two-Stage Convolutional Neural Network Architecture for Lung Nodule Detection
Authors Haichao Cao, Hong Liu, Enmin Song, Guangzhi Ma, Xiangyang Xu, Renchao Jin, Tengying Liu, Chih Cheng Hung
早期发现肺癌是提高患者生存率的有效方法。在计算机断层扫描CT图像中准确检测肺结节是诊断肺癌的关键步骤。然而，由于肺结节的异质性和周围环境的复杂性，强大的结节检测一直是一项具有挑战性的任务。在这项研究中，我们提出了一种用于肺结节检测的两阶段卷积神经网络TSCNN架构。第一阶段的CNN架构基于改进的UNet分段网络，以建立肺结节的初始检测。同时，为了在不引入过多假阳性结节的情况下获得高召回率，我们提出了一种新的抽样策略，并根据所提出的级联预测方法使用离线硬挖掘思想进行训练和预测。第二阶段的CNN架构基于所提出的双池结构，其被构建到三个3D CNN分类网络中以用于误报减少。由于网络训练需要大量的训练数据，我们采用基于随机掩码的数据增强方法。此外，我们通过集成学习提高了误报模型的泛化能力。所提出的方法已经在LUNA数据集上进行了实验验证。实验结果表明，所提出的TSCNN架构可以获得有竞争力的检测性能。

ROSA: Robust Salient Object Detection against Adversarial Attacks
Authors Haofeng Li, Guanbin Li, Yizhou Yu
最近，由于深度卷积神经网络可以获得强大的图像特征，因此显着物体检测已经见证了显着的改进。特别地，现有技术的显着对象检测方法从完全基于卷积网络FCN的框架获得高精度和高效率，所述框架从端到端训练并预测像素方式标签。然而，这种框架遭受对抗性攻击，这种攻击通过向输入图像添加准不可察觉的噪声来混淆神经网络而不改变由人类对象注释的地面实况。据我们所知，本文是第一个对显着对象检测模型进行成功的对抗性攻击并验证对抗性样本对广泛的现有方法有效的方法。此外，本文提出了一种新颖的端到端可训练框架，以增强任意基于FCN的显着对象检测模型对抗对抗性攻击的鲁棒性。所提出的框架采用了一种新颖的思想，即首先引入一些新的通用噪声来破坏对抗性扰动，然后学习用引入的噪声预测输入图像的显着性图。具体而言，我们提出的方法包括分段屏蔽组件，其保留边界并破坏精细的对抗性噪声模式和环境感知恢复组件，其通过全局对比度建模来细化显着性图。实验结果表明，我们提出的框架可以显着提高一系列数据集中最先进模型的性能。

Frustratingly Easy Person Re-Identification: Generalizing Person Re-ID in Practice
Authors Jieru Jia, Qiuqi Ruan, Timothy M. Hospedales
当代人识别Re ID方法通常需要在训练期间从部署摄像机网络访问数据以便表现良好。这是因为在一个数据集上训练的当代Re ID模型由于数据集之间的域移位而不能推广到其他相机网络。此要求通常是在实际安全性或商业应用中部署Re ID系统的瓶颈，因为可能无法提前收集这些数据或者对其进行注释成本过高。本文通过提出一个简单的域可泛化DG人员识别基线来缓解这个问题。也就是说，从一组源域中学习Re ID模型，该模型适用于开箱即用的未见数据集，无需任何模型更新。具体来说，我们发现Re ID中的域差异是由于数据集之间的样式和内容差异造成的，并且演示了适当的实例和特征规范化可以减轻Deep Re ID模型中的大部分域转换。早期层中的实例规范化IN过滤掉样式统计变化，深层中的特征规范化FN能够进一步消除内容统计中的差异。与现代替代方案相比，这种方法实施起来非常简单，同时可以更快地进行训练和测试，从而使其成为在实践中实施Re ID的极有价值的基准。通过几行代码，它分别在VIPeR，PRID，GRID和i LIDS基准测试中将秩1 Re ID精度提高了11.7,28.9,10.1和6.3。源代码将可用。

Deep Learning Acceleration Techniques for Real Time Mobile Vision Applications
Authors Gael Kamdem De Teyou
深度学习DL已成为人工智能AI的关键技术。它是一种从复杂数据中自动提取高级特征的强大技术，可用于计算机视觉，自然语言处理，网络安全，通信等应用程序。对于计算机视觉的特定情况，已经提出了几种算法，例如实时视频中的对象检测，并且它们在桌面GPU和分布式计算平台上运行良好。然而，这些算法对于移动和嵌入式视觉应用仍然很重要。智能便携设备和新兴5G网络的快速普及正在移动环境中引入新的智能多媒体应用。因此，在移动环境中实现深度神经网络的可能性吸引了许多研究人员。本文介绍了新兴的深度学习加速技术，可以随时随地将实时视觉识别交付给最终用户。

PPGNet: Learning Point-Pair Graph for Line Segment Detection
Authors Ziheng Zhang, Zhengxin Li, Ning Bi, Jia Zheng, Jinlei Wang, Kun Huang, Weixin Luo, Yanyu Xu, Shenghua Gao
在本文中，我们提出了一种新的框架来检测人造环境中的线段。具体而言，我们建议用简单的图形描述它们之间的连接点，线段和关系，这比现有线段检测方法中使用的端点表示更具结构性和信息性。为了从图像中提取线段图，我们进一步介绍了PPGNet，一种卷积神经网络，可直接从图像中推断图形。我们在已发布的基准测试中评估我们的方法，包括York Urban和Wireframe数据集。结果表明，我们的方法达到了令人满意的性能，并在所有基准上得到了很好的推广。我们的工作源代码可在网址找到

A Dual Path ModelWith Adaptive Attention For Vehicle Re-Identification
Authors Pirazh Khorramshahi, Amit Kumar, Neehar Peri, Sai Saketh Rambhatla, Jun Cheng Chen, Rama Chellappa
近年来，注意力模型已广泛用于人员和车辆识别。大多数重新识别方法旨在将注意力集中在关键点位置。但是，根据方向，每个关键点的贡献会有所不同。在本文中，我们提出了一种新的车辆重新识别AAVER双路径自适应注意模型。全局外观路径捕获宏观车辆特征，而定向条件部分外观路径通过关注最信息的关键点来学习捕捉局部判别特征。通过大量实验，我们证明了所提出的AAVER方法能够在无约束的情景中准确地识别车辆，在挑战性数据集VeRi 776上产生最先进的结果。作为副产品，所提出的系统还能够准确地预测车辆钥匙。在现有技术水平上显示出超过7的改进。

Weakly Labeling the Antarctic: The Penguin Colony Case
Authors Hieu Le, Bento Gon alves, Dimitris Samaras, Heather Lynch
南极企鹅是重要的生态指标，特别是在气候变化面前。在这项工作中，我们提出了一个基于深度学习的模型，用于高分辨率卫星图像中广告谎言企鹅殖民地的语义分割。为了训练我们的分割模型，我们利用Penguin Colony Dataset这个独特的数据集，其中包含来自南极洲193个Ad lie企鹅群的2044个地理参考裁剪图像。面对像素级注释掩模的稀缺性，我们提出了一种弱监督框架，可以有效地从弱标签中学习分割模型。我们使用分类网络来过滤掉不适合分段网络的数据。基于平均激活，该分割网络利用特定的损失函数进行训练，以有效地从具有弱注释标签的数据中学习。我们的实验表明，添加弱注释的训练样例显着提高了分割性能，在企鹅群数据集上将平均交叉联盟从42.3增加到60.0。

Deep Closest Point: Learning Representations for Point Cloud Registration
Authors Yue Wang, Justin M. Solomon
点云注册是应用于机器人，医学成像和其他应用的计算机视觉的关键问题。这个问题涉及找到从一个点云到另一个点的刚性转换，以便它们对齐。迭代最近点ICP及其变体为此任务提供了简单且易于实现的迭代方法，但这些算法可以收敛到虚假的局部最优。为了解决ICP管道中的局部最优和其他困难，我们提出了一种基于学习的方法，名为Deep Closest Point DCP，受近期计算机视觉和自然语言处理技术的启发。我们的模型包括三个部分：点云嵌入网络，基于注意的模块与指针生成层相结合，近似组合匹配，以及可微分奇异值分解SVD层，以提取最终的刚性变换。我们在ModelNet40数据集上端到端地训练我们的模型，并在几个设置中显示它比ICP更好，其变体例如Go ICP，FGR和最近提出的基于学习的方法PointNetLK。除了提供最先进的配准技术外，我们还评估了我们学到的特征转移到看不见的物体的适用性。我们还对我们的学习模型进行初步分析，以帮助了解特定领域和/或全局特征是否有助于严格注册。

Advancements in Image Classification using Convolutional Neural Network
Authors Farhana Sultana, A. Sufian, Paramartha Dutta
卷积神经网络CNN是图像分类任务的最新技术。在这里，我们简要讨论了CNN的不同组件。在本文中，我们已经解释了用于图像分类的不同CNN架构。通过本文，我们展示了从LeNet 5到最新SENet模型的CNN的进步。我们已经讨论了每个模型的模型描述和培训细节。我们还对这些模型进行了比较。

Handheld Multi-Frame Super-Resolution
Authors Bartlomiej Wronski, Ignacio Garcia Dorado, Manfred Ernst, Damien Kelly, Michael Krainin, Chia Kai Liang, Marc Levoy, Peyman Milanfar
与DSLR相机相比，智能手机相机具有更小的传感器，这限制了它们的空间分辨率更小的孔径，这限制了它们的聚光能力和更小的像素，这降低了它们的信噪比。使用滤色器阵列CFA需要去马赛克，这进一步降低了分辨率。在本文中，我们用单帧和突发摄影管道取代传统的去马赛克，采用多帧超分辨率算法，直接从一连串CFA原始图像创建完整的RGB图像。我们利用手持摄影中典型的自然手震，获得一小段偏移的原始帧。然后对齐并合并这些帧以形成在每个像素位置处具有红色，绿色和蓝色值的单个图像。该方法不包括明确的去马赛克步骤，用于增加图像分辨率和提高信噪比。我们的算法对于具有挑战性的场景条件局部运动，遮挡或场景变化具有鲁棒性。它在大规模生产的手机上每1200万像素RAW输入突发帧运行100毫秒。具体来说，该算法是Super Res Zoom功能的基础，以及Night Sight模式下的默认合并方法，无论是否在Google的旗舰手机上进行缩放。

The Effect of Network Width on Stochastic Gradient Descent and Generalization: an Empirical Study
Authors Daniel S. Park, Jascha Sohl Dickstein, Quoc V. Le, Samuel L. Smith
我们研究了随机梯度下降所发现的最终参数如何受到过度参数化的影响。我们通过增加基础网络中的通道数来生成模型族，然后执行大型超参数搜索以研究测试错误如何取决于学习速率，批量大小和网络宽度。我们发现最佳SGD超参数由归一化噪声标度确定，标准化噪声标度是批量大小，学习速率和初始化条件的函数。在没有批量归一化的情况下，最佳归一化噪声标度与宽度成正比。更宽的网络具有更高的最佳噪声标度，也可以实现更高的测试精度。这些观察结果适用于MLP，ConvNets和ResNets，以及两种不同的参数化方案Standard和NTK。我们观察到ResNets的批量标准化的类似趋势。令人惊讶的是，由于最大的稳定学习速率是有界的，因此随着宽度增加，与最佳归一化噪声标度一致的最大批量大小减小。

Differentiable Approximation Bridges For Training Networks Containing Non-Differentiable Functions
Authors Jason Ramapuram, Russ Webb
现代神经网络训练依赖于分段子微分函数，以便使用反向推进来有效地计算梯度。在这项工作中，我们引入了一种新方法，允许在深度神经网络的中间层进行不可微函数。我们通过引入可微分近似桥DAB神经网络来实现这一点，该神经网络提供了对非可微函数梯度的平滑近似。我们提出了强大的实证结果，在三个不同的领域进行了600多次实验，无监督图像表示学习，图像分类和序列分类，以证明我们提出的方法提高了现有技术的性能。我们证明在无监督图像表示学习中利用非可微函数可以将重建质量和后线性可分性提高10倍。在具有非线性排序的图像分类设置中，我们还观察到神经序列分类中的精确度提高77和针对直通估计器3的改进。这项工作使得能够使用以前在神经网络中不可用的功能。

A Novel Adaptive Kernel for the RBF Neural Networks
Authors Shujaat Khan, Imran Naseem, Roberto Togneri, Mohammed Bennamoun
在本文中，我们提出了一种新的径向基函数RBF神经网络自适应核。所提出的核自适应地融合欧几里德和余弦距离度量以利用两者的往复特性。所提出的框架使用梯度下降方法动态地调整参与内核的权重，从而减轻对预定权重的需要。所提出的方法在三个主要估计问题即非线性系统识别，模式分类和函数逼近方面表现优于内核的手动融合。

MAP Inference via L2-Sphere Linear Program Reformulation
Authors Baoyuan Wu, Li Shen, Bernard Ghanem, Tong Zhang
最大后验MAP推断是图形模型的重要任务。由于实际模型中变量之间的复杂依赖性，找到MAP推理的精确解决方案通常是难以处理的。因此，已经开发了许多近似方法，其中基于线性编程LP弛豫的方法显示出有希望的性能。然而，LP松弛的一个主要缺点是可以提供分数溶液。在这项工作中，我们建议对原始MAP推理问题进行连续但等效的重新设计，而不是提出更严格的放松，称为LS LP。我们将L2球体约束添加到原始LP松弛上，导致与局部边缘多面体相交的空间相当于所有有效整数标签配置的空间。因此，LS LP等同于原始MAP推理问题。我们提出了乘法器ADMM算法的扰动交替方向方法，通过在目标函数和约束上添加足够小的扰动ε来优化LS LP问题。我们证明了扰动的ADMM算法全局收敛于LS LP问题的epsilon Karush Kuhn Tucker epsilon KKT点。还将分析收敛率。来自概率推理挑战PIC 2011和OpenGM 2的若干基准数据集的实验显示了我们提出的方法对现有技术MAP推理方法的竞争性能。

Adversarial Image Translation: Unrestricted Adversarial Examples in Face Recognition Systems
Authors Kazuya Kakizaki, Kosuke Yoshida
由于深度神经网络DNN的最新进展，人脸识别系统在大量人脸图像的分类中实现了高精度。然而，最近的研究表明，DNN可能容易受到对抗性的影响，并引起人们对人脸识别系统稳健性的担忧。特别是不受小扰动限制的对抗性例子可能是更严重的风险，因为传统的认证防御可能对它们无效。为了揭示人脸识别系统对这种类型的对抗性示例的脆弱性，我们提出了一种灵活有效的方法，使用图像转换技术生成无限制的对抗性示例。我们的方法使我们能够将源转换为任何具有大扰动的所需面部外观，从而可以欺骗目标人脸识别系统。我们通过实验证明，我们的方法分别在白色和黑色框设置下实现了大约90和30次攻击成功率。我们还说明，我们生成的图像在感知上是真实的并且保持个人身份，而扰动大到足以击败经过认证的防御。

Learning to Evolve
Authors Jan Schuchardt, Vladimir Golkov, Daniel Cremers
进化和学习是生活为了生存和超越限制而适应的两个基本机制。这些生物现象启发了成功的计算方法，如进化算法和深度学习。进化依赖于随机突变和随机遗传重组。在这里，我们表明学习进化，即学习比随机更好地变异和重组，改善了每代健康增加的进化结果，甚至在可达到的适应性方面。我们使用深度强化学习来学习动态调整进化算法的策略以适应不同的环境。我们的方法在组合和连续优化问题上优于经典的进化算法。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from bing.com

你可能感兴趣的:(视觉,目标检测,计算机视觉,可视化,机器学习,深度学习,Papers,数据集,三维重建,点云,图像超分辨,Computervision,Papers)

使用 Baseten 部署和运行机器学习模型的指南 shuoac 机器学习人工智能 python
随着机器学习模型在各个行业中的广泛应用，如何高效地部署和运行这些模型成为一个关键问题。本文将介绍如何使用Baseten平台来部署和服务机器学习模型。Baseten是LangChain生态系统中的一个重要提供者，它提供了所需的基础设施来高效地运行模型。无论是开源模型如Llama2和Mistral，还是专有或经过微调的模型，Baseten都能在专用GPU上运行。技术背景介绍Baseten提供了一种不同
docker（10、日志管理4）5、Graylog 日志系统(1、部署Graylog日志系统，2、Graylog管理日志) junior1206 k8s docker
部署Graylog日志系统Graylog是与ELK可以相提并论的一款几种式日志管理方案，支持数据收集、检索、可视化Dashboard。将实践用Graylog来管理Docker日志Graylog架构Graylog架构如下图所示：Graylog负责接收来自各种设备和应用的日志，并未用户提供Web访问接口。Elasticsearch用于索引和保存Graylog接收到的日志MongoDB负责保存Grayl
加快推进工业互联网，图扑“智”绘发展新蓝图智慧园区数字孪生 3d 网络人工智能物联网前端
当前，智能制造已成为我国实现从制造大国走向制造强国的战略目标，在迈向“钢铁强国”的征程上，“智慧”正成为钢铁产业的鲜明特征。图扑软件-构建先进2D和3D可视化所需要的一切方大九钢公司围绕钢铁企业管理模式变革的需求，借力能源绿色低碳转型的契机，以信息技术广泛应用为主导，大力推进“智能制造”，“淬炼”智慧钢铁。并与图扑软件合作，率先将5G、可视化、GIS相关技术引入钢铁行业。打造基于5G+云平台的智慧
石油储运生产 2D 可视化，组态应用赋能工业智慧发展智慧园区智慧城市 big data 人工智能大数据物联网网络
当前，国际油价低位徘徊导致各国石油化工行业投资大幅缩减，石油化工建设行业竞争环境日趋严峻，施工企业的利润空间也被不断压缩。内外交困的环境下，促使企业采取更有效的管理手段来提高效率和降低成本。石油工业大数据具有无限潜力与价值，将大数据与数据挖掘技术应用其中，不仅可以提升石油行业工业化水平，而且对其智慧化发展起到强有力的推动作用。图扑软件-构建先进2D和3D可视化所需要的一切图扑软件采用自主研发的HT
基于NanoDet的无人机交通违规监控系统设计与实现深度学习&目标检测实战项目 NanoDet 无人机目标检测人工智能计算机视觉深度学习
1.引言随着无人机技术的发展，无人机在交通监控领域的应用逐渐增多。无人机能够提供空中视角，具有更高的视野覆盖范围，能够帮助交通管理部门实时监控交通违规行为。本博客将介绍如何使用NanoDet模型实现无人机交通违规监控系统，并结合PyQt5设计一个UI界面来实时展示检测结果。通过该系统，能够检测交通违规行为并做出实时预警，确保交通安全。本博客详细介绍了数据集的构建、模型的训练与推理、碰撞检测算法的实
高效快速教你DeepSeek如何进行本地部署并且可视化对话大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
科技文章：高效快速教你DeepSeek如何进行本地部署并且可视化对话摘要：随着自然语言处理（NLP）技术的进步，DeepSeek作为一款基于深度学习的语义搜索技术，广泛应用于文本理解、对话系统及信息检索等多个领域。本文将探讨如何高效快速地在本地部署DeepSeek，并结合可视化工具实现对话过程的监控与分析。通过详尽的步骤、案例分析与代码示例，帮助开发者更好地理解和应用DeepSeek技术。同时，本
c ++零基础可视化——数组 zhangpz_ 算法 c++
c++零基础可视化数组一些知识：关于给数组赋值，一个函数为memset，其在cplusplus.com中的描述如下：void*memset(void*ptr,intvalue,size_tnum);Setsthefirstnumbytesoftheblockofmemorypointedbyptrtothespecifiedvalue(interpretedasanunsignedchar).将p
Three.js世界中的三要素：场景、相机、渲染器 Front_Yue 3D技术实践指南 javascript three.js 3d
一、Three.js简介Three.js是一个基于WebGL的JavaScript库，它允许开发者在网页上创建和显示复杂的3D图形和动画，而无需用户安装任何额外的插件或软件。Three.js在Web开发中的地位非常重要，它通过提供简单直观的API，极大地降低了3D图形开发的门槛，使得开发者可以更专注于实现创意。Three.js广泛应用于游戏开发、虚拟现实、数据可视化、艺术创作等多个领域。二、场景：
机器学习——分类、回归、聚类、LASSO回归、Ridge回归（自用）代码的建筑师模型学习模型训练机器学习机器学习分类回归正则化项 LASSO Ridge 朴素
纠正自己的误区：机器学习是一个大范围，并不是一个小的方向，比如：线性回归预测、卷积神经网络和强化学都是机器学习算法在不同场景的应用。机器学习最为关键的是要有数据，也就是数据集名词解释：数据集中的一行叫一条样本或者实例，列名称为特征或者属性。样本的数量称为数据量，特征的数量称为特征维度机器学习常用库：Numpy和sklearn朴素的意思是特征的各条件都是相互独立的机器学习（模型、策略、算法）损失函数
基于Python PYQT5 的相机定时采集图像程序，GUI打包独立运行夏时summer time python qt 数码相机相机
基于PythonPYQT5编写相机定时采集图像及手动采集版本介绍Python3.6pyqt55.15.4pyqt5-tools5.15.4.3.2另外就是常用的cv2和numpy包fromPyQt5importQtCore,QtGui,QtWidgetsfromPyQt5importQtCore,QtGui,QtWidgetsimportcv2importnumpyasnpfromdatetime
量化交易系统中如何处理机器学习模型的训练和部署？ openwin_top 量化交易系统开发机器学习人工智能量化交易
microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位量化交易系统中，机器学习模型的训练和部署需要遵循一套严密的流程，以确保模型的可靠性、性能和安全性。以下是详细描述以及相关的示例：1.数据收集和预处理数据收集在量化交易中，数据是最重要的资产。收集的数
股票量化交易开发 Yfinance 数字化转型2025 python 开发语言
以下是一段基于Python的股票量化分析代码，包含数据获取、技术指标计算、策略回测和可视化功能：pythonimportyfinanceasyfimportpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportseabornassnsfrombacktestingimportBacktest,Strategyfrombacktesti
大屏自适应终极方案：基于比例缩放的完美适配实践（Vue3版） FFF-X html5 javascript
需求背景在数据可视化大屏开发中，我们常面临这样的挑战：如何让1920*1080的设计稿在不同分辨率设备上完美呈现？传统的响应式布局难以应对复杂的大屏元素排布，本文介绍一种基于CSS3变换的终极适配方案实现思路本方案的核心是动态比例缩放，通过以下关键步骤实现：基准比例锁定：基于设计稿宽高比（16:9）建立基准比例视口实时检测：通过resize事件监听窗口变化智能比例判断：当视口更宽时：保持高度基准，
人民日报报道，华为云赋能智能制造助力图扑软件构造数字孪生场景智慧园区华为人工智能物联网
2021年12月22日，《人民日报》头版头条刊登了《华为云赋能智能制造，助力图扑软件构造数字孪生场景》一文，聚焦数据可视化建设发展。报道指出，数字经济发展的背后，是大数据时趋势下各地区积极贯彻国家数字经济发展战略的时代精神;高效便捷管控的背后，是云端平台各大企业的互助共赢;高质精准2D、3D数据可视图的背后，是专注于数据可视化Web组态开发的厦门图扑软件科技有限公司。并对厦门图扑软件科技有限公司进
2D 可视赋能智慧水务绿色集约化发展智慧园区物联网 big data 人工智能
随着国家对环境保护治理程度的日益重视，各地政府积极响应国家政策，在共同聚焦生态文明建设下，急速催生了水务行业数字化转型。如今“供排污”一体化管理系统成为行业发展的重要趋势，提高水务精细作业、集中管控、数据透明成为刚需。Hightopo应用自主研发的HT产品，搭建了以厦门区域为载体的2D智慧水务可视化解决方案。界面摒弃了以往传统的地图模式，采用更加简洁的六边形色块拼接出湖泊水库等地形，河流分支则运用
华为云赋能智能制造，助力图扑软件构造数字孪生场景 36Kr网科技华为云制造 big data
出行手机查看交通方案、物业管理的智能可视勘察管控、疫情地图提前预知危害……这些曾经存在于科幻片中的高科技场景一一在现代生活得到了应用与普及，其背后的数据可视化应用，正贯穿于当今大数据时代的各行各业，成为人们洞察数据内涵的有力工具，推动数字经济发展驶入“快车道”。数字经济发展的背后，是大数据时趋势下各地区积极贯彻国家数字经济发展战略的时代精神；高效便捷管控的背后，是云端平台各大企业的互助共赢；高质精
Stability AI 发布 Stable Virtual Camera：从 2D 图像生成 3D 视频三花AI 三花AI 人工智能 3d 音视频
StabilityAI发布StableVirtualCamera：从2D图像生成3D视频StableVirtualCamera[4]是由StabilityAI最新发布的一款能够从一张或多张2D图像（最多支持32张）生成具有真实深度和透视感的3D视频的技术。用户可以自由定义相机轨迹，或者选择预设的动态相机路径，例如360°旋转、螺旋、变焦（DollyZoom）等，效果极其丝滑。不过，当输入图像包含人
Python基于深度学习的动物图片识别技术的研究与实现 Java老徐 Python 毕业设计 python 深度学习开发语言深度学习的动物图片识别技术 Python动物图片识别技术
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《100套》Java微信小程序项目实战《100套》感兴趣的可以先收藏起来，还有大家
stability ai推出的 AI模型2D图像转3D视频微丽宝 AI工具人工智能 3d 音视频
StableVirtualCamera是StabilityAl推出的A|模型，能将2D图像转换为具有真实深度和透视感的3D视频。用户可以通过指定相机轨迹和多种动态路径(如螺旋、推拉变焦、平移等)来生成视频。模型支持从1到32张输入图像生成不同宽高比(如1:1、9:16、16:9)的视频，最长可达1000帧。无需复杂的重建或优化，可生成高质量的3D视频，同时保持3D一致性和时间平滑性。StableV
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
【论文阅读】Persistent Homology Captures the Generalization of Neural Networks Without A Validation Set 开心星人论文阅读论文阅读
将神经网络表征为加权的无环图，直接根据模型的权重矩阵构造PD。计算相邻batch的权重矩阵PD之间的距离。比较同调收敛性与神经网络的验证精度变化趋势摘要机器学习从业者通常通过监控模型的某些指标来估计其泛化误差，并在训练数值收敛之前停止训练，以防止过拟合。通常，这种误差度量或任务相关的指标是通过一个验证集（holdoutset）来计算的。因为这些数据没有直接用于更新模型参数，通常假设模型在验证集上的
【论文阅读】实时全能分割模型万里守约论文阅读论文阅读图像分割图像处理计算机视觉
文章目录导言1、论文简介2、论文主要方法3、论文针对的问题4、论文创新点总结导言在最近的计算机视觉领域，针对实时多任务分割的需求日益增长，特别是在交互式分割、全景分割和视频实例分割等多种应用场景中。为了解决这些挑战，本文介绍了一种新方法——RMP-SAM（Real-TimeMulti-PurposeSegmentAnything），旨在实现实时的多功能分割。RMP-SAM结合了动态卷积与高效的模型
【笔记】扩散模型（五）：Classifier-Free Guidance 理论推导与代码实现 LittleNyima Diffusion Models 笔记机器学习深度学习
论文链接：Classifier-FreeDiffusionGuidance上一篇文章我们学习了ClassifierGuidance，这种方法通过引入一个额外的分类器，使用梯度引导的方式成功地实现了条件生成。虽然ClassifierGuidance可以直接复用训练好的diffusionmodels，不过这种方法的问题是很明显的，首先需要额外训练一个分类器，而且这个分类器不仅仅分类一般的图像，还需要分
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
【论文阅读】Availability Attacks Create Shortcuts 开心星人论文阅读论文阅读
还得重复读这一篇论文，有些地方理解不够透彻可用性攻击通过在训练数据中添加难以察觉的扰动，使数据无法被机器学习算法利用，从而防止数据被未经授权地使用。例如，一家私人公司未经用户同意就收集了超过30亿张人脸图像，用于构建商业人脸识别模型。为解决这些担忧，许多数据投毒攻击被提出，以防止数据被未经授权的深度模型学习。它们通过在训练数据中添加难以察觉的扰动，使模型无法从数据中学习太多信息，从而导致模型在未见
深度学习 | pytorch + torchvision + python 版本对应及环境安装 zfgfdgbhs 深度学习 python pytorch
目录一、版本对应二、安装命令（pip）1.版本（1）v2.5.1~v2.0.0（2）v1.13.1~v1.11.0（3）v1.10.1~v1.7.02.安装全过程（1）选择版本（2）安装结果参考文章一、版本对应下表来自pytorch的github官方文档：pytorch/vision:Datasets,TransformsandModelsspecifictoComputerVisionpytor
机器学习 Day01人工智能概述山北雨夜漫步机器学习人工智能
1.什么样的程序适合在gpu上运行计算密集型的程序：此类程序主要运算集中在寄存器，寄存器读写速度快，而GPU拥有强大的计算能力，能高效处理大量的寄存器运算，因此适合在GPU上运行。像科学计算中的数值模拟、密码破解等场景的程序，都属于计算密集型，在GPU上运行可大幅提升运算速度。易于并行的程序：GPU采用SIMD架构，有众多核心，同一时间每个核心适合做相同的事。易于并行的程序能充分利用GPU这一特性
卷积神经网络 - 理解卷积核的尺寸 k×k×Cin 谦亨有终 AI学习笔记 cnn 人工智能神经网络深度学习机器学习
卷积神经网络中，每个卷积核的尺寸为k×k×Cin，这一设计的核心原因在于多通道输入的数据结构和跨通道特征整合的需求。以下是详细解释：1.输入数据的结构输入形状：假设输入数据为三维张量，形状为H×W×Cin，其中：H：高度（Height）W：宽度（Width）Cin：通道数（Channelsin）多通道的物理意义：对于RGB图像，Cin=3（红、绿、蓝三通道）。对于中间层的特征图，Cin可能为64、
机器学习：让计算机学会思考的艺术平凡而伟大. 机器学习机器学习人工智能
目录什么是机器学习？机器学习的基本步骤常见的机器学习算法机器学习的实际应用如何入门机器学习？结语在当今数字化时代，机器学习（MachineLearning,ML）已经成为一个炙手可热的话题。从推荐系统到自动驾驶汽车，再到语音助手，机器学习的应用无处不在。然而，对于许多人来说，机器学习仍然是一个神秘而复杂的领域。本文将用通俗易懂的语言，带你走进机器学习的世界，了解它的基本原理和应用。什么是机器学习？
机器学习中的 K-均值聚类算法及其优缺点平凡而伟大. 机器学习机器学习算法均值算法
K-均值聚类是一种常用的无监督学习算法，用于将数据集中的样本分成K个簇。其基本原理是将所有样本点划分到K个簇使得簇内样本点之间的距离尽可能接近，而不同簇之间的距离尽可能远。算法流程如下：随机选择K个样本点作为初始的聚类中心。将每个样本点分配到与其最近的聚类中心所在的簇。更新每个簇的聚类中心为该簇所有样本点的平均值。重复第2步和第3步，直到聚类中心不再变化或者达到最大迭代次数。优点：简单且易于实现。
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D

【今日CV 计算机视觉论文速览 第115期】Fri, 10 May 2019

Interesting:

Daily Computer Vision Papers

你可能感兴趣的:(视觉,目标检测,计算机视觉,可视化,机器学习,深度学习,Papers,数据集,三维重建,点云,图像超分辨,Computervision,Papers)

【今日CV 计算机视觉论文速览第115期】Fri, 10 May 2019