hitrjj

【今日CV 计算机视觉论文速览第125期】Wed, 5 Jun 2019

今日CS.CV 计算机视觉论文速览
Wed, 5 Jun 2019
Totally 57 papers
?上期速览✈更多精彩请移步主页

Interesting:

?基于ROI正切变形的人脸分析, 人脸分析是为人脸不同区域给出像素级的语义map，传统基于剪切调整大小的方法忽略了ROI区域外的特征，这对于不可预测区域不合适。这篇文章提出了一种基于正切-变形的操作子来结合中心视觉和外围视觉，解决了ROI区域集中和外围区域的周边信息的矛盾，研究人员提出了一种层级化局域方法，用于脸内区域特征，和全局方法用于外围特征。(from 厦门大学微软)
Tanh-warping operator 操作，将图像(±1为ROI区域)映射基于SCS坐标系到WCS空间（±1为全图区域）中，将任意大小的图像通过引导*roi映射到有限的区域内。这种方法有效保留了外围信息：：

网络架构如下，首先进行变换，随后对变化后的图像特征用于局域的面部分析和全局的周围区域分析，最后重新变换回去得到人脸分析结果：

手工修正了HELEN数据集2972张：

输出结果：

dataset：HELEN dataset，LFW-PL
ref:https://github.com/zhfe99/helen http://www.ifp.illinois.edu/~vuongle2/helen/
脸内：a Mask R-CNN-fashion [9]
脸外：a FCN-fashion [19] branch

?***WUTON:基于几何形变特征图的虚拟试衣服, 基于孪生U-Net的生成器，包含一系列调节层来实现形变和卷积几何匹配，可以用多任务损失来训练，并可以利用真实的空间变化来生成高质量的合成服装图像。(from Criteo AI Lab Paris, France)

一些结果：

消融测试：

dataset:dataset from [7], CP-VTON 2[6], Image-based Multi-pose Virtual try-on dataset3 from MG-VTON [7], parse pose
lab：https://ailab.criteo.com/

?照片的自动编码用于从无标签图像中学习三维目标, 简单的基于重建来构建对称的形状和反射率，输入任意视角的单张图像模型可预测出对称的正视视角和对应的3D外形。(from VGG 牛津)

得到的一些结果如下图：

dataset：3DFAW， Soumyadip Sengupta code to generate synthetic face datasets
ref：
sfsNet: https://github.com/senguptaumd/SfSNet
nature render：https://github.com/daniilidis-group/neural_renderer

?****GANs的总结综述, 针对GAN的三个问题，高质量图像生成、多样性图像生成和稳定的训练展开，从架构和损失出发来研究各个研究如何处理上述上个问题。综述了7个架构和9中损失变体。(from 都柏林城市大学)

link:https://github.com/sheqi/GAN_Review

?***针对特定区域的字符选择性风格化, 探索了图像风格迁移在字符上的应用，包括路牌、印刷体和手写体，并提出了两种架构来实现选择区域迁移。(from Centre Tecnologic de Catalunya，Unitat de Tecnologies Audiovisuals巴塞罗那)
不同字体的迁移显示效果：

两种不同的架构，两阶段和单阶段，双阶段利用TextFCN计算了文字区域的热力图，并利用热力图权重来融合原始图与风格图：

单阶段的方法利用实现计算的掩膜来训练模型只对特定区域计算，融合了字符检测和风格化方法。

基于手写分割和标签风格的文字效果迁移：

code:https://github.com/furkanbiten/SelectiveTextStyleTransfer
ref：文字区域检测TextFCN

TL;DwR
??DIPNet 深度图像先验的图像盲去噪，包含了全局（学习不同噪声水平的域不变特征）和局部（去噪图像向真实图像流型靠近）特征的融合，H-divergence theory
基于步态检测健康状况，code
KarNet用于简化数字电路的布尔表达式，ref method：Quine-McCluskey algorithm,
Karnaugh map solving, Petrick’s method and McBoole’s method
基于内容表示来迭代实现图像压缩，保持模型不变，dataset:Netflix-4K, xiphdataset
动力学神经网络架构解耦方法，从每张输入中发下网络动态激活的分层path
Triangulation Learning Network从单目到立体3D 目标检测，3Dbbox
?适应场景中心目标的风格迁移方法，基于生成的重要性map来进行不同强度的风格化，生成map的方法：patch-based, segmentation-based and superpixel-based
?保留内容图像的深度图的实时任意风格迁移,生成图更和谐， ref:AdaIN method of Huang et al
基于高斯过程和凸度分析解决(剪影图像中的)重叠凸物体，数据集来自透射电镜下的纳米粒子
Mining YouTube细粒度的动作概念数据集，基于监督的学习，基于烹调视频，数据集来自于foodnetwork, allrecipes
PhotoBook Dataset基于视觉的对话数据集，dataset:https://dmg-photobook.github.io/, ref NLTK， gensim 人类话题模型
解释深度学习成功和不稳定性的原因：模型学习到了false structures
太阳动力学观测数据集，ref Solar Dynamics Observatory dataset, code2
ReColorAdv,基于函数对抗的攻击样本生成，单一函数生成对抗样本

Daily Computer Vision Papers

Scene Representation Networks: Continuous 3D-Structure-Aware Neural Scene Representations
Authors Vincent Sitzmann, Michael Zollh fer, Gordon Wetzstein
深度学习的出现催生了神经场景表示学习3D环境的数学模型。然而，这些表示中的许多表示没有明确地推断几何，因此不考虑场景的基础3D结构。相比之下，几何深度学习已经探索了场景几何的3D结构感知表示，但需要明确的3D监督。我们提出了场景表示网络SRN，一种连续的，3D结构感知的场景表示，它对几何和外观进行编码。 SRN将场景表示为连续函数，将世界坐标映射到局部场景属性的要素表示。通过将图像形成公式化为可微分射线行进算法，SRN可以仅从2D观察到端到端训练，而无需访问深度或几何。这个公式自然地概括了场景，在过程中学习强大的几何和外观先验。我们通过评估SRN的新颖视图合成，少量镜头重建，关节形状和外观插值以及非刚性面部模型的无监督发现来展示SRN的潜力。

Dominant Set Clustering and Pooling for Multi-View 3D Object Recognition
Authors Chu Wang, Marcello Pelillo, Kaleem Siddiqi
基于视图的3D对象识别策略已被证明非常成功。现有技术的方法现在在外观图像上实现了超过90个正确的类别级别识别性能。我们通过引入基于优势集的视图聚类和池化层来改进这些方法。关键思想是从相似的视图中汇集信息，从而属于同一个集群。然后，以循环方式将合并的特征向量作为输入馈送到同一层。这种经常性的聚类和汇集模块，当插入现成的预训练CNN时，可提高多视图3D对象识别的性能，在ModelNet 40数据库上实现93.8的最新测试集识别精度。我们还探索了一种快速近似学习策略，用于我们的集群CNN，它在牺牲端到端学习的同时，大大提高了其训练效率，只是将识别准确度略微降低到93.3。我们的实施可在

Photo-Geometric Autoencoding to Learn 3D Objects from Unlabelled Images
Authors Shangzhe Wu, Christian Rupprecht, Andrea Vedaldi
我们表明，生成模型可用于统计捕获视觉几何约束。我们使用此事实从原始单视图图像推断对象类别的3D形状。与以前的工作不同，我们不使用外部监督，也不使用对象的多个视图或视频。我们通过简单的重建任务来实现这一目标，利用物体形状和反照率的对称性。具体地，给定从任意视点看到的对象的单个图像，我们的模型预测对称规范视图，相应的3D形状和视点变换，并且以重建输入视图为目标进行训练，类似于自动编码器。我们的实验表明，这种方法可以在没有监督的情况下从单视图图像中恢复人脸，猫脸和汽车的3D形状。在基准测试中，与在2D图像对应水平上使用监督的其他方法相比，我们表现出更高的准确性。

Disentangling neural mechanisms for perceptual grouping
Authors Junkyung Kim, Drew Linsley, Kalpit Thakkar, Thomas Serre
在视觉场景中形成感知群体和个体化对象是迈向视觉智能的重要一步。这种能力被认为是通过神经元之间自下而上，水平和自上而下连接实现的计算在大脑中产生的。然而，这些联系对感知分组的相对贡献却知之甚少。我们通过系统地评估神经网络架构来解决这个问题，这些架构以两个合成视觉任务的这些连接组合为特征，这两个视觉任务强调低级格式塔与高级对象线索的感知分组。我们表明，增加任务的压力难度，学习仅依靠自下而上处理的网络。水平连接通过支持活动的增量空间传播来解决对具有完形符提示的任务的限制，而自上而下连接通过传播关于目标对象的位置的粗略预测来挽救对具有对象提示的任务的学习。我们的发现解除了自下而上，横向和自上而下连接的计算角色，并展示了具有所有这些相互作用的模型如何更灵活地学习形成感知群体。

Learning Rotation Adaptive Correlation Filters in Robust Visual Object Tracking
Authors Litu Rout, Priya Mariam Raju, Deepak Mishra, Rama Krishna Sai Subrahmanyam Gorthi
视觉对象跟踪是计算机视觉领域的主要挑战之一。相关滤波器CF跟踪器是跟踪中使用最广泛的类别之一。虽然目前有许多基于CF的跟踪算法可用，但是大多数跟踪算法都无法在动态变化的对象外观的无约束环境中有效地检测对象。为了应对这些挑战，现有策略通常依赖于一组特定的算法。在这里，我们提出了一个强大的框架，提供了在标准的判别相关滤波器DCF公式中结合照明和旋转不变性的规定。我们还通过消除卷积响应图中的误报来监督DCF跟踪器的检测阶段。此外，我们证明了置换一致性对CF跟踪器的影响。通过将我们的贡献整合到两个最先进的CF跟踪器SRDCF和ECO中来说明所提出的框架的一般性和效率。根据VOT2016数据集的综合实验，我们的顶级跟踪器在稳健性方面显示出14.7和6.41的显着改善，平均预期重叠AEO分别比基线SRDCF和ECO大11.4和1.71。

Natural Vocabulary Emerges from Free-Form Annotations
Authors Jordi Pont Tuset, Michael Gygli, Vittorio Ferrari
我们提出了一种使用由无向和未经训练的注释器编写的自由格式文本来注释对象类的方法。自由形式标签对于注释者来说是很自然的，它们直观地提供非常具体和详尽的标签，并且不需要培训阶段。我们首先使用124种不同的注释器在15k图像上收集729个标签。然后我们通过发现其中4020个类的自然词汇，自动丰富这些自由形式注释的结构。这个词汇表代表了对象的自然分布，直接从数据中学习，而不是在收集任何标签之前进行有根据的猜测。因此，自然词汇来自大量自由形式的注释。为此，我们将原始输入字符串映射到物理对象本体中的实体，这使得它们具有明确的含义，并且可以利用注释器之间的共同发生，以及特定于各个注释器的偏见和知识。最后，我们还自动提取尺寸缩小的自然词汇表，这些词汇表具有高对象覆盖率，同时保持特定。这些简化的词汇表代表了对象的自然分布，比常用的预定义词汇表要好得多。此外，它们在类别上具有更均匀的样本分布。

Localization in Aerial Imagery with Grid Maps using LocGAN
Authors Haohao Hu, Junyi Zhu, Sascha Wirges, Martin Lauer
在这项工作中，我们提出了LocGAN，我们基于地理参考航空图像和LiDAR网格图的定位方法。目前，大多数自定位方法将当前传感器观察与从先前采集的数据生成的地图相关联。不幸的是，这些数据并不总是可用，生成的地图通常是传感器设置特定的。全球导航卫星系统GNSS可以克服这个问题。然而，由于多路径和阴影效应，它们并不总是可靠的，尤其是在城市地区。由于航拍图像通常可用，我们可以将其用作先验信息。为了使航拍图像与网格图匹配，我们使用条件生成对抗网络cGAN将空中图像转换为网格图域。使用定位网络LocNet估计预测和测量的网格图之间的转换。给定地理参考航空图像变换，可以估计车辆姿态。对德国卡尔斯鲁厄地区记录的数据进行的评估表明，我们的LocGAN方法提供了可靠的全球定位结果。

Visual Tree Convolutional Neural Network in Image Classification
Authors Yuntao Liu, Yong Dou, Ruochun Jin, Peng Qiao
在图像分类中，卷积神经网络CNN模型随着深度学习的快速发展而取得了很高的性能。但是，图像数据集中的某些类别比其他类别更难区分。提高这些混淆类别的分类准确性有利于整体表现。在本文中，我们基于混淆的语义级别信息构建了混淆视觉树CVT，以识别混淆的类别。通过CVT提供的信息，我们可以引导CNN培训程序更加关注这些混淆的类别。因此，我们提出了基于我们的CVT嵌入的原始深CNN的Visual Tree卷积神经网络VT CNN。我们在基准数据集CIFAR 10和CIFAR 100上评估我们的VT CNN模型。在我们的实验中，我们建立了3种不同的VT CNN模型，它们分别比基于CNN的模型获得了1.36,0.89和0.64的改进。

Cross-Domain Cascaded Deep Feature Translation
Authors Oren Katzir, Dani Lischinski, Daniel Cohen Or
近年来，由于DNN的出现和对抗性训练策略的推动，我们目睹了不成对的图像到图像翻译方法的巨大进步。然而，大多数现有方法侧重于样式和外观的转移，而不是形状转换。后一项任务具有挑战性，因为它具有错综复杂的非本地性质，需要额外的监督。我们通过降低预训练网络的深层来缓解这种情况，其中深层特征包含更多语义，并应用这些深层特征之间的转换。具体来说，我们利用VGG，这是一个分类网络，预先培训了大规模的语义监督。我们的翻译是以级联的，深入浅层的方式进行的，沿着深层特征层次，我们首先在编码图像的高级语义内容的最深层之间进行转换，然后转换为较浅的层，以较深层为基础。我们展示了我们的方法能够在不同的域之间进行转换，这些域表现出明显不同的形状。我们定性和定量地评估我们的方法，并将其与现有技术图像与图像翻译方法进行比较。我们的代码和训练有素的模型将可用。

Text-based Editing of Talking-head Video
Authors Ohad Fried, Ayush Tewari, Michael Zollh fer, Adam Finkelstein, Eli Shechtman, Dan B Goldman, Kyle Genova, Zeyu Jin, Christian Theobalt, Maneesh Agrawala
编辑会话头视频以更改语音内容或删除填充词是具有挑战性的。我们提出了一种基于其抄本编辑会话头视频的新方法，以产生真实的输出视频，其中扬声器的对话被修改，同时保持无缝的视听流，即没有跳跃切换。我们的方法通过音素，视位，3D脸部姿势和几何，每帧的反射，表情和场景照明自动注释输入的说话头视频。要编辑视频，用户必须仅编辑脚本，然后优化策略选择输入语料库的片段作为基础材料。对应于所选片段的注释参数被无缝地拼接在一起并用于产生中间视频表示，其中面部的下半部分用参数面部模型来呈现。最后，循环视频生成网络将该表示转换为与编辑的转录本匹配的逼真视频。我们展示了大量的编辑内容，例如单词的添加，删除和更改，以及令人信服的语言翻译和完整的句子合成。

Automatic Health Problem Detection from Gait Videos Using Deep Neural Networks
Authors Rahil Mehrizi, Xi Peng, Shaoting Zhang, Ruisong Liao, Kang Li
本研究的目的是开发一种使用深度神经网络DNN检测步态相关健康问题的自动系统。所提出的系统将患者视频作为输入并使用基于DNN的方法估计其3D身体姿势。我们的代码是公开的

Selective Style Transfer for Text
Authors Raul Gomez, Ali Furkan Biten, Lluis Gomez, Jaume Gibert, Mar al Rusi ol, Dimosthenis Karatzas
本文探讨了图像样式转移应用于文本维护原始转录的可能性。结果在不同文本域的场景文本，机器打印文本和手写文本以及交叉模态结果表明这是可行的，并且开放了不同的研究线。此外，提出了两种用于选择性样式转换的架构，这意味着将样式转换为仅期望的图像像素。最后，场景文本选择性样式转移被评估为扩展场景文本检测数据集的数据增强技术，从而提高文本检测器性能。我们对所述模型的实施是公开的。

Reconstruct and Represent Video Contents for Captioning via Reinforcement Learning
Authors Wei Zhang, Bairui Wang, Lin Ma, Wei Liu
在本文中，解决了用自然语言描述视频序列的视觉内容的问题。与之前主要利用视频内容提示进行语言描述的视频字幕工作不同，我们在一种新颖的编码器解码器重构器体系结构中提出了一种重建网络RecNet，它利用前向视频到句子和后向句子到视频流的视频流。具体地，编码器解码器组件利用前向流来基于编码的视频语义特征产生句子描述。随后提出两种类型的重建器以采用后向流并分别从局部和全局视角再现视频特征，利用由解码器生成的隐藏状态序列。此外，为了全面重建视频特征，我们建议将两种类型的重构器融合在一起。由编码器解码器组件产生的生成损失和由重建器引入的重建损失共同投入到以端对端方式训练所提出的RecNet中。此外，RecNet通过强化学习的CIDEr优化进行了微调，从而显着提升了字幕性能。基准数据集的实验结果表明，所提出的重构器可以一致地提高视频字幕的性能。

Active Object Manipulation Facilitates Visual Object Learning: An Egocentric Vision Study
Authors Satoshi Tsutsui, Dian Zhi, Md Alimoor Reza, David Crandall, Chen Yu
受婴儿视觉学习系统卓越能力的启发，最近的一项研究收集了儿童的第一人称图像，以分析他们收到的训练数据。我们进行了一项后续研究，调查了另外两个方向。首先，鉴于婴儿可以在没有太多监督的情况下快速学会识别新物体，即很少有镜头学习，我们限制了训练图像的数量。其次，我们研究儿童如何根据对象的手动操作来控制他们在学习期间接收的监督信号。我们的实验结果表明，手动操纵监督比没有手更好，即使有少量图像，趋势也是一致的。

Semi- and Weakly-supervised Human Pose Estimation
Authors Norimichi Ukita, Yusuke Uematsu
对于静止图像中的人体姿态估计，本文提出了三种半监督和弱监督学习方案。虽然卷积神经网络的最新进展使用监督训练数据改善了人体姿态估计，但我们的重点是探索半监督和弱监督方案。我们提出的方案最初从少量具有人体姿势注释的标准训练图像中学习用于姿势估计的传统模型。对于第一半监督学习方案，该传统姿势模型检测没有人类注释的训练图像中的候选姿势。根据这些候选姿势，分类器仅使用表示所有身体部位的配置的姿势特征来选择真正的阳性。通过在我们的第二和第三学习方案中提供给这些图像的动作标签来改进这些候选姿势估计和真正肯定姿势选择的准确性，所述学习方案是半监督和弱监督学习。虽然第一和第二学习方案仅选择与监督训练数据中的姿势类似的姿势，但是第三方案选择与任何监督姿势显着不同的更多真实正姿势。通过使用具有Dirichlet过程混合的离群姿势检测和贝叶斯因子的姿势聚类来实现该姿势选择。所提出的方案通过大规模人体姿势数据集进行验证。

KarNet: An Efficient Boolean Function Simplifier
Authors Shanka Subhra Mondal, Abhilash Nandy, Ritesh Agrawal, Debashis Sen
已经设计了许多方法，例如Quine McCluskey算法，卡诺图解决方案，Petrick方法和McBoole方法，以简化布尔表达式，以优化数字电路的硬件实现。然而，这些方法的算法实现是硬编码的，并且它们的计算时间也与表达式中涉及的minterms的数量成比例。在本文中，我们提出了KarNet，其中利用卷积神经网络通过捕获空间依赖性来模拟各种单元位置和值之间的关系的能力来解决卡诺图。为此，将卡诺图表示为图像信号，其中每个单元被视为像素。实验结果表明，KarNet的计算时间与minterms的数量无关，并且是基于规则的方法的百分之一到十分之一。 KarNet是一个学习系统，可以实现近百分之百的准确性，精确度和召回率。我们训练KarNet解决四个变量卡诺图，并且还表明类似的方法可以应用于具有更多变量的卡诺图。最后，我们展示了一种使用KarNet构建完全准确且计算速度快的系统的方法。

State-aware Re-identification Feature for Multi-target Multi-camera Tracking
Authors Peng Li, Jiabin Zhang, Zheng Zhu, Yanwei Li, Lu Jiang, Guan Huang
多目标多摄像机跟踪MTMCT旨在从一组摄像机捕获的视频中提取轨迹。最近，采用重新识别Re ID模型，MTMCT的跟踪性能得到显着提高。然而，由于目标的遮挡和方向变化，外观特征通常变得不可靠。在MTMCT中直接应用Re ID模型将遇到由遮挡引起的身份切换IDS和跟踪片段的问题。为解决这些问题，本文提出了一种新的跟踪框架。在该框架中，在Re ID模型中利用遮挡状态和方向信息，其中考虑了人体姿势信息。另外，采用所提出的融合跟踪特征的跟踪关联来处理片段问题。建议的跟踪器在多个摄像机硬序列上实现了81.3 IDF1，大大超过了所有其他参考方法。

End-to-End Learning of Geometric Deformations of Feature Maps for Virtual Try-On
Authors Thibaut Issenhuth, J r mie Mary, Cl ment Calauzennes
2D虚拟尝试任务最近引起了研究界的极大兴趣，因为它在网上购物中的直接潜在应用以及其固有的和未解决的科学挑战。该任务需要在人的图像上放置店铺布图像。这是非常具有挑战性的，因为它需要在保留其图案和特征的同时翘曲目标人物上的布料，并以逼真的方式与人物构成物品。由于像素级合成步骤或几何变换，现有技术模型产生具有可见伪像的图像。在本文中，我们为虚拟试用系统提出了WUTON Warping U网。它是一个连体U网发生器，其跳过连接由卷积几何匹配器进行几何变换。整个架构是端到端训练的，包括对抗性的多任务丢失。这使我们的网络能够生成并使用布料的真实空间变换来合成高视觉质量的图像。所提出的架构可以端到端地进行训练，并允许我们朝着细节保留和照片逼真的2D虚拟试穿系统前进。我们的方法通过视觉结果以及Learned Perceptual Image Similarity LPIPS指标优于当前的技术水平。

Exploiting Offset-guided Network for Pose Estimation and Tracking
Authors Rui Zhang, Zheng Zhu, Peng Li, Rui Wu, Chaoxu Guo, Guan Huang, Hailun Xia
由于深度学习的发展，人体姿势估计已经取得了重大进展。最近的人体姿势估计方法倾向于直接预测位置热图，这导致量化误差并且不可避免地使降低的网络输出内的性能恶化。为了解决这个问题，我们重新考虑了热图偏移聚合方法，并为偏移引导网络OGN提供了一个直观但有效的融合策略，用于两阶段姿态估计和掩模R CNN。对于两阶段姿势估计，还提出了贪婪的盒子生成策略以在执行人员检测时保留更多必要的候选者。对于掩模R CNN，采用比率一致来提高网络的泛化能力。 COCO和PoseTrack数据集的最新结果验证了我们的偏移引导姿态估计和跟踪的有效性。

Face Parsing with RoI Tanh-Warping
Authors Jinpeng Lin, Hao Yang, Dong Chen, Ming Zeng, Fang Wen, Lu Yuan
面部解析为面部图像中的不同语义成分（例如，头发，嘴巴，眼睛）计算像素明智的标签图。现有的面部解析文献通过关注面部和面部组件的各个感兴趣区域RoI来说明显着的优点。然而，传统的裁剪和调整大小的聚焦机制忽略了RoI之外的所有上下文区域，因此当组件区域不可预测时，例如，不适合。头发。受人类生理视觉系统的启发，我们提出了一种新颖的RoI Tanh整经操作器，它将中心视觉和周边视觉结合在一起。它解决了用于聚焦的有限大小的RoI与用于外围信息的周围环境的不可预测区域之间的困境。为此，我们提出了一种用于面部解析的新型混合卷积神经网络。它使用基于层次局部的方法用于内部面部组件和全局方法用于外部面部组件。整个框架简单而有原则，可以端到端地进行培训。为了便于将来对面部解析的研究，我们还手动重新标记HELEN数据集的训练数据并将其公开。在HELEN和LFW PL基准测试上的实验表明我们的方法超过了现有技术的方法。

Color Constancy Convolutional Autoencoder
Authors Firas Laakom, Jenni Raitoharju, Alexandros Iosifidis, Jarno Nikkanen, Moncef Gabbouj
在本文中，我们研究了预训练对颜色恒常问题中泛化能力的重要性。我们提出了两种基于卷积自动编码器的新方法，一种使用微调编码器的无监督预训练算法和一种使用新型复合损失函数的半监督预训练算法。这使我们能够解决数据稀缺问题，并在最先进的结果中实现竞争，同时在ColorChecker推荐数据集上需要更少的参数。我们在最近推出的用于相机不变色彩恒定性研究的INTEL TUT数据集版本中进一步研究了过度拟合现象，其具有由三种不同相机模型获得的场和非场景。

Example-Guided Style Consistent Image Synthesis from Semantic Labeling
Authors Miao Wang, Guo Ye Yang, Ruilong Li, Run Ze Liang, Song Hai Zhang, Peter. M. Hall, Shi Min Hu
示例性引导图像合成旨在从语义标签图和指示样式的示例性图像合成图像。我们在这个问题中使用术语风格来指代图像的隐含特征，例如在肖像风格中包括性别，种族身份，年龄，发型在全身图片中它包括街头场景中的服装，它指的是天气和时间以及这样的。这些情况下的语义标签图表示面部表情，全身姿势或场景分割。我们使用具有样式一致性的条件生成对抗网络提出了示例引导图像合成问题的解决方案。我们的关键贡献是一种新颖的风格一致性鉴别器，用于确定一对图像在风格上是一致的，一种是自适应语义一致性丢失，另一种是训练数据采样策略，用于将样式一致的结果合成到样本中。

Towards better Validity: Dispersion based Clustering for Unsupervised Person Re-identification
Authors Guodong Ding, Salman Khan, Zhenmin Tang, Jian Zhang, Fatih Porikli
人物识别旨在建立通过非重叠多摄像机装置移动的人的正确身份对应。基于该任务的深度学习模型的最新进展主要集中于监督学习场景，其中假设准确注释可用于每个设置。为人员识别注释大规模数据集是苛刻且繁琐的，这使得这种监督方法在现实世界应用中的部署是不可行的。因此，有必要在没有明确监督的情况下以自主方式训练模型。在本文中，我们提出了一种优雅实用的聚类方法，用于基于聚类有效性考虑的无人监督人员识别。具体而言，我们探索统计学中的基本概念，即emph离散，以实现稳健的聚类标准。当在集群内级别使用时，色散反映了集群的紧凑性，并且当在集群间级别进行测量时，显示了分离。通过这种洞察，我们设计了一种新的基于分散的聚类DBC方法，该方法可以发现数据中的基础模式。该方法考虑了样本级成对关系的更广泛的上下文，以实现稳健的聚类亲和力评估，其处理由于普遍的不平衡数据分布而可能出现的复杂性。此外，我们的解决方案可以自动确定独立数据点的优先级，并防止较差的群集。我们对图像和视频识别基准的广泛实验分析表明，我们的方法在很大程度上优于现有技术的无监督方法。代码可在

Relational Reasoning using Prior Knowledge for Visual Captioning
Authors Jingyi Hou, Xinxiao Wu, Yayun Qi, Wentian Zhao, Jiebo Luo, Yunde Jia
在利用自然语言解释图像或视频方面，利用对象之间的关系取得了显着进展。大多数现有方法首先检测对象及其关系，然后生成文本描述，这在很大程度上取决于预先训练好的检测器，并且在面对重度遮挡，微小尺寸物体和物体检测中的长尾问题时导致性能下降。另外，检测和字幕的单独过程导致预定义的对象关系类别和目标词汇词之间的语义不一致。我们利用先前的人类常识知识来推理对象之间的关系，而无需任何经过预先训练的检测器，并在一个图像或视频中达到语音一致性。例如，以知识图的形式的先验知识提供了在图像和视频中不明确的对象之间的常识语义相关和约束，用作构建用于句子生成的语义图的有用指导。特别地，我们提出了一种联合推理方法，其结合了用于将图像或视频区域嵌入到语义空间中的1个常识推理来构建语义图，以及用于编码语义图以生成句子的2个关系推理。对MS COCO图像字幕基准和MSVD视频字幕基准的广泛实验验证了我们的方法在利用先前的常识知识来增强视觉字幕的关系推理方面的优越性。

Evaluation of an AI system for the automated detection of glaucoma from stereoscopic optic disc photographs: the European Optic Disc Assessment Study
Authors Thomas W. Rogers, Nicolas Jaccard, Francis Carbonaro, Hans G. Lemij, Koenraad A. Vermeer, Nicolaas J. Reus, Sameer Trikha
目的评估基于深度学习的人工智能AI软件在立体视盘照片中检测青光眼的性能，并将该性能与大量眼科医师和验光师的表现进行比较。

Visual Diagnosis of Dermatological Disorders: Human and Machine Performance
Authors Jeremy Kawahara, Ghassan Hamarneh
皮肤状况是一个全球性的健康问题，按照因残疾而损失的年数来衡量，是非致命性疾病负担的第四大原因。作为诊断或分类，皮肤病可以帮助确定有效治疗，皮肤科医生已经广泛研究如何从病人的病史和病变的视觉外观诊断病情。计算机视觉研究人员正在尝试将这种诊断能力编码到机器中，最近的几项研究报告了与皮肤科医生相当的机器水平性能。

Content Adaptive Optimization for Neural Image Compression
Authors Joaquim Campos, Meierhans Simon, Abdelaziz Djelouah, Christopher Schroers
神经图像压缩领域已经见证了令人兴奋的进展，因为最近提出的架构已经超越了已建立的基于变换编码的方法。虽然到目前为止，研究主要集中在架构和模型改进上，但在这项工作中我们探索了内容自适应优化。为此，我们引入了一个迭代过程，该过程使潜在表示适应我们希望压缩的特定内容，同时保持网络参数和预测模型的固定。我们的实验表明，这可以使速率失真性能整体提高，与所使用的特定架构无关。此外，我们还在将预训练网络适应视觉外观或分辨率不同的其他内容的背景下评估此策略。在这里，我们的实验表明，与专门针对给定内容训练的模型相比，我们的适应策略可以在很大程度上缩小差距，同时具有不必传输模型参数更新形式的附加数据的益处。

Triangulation Learning Network: from Monocular to Stereo 3D Object Detection
Authors Zengyi Qin, Jinglu Wang, Yan Lu
在本文中，我们研究立体图像中的三维物体检测问题，其中关键的挑战是如何有效地利用立体信息。与使用像素级深度图的先前方法不同，我们提出使用3D锚来明确地构建立体图像中的感兴趣区域之间的对象级对应，深度神经网络从中学习以在3D空间中检测和三角化目标对象。我们还引入了一种具有成本效益的通道重新加权策略，该策略可增强代表性功能并减弱噪声信号，从而促进学习过程。所有这些都灵活地集成到使用单眼图像的固体基线检测器中。我们证明单眼基线和立体三角测量学习网络在具有挑战性的KITTI数据集的3D对象检测和定位方面优于现有技术水平。

Dynamic Neural Network Decoupling
Authors Yuchao Li, Rongrong Ji, Shaohui Lin, Baochang Zhang, Chenqian Yan, Yongjian Wu, Feiyue Huang, Ling Shao
卷积神经网络CNN通过利用复杂的网络架构和大量参数获得了优越的性能，然而这些参数变得无法解释并且挑战它们在实际应用中的全部潜力。为了更好地理解网络决策背后的基本原理，我们提出了一种新颖的架构解耦方法，该方法动态地发现由每个输入图像的激活滤波器组成的分层路径。具体地，在每层中引入架构控制模块以编码网络架构并识别对应于特定输入的激活滤波器。然后，最大化架构编码和输入图像的属性之间的互信息以解耦网络架构，并且随后通过在训练期间限制滤波器的输出来解开滤波器。大量实验表明，基于所提出的架构解耦，即解释，加速和对抗攻击，已经实现了若干优点。

Transfer Learning with intelligent training data selection for prediction of Alzheimer's Disease
Authors Naimul Mefraz Khan, Marcia Hon, Nabila Abraham
通过机器学习从诸如MRI的神经成像数据检测阿尔茨海默氏病AD近年来已成为一项深入研究的主题。最近在计算机视觉中深度学习的成功进一步推动了这种研究。然而，这种算法的共同限制是依赖于大量训练图像，并且需要仔细优化深度网络的体系结构。在本文中，我们尝试通过转移学习来解决这些问题，其中使用来自由自然图像组成的大型基准数据集的预训练权重来初始化最先进的VGG架构。然后通过分层调谐对网络进行微调，其中仅在MRI图像上训练预定义的一组层。为了缩小训练数据大小，我们使用图像熵来选择信息量最大的切片。通过对ADNI数据集的实验，我们发现训练大小比其他现代方法小10到20倍，我们达到了AD与NC，AD与MCI以及MCI与NC分类问题的最新技术性能。，相对于AD与MCI和MCI与NC的现有技术水平相比，精度分别提高了4和7。我们还详细分析了智能训练数据选择方法的效果，改变训练大小，以及改变要微调的层数。最后，我们提供了类激活图CAM，它演示了所提出的模型如何关注与神经病理相关的辨别图像区域，并且可以帮助医疗从业者解释模型的决策过程。

Learning Object Bounding Boxes for 3D Instance Segmentation on Point Clouds
Authors Bo Yang, Jianan Wang, Ronald Clark, Qingyong Hu, Sen Wang, Andrew Markham, Niki Trigoni
我们提出了一种新颖的，概念上简单的通用框架，用于3D点云的实例分割。我们的方法称为3D BoNet，遵循每点多层感知器MLP的简单设计理念。该框架直接回归点云中所有实例的3D边界框，同时预测每个实例的点级掩码。它由一个骨干网络和两个并行网络分支组成，用于1个边界框回归和2个点掩模预测。 3D BoNet是单级，无锚和端对端训练。此外，它具有显着的计算效率，因为与现有方法不同，它不需要任何后处理步骤，例如非最大抑制，特征采样，聚类或投票。大量实验表明，我们的方法超越了ScanNet和S3DIS数据集上的现有工作，同时计算效率提高了约10倍。全面的消融研究证明了我们设计的有效性。

Style Transfer With Adaptation to the Central Objects of the Scene
Authors Alexey Schekalev, Victor Kitov
风格转移是使用另一图像的样式呈现具有一些内容的图像的问题，例如以一些着名艺术家的绘画风格的家庭照片。经典样式转移算法的缺点在于它在内容图像的所有部分上均匀地赋予样式，这扰乱了内容图像上的中心对象，例如面部或文本，并使它们变得不可识别。这项工作提出了一种新颖的风格转移算法，它自动检测内容图像上的中心对象，生成空间重要性掩模和强制风格非均匀中心对象的风格化较少，以保持其可识别性，图像的其他部分像往常一样风格化，以保持风格。提出了三种自动中心物体检测方法，并通过用户评估研究定性评估。与传统的样式转移方法相比，两种比较都表现出更高的程式化质量。

Depth-Preserving Real-Time Arbitrary Style Transfer
Authors Konstantin Kozlovtsev, Victor Kitov
样式转移是使用另一个图像的样式呈现一个具有某些内容的图像的过程，表示该样式。 Liu等人最近的研究。 2017年通过调整Gatys等人的传统方法，显示出风格转移渲染质量的显着提高。 2016年和约翰逊等人。 2016年使用正规化器，强制保留内容图像的深度图。然而，这些传统方法要么计算效率低，要么需要为新风格训练单独的神经网络。 Huang等人的AdaIN方法。 2017允许有效传输任意风格而无需训练单独的模型，但无法再现内容图像的深度图。我们建议对此方法进行扩展，以允许深度图保留。定性分析和用户评估研究结果表明，与Gatys等人的原始样式转移方法相比，所提出的方法提供了更好的样式。 2016年和黄等人。 2017年。

Random Path Selection for Incremental Learning
Authors Jathushan Rajasegaran, Munawar Hayat, Salman Khan, Fahad Shahbaz Khan, Ling Shao
增量终身学习是人工智能的长期目标的主要挑战。在现实生活中，学习任务按顺序到达，机器学习模型必须不断学习增加已获得的知识。现有的增量学习方法远低于同时使用所有培训课程的现有累积模型。在本文中，我们提出了一种称为RPSnet的随机路径选择算法，该算法逐步为新任务选择最佳路径，同时鼓励参数共享和重用。我们的方法避免了计算上昂贵的基于演化和强化学习的路径选择策略所带来的开销，同时实现了可观的性能提升。作为一个额外的新颖性，所提出的模型将知识蒸馏和回顾与路径选择策略相结合，以克服灾难性遗忘。为了保持先前和新获得的知识之间的平衡，我们提出了一个简单的控制器来动态平衡模型的可塑性。通过大量实验，我们证明了所提出的方法超越了增量学习的现有技术性能，并且通过利用并行计算，该方法可以在恒定时间内运行，具有与传统深度卷积神经网络几乎相同的效率。

Resolving Overlapping Convex Objects in Silhouette Images by Concavity Analysis and Gaussian Process
Authors Sahar Zafari, Mariia Murashkina, Tuomas Eerola, Jouni Sampo, Heikki K lvi inen, Heikki Haario
重叠凸起物体的分割具有各种应用，例如，纳米颗粒和细胞成像。通常，分割方法必须完全依赖于背景和前景之间的边缘，使得分析的图像基本上是轮廓图像。因此，为了分割对象，该方法需要能够通过利用关于对象形状的先验信息来解决多个对象之间的重叠。本文介绍了一种在轮廓图像中分割成簇的部分重叠凸面物体的新方法。所提出的方法涉及预处理，轮廓证据提取和轮廓估计三个主要步骤。通过检测凹点从二值化图像中恢复轮廓线段开始轮廓证据提取。此后，将属于相同对象的轮廓段分组。分组被公式化为组合优化问题，并使用分支定界算法求解。最后，通过高斯过程回归方法估计物体的完整轮廓。在由纳米粒子组成的具有挑战性的数据集上的实验表明，所提出的方法在重叠凸对象分割中优于三种当前的现有技术方法。该方法仅依赖于边缘信息，并且可以应用于对象部分重叠且具有凸形状的任何分割问题。

A Hybrid RNN-HMM Approach for Weakly Supervised Temporal Action Segmentation
Authors Hilde Kuehne, Alexander Richard, Juergen Gall
在过去十年中，行动认可已成为一个快速发展的研究领域。但随着对大规模数据的需求不断增加，手工注释数据对培训的需求变得越来越不切实际。避免基于帧的人类注释的一种方法是使用动作命令信息来学习相应的动作类。在这种情况下，我们提出了一种分层方法，通过以粗略到精细的方式构造识别来解决从有序动作标签中对人类行为进行弱监督学习的问题。给定一组视频和发生的动作的有序列表，任务是推断视频内的相关动作类的开始和结束帧并训练相应的动作分类器而不需要手标记的帧边界。我们通过将帧式RNN模型与粗略概率推理相结合来解决该问题。该组合允许长序列的时间对准，并因此允许两个元素的迭代训练。虽然这个系统本身已经产生了良好的结果，但我们表明，通过将子动作的数量近似到不同动作类别的特征以及引入正则化长度先验，可以进一步提高性能。所提出的系统在两个基准数据集上进行评估，即早餐和好莱坞扩展数据集，显示在各种弱学习任务（如时间动作分割和动作对齐）上的竞争性表现。

Mining YouTube - A dataset for learning fine-grained action concepts from webly supervised video data
Authors Hilde Kuehne, Ahsan Iqbal, Alexander Richard, Juergen Gall
到目前为止，动作识别主要集中在手选所选预切割动作的分类问题，并在该领域取得了令人瞩目的成果。但是，由于当前数据集的性能甚至上限，该领域的后续步骤似乎必须超出这种完全监督的分类。克服这些问题的一种方法是采用不太受限制的方案。在这种情况下，我们提出了一个大规模的现实世界数据集，旨在评估除手工制作的数据集之外的人类行为识别的学习技术。为此，我们再次收集数据的过程，并从250个烹饪视频测试集的注释开始。然后通过搜索免费可用视频的字幕内的相应注释类来收集训练数据。数据集的独特性归因于收集数据和培训的整个过程不涉及任何人为干预。为了解决这种训练数据引起的语义不一致问题，我们进一步提出了挖掘类的语义层次结构。

Comparing two- and three-view Computer Vision
Authors Zsolt Levente Kucsv n
为了重建三维空间中的点，我们需要至少两个图像。在本文中，我们比较了两种不同的方法，第一种只使用两种图像，第二种使用三种。在研究期间，我们测量了相机分辨率，相机角度和相机距离如何影响重建点的数量和它们的分散。本文提出使用两种视图方法，我们可以比使用另一种方法重建更多的点，但是如果我们使用三视图方法，则点的离散度更小。考虑到不同的摄像机设置，我们可以说两个和三个视图方法的行为相同，两个方法的最佳参数也相同。

Evaluating Scalable Bayesian Deep Learning Methods for Robust Computer Vision
Authors Fredrik K. Gustafsson, Martin Danelljan, Thomas B. Sch n
虽然深度神经网络DNN已成为计算机视觉中的一种方法，但绝大多数这些模型未能正确捕捉其预测中固有的不确定性。估计这种预测不确定性可能至关重要，例如在汽车应用中。在贝叶斯深度学习中，预测不确定性通常被分解为不同类型的任意和认知不确定性。前者可以通过让DNN输出概率分布的参数来估计。认知不确定性估计是一个更具挑战性的问题，虽然最近出现了不同的可扩展方法，但在现实世界环境中尚未进行全面的比较。因此，我们接受此任务并提出预测不确定性评估的评估框架，该框架专门用于测试现实世界计算机视觉应用中所需的稳健性。使用所提出的框架，我们对深度完成和街道场景语义分割任务的流行集成和MC丢失方法进行了广泛的比较。我们的比较表明，集成一致性提供了更可靠的不确定性估计。代码可在

GAMMA: A General Agent Motion Prediction Model for Autonomous Driving
Authors Yuanfu Luo, Panpan Cai
混合交通中的自动驾驶需要对附近的交通代理（例如行人，自行车，汽车，公共汽车等）进行可靠的运动预测。由于交通代理的动态和几何形状，复杂的道路状况和密集的交互作用，这种预测问题极具挑战性。它们之间。在本文中，我们提出了GAMMA，一种用于自动驾驶的通用代理运动预测模型，可以预测具有不同运动学，几何学等的异构交通代理的运动，并通过推断人类代理内部状态来生成多个轨迹假设。 GAMMA将运动预测正式化为速度空间中的几何优化问题，并将物理约束和人类内部状态集成到这个统一的框架中。我们的研究结果表明，GAMMA在不同的真实世界数据集上显着优于传统和深度学习方法。

The PhotoBook Dataset: Building Common Ground through Visually-Grounded Dialogue
Authors Janosch Haber, Tim Baumg rtner, Ece Takmaz, Lieke Gelderloos, Elia Bruni, Raquel Fern ndez
本文介绍了PhotoBook数据集，这是一个大规模的英语视觉基础，任务导向对话集合，旨在调查在会话期间累积的共享对话历史。从对话分析的开创性工作中汲取灵感，我们提出了一种数据收集任务，其被制定为协作游戏，促使两个在线参与者利用他们的视觉上下文以及先前建立的引用表达来参考图像。我们提供了任务设置的详细描述，并对收集的2,500个对话进行了全面分析。为了进一步说明数据集的新特征，我们提出了一个参考分辨率的基线模型，它使用一种简单的方法来考虑参考链中累积的共享信息。我们的结果表明，这些信息对于解决后面的描述特别重要，并强调需要在对话互动中开发更复杂的共同点模型。

Generative Adversarial Networks: A Survey and Taxonomy
Authors Zhengwei Wang, Qi She, Tomas E. Ward
生成对抗性网络GAN在过去几年中得到了广泛的研究。可以说，革命性技术属于计算机视觉领域，如合理的图像生成，图像到图像的转换，面部属性操作和类似的领域。尽管在计算机视觉领域取得了显着成功，但将GAN应用于现实世界的问题仍然存在三个主要挑战：1高质量图像生成2多样化图像生成和3个稳定培训。考虑到文献中的大量GAN相关研究，我们提供了一个关于体系结构变体和损失变体的研究，它们被提出从两个角度处理这三个挑战。我们提出了用于对大多数流行GAN进行分类的损耗和体系结构变体，并着重于这两个方面来讨论潜在的改进。虽然已经提出了针对GAN的若干评论，但是没有关于基于上述处理挑战的GAN变体的评论的工作。在本文中，我们回顾并批判性地讨论了7种架构变体GAN和9种损失变体GAN，以弥补这三个挑战。本次审查的目的是提供对当前GAN研究侧重于绩效改进的足迹的见解。本文总结了与本研究中研究的GAN变体相关的代码

PCA-driven Hybrid network design for enabling Intelligence at the Edge
Authors Indranil Chakraborty, Deboleena Roy, Isha Garg, Aayush Ankit, Kaushik Roy
最近IOT的出现增加了在包括医疗监测系统，自动驾驶车辆等在内的若干应用中实现基于AI的边缘计算的需求。这使得必须在计算和存储方面寻求神经网络的有效实现。虽然极端量化已被证明是在全精度网络上实现显着压缩的强大工具，但它可能导致复杂图像分类任务的性能显着下降。在这项工作中，我们提出了一种主成分分析PCA驱动方法来设计混合精度混合网络。与使用PCA降低维数的标准实践不同，我们利用PCA识别二进制网络中的重要层，通过增加重要维度的数量来对输入数据进行相关转换。随后，我们提出了混合网络，这是一种网络，其具有增加的二进制网络中重要层的权重和激活的比特精度。我们表明，与二进制网络相比，所提出的混合网络在分类精度方面实现了10多项改进，例如CIFAR 100和ImageNet数据集上的XNOR Net for ResNet和VGG架构，同时仍然实现了XNOR网络的高达94的能效。所提出的设计方法允许我们通过保持一半以上的网络二进制来更接近标准全精度网络的准确性。这项工作展示了一种有效的一次性方法，用于设计混合，混合精密网络，显着提高二进制网络的分类性能，同时获得显着的压缩。所提出的混合网络进一步提高了在基于IOT的边缘设备中使用高度压缩的神经网络进行节能神经计算的可行性。

What do AI algorithms actually learn? - On false structures in deep learning
Authors Laura Thesing, Vegard Antun, Anders C. Hansen
人工智能中有两个未解决的大数学问题AI 1为什么深度学习在分类问题上如此成功？2为什么基于深度学习的神经网络同时普遍不稳定，其中不稳定性使网络容易受到对抗性攻击。我们提出了这些问题的解决方案，可以用两个词来概括错误的结构。实际上，深度学习并不能学习人类在识别图像时使用的原始结构，猫有胡须，爪子，毛皮，尖耳朵等，而是与原始结构相关的不同假结构，从而产生成功。然而，与原始结构不同，假结构是不稳定的。假结构比原始结构更简单，因此更容易用更少的数据学习，并且训练中使用的数值算法将更容易地收敛到捕获错误结构的神经网络。我们正式定义了错误结构的概念，并将解决方案描述为一个猜想。鉴于经过训练的神经网络总是用近似值计算，这个猜想只能通过理论和计算结果的组合来建立，类似于在理论物理学中如何建立假设，例如：光速是恒定的。完全建立猜想需要一个庞大的研究程序来表征假结构。我们为这样一个在实践中确定虚假结构存在的程序提供了基础。最后，我们讨论了假结构存在对最先进的AI和Smale第18个问题的深远影响。

What, Where and How to Transfer in SAR Target Recognition Based on Deep CNNs
Authors Zhongling Huang, Zongxu Pan, Bin Lei
深度卷积神经网络DCNN最近在遥感中引起了广泛关注。与自然图像中的大规模注释数据集相比，遥感中缺少标记数据成为深入研究深度网络的障碍，特别是在SAR图像解译中。转移学习通过将源任务中的知识借用到目标任务，提供了解决此问题的有效方法。在光学遥感应用中，普遍的机制是微调在用大规模自然图像数据集（例如ImageNet）预训练的现有模型上。然而，由于SAR与光学图像之间的显着差异，该方案不能实现SAR应用的令人满意的性能。在本文中，我们试图讨论以前很少研究的三个问题，详细说明1哪些网络和源任务更好地转移到SAR目标，2哪个层转移特征更通用于SAR目标，3个如何有效地转移到SAR目标SAR目标识别。在此基础上，提出了一种基于域自适应的多源数据传递方法，以减少源数据与SAR目标之间的差异。在OpenSARShip上进行了几个实验。结果表明，自然图像中转移学习的普遍结论不能完全应用于SAR目标，分析SAR目标识别中的转移内容和位置有助于更有效地确定转移。

Vision-Based Autonomous UAV Navigation and Landing for Urban Search and Rescue
Authors Mayank Mittal, Rohit Mohan, Wolfram Burgard, Abhinav Valada
无人驾驶飞行器配备有生物雷达的无人机是一种挽救生命的技术，可以在地震或瓦斯爆炸等自然灾害发生后识别倒塌建筑物下的幸存者。然而，这些无人机必须能够在灾难环境中自主导航并落在碎片堆上，以便准确定位幸存者。这个问题极具挑战性，因为由于可能已经发生的结构变化而且现有的着陆点检测算法不适合识别碎片堆上的安全着陆区域，因此不能利用预先存在的地图进行导航。在这项工作中，我们提出了一个计算有效的自动无人机导航和着陆系统，不需要任何有关环境的先验知识。我们提出了一种新颖的着陆点检测算法，该算法基于几种危险因素计算成本映射，包括地形平坦度，陡度，深度精度和能耗信息。我们还引入了第一个合成数据集，其中包含超过120万个倒塌建筑物的图像，其中包括地面深度，表面法线，语义和相机姿态信息。我们使用来自城市规模超现实模拟环境的实验以及具有倒塌建筑物的现实场景来证明我们的系统的功效。

Optimal Unsupervised Domain Translation
Authors Emmanuel de B zenac, Ibrahim Ayed, Patrick Gallinari
域转换是在两个域之间找到有意义的对应关系的问题。由于在大多数设置中配对监督不可用，因此许多工作集中在无监督域转换UDT，其中来自每个域的数据样本未配对。继CycleGAN for UDT的开创性工作之后，已经提出了该模型的许多变体和扩展。然而，他们的成功背后仍然缺乏理论上的理解。我们观察到这些方法产生的溶液几乎是最小的w.r.t.给定的运输成本，导致我们重新制定最优运输OT框架中的问题。这一观点为我们提供了一个关于无监督域转换的新视角，并允许我们在给定大量运输成本的情况下证明检索到的映射的存在性和唯一性。然后，我们提出了一种新的框架，可以在动态环境中有效地计算最佳映射。我们展示它概括了以前的方法，并能够更加明确地控制计算出的最优映射。它还提供两个域之间的平滑插值。玩具和现实世界数据集上的实验说明了我们方法的行为。

Information Competing Process for Learning Diversified Representations
Authors Jie Hu, Rongrong Ji, ShengChuan Zhang, Xiaoshuai Sun, Qixiang Ye, Chia Wen Lin, Qi Tian
学习各种信息的陈述仍然是一个悬而未决的问题。为了学习多样化的表示，本文提出了一种称为信息竞争过程ICP的新方法。为了丰富特征表示所携带的信息，ICP将表示分成具有不同互信息约束的两个部分。分离的部分被迫在竞争环境中独立地完成下游任务，这阻止了两个部分学习彼此为下游任务学习的内容。然后将这些竞争部分协同组合以完成任务。通过融合在不同条件下竞争学习的代表性部分，ICP促进获得包含补充信息的多样化表示。图像分类和图像重建任务的实验证明了ICP在监督和自我监督学习环境中学习判别和解开表征的巨大潜力。

Learning Deep Image Priors for Blind Image Denoising
Authors Xianxu Hou, Hongming Luo, Jingxin Liu, Bolei Xu, Ke Sun, Yuanhao Gong, Bozhi Liu, Guoping Qiu
图像去噪是从噪声图像中去除噪声的过程，噪声图像是图像域转移任务，即，从单个或多个噪声级域到照片真实域。在本文中，我们通过从域对齐的角度学习两个图像先验，提出了一种有效的图像去噪方法。我们在两个层面上处理域对齐。在图1中，特征级别先验是学习具有不同水平噪声的损坏图像的域不变特征2，像素级先验用于将去噪图像推送到自然图像流形。这两个图像先验基于mathcal H发散理论，并通过对抗训练方式学习分类器来实现。我们评估我们在多个数据集上的方法。结果证明了我们的方法对合成和现实噪声图像的鲁棒图像去噪的有效性。此外，我们表明，特征级别先验能够减轻不同级别噪声之间的差异。它可用于在失真度量PSNR和SSIM方面提高盲去噪性能，而像素级先验可以有效地提高感知质量，以确保实际输出，这可以通过主观评估进一步验证。

Knowledge is Never Enough: Towards Web Aided Deep Open World Recognition
Authors Massimiliano Mancini, Hakan Karaoguz, Elisa Ricci, Patric Jensfelt, Barbara Caputo
虽然今天的机器人能够执行复杂的任务，但它们只能对已经训练过的物体进行识别。这是一个严重的限制，任何机器人都不可避免地会在无约束的环境中看到新物体，因此总是会有视觉知识空白。但是，标准可视化模块通常构建在一组有限的类上，并且基于强大的先于对象必须属于这些类之一。识别实例是否不属于已知类别集合（即开放集合识别），只能部分解决此问题，因为真正自主的代理不仅应该能够检测到它不知道的内容，还应该能够动态地扩展其知识。世界。我们通过深度学习架构为这一挑战做出贡献，该架构能够以端到端的方式动态更新其已知类。基于非参数模型的深度扩展，所提出的深度网络检测感知对象是否属于系统已知的类别集合并且无需从头开始重新训练整个系统来学习它。关于新类别的注释图像可以由oracle提供，即人工监督，或者通过Web的自主挖掘。在两个不同的数据库和机器人平台上进行的实验证明了我们的方法的前景。

A Strong and Robust Baseline for Text-Image Matching
Authors Fangyu Liu, Rongtian Ye
我们回顾了当前的文本图像匹配模型方案，并提出了培训和推理的改进。首先，我们凭经验证明了在训练文本图像嵌入中广泛使用的两种流行的损失和和最大边缘损失的局限性，并提出了利用kNN边际损失的权衡，其中1利用来自硬阴性的信息，2对于噪声是稳健的，因为所有K最难的样本被考虑在内，容忍伪阴性和异常值。其次，我们提倡在推理期间使用Inverted Softmax文本和Is和Cross模态局部缩放文本Csls来缓解高维嵌入空间中所谓的hubness问题，从而大幅提高所有度量的分数。

Representation Theoretic Patterns in Multi-Frequency Class Averaging for Three-Dimensional Cryo-Electron Microscopy
Authors Tingran Gao, Yifeng Fan, Zhizhen Zhao
我们在本文中开发了一种新的内在分类算法多频类平均MFCA，用于通过它们的观察方向之间的相似性来聚类从三维低温电子显微镜低温EM获得的噪声投影图像。这种新算法利用单一群的多个不可约表示来为传输数据的表示引入额外的冗余，扩展并优于Hadani和Singer Foundations of Computational Mathematics，11 5，pp.589 616 2011的先前类平均算法。只有一个代表。所提出的MFCA算法的形式代数模型和表示理论模式将Hadani和Singer的框架扩展到单一群的任意不可约表示。我们通过Wigner矩阵透镜检测二维单位球面上广义局部并行传输算子的光谱特性，从概念上建立MFCA的一致性和稳定性。我们通过数值实验证明了所提算法的有效性。

A Curated Image Parameter Dataset from Solar Dynamics Observatory Mission
Authors Azim Ahmadzadeh, Dustin J. Kempton, Rafal A. Angryk
我们提供了从太阳动力学天文台SDO任务的AIA仪器中提取的大型图像参数数据集，在2011年1月至当前日期期间，以6分钟的节奏，为9个波长通道提供。每年数据集的数量仅为1 TiB。为了在活动区域和冠状孔的区域分类中获得更好的结果，我们通过深入评估计算这些图像参数所需的各种假设来改进一组十个图像参数的性能。然后，在可能的情况下，设计了一种用于查找参数计算的适当设置的方法，以及用于显示我们改进结果的验证任务。此外，我们还包括使用监督分类模型比较JP2和FITS图像格式，通过调整特定于提取它们的图像格式的参数，并特定于每个波长。这些比较的结果表明，利用JP2图像（文件明显较小）对这些参数最初用于的区域分类任务没有害处。最后，我们计算AIA图像上的调整参数并提供公共API

Deep 3D Convolutional Neural Network for Automated Lung Cancer Diagnosis
Authors Sumita Mishra, Naresh Kumar Chaudhary, Pallavi Asthana, Anil Kumar
计算机辅助诊断已经成为验证放射科医师在CT解释中的意见的不可或缺的技术。本文提出了一种深度三维卷积神经网络CNN架构，用于基于自动CT扫描的肺癌检测系统。它利用三维空间信息来学习高度辨别的三维特征，而不是需要手动生成的纹理或几何形状等2D特征。所提出的深度学习方法基于时空统计自动提取3D特征。所开发的模型是端对端的，并且能够针对给定的输入扫描预测每个体素的恶性。仿真结果证明了所提出的3D CNN网络在肺结节分类中的有效性，尽管计算能力有限。

Correctness Verification of Neural Networks
Authors Yichen Yang, Martin Rinard
我们提出了第一个验证，即神经网络在每个感兴趣的输入的指定容差范围内产生正确的输出。我们定义了相对于规范的正确性，该规范标识了由世界所有相关状态组成的状态空间，以及2从世界各州产生神经网络输入的观察过程。使用有限数量的切片平铺状态和输入空间，从状态切片和输入切片的网络输出边界获取地面实况边界，然后比较地面实况和网络输出边界为任何网络输出错误提供上限感兴趣的输入。案例研究的结果强调了我们的技术为所有感兴趣的输入提供严格误差界限的能力，并显示了误差界限在状态和输入空间上的变化情况。

Low-rank Random Tensor for Bilinear Pooling
Authors Yan Zhang, Krikamol Muandet, Qianli Ma, Heiko Neumann, Siyu Tang
双线性池化能够从数据中提取高阶信息，这使其适用于细粒度的视觉理解和信息融合。尽管在各种应用中它们具有有效性，但具有大量参数的双线性模型很容易受到维数和难以计算的诅咒的影响。在本文中，我们提出了一种基于低秩随机张量的新型双线性模型。关键思想是有效地结合低秩张量分解和随机投影，以减少参数数量，同时保留模型代表性。从理论的角度来看，我们证明了具有随机张量的双线性模型可以估计特征映射以再现具有组成核的核Hilbert空间RKHS，将高维特征融合与理论基础相结合。从应用程序的角度来看，我们的低秩张量操作是轻量级的，可以集成到标准的神经网络架构中，以实现高阶信息融合。我们进行了大量的实验，以证明我们模型的使用可以在几个具有挑战性的细粒度动作解析基准上实现最先进的性能。

Functional Adversarial Attacks
Authors Cassidy Laidlaw, Soheil Feizi
我们提出了功能性对抗性攻击，这是一种新颖的威胁模型，用于制作对抗性示例，以欺骗机器学习模型。与标准的椭球威胁模型不同，功能性对抗威胁模型仅允许使用单个函数来扰动输入要素以产生对抗性示例。例如，应用于图像颜色的功能性对抗攻击可以同时将所有红色像素改变为浅红色。图像中的这种全局均匀变化可以比单独扰动图像的像素更不易察觉。为简单起见，我们将对图像颜色的功能性对抗性攻击称为ReColorAdv，这是我们实验的主要焦点。我们表明，功能威胁模型可以与现有的附加威胁模型相结合，以生成更强大的威胁模型，允许小的，个别的扰动和对输入的大的，均匀的变化。此外，我们证明这种组合包含在任一组成威胁模型中都不允许的扰动。在实践中，ReColorAdv可以显着降低在CIFAR 10上训练的ResNet 32的准确性。此外，据我们所知，将ReColorAdv与其他攻击相结合即使在对抗训练后也会导致最强的现有攻击。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com

你可能感兴趣的:(视觉,计算机视觉,深度学习,机器学习,数据集,三维重建,Computervision,Paper)

【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
视觉设计全栈解析：必知的8大核心方向与应用场景
在数字时代，视觉设计早已渗透到生活的方方面面——从手机APP界面到街头广告牌，从书籍的版式到产品的包装，这些统统离不开视觉设计的支撑！所以，了解视觉设计分类，不仅能帮助我们理清设计的边界与应用场景，更能让初学者找到学习的方向，让从业者精准定位创作目标哦。接下来，我们就来详细解析视觉设计分类中的8大常见类型，一起来享受这场视听盛宴吧~一、视觉识别图形设计在视觉设计分类中，视觉识别图形设计是构建品牌形
ViP-LLaVA: 使大型多模态模型理解任意视觉提示 AI专题精讲 Paper阅读多模态人工智能 AI
摘要现有的大型视觉-语言多模态模型主要关注整体图像理解，但在实现区域特定的理解方面仍存在显著差距。目前，使用文本坐标或空间编码的方法通常无法为视觉提示提供用户友好的接口。为了解决这个问题，我们提出了一种新颖的多模态模型，能够解码任意（自由形式）视觉提示。这使得用户可以通过自然提示（如“红色边框”或“指向箭头”）直观地标记图像并与模型互动。我们的简单设计直接将视觉标记叠加在RGB图像上，避免了复杂的
使用AutoKeras2.0的AutoModel进行结构化数据回归预测
1、FirstofAll:ReadTheFuckingSourceCodeimportautokerasasakimportnumpyasnpfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportmean_squared_error#生成数据集np.random.seed(42)x=np.random.r
【计算机毕业设计】基于Springboot的办公用品管理系统+LW 枫叶学长(专业接毕设) Java毕业设计实战案例课程设计 spring boot 后端
博主介绍：✌全网粉丝3W+,csdn特邀作者、CSDN新星计划导师、Java领域优质创作者,掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：
医咖会免费STATA教程学习笔记——单因素方差分析 Unacandoit stata 单因素方差分析
单因素方差分析和单因素回归分析相同1.单因素方差分析需要满足的假设：（1）因变量为连续变量（2）至少有一个分类变量（大于等于2类）（3）观测值相互独立（4）没有异常值（5）服从正态分布（6）方差齐性2.准备工作（1）导入数据集：webusesystolic,clear（2）检验是否存在异常值：方法一：图形——箱线图——在变量中选择systolic——确定方法二：grahboxsystolic,ov
两步移动搜索法（2SFCA）python 我在北京coding python python 开发语言
实现两步移动搜索法（Two-StepFloatingCatchmentAreaMethod,2SFCA）是一种广泛应用于地理信息系统（GIS）领域的方法，用于评估设施的空间可达性。以下是基于Python和GeoPandas的一种实现方式。准备工作为了实现2SFCA方法，需要准备以下数据集：供给点：表示服务提供方的位置及其服务能力。需求点：表示潜在使用者的位置及其需求量。距离矩阵：描述供给点与需求点
【TVM 教程】如何处理 TVM 报错
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/运行TVM时，可能会遇到如下报错：---------------------------------------------------------------AnerroroccurredduringtheexecutionofTVM.F
【PaddleOCR】OCR文本检测与文本识别数据集整理，持续更新......
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
多模态大模型的技术应用与未来展望：重构AI交互范式的新引擎 zhaoyi_he 重构人工智能
一、引言：为什么多模态是AI发展的下一场革命？过去十年，深度学习推动了计算机视觉和自然语言处理的飞跃，但两者的发展路径长期割裂。随着生成式AI和大模型时代的到来，**多模态大模型（MultimodalFoundationModels）**以统一的建模方式处理图像、文本、音频、视频等多源数据，重塑了“感知-认知-决策”链条，为AGI迈出关键一步。OpenAI的GPT-4o、Google的Gemini
行业锦标赛激励数据集（2008-2023）数据皮皮侠AI 人工智能大数据物联网矩阵动态规划
1771行业锦标赛激励数据集（2008-2023）数据简介坚持创新驱动发展，要强化企业创新主体地位，发挥企业家在技术创新中的重要作用。作为企业组织内部最具有影响力的角色，高级管理人员拥有企业经营管理的自由裁量权，对企业战略决策及由此产生的经营绩效具有举足轻重的影响。合理的薪酬契约安排是促进员工努力工作并提高企业绩效的重要手段。效率视角下的锦标赛理论主要关注企业内部薪酬差距的激励效应，但随着信息技术
Logistic回归预测模型2：R语言实现模型的内部和外部验证
前面我们讲了logistic回归预测模型的建立，今天介绍的是模型的验证，可以在训练集和验证集中通过ROC曲线、校准曲线和决策曲线分别进行验证。1、原始数据原始数据分为训练集和验证集，其中训练集用于模型的构建和内部验证，验证集用于外部验证。两个数据集都包含5列，且列名相同。组别Group为因变量，1代表阳性结局，0代表阴性结局。自变量1和4为连续性变量，自变量2和3为二分类变量。2、安装所需要的R包
ImportError: /nvidia/cusparse/lib/libcusparse.so.12: undefined symbol: __nvJitLinkComplete_12_4 爱编程的喵喵 Python基础课程 python ImportError torch nvJitLink 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ImportError:/home/
银行金融的数据大集中和灾难备份技术 dsg_gulibin 【业内灾备技术/方案】金融 oracle 数据备份存储网络服务器
9．1数据大集中技术数据大集中是当前银行信息化的热点之一。本节将叙述数据大集中的含义、必要性及大集中的三种模式，最后介绍国内银行数据大集中的成功案例。9.1.1数据大集中的含义银行系统中的数据“大集中”是一种通俗、形象的说法，旨在与过去的“数据分散”和“有限集中”的模式相区别，实际上，银行数据大集中可以的内涵可以用八个字来概括，即：数据集中、系统整合。集中是数据的“相对”集中，不是绝对集中；整合是
【机器学习笔记 Ⅱ】11 决策树模型巴伦是只猫机器学习机器学习笔记决策树
决策树模型（DecisionTree）详解决策树是一种树形结构的监督学习模型，通过一系列规则对数据进行分类或回归。其核心思想是模仿人类决策过程，通过不断提问（基于特征划分）逐步逼近答案。1.核心概念节点类型：根节点：起始问题（最佳特征划分点）。内部节点：中间决策步骤（特征判断）。叶节点：最终预测结果（类别或数值）。分支：对应特征的取值或条件判断（如“年龄≥30？”）。2.构建决策树的关键步骤(1)
【机器学习笔记 Ⅱ】10 完整周期
机器学习的完整生命周期（End-to-EndPipeline）机器学习的完整周期涵盖从问题定义到模型部署的全过程，以下是系统化的步骤分解和关键要点：1.问题定义（ProblemDefinition）目标：明确业务需求与机器学习任务的匹配性。关键问题：这是分类、回归、聚类还是强化学习问题？成功的标准是什么？（如准确率>90%、降低10%成本）输出：项目目标文档（含评估指标）。2.数据收集（DataC
【机器学习笔记Ⅰ】13 正则化代价函数
正则化代价函数（RegularizedCostFunction）详解正则化代价函数是机器学习中用于防止模型过拟合的核心技术，通过在原始代价函数中添加惩罚项，约束模型参数的大小，从而提高泛化能力。以下是系统化的解析：1.为什么需要正则化？过拟合问题：当模型过于复杂（如高阶多项式回归、深度神经网络）时，可能完美拟合训练数据但泛化性能差。解决方案：在代价函数中增加对参数的惩罚，抑制不重要的特征权重。2.
【机器学习笔记Ⅰ】6 多类特征巴伦是只猫机器学习机器学习笔记人工智能
多类特征（Multi-classFeatures）详解多类特征是指一个特征（变量）可以取多个离散的类别值，且这些类别之间没有内在的顺序关系。这类特征是机器学习中常见的数据类型，尤其在分类和回归问题中需要特殊处理。1.核心概念(1)什么是多类特征？定义：特征是离散的、有限的类别，且类别之间无大小或顺序关系。示例：颜色：红、绿、蓝（无顺序）。城市：北京、上海、广州（无数学意义的大小关系）。动物类别：猫
图像分割技术详解：从原理到实践 lanjieying
本文还有配套的精品资源，点击获取简介：图像分割是图像处理领域将图像分解为多个区域的过程，用于图像分析、特征提取等。文章介绍了图像分割的原理，并通过一个将图像划分为2*4子块的示例，展示了如何使用Python和matplotlib库中的tight_subplot函数进行图像分割和展示。文章还探讨了图像分割在不同领域的应用，以及如何在机器学习项目中作为数据预处理步骤。1.图像分割基本概念在图像处理领域
机器学习笔记——支持向量机 star_and_sun 机器学习笔记支持向量机
支持向量机参数模型对分布需要假设（这也是与非参数模型的区别之一）间隔最大化，形式转化为凸二次规划问题最大化间隔间隔最大化是意思：对训练集有着充分大的确信度来分类训练数据，最难以分的点也有足够大的信度将其分开间隔最大化的分离超平面的的求解怎么求呢？最终的方法如下1.线性可分的支持向量机的优化目标其实就是找得到分离的的超平面求得参数w和b的值就可以了注意，最大间隔分离超平面是唯一的，间隔叫硬间隔1.1
【机器学习&深度学习】多分类评估策略一叶千舟深度学习【理论】深度学习【应用必备常识】大数据人工智能
目录前言一、多分类3大策略✅宏平均（MacroAverage）✅加权平均（WeightedAverage）✅微平均（MicroAverage）二、类比理解2.1宏平均（MacroAverage）2.1.1计算方式2.1.2适合场景2.1.3宏平均不适用的场景2.1.4宏平均一般用在哪些指标上？2.1.5怎么看macroavg指标？2.1.6宏平均值低说明了什么？2.1.7从宏平均指标中定位模型短板
ShaderGraph节点解析(136):矩形节点（Rectangle Node）详解小李也疯狂 #Unity ShaderGraph Rectangle
目录一、节点功能概述二、端口详解三、控制选项四、技术原理解析4.1数学原理（距离场计算）4.2生成代码解析4.3视觉特性五、应用场景与实战案例5.1UI元素（矩形按钮/面板）场景：在UI中生成无纹理的矩形按钮或面板，支持动态调整大小和圆角（配合其他节点）5.2材质纹理（网格/条纹）场景：为材质添加矩形网格或条纹纹理（如布料格子、屏幕像素感）5.3粒子形状（矩形粒子/条纹）场景：控制粒子的形状为矩形
OpenCV 图像操作：颜色识别、替换与水印添加
目录引言代码实现1.导入必要的库2.图像加法3.图像直接相加4.颜色加权加法5.HSV颜色空间转换概念作用6.查找颜色范围对应的像素点7.与运算-生成掩膜8.添加水印9.主函数总结引言在计算机视觉领域，OpenCV是一个强大的库，提供了丰富的图像操作功能。本文将详细介绍如何使用OpenCV进行图像加法、颜色加权加法、HSV颜色空间转换、颜色范围查找、与运算生成掩膜以及添加水印等操作，并给出相应的P
【机器学习笔记Ⅰ】7 向量化巴伦是只猫机器学习机器学习笔记人工智能
向量化（Vectorization）详解向量化是将数据或操作转换为向量（或矩阵）形式，并利用并行计算高效处理的技术。它是机器学习和数值计算中的核心优化手段，能显著提升代码运行效率（尤其在Python中避免显式循环）。1.为什么需要向量化？(1)传统循环的缺陷低效：Python的for循环逐元素操作，速度慢。代码冗长：需手动处理每个元素。示例：计算两个数组的点积（非向量化）a=[1,2,3]b=[4
大模型RLHF强化学习笔记（二）：强化学习基础梳理Part2 Gravity! 大模型笔记大模型 LLM 强化学习人工智能
【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】一、强化学习基础1.4强化学习分类根据数据来源划分Online：智能体与环境实时交互，如Q-Learning、SARSA、Actor-CriticOffline：智能体使用预先收集的数据集进行学习根据策略更新划分On-Policy：学习和行为策略是相同的，数据是按照当前策略生成的，如SARSAOff-Policy：学习策
大语言模型应用指南：ReAct 框架 AI大模型应用实战 java python javascript kotlin golang 架构人工智能
大语言模型应用指南：ReAct框架关键词：大语言模型,ReAct框架,自然语言处理(NLP),模型融合,多模态学习,深度学习,深度学习框架1.背景介绍1.1问题由来近年来，深度学习技术在自然语言处理(NLP)领域取得了显著进展。尤其是大语言模型(LargeLanguageModels,LLMs)，如BERT、GPT系列等，通过在大规模无标签数据上进行预训练，获得了强大的语言理解和生成能力。然而，预
Python 数据分析实践：车辆行驶数据处理心得 lzzy-lt-0415 python 数据分析开发语言
在数据驱动决策的大趋势下，Python凭借其丰富的数据分析库，成为处理各类数据的得力工具。近期我围绕车辆行驶数据展开分析，过程中收获诸多实战经验，在此分享用Python进行数据处理与分析的心得，也结合代码讲讲实际运用思路。一、数据导入与初步探索：开启分析第一步importpandasaspd#导入数据df=pd.read_excel(r'../../数据层/数据集合/车辆行驶记录表单2.xlsx'
大语言模型原理基础与前沿基于语言反馈进行微调 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿基于语言反馈进行微调作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，自然语言处理（NLP）领域取得了显著的进展。大语言模型（LargeLanguageModels，LLMs）如GPT-3、BERT等在各项NLP任务上取得了令人瞩目的成绩。然而，如何进一步提高大语言模型的理
Unreal Engine开发：高级渲染技术_4.高级着色器编程 chenlz2007 游戏开发虚幻着色器游戏引擎数据库网络 rpc
4.高级着色器编程在上一节中，我们探讨了UnrealEngine中的基础渲染技术，包括光照、阴影和材质系统。本节将深入探讨高级着色器编程，帮助您掌握更复杂的渲染效果和优化技术。UnrealEngine的着色器系统是基于HLSL（High-LevelShadingLanguage）和USF（UnrealShaderFormat）的，这两种语言允许开发者编写高效的着色器代码，以实现各种视觉效果。4.1
李宏毅2025《机器学习》第四讲-Transformer架构的演进
Transformer架构的演进与替代方案：从RNN到Mamba的技术思辨Transformer作为当前AI领域的标准架构，其设计并非凭空而来，也并非没有缺点。本次讨论的核心便是：新兴的架构，如MAMA，是如何针对Transformer的弱点进行改进，并试图提供一个更优的解决方案的。要理解架构的演进，我们必须首先明确一个核心原则：每一种神经网络架构，都有其存在的技术理由。CNN（卷积神经网络）：为
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa

【今日CV 计算机视觉论文速览 第125期】Wed, 5 Jun 2019

Interesting:

Daily Computer Vision Papers

你可能感兴趣的:(视觉,计算机视觉,深度学习,机器学习,数据集,三维重建,Computervision,Paper)

【今日CV 计算机视觉论文速览第125期】Wed, 5 Jun 2019