hitrjj

【今日CV 计算机视觉论文速览第132期】Tue, 18 Jun 2019

今日CS.CV 计算机视觉论文速览
Tue, 18 Jun 2019
Totally 64 papers
?上期速览✈更多精彩请移步主页

Interesting:

?****MMDetection, 一个目标检测模型工具箱和代码库，包含了常见的目标检测模型，标准模块和高效的实现。可以为研究人员提供高效灵活的目标检测实现工具。还包含了多GPU的分布式训练实现。(from 港中文、浙大、悉尼大学、商汤、微软亚研、北理理工、南大、华中科技、北大、港科技、中山大学、西北大学(us)、南洋理工)
工具箱支持的模型库与其他代码库比较：

通用的架构和训练流程：

code:https://github.com/open-mmlab/mmdetection

?****Image-based 3D Object Reconstruction基于图像的三维重建深度学习实现综述, 从输入数据类型、输出表示、网络架构和训练过程对整个基于图像的三维重建进行了深入的分析，并对100多个模型进行了分析和比较。是一篇较好的单图像三维重建综述文章。(from 天津大学)

?基于对抗网络的水下图像增强算法, 首先提出了U45水下数据集，同时设计了针对图像和特征的融合特征的损失函数。实现的模型参数较少，速度较快效果较好。(from 南京信息工程大学)

u45 dataset:https://github.com/IPNUISTlegal/underwater-test-dataset-U45-
rar:https://github.com/IPNUISTlegal/underwater-test-dataset-U45-/blob/master/U45.rar

Daily Computer Vision Papers

MMDetection: Open MMLab Detection Toolbox and Benchmark
Authors Kai Chen, Jiaqi Wang, Jiangmiao Pang, Yuhang Cao, Yu Xiong, Xiaoxiao Li, Shuyang Sun, Wansen Feng, Ziwei Liu, Jiarui Xu, Zheng Zhang, Dazhi Cheng, Chenchen Zhu, Tianheng Cheng, Qijie Zhao, Buyu Li, Xin Lu, Rui Zhu, Yue Wu, Jifeng Dai, Jingdong Wang, Jianping Shi, Wanli Ouyang, Chen Change Loy, Dahua Lin
我们提供MMDetection，这是一个对象检测工具箱，包含丰富的对象检测和实例分割方法以及相关的组件和模块。该工具箱从MMDet团队的代码库开始，他们赢得了COCO Challenge 2018的检测轨道。它逐渐演变成一个统一的平台，涵盖了许多流行的检测方法和现代模块。它不仅包括训练和推理代码，还为200多种网络模型提供权重。我们相信这个工具箱是迄今为止最完整的检测工具箱。在本文中，我们将介绍此工具箱的各种功能。此外，我们还对不同的方法，组件及其超参数进行了基准研究。我们希望工具箱和基准可以通过提供灵活的工具包来重新实现现有方法并开发自己的新探测器，从而为不断增长的研究社区服务。代码和型号可在以下网站获得

Machine-Assisted Map Editing
Authors Favyen Bastani, Songtao He, Sofiane Abbar, Mohammad Alizadeh, Hari Balakrishnan, Sanjay Chawla, Sam Madden
今天制定道路网络是劳动密集型的。因此，许多国家的路线图在城市中心以外的覆盖率很低。已经提出了从航空图像和GPS轨迹自动推断道路网络图的系统，以改善道路地图的覆盖范围。但是，由于错误率很高，映射社区尚未采用这些系统。我们提出机器辅助地图编辑，其中自动地图推理被集成到现有的，以人为中心的地图编辑工作流程中。为了实现这一点，我们构建了机器辅助iD MAiD，我们使用机器辅助功能扩展了基于Web的OpenStreetMap编辑器iD。我们用一种新颖的方法来补充MAiD，该方法用于从航拍图像推断道路拓扑，其结合了先前分割方法的速度和先前迭代图形构造方法的准确性。我们设计MAiD来解决在现有地图覆盖率较差的地区增加主要干道，以及在已经绘制主要道路的地区逐步改善覆盖范围。我们进行了两项用户研究，发现当参与者获得固定时间绘制道路时，他们可以使用MAiD增加多达3.5倍的道路。

Particle Swarm Optimization for Great Enhancement in Semi-Supervised Retinal Vessel Segmentation with Generative Adversarial Networks
Authors Qiang Huo
基于深度学习的视网膜血管分割需要大量手动标记数据。这是耗时，费力和专业的。更糟糕的是，获取丰富的眼底图像很困难。由于存在异常，血管的大小和形状不同，不均匀的照射和解剖学变化，这些问题更加严重。在本文中，我们提出了一个数据有效的半监督学习框架，它有效地结合了现有的深度学习网络与GAN和自我培训的想法。针对半监督学习超参数调整的难度，提出了一种基于粒子群优化算法的超参数选择方法。据我们所知，这项工作是第一次将智能优化与半监督学习相结合以实现最佳性能的演示。在对抗性学习，自我训练和PSO的协作下，选择最佳超参数，我们获得的视网膜血管分割的性能接近或甚至优于代表性的监督学习，仅使用来自DRIVE的标记数据的十分之一。

Boosting Supervision with Self-Supervision for Few-shot Learning
Authors Jong Chyi Su, Subhransu Maji, Bharath Hariharan
我们提出了一种技术，通过引入自监督任务作为辅助损失函数来提高在小标记数据集上学习的深度表示的可转移性。虽然最近的自我监督学习方法已经显示了对大型未标记数据集进行培训的好处，但我们发现即使在小型数据集上以及与强有力的监督相结合时，也可以改进泛化。具有自我监督损失的学习表示在几个镜头学习基准上降低了现有技术元学习者的相对错误率，并且在从头开始训练时降低了标准分类任务的现成深度网络。我们发现自我监督的好处随着任务的难度而增加。我们的方法利用数据集中的图像来构建自我监督的损失，因此是学习可转移表示的有效方式，而不依赖于任何外部训练数据。

Exemplar Guided Face Image Super-Resolution without Facial Landmarks
Authors Berk Dogan, Shuhang Gu, Radu Timofte
如今，由于无处不在的视觉媒体，存在大量已经可用的高分辨率HR脸部图像。因此，为了超分辨人的给定的非常低分辨率的LR面部图像，很可能找到可用于指导该过程的同一人的另一个HR面部图像。在本文中，我们提出了一种基于卷积神经网络CNN的解决方案，即GWAInet，它将超分辨率SR应用于由同一个人的另一个无约束HR面部图像引导的面部图像上，可能在年龄，表情，姿势或尺寸。 GWAInet以对抗性生成方式进行训练，以产生所需的高质量感知图像结果。 HR引导图像的利用通过使用将其内容与输入图像对齐的整经器子网络以及对来自弯曲引导图像和输入图像的提取特征的特征融合链的使用来实现。在训练中，身份丢失进一步有助于通过最小化SR和HR地面真实图像的嵌入向量之间的距离来保持身份相关特征。与面部超分辨率的现有技术水平相反，我们的方法不需要用于其训练的面部标志点，这有助于其稳健性并且允许其以均匀的方式为周围的面部区域产生精细的细节。我们的方法GWAInet以升序因子8x产生照片逼真图像，并且在数量和感知质量方面优于现有技术水平。

Towards Real-Time Action Recognition on Mobile Devices Using Deep Models
Authors Chen Lin Zhang, Xin Xin Liu, Jianxin Wu
动作识别是计算机视觉中的一项重要任务，并且开发了许多方法以将其推向极限。然而，当前的动作识别模型具有巨大的计算成本，其不能部署到移动设备上的现实世界任务中。在本文中，我们首先说明实时动作识别的设置，这与当前动作识别推理设置不同。在新的推理设置下，我们根据经验研究了Kinetics数据集上的最新动作识别模型。我们的结果表明，设计高效的实时动作识别模型不同于设计高效的ImageNet模型，尤其是在权重初始化中。我们展示了ImageNet上经过预先训练的权重可以提高实时动作识别设置下的准确性。最后，我们使用手势识别任务作为案例研究来评估我们在移动电话上的实际应用中的紧凑实时动作识别模型。结果表明，我们的动作识别模型速度提高了6倍，并且具有与现有技术相似的精度，可以大致满足移动设备的实时要求。据我们所知，这是第一篇在移动设备上部署当前深度学习动作识别模型的论文。

Semi-Supervised Semantic Mapping through Label Propagation with Semantic Texture Meshes
Authors Radu Alexandru Rosu, Jan Quenzel, Sven Behnke
场景理解是机器人在非结构化环境中行动的重要能力。虽然大多数SLAM方法提供场景的几何表示，但语义地图对于与周围环境的更复杂的交互是必要的。当前的方法将语义映射视为几何的一部分，这限制了可伸缩性和准确性。我们建议将语义地图表示为几何网格和以独立分辨率耦合的语义纹理。关键的想法是，在许多环境中，几何形状可以大大简化而不会失去保真度，而语义信息可以以更高的分辨率存储，而与网格无关。我们从深度传感器构造网格以表示场景几何，并将信息融合到来自场景的各个RGB视图的分段的语义纹理中。使语义在全局网格中持久化使我们能够强制执行各个视图预测的时间和空间一致性。为此，我们提出了一种通过迭代地重新训练语义分割与存储在地图内的信息并使用重新训练的分割来重新融合语义来在各个分割之间建立共识的有效方法。我们通过重建来自NYUv2的场景的语义地图和跨越大型建筑物的场景来展示我们的方法的准确性和可扩展性。

Trimmed Action Recognition, Dense-Captioning Events in Videos, and Spatio-temporal Action Localization with Focus on ActivityNet Challenge 2019
Authors Zhaofan Qiu, Dong Li, Yehao Li, Qi Cai, Yingwei Pan, Ting Yao
本笔记本文件介绍了我们为ActivityNet Challenge 2019修剪动作识别，视频中的密集字幕事件和时空动作本地化中的以下三个任务而设计的系统的概述和比较分析。

Hallucinated Adversarial Learning for Robust Visual Tracking
Authors Qiangqiang Wu, Zhihui Chen, Lin Cheng, Yan Yan, Bo Li, Hanzi Wang
人类可以从一个单一的范例中轻松地学习新的概念，这主要是因为他们具有非凡的想象力或幻觉能够在不同环境中看不见的样本。结合这种对被跟踪实例的各种新样本产生幻觉的能力可以帮助跟踪器减轻低数据跟踪状态中的过度拟合问题。为实现这一目标，我们提出了一种有效的对抗方法，表示为对抗性幻觉AH，用于稳健的视觉跟踪。所提出的AH被设计为首先在一对相同的身份实例之间学习可转移的非线性变形，然后将这些变形应用于看不见的跟踪实例，以便生成不同的正训练样本。通过通过检测框架将AH结合到在线跟踪中，我们提出了幻觉对抗跟踪器HAT，其以端对端方式联合优化AH与在线分类器，例如MDNet。此外，提出了一种新颖的选择性变形转移SDT方法，以更好地选择更适合转移的变形。对3个流行基准测试的广泛实验表明，我们的HAT实现了最先进的性能。

Multi-Scale Convolutions for Learning Context Aware Feature Representations
Authors Nikolai Ufer, Kam To Lui, Katja Schwarz, Paul Warkentin, Bj rn Ommer
寻找语义对应是一个具有挑战性的问题。随着CNN的突破，更强的功能可用于分类等任务，但不是专门针对语义匹配的要求。在下文中，我们提出了一种弱监督的度量学习方法，通过编码比以前的方法更多的上下文来生成更强的特征。首先，我们使用几何通知的对应挖掘方法生成更合适的训练数据，该方法不太容易进行虚假匹配，并且仅需要图像类别标签作为监督。其次，我们引入了一个新的卷积层，它是不同步幅卷积的学习混合，允许网络隐式编码更多上下文，同时保持匹配精度。特征方面的强几何编码使我们能够学习语义流网络，该网络比基于参数变换的模型生成更自然的变形，并且能够同时联合预测前景区域。我们的语义流网络在几个语义匹配基准测试中优于当前的技术水平，并且学习的特征在简单的最近邻居匹配方面表现出惊人的性能。

EnlightenGAN: Deep Light Enhancement without Paired Supervision
Authors Yifan Jiang, Xinyu Gong, Ding Liu, Yu Cheng, Chen Fang, Xiaohui Shen, Jianchao Yang, Pan Zhou, Zhangyang Wang
基于深度学习的方法在图像恢复和增强方面取得了显着的成功，但是当缺乏配对的训练数据时它们仍然具有竞争力。作为一个这样的例子，本文探讨了低光图像增强问题，在实践中它极具挑战性同时拍摄同一视觉场景的低光和普通光照。我们提出了一种高效的无监督生成对抗网络，称为EnlightenGAN，可以在没有低正常光图像对的情况下进行训练，但证明可以很好地概括各种真实世界的测试图像。我们建议使用从输入本身提取的信息来规范非配对训练，并对低光图像增强问题进行基准测试，包括全局局部鉴别器结构，自我正则化，而不是使用地面实况数据来监督学习。感知损失融合和注意机制。通过大量实验，我们提出的方法在视觉质量和主观用户研究方面优于各种指标下的近期方法。由于非配对培训带来了极大的灵活性，EnlightenGAN可以很容易地适应各种领域的现实世界图像。该代码可在网址获取

Noisy-As-Clean: Learning Unsupervised Denoising from the Corrupted Image
Authors Jun Xu, Yuan Huang, Li Liu, Fan Zhu, Xingsong Hou, Ling Shao
在过去几年中，监督网络在图像去噪方面取得了很好的成绩。这些方法从大量嘈杂和干净的图像中学习图像先验和合成噪声统计。最近，仅使用外部噪声图像进行训练，提出了几种无监督的去噪网络。然而，从外部数据学习的网络固有地受到域间隙困境的影响，即，训练数据和损坏的测试图像之间的图像先验和噪声统计非常不同。在处理真实照片中依赖于信号的真实噪声时，这种困境变得更加清晰。在这项工作中，我们提供了一个统计上有用的结论，可以仅使用损坏的图像来学习无监督网络，近似于使用成对的噪声和干净图像学习的监督网络的最佳参数。这是通过提出一种嘈杂的清洁策略来实现的，该策略将损坏的图像作为清洁目标，并且基于损坏的图像作为输入的模拟噪声图像。大量实验表明，采用我们的Noisy As Clean策略学习的无监督去噪网络在去除几种典型的合成噪声和逼真噪声方面令人惊讶地优于以前的监督网络。该代码将公开发布。

Multi-task Learning For Detecting and Segmenting Manipulated Facial Images and Videos
Authors Huy H. Nguyen, Fuming Fang, Junichi Yamagishi, Isao Echizen
检测被操纵的图像和视频是数字媒体取证中的一个重要主题。大多数检测方法使用二进制分类来确定查询被操纵的概率。另一个重要的主题是定位操纵区域，即执行分割，其主要由三种常用的攻击移除，复制移动和拼接创建。我们设计了一个卷积神经网络，它使用多任务学习方法同时检测被操纵的图像和视频，并为每个查询定位操纵区域。通过执行一项任务获得的信息与另一项任务共享，从而提高两项任务的性能。半监督学习方法用于改善网络的可生成性。该网络包括编码器和Y形解码器。编码特征的激活用于二进制分类。解码器的一个分支的输出用于分割操纵区域，而另一个分支的输出用于重建输入，这有助于提高整体性能。使用FaceForensics和FaceForensics数据库的实验证明了网络对面部重演攻击和面部交换攻击的有效性，以及它处理先前看到的攻击的不匹配条件的能力。此外，仅使用少量数据进行微调就可以使网络处理看不见的攻击。

Hierarchical Back Projection Network for Image Super-Resolution
Authors Zhi Song Liu, Li Wen Wang, Chu Tak Li, Wan Chi Siu
基于深度学习的单图像超分辨率方法使用大量的训练数据集，并且最近在数量和质量上都取得了很好的质量进展。大多数深度网络都专注于通过残差学习从低分辨率输入到高分辨率输出的非线性映射，而无需探索特征抽象和分析。我们提出了一种分层反向投影网络HBPN，它将多个HourGlass HG模块级联到所有尺度的自下而上和自上而下的过程特征，以捕获各种空间相关性，然后整合最佳的重建表示。我们在我们提出的网络中采用反投影块来提供误差相关的上下采样过程，以取代简单的反卷积和合并过程，以便更好地进行估计。基于Softmax的新加权重建WR过程用于组合HG模块的输出，以进一步提高超分辨率。包括真实图像超分辨率挑战的验证数据集NTIRE2019在内的各种数据集的实验结果表明，我们提出的方法可以实现并改善不同比例因子的现有技术方法的性能。

NLH: A Blind Pixel-level Non-local Method for Real-world Image Denoising
Authors Yingkun Hou, Jun Xu, Mingxia Liu, Guanghai Liu, Li Liu, Fan Zhu, Ling Shao
非局部自相似性NSS是用于图像去噪的自然图像的强大先验。大多数现有的去噪方法使用类似的补丁，这是补丁级NSS先验。在本文中，我们通过引入像素级NSS先前向前迈出一步，即在非局部区域上搜索相似像素。这是因为发现密切相似的像素比自然图像中的类似斑块更可行，这可以用于增强图像去噪性能。利用引入的像素级NSS先验，我们提出了一种精确的噪声水平估计方法，然后开发了基于提升Haar变换和Wiener滤波技术的盲图像去噪方法。对基准数据集的实验表明，所提出的方法在现实世界图像去噪方面比现有技术方法获得了更好的性能。代码将被释放。

Spatio-Temporal Fusion Networks for Action Recognition
Authors Sangwoo Cho, Hassan Foroosh
基于视频的CNN工作集中于融合外观和运动网络的有效方式，但它们通常缺乏利用视频帧上的时间信息。在这项工作中，我们提出了一个新颖的时空融合网络STFN，它集成了整个视频的外观和运动信息的时间动态。然后聚合捕获的时间动态信息以获得更好的视频级表示并通过端到端训练学习。时空融合网络由两组残余初始块组成，它们提取时间动态和外观和运动特征的融合连接。 STFN的优势在于它可以捕获互补数据的本地和全球时间动态，以学习视频广泛的信息，并且它适用于任何视频分类网络以提高性能。我们探索了STFN的各种设计选择，并验证了消融研究如何改变网络性能。我们在两个具有挑战性的人类活动数据集UCF101和HMDB51上进行实验，并通过最佳网络实现最先进的结果。

A Fusion Adversarial Network for Underwater Image Enhancement
Authors Jingjing Li, Hanyu Li
水下图像增强算法在水下视觉任务中引起了广泛关注。然而，这些算法主要在不同的数据集和不同的度量上进行评估。在本文中，我们建立了一个有效的公共水下测试数据集U45，包括水下降水效果的低色度，低对比度和雾霾效应，并提出了一个融合对抗网络来增强水下图像。同时，设计了包括Lgt损失和Lfe损失在内的对抗性损失，分别关注地面实况的图像特征和融合增强方法增强的图像特征。所提出的网络有效地校正了色偏，并且用更少的参数拥有更快的测试时间。 U45数据集的实验结果表明，所提出的方法在定性和定量评估方面实现了比其他现有技术方法更好或相当的性能。此外，消融研究证明了每个组件的贡献，并且应用测试进一步显示了增强图像的有效性。

A Temporal Sequence Learning for Action Recognition and Prediction
Authors Sangwoo Cho, Hassan Foroosh
在这项工作脚注中这项工作部分由国家科学基金会资助IIS 1212948支持。我们提出了一种方法来表示具有一系列单词的视频，并学习这些单词的时间顺序作为预测和预测的关键信息。认识到人类行为。我们利用句子分类中使用的自然语言处理NLP文献中的核心概念来解决动作预测和动作识别的问题。使用Bag of Visual Words BoW编码方法将每个帧转换为表示为向量的单词。然后将这些单词组合成一个句子来表示视频，作为一个句子。使用简单但有效的时间卷积神经网络CNN来学习不同动作中的单词序列，其捕获视频句子中的信息的时间顺序。我们证明了所提出方法的一个关键特征是其低延迟，即其用部分序列句准确预测动作的能力。对两个数据集（textit UCF101和textit HMDB51）的实验表明，该方法在视频帧的一半内平均达到95的精度。结果还表明，除了动作预测之外，我们的方法在动作识别中即在句子完成时实现了兼容的现有技术性能。

Three-Dimensional Fourier Scattering Transform and Classification of Hyperspectral Images
Authors Ilya Kavalerov, Weilin Li, Wojciech Czaja, Rama Chellappa
最近的研究已经产生了许多新技术，能够捕获高光谱图像分析的高光谱数据的特殊属性，高光谱图像分类是最活跃的任务之一。时频方法将光谱分解为多光谱带，而诸如神经网络的分层方法结合了尺度上的空间信息并且模拟光谱特征之间的多个依赖性水平。傅立叶散射变换是时间频率表示与神经网络架构的融合，最近已经证明这两者在频谱空间分类方面提供了显着的进步。我们在四个标准高光谱数据集上测试所提出的三维傅里叶散射方法，并且呈现的结果表明，与其他现有技术的光谱空间分类方法相比，傅立叶散射变换在表示光谱数据方面非常有效。

Panoptic Image Annotation with a Collaborative Assistant
Authors Jasper R. R. Uijlings, Mykhaylo Andriluka, Vittorio Ferrari
本文旨在减少为全景分割任务注释图像的时间，这需要为所有对象实例和填充区域添加分段掩码和类标签。我们将我们的方法制定为注释器和自动化助理代理之间的协作过程，后者轮流使用预定义的段池共同注释图像。注释器执行的动作充当强大的上下文信号。助手通过预测注释器的未来动作来智能地响应该信号，然后注释器自己执行。这减少了注释器所需的工作量。在COCO全景数据集Caesar18cvpr，Kirillov18arxiv，Lin14eccv上的实验表明，我们的方法比最近的Andriluka18acmmm机器辅助界面快17 27。与传统的手动多边形绘图Russel08ijcv相比，这相当于加速了4倍。

Back-Projection based Fidelity Term for Ill-Posed Linear Inverse Problems
Authors Tom Tirer, Raja Giryes
在许多图像处理应用中出现了病态的线性逆问题，例如去模糊，超分辨率和压缩感知。许多恢复策略涉及最小化成本函数，其由保真度和先前项组成，由正则化参数平衡。虽然大量研究都集中在不同的先验模型上，但保真度项几乎总是被选择为最小二乘LS目标，这鼓励将线性变换的优化变量拟合到观察中。在这项工作中，我们研究了一个不同的保真度项，最近提出的迭代去噪和后向投影IDBP框架已经隐含地使用了这个术语。该术语鼓励优化变量的投影到线性算子的行空间和应用于观察的线性算子反投影的伪逆之间的一致。我们分析地检验了Tikhonov正则化的两个保真度项之间的差异，并确定了新术语优于标准LS术语的情况。此外，我们在经验上证明了复杂凸和非凸先验的两个诱导成本函数的行为，例如总变差，BM3D和深度生成模型，与所获得的理论分析相关。

Floors are Flat: Leveraging Semantics for Real-Time Surface Normal Prediction
Authors Steven Hickson, Karthik Raveendran, Alireza Fathi, Kevin Murphy, Irfan Essa
我们提出了4个有助于显着改善深度学习模型性能的见解，这些模型可以从单个RGB图像中预测表面法线和语义标签。这些见解是训练集中的地面真实表面法线的1个去噪，以确保与实际和合成数据的混合上同时训练的语义标签2的一致性，而不是在实际3上预处理合成和微调，使用a来共同预测法线和语义。共享模型，但只有具有有效训练标签的像素的反向传播错误4使模型变细并使用灰度而不是颜色输入。尽管这些步骤非常简单，但我们使用在标准手机上以12 fps运行的模型，在几个数据集上展示了持续改进的结果。

On the Self-Similarity of Natural Stochastic Textures
Authors Samah Khawaled, Yehoshua Y. Zeevi
自相似性是分形图像的本质，因此，表征自然随机纹理。本文关注的是在包含随机纹理和结构主要确定性信息的完全纹理图像的情况下统计意义上的自相似性。我们首先将纹理图像分解为与其纹理和结构相对应的两层，并且表明表示随机纹理的层的特征在于均匀分布的随机相位，而不是相干的结构化信息的相位。通过使用合适的假设检验框架来验证随机相的均匀分布。我们继续提出两种评估自相似性的方法。第一种是基于互补信息的补丁计算，而第二种是衡量跨尺度存在的互信息。通过互信息量化自相似程度对于在医学成像，地质学，农业和计算机视觉算法中遇到的自然随机纹理的分析是至关重要的，所述自然随机纹理被设计用于在完全纹理图像上应用。

Defending Against Adversarial Attacks Using Random Forests
Authors Yifan Ding, Liqiang Wang, Huan Zhang, Jinfeng Yi, Deliang Fan, Boqing Gong
随着深度神经网络DNN变得越来越重要和流行，DNN的稳健性是互联网和物理世界安全的关键。不幸的是，最近的一些研究表明，难以与实际例子区别开来的对抗性例子很容易欺骗DNN并操纵他们的预测。在观察到对抗性示例主要是通过基于梯度的方法生成时，在本文中，我们首先提出使用一种简单但非常有效的非可微混合模型，该模型结合了DNN和随机森林，而不是隐藏攻击者的渐变，以抵御攻击。我们的实验表明，我们的模型可以成功地完全抵御白盒攻击，具有较低的可转移性，并且对三种代表性的黑盒攻击类型具有很强的抵抗力，同时，我们的模型实现了与原始DNN类似的分类精度。最后，我们调查并建议一个标准来定义在DNN中种植随机森林的位置。

Deep Recurrent Quantization for Generating Sequential Binary Codes
Authors Jingkuan Song, Xiaosu Zhu, Lianli Gao, Xin Shun Xu, Wu Liu, Heng Tao Shen
量化由于其高精度和快速搜索速度，已成为ANN近似最近邻搜索中的有效技术。为了满足不同应用的要求，在检索精度和速度之间总是存在折衷，这反映在可变代码长度上。但是，要将数据集编码为不同的代码长度，现有方法需要训练多个模型，其中每个模型只能生成特定的代码长度。这导致相当大的训练时间成本，并且在很大程度上降低了在实际应用中部署的量化方法的灵活性。为了解决这个问题，我们提出了一种深度递归量化DRQ架构，它可以生成顺序二进制码。最后，当训练模型时，可以生成一系列二进制代码，并且可以通过调整循环迭代次数来容易地控制代码长度。共享码本和标量因子被设计为深度递归量化块中的可学习权重，并且可以以端到端方式训练整个框架。据我们所知，这是第一种可以训练一次并生成顺序二进制代码的量化方法。基准数据集上的实验结果表明，与图像检索的现有技术相比，我们的模型实现了可比较的甚至更好的性能。但它需要的参数和训练时间明显减少。我们的代码在线发布

Beyond Product Quantization: Deep Progressive Quantization for Image Retrieval
Authors Lianli Gao, Xiaosu Zhu, Jingkuan Song, Zhou Zhao, Heng Tao Shen
产品量化PQ长期以来一直是以非常低的内存时间成本生成指数级大型码本的主流。尽管PQ成功，但对于高维向量空间的分解仍然很棘手，并且当代码长度改变时，模型的重新训练通常是不可避免的。在这项工作中，我们提出了深度渐进量化DPQ模型，作为PQ的替代，用于大规模图像检索。 DPQ顺序学习量化代码并逐步逼近原始特征空间。因此，我们可以同时训练具有不同码长的量化码。具体而言，我们首先利用标签信息来指导视觉特征的学习，然后应用几个量化块逐步接近视觉特征。每个量化块被设计为卷积神经网络的一层，并且整个框架可以以端到端的方式进行训练。基准数据集上的实验结果表明，我们的模型明显优于图像检索的最新技术水平。我们的模型针对不同的代码长度进行一次训练，因此需要较少的计算时间额外的消融研究证明了我们提出的模型的每个组成部分的效果。我们的代码发布于

On training deep networks for satellite image super-resolution
Authors Michal Kawulok, Szymon Piechaczek, Krzysztof Hrynczenko, Pawel Benecki, Daniel Kostrzewa, Jakub Nalepa
近来，通过使用深度卷积神经网络，显着改善了用于增强图像空间分辨率的超分辨率重建SRR技术的能力。通常，这种网络是使用由原始图像组成的大型训练集以及它们的低分辨率对应物来学习的，这些训练集通过双三次下采样获得。在本文中，我们研究了SRR性能如何受到获得这种低分辨率训练数据的方式的影响，这种数据尚未被研究过。我们广泛的实验研究表明，训练数据特征对重建精度有很大影响，广泛采用的方法对于处理卫星图像并不是最有效的。总的来说，我们认为开发更好的培训数据准备程序可能是使SRR适合现实世界应用的关键。

Learning Part Generation and Assembly for Structure-aware Shape Synthesis
Authors Jun Li, Chengjie Niu, Kai Xu
学习用于3D形状合成的深度生成模型在很大程度上受到难以生成具有正确拓扑和合理几何形状的合理形状的限制。实际上，即使在相同的形状类别中，考虑到3D物体的显着拓扑变化，学习似乎合理的3D形状的分布对于大多数现有的，结构遗忘形状表示来说似乎是艰巨的任务。基于三维形状分析的共识，形状结构被定义为零件组成和零件之间的相互关系，我们建议使用深度生成网络（部分意识和关系意识）对3D形状变化进行建模，命名为PARANet。网络由每个部分的VAE GAN阵列组成，生成构成完整形状的语义部分，然后是部件组装模块，其估计每个部件的变换以将它们关联并组装成合理的结构。通过将零件组成和零件关系的生成分成单独的网络，大大减少了对三维形状的结构变化进行建模的难度。我们通过大量实验证明，PARANet生成具有合理，多样和详细结构的3D形状，并展示了两种原型应用的语义形状分割和形状集演化。

STAR: A Structure and Texture Aware Retinex Model
Authors Jun Xu, Mengyang Yu, Li Liu, Fan Zhu, Dongwei Ren, Yingkun Hou, Haoqian Wang, Ling Shao
Retinex理论主要是通过分析局部图像导数将图像分解为光照和反射分量。在该理论中，较大的导数归因于分段恒定反射率的变化，而较小的导数出现在平滑照明中。在本文中，我们建议利用带有观测图像的指数伽马的指数导数，当用γ1放大时产生结构图，当用γ1收缩时产生纹理图。为此，我们设计了局部导数的指数滤波器，并展示了它们提取精确结构和纹理图的能力，受到局部导数上指数γ选择的影响。提取的结构和纹理图用于调整Retinex分解中的照明和反射分量。还提出了一种新颖的结构和纹理感知Retinex STAR模型，用于单个图像的照射和反射分解。我们以交替最小化的方式解决STAR模型。每个子问题都转换为带有闭合形式解的矢量化最小二乘回归。综合实验表明，与先前的竞争方法相比，所提出的STAR模型在照明和反射率估计，低光图像增强和颜色校正方面产生更好的定量和定性性能。该代码将公开发布。

Mixture separability loss in a deep convolutional network for image classification
Authors Trung Dung Do, Cheng Bin Jin, Hakil Kim, Van Huan Nguyen
在机器学习中，成本函数至关重要，因为它衡量系统的好坏。在图像分类中，众所周知的网络仅考虑修改网络结构并在网络末端应用交叉熵损失。然而，仅使用交叉熵损失导致网络在所有训练图像被正确分类时停止更新权重。这是早期饱和的问题。本文提出了一种新的成本函数，称为混合分离性损失MSL，即使在大多数训练图像被准确预测时，它也会更新网络的权重。 MSL由班级和班级损失组成。在类丢失之间最大化类间图像之间的差异，而在类丢失内最小化类内图像之间的相似性。我们设计了所提出的损失函数以附加到网络中的不同卷积层，以便利用中间特征映射。实验表明，具有MSL的网络加深了学习过程，并通过一些公共数据集获得了有希望的结果，例如Street View House Number SVHN，加拿大高级研究CIFAR研究所和我们自己收集的Inha计算机视觉实验室ICVL性别数据集。

Image Captioning with Integrated Bottom-Up and Multi-level Residual Top-Down Attention for Game Scene Understanding
Authors Jian Zheng, Sudha Krishnamurthy, Ruxin Chen, Min Hung Chen, Zhenhao Ge, Xiaohua Li
近年来，图像字幕引起了相当多的关注。然而，对于具有一些独特特征和要求的游戏图像字幕的工作很少。在这项工作中，我们提出了一种新颖的游戏图像字幕模型，它将自下而上的注意力与新的多级残留自上而下的注意机制相结合。首先，将较低级别的残留自上而下注意网络添加到基于快速R CNN的自下而上注意网络，以解决后者在提取区域特征时可能丢失重要空间信息的问题。其次，在字幕生成网络中实现上层残留自上而下注意网络，以更好地融合所提取的区域特征以用于后续字幕预测。我们创建了两个游戏数据集来评估所提出的模型。大量实验表明，我们提出的模型优于现有的基线模型。

Uncovering Why Deep Neural Networks Lack Robustness: Representation Metrics that Link to Adversarial Attacks
Authors Danilo Vasconcellos Vargas, Shashank Kotyan, Moe Matsuki
神经网络已被证明易受对抗样本的影响。略微扰动的输入图像能够改变准确模型的分类，表明所学习的表示不如以前好

REMAP: Multi-layer entropy-guided pooling of dense CNN features for image retrieval
Authors Syed Sameed Husain, Miroslaw Bober
本文讨论了大规模图像检索的问题，着重于提高其准确性和鲁棒性。我们将搜索的增强稳健性定位到诸如照明变化，对象外观和比例，部分遮挡以及杂乱背景等因素，这些因素在具有显着可变性的非常大的数据集上执行搜索时尤为重要。我们提出了一种新的基于CNN的全局描述符，称为REMAP，它学习并聚合来自多个CNN层的深层特征的层次结构，并且以三元组丢失进行端到端训练。 REMAP明确地学习了在视觉抽象的各种语义层面上相互支持和互补的判别特征。在聚合成单个图像级别描述符之前，这些密集的局部特征在多层重叠区域内的每一层在空间上最大地汇集。为了识别用于检索的语义上有用的区域和层，我们建议使用KL散度来测量每个区域和层的信息增益。我们的系统在培训期间有效地学习各种区域和层的有用性并相应地加权。我们证明这种相对熵引导的聚合优于由SGD控制的经典的基于CNN的聚合。整个框架以端到端的方式进行培训，优于最新的最新技术成果。在图像检索数据集Holidays，Oxford和MPEG上，REMAP描述符分别达到95.5,91.5和80.1的mAP，优于迄今发布的任何结果。 REMAP还成为了Kaggle Google Landmark Retrieval Challenge的获奖提交的核心。

DeepMOT: A Differentiable Framework for Training Multiple Object Trackers
Authors Yihong Xu, Yutong Ban, Xavier Alameda Pineda, Radu Horaud
多目标跟踪精度和精度MOTA和MOTP是评估多个目标跟踪器质量的两个标准和广泛使用的指标。它们专门用于编码跟踪多个对象的挑战和困难。基于MOTA和MOTP直接优化跟踪器是很困难的，因为这两个指标都非常依赖匈牙利算法，这是不可微分的。我们为MOTA和MOTP提出了一个可微分的代理，从而允许通过直接优化标准MOT度量的代理来训练深度多目标跟踪器。所提出的近似是基于双向递归网络，其将对象输入到假设距离矩阵并将最优假设输出到对象关联，从而模拟匈牙利算法。在可微分模块之后，估计的关联用于计算MOTA和MOTP。实验研究证明了这种可区分框架对两个最近的深度跟踪器相对于MOT17数据集的好处。此外，该代码可从公开获得

IMP: Instance Mask Projection for High Accuracy Semantic Segmentation of Things
Authors Cheng Yang Fu, Tamara L. Berg, Alexander C. Berg
在这项工作中，我们提出了一个名为Instance Mask Projection IMP的新算子，它将预测的实例分割作为语义分割的新特征。它还支持反向传播，因此可以端到端训练。我们的实验显示了IMP对具有复杂分层，大变形和非凸对象的服装解析以及具有许多重叠实例和小对象的街道场景分割的有效性。在各种服装解析数据集VCP上，我们展示了实例掩模投影可以通过最先进的Panoptic FPN分割方法在mIOU上提高3个点。在ModaNet服装解析数据集上，与现有的基线语义分割结果相比，我们显示出绝对的20.4的显着改进。此外，实例蒙版投影算子在其他非服装数据集上运行良好，在城市景观的Thing类上提供了3个点的改进，这是一种自驱动数据集，基于最先进的方法。

EXTD: Extremely Tiny Face Detector via Iterative Filter Reuse
Authors YoungJoon Yoo, Dongyoon Han, Sangdoo Yun
在本文中，我们提出了一种新的多尺度人脸检测器，它具有极少数参数EXTD，小于10万，并且具有与深重探测器相当的性能。虽然现有的多尺度人脸检测器从单个骨干网络中提取具有不同尺度的特征图，但是我们的方法通过迭代地重用共享的轻量级和浅层骨干网来生成特征图。骨干网络的这种迭代共享显着减少了参数的数量，并且还提供了从网络层的较高级捕获到较低级别的特征映射的抽象图像语义。所提出的想法被各种模型架构采用并通过大量实验进行评估。通过WIDER FACE数据集的实验，我们证明了所提出的人脸探测器可以处理具有不同尺度和条件的面，并且实现了与更大质量的面部探测器相当的性能，这些探测器在模型尺寸和浮点操作中重量只有几百倍和几十倍。

Single Image Super-resolution via Dense Blended Attention Generative Adversarial Network for Clinical Diagnosis
Authors Kewen Liu, Yuan Ma, Hongxia Xiong, Zejun Yan, Zhijun Zhou, Chaoyang Liu, Panpan Fang, Xiaojun Li, Yalei Chen
在临床诊断中，医生能够在高分辨率HR医学图像的帮助下更清晰地看到生物组织和早期病变，这对提高诊断准确性至关重要。为了解决医学图像由于缺乏高频细节而导致严重模糊的问题，本文通过密集神经网络和混合注意机制开发了一种新的图像超分辨率SR算法SR DBAN。具体地，提出了一种新的混合注意块并将其引入到密集神经网络DenseNet中，使得神经网络可以自适应地将更多的注意力集中在具有足够高频细节的区域和信道上。在SR DBAN的框架中，原始DenseNet中的批量标准化层被移除以避免高频纹理细节的丢失，最终的HR图像通过网络的最末端的解卷积获得。此外，受生成对抗网络令人印象深刻的表现的启发，本文通过密集的混合注意生成对抗网络开发了一种名为SR DBAGAN的新型图像SR算法。 SR DBAGAN包括一个生成器和一个鉴别器，生成器使用我们提出的SR DBAN生成HR图像并试图欺骗鉴别器，同时基于Wasserstein GAN WGAN设计鉴别器来区分。我们在模糊的前列腺MRI图像上部署了我们的算法，实验结果表明，与主流插值相比，我们提出的算法产生了相当大的清晰度和纹理细节，并且分别在峰值信噪比PSNR和结构相似性指数SSIM上有显着改善。基于深度学习的图像SR算法，充分证明了我们提出的算法的有效性和优越性。

Mask Based Unsupervised Content Transfer
Authors Ron Mokady, Sagie Benaim, Lior Wolf, Amit Bermano
我们考虑以无人监督的方式在两个域之间进行翻译的问题，其中一个域包含一些与另一个相比的附加信息。所提出的方法解开了这些域的共同和独立部分，并且通过生成掩模，将底层网络的注意力集中在期望的增强上，而不会浪费地重建整个目标。这通过广泛的定量和定性评估显示了现有技术的质量和各种内容翻译。此外，基于掩模的新颖公式和正则化足够精确以在弱监督分割领域中实现现有技术性能，其中仅给出类别标签。据我们所知，这是第一个解决域解除问题和弱监督分割问题的报告。我们的代码是公开的

Image-based 3D Object Reconstruction: State-of-the-Art and Trends in the Deep Learning Era
Authors Xian Feng Han, Hamid Laga, Mohammed Bennamoun
3D重建是一个长期存在的不良问题，数十年来一直由计算机视觉，计算机图形学和机器学习社区进行探索。自2015年以来，使用卷积神经网络CNN的基于图像的3D重建已引起越来越多的关注并且表现出令人印象深刻的性能。鉴于这个快速发展的新时代，本文对该领域的最新发展进行了全面的调查。我们专注于使用深度学习技术从单个或多个RGB图像估计通用对象的3D形状的工作。我们根据形状表示，网络架构和他们使用的培训机制组织文献。虽然本调查旨在用于重建通用对象的方法，但我们还回顾了一些最近的工作，这些工作主要关注特定的对象类，如人体形状和面部。我们对一些重要论文的表现进行了分析和比较，总结了该领域的一些开放性问题，并讨论了未来研究的有希望的方向。

MV-C3D: A Spatial Correlated Multi-View 3D Convolutional Neural Networks
Authors Qi Xuan, Fuxian Li, Yi Liu, Yun Xiang
随着深度神经网络的发展，3D对象识别在计算机视觉领域越来越受欢迎。提出了许多基于多视图的方法来提高类别识别准确度。这些方法主要依赖于以整个圆周渲染的多视图图像。然而，在现实世界的应用中，3D对象主要是在较小范围内的部分视点中观察到的。因此，我们提出了一种基于多视图的3D卷积神经网络，其仅将连续多视图图像的一部分作为输入并且仍然可以保持高精度。此外，我们的模型将这些视图图像作为联合变量，以使用3D卷积和3D最大池化层更好地学习空间相关特征。 ModelNet10和ModelNet40数据集上的实验结果表明，我们的MV C3D技术可以在多视图图像中实现出色的性能，这些图像是从具有较小范围的部分角度捕获的。 3D旋转真实图像数据集MIRO的结果进一步证明了MV C3D在现实世界场景中更具适应性。随着观看图像数量的增加，可以进一步提高分类精度。

Delving into 3D Action Anticipation from Streaming Videos
Authors Hongsong Wang, Jiashi Feng
旨在通过部分观察来识别行动的行动预期由于广泛的应用而变得越来越流行。在本文中，我们研究了流媒体视频中3D动作预期的问题，目的是了解解决此问题的最佳实践。我们首先介绍几种互补的评估指标，并提出基于框架动作分类的基本模型。为了获得更好的性能，我们接着研究了两个重要因素，即训练剪辑的长度和剪辑采样方法。我们还通过从完整动作表示和类不可知动作标签两个方面合并辅助信息来探索多任务学习策略。我们的综合实验揭示了3D动作预测的最佳实践，因此我们提出了一种具有多任务丢失的新方法。所提出的方法明显优于最近的方法，并且在标准基准上展示了现有技术的性能。

VRED: A Position-Velocity Recurrent Encoder-Decoder for Human Motion Prediction
Authors Hongsong Wang, Jiashi Feng
人体运动预测，旨在预测过去姿势的未来人体姿势，最近看到了更多的兴趣。许多最近的方法基于递归神经网络RNN，其使用指数图来模拟人类姿势。这些方法忽略了姿势速度以及不同姿势的时间关系，并倾向于收敛到平均姿势或者不能产生自然的姿势。因此，我们提出了一种用于人体运动预测的新型位置速度递归编码器解码器PVRED，其充分利用姿势速度和时间位置信息。提出了一种时间位置嵌入方法，并提出了位置速度RNN PVRNN。我们还强调姿势的四元数参数化的好处，并设计了一个新的可训练的四元数变换QT层，它与训练期间的鲁棒损失函数相结合。对两个人体运动预测基准的实验表明，我们的方法明显优于短期预测和长期预测的现有技术方法。特别是，我们提出的方法可以在4000毫秒内预测未来的人类喜欢和有意义的姿势。

Improving temporal action proposal generation by using high performance computing
Authors Tian Wang, Shiye Lei, Youyou Jiang, Zihang Deng, Xin Su, Hichem Snoussi, Chang Choi
提出时间行动建议是计算机视觉中一个重要且具有挑战性的问题。该任务面临的最大挑战是生成具有精确时间边界的提案。为了解决这些困难，我们改进了基于边界敏感网络的算法。今天流行的时间卷积网络忽略了单个视频特征向量的原始含义。我们提出了一种新的时间卷积网络，称为Multipath Temporal ConvNet MTN，它由两部分组成，即Multipath DenseNet和SE ConvNet，可以从视频数据库中提取更多有用的信息。此外，为了响应大容量存储和大量视频，我们放弃了传统的参数服务器并行体系结构，并将高性能计算引入到时间动作提议生成中。为实现这一目标，我们通过按摩传递接口MPI实现环形并行架构，作用于我们的方法。与参数服务器架构相比，我们的并行架构在具有多个GPU的时间动作检测任务上具有更高的效率，这对于处理大规模视频数据库具有重要意义。我们在ActivityNet 1.3和THUMOS14上进行实验，其中我们的方法优于其他具有高召回率和高时间精度的现有技术时间动作检测方法。

RECAL: Reuse of Established CNN classifer Apropos unsupervised Learning paradigm
Authors Jayasree Saha, Jayanta Mukhopadhyay
最近，深度网络框架聚类引起了计算机视觉界的一些研究人员的关注。深度框架因其对大规模和高维数据的效率和可扩展性而受到广泛关注。在本文中，我们将监督的CNN分类器架构转换为无监督的聚类模型，称为RECAL，它共同学习判别嵌入子空间和聚类标签。 RECAL由卷积的特征提取层组成，接着是完全连接的无监督分类器层。在分类器层之上堆叠的多项逻辑回归函数softmax。我们使用随机梯度下降SGD优化器训练此网络。然而，我们模型的成功实施围绕着损失函数的设计。我们的损失函数使用启发式算法，假设类分布没有严重偏差，真正的分区需要较低的熵。这是偏态分布和低熵的情况之间的权衡。为了解决这个问题，我们提出了分类熵和类熵，它们是我们损失函数的两个组成部分。在这种方法中，小批量的大小应该保持很高。实验结果表明我们的模型用于聚类众所周知的数字，多视角对象和面部数据集的一致和竞争行为。更重要的是，我们使用该模型为多光谱LISS IV图像生成无监督的斑块分割。我们观察到它能够将建筑区域，湿地，植被和水体与下面的场景区分开来。

***Efficient Neural Network Approaches for Leather Defect Classification
Authors Sze Teng Liong, Y.S. Gan, Kun Hong Liu, Tran Quang Binh, Cong Tue Le, Chien An Wu, Cheng Yan Yang, Yen Chang Huang
真皮，如牛，鳄鱼，蜥蜴和山羊的皮革通常含有天然和人工缺陷，如洞，叮咬，蜱痕，纹理，割伤，皱纹等。识别缺陷的传统解决方案是通过手动缺陷检查，其涉及熟练的专家。这是耗时的并且可能导致高错误率并导致低生产率。本文提出了一系列自动图像处理过程，通过采用深度学习方法对皮革缺陷进行分类。特别地，皮革图像首先被划分为小块，然后它经历预处理技术，即Canny边缘检测以增强缺陷可视化。接下来，采用人工神经网络ANN和卷积神经网络CNN来提取丰富的图像特征。获得的最佳分类结果是80.3，在由2000个样本组成的数据集上进行评估。此外，报告了诸如混淆矩阵和接收器操作特性ROC的性能度量以证明所提出的方法的效率。

Detecting Bias with Generative Counterfactual Face Attribute Augmentation
Authors Emily Denton, Ben Hutchinson, Margaret Mitchell, Timnit Gebru
我们引入了一个简单的框架来识别微笑属性分类器的偏差。我们的方法提出了形式的反事实问题，如果这个面部特征不同，预测会如何变化我们利用生成对抗网络的最新进展来构建面部图像的真实生成模型，其提供对特定图像特征的受控操纵。我们引入了一组度量，用于衡量操作图像的特定属性对训练分类器输出的影响。根据经验，我们确定了几种不同的变异因素，这些因素会影响在CelebA训练的微笑分类器的预测。

Fixing the train-test resolution discrepancy
Authors Hugo Touvron, Andrea Vedaldi, Matthijs Douze, Herv J gou
数据增强是用于图像分类的神经网络训练的关键。本文首先表明，现有的增强会导致分类器在列车和测试时看到的物体的典型尺寸之间存在显着差异。我们通过实验验证，对于目标测试分辨率，使用较低的列车分辨率可在测试时提供更好的分类。

Instance Segmentation with Point Supervision
Authors Issam H. Laradji, Negar Rostamzadeh, Pedro O. Pinheiro, David Vazquez, Mark Schmidt
实例分割方法通常需要昂贵的每像素标签。我们提出了一种只需要点级注释的方法。在训练期间，模型只能访问每个对象的单个像素标签，但任务是输出完整的分割蒙版。为了应对这一挑战，我们构建了一个具有两个分支的网络1，一个预测每个对象位置的定位网络L Net和一个嵌入网络E Net，用于学习同一个对象的像素接近的嵌入空间。通过对具有相似嵌入的像素进行分组来获得所定位对象的分割掩模。在训练时，虽然L Net仅需要点级注释，但E Net使用由类不可知对象提议方法生成的伪标签。我们评估了我们对PASCAL VOC，COCO，KITTI和CityScapes数据集的方法。实验表明，在某些情景中，与完全监督方法相比，我们的方法1获得了竞争结果.2具有固定注释预算的完全和弱监督方法，3是具有点级监督的实例分割的第一强基线。

Realistic Speech-Driven Facial Animation with GANs
Authors Konstantinos Vougioukas, Stavros Petridis, Maja Pantic
语音驱动的面部动画是基于语音信号自动合成说话人物的过程。此域中的大多数工作都会创建从音频功能到视觉功能的映射。这种方法通常需要使用计算机图形技术进行后处理，以产生尽管依赖于主体的现实结果。我们提出了一种端到端系统，它只使用人的静止图像和包含语音的音频剪辑生成会话头的视频，而不依赖于手工制作的中间特征。我们的方法生成的视频具有与音频同步的唇部动作和b自然的面部表情，例如眨眼和眉毛动作。我们的时间GAN使用3个鉴别器，专注于实现详细的帧，视听同步和逼真的表达。我们使用消融研究量化了我们模型中每个组件的贡献，并且我们提供了对模型潜在表示的见解。生成的视频基于清晰度，重建质量，唇读精度，同步以及它们产生自然眨眼的能力来评估。

DeepTemporalSeg: Temporally Consistent Semantic Segmentation of 3D LiDAR Scans
Authors Ayush Dewan, Wolfram Burgard
了解环境的语义特征是自主机器人操作的关键推动因素。在本文中，我们提出了一种深度卷积神经网络DCNN，用于将LiDAR扫描的语义分段分类为汽车，行人或骑车人。该架构基于密集块并有效地利用深度可分离卷积来限制参数的数量，同时仍保持最先进的性能。为了使DCNN的预测在时间上一致，我们提出了一种基于贝叶斯滤波器的方法。该方法使用来自神经网络的预测来递归地估计扫描中的点的当前语义状态。该递归估计使用从先前扫描获得的知识，从而使得预测在时间上一致并且对于孤立的错误预测是鲁棒的。我们将我们提出的架构的性能与其他最先进的神经网络架构进行比较，并报告实质性的改进。对于建议的贝叶斯滤波器方法，我们在KITTI跟踪基准测试中显示各种序列的结果。

Improving Black-box Adversarial Attacks with a Transfer-based Prior
Authors Shuyu Cheng, Yinpeng Dong, Tianyu Pang, Hang Su, Jun Zhu
我们考虑黑匣子对抗性设置，其中对手必须产生对抗性扰动而无需访问目标模型来计算梯度。以前的方法试图通过使用代理白盒模型的转移梯度或基于查询反馈来近似梯度。然而，这些方法经常遭受低攻击成功率或低查询效率，因为用有限信息估计高维空间中的梯度是非常重要的。为了解决这些问题，我们提出了一种先验引导的随机梯度自由P RGF方法来改进黑盒对抗性攻击，它同时利用了基于传递的先验和查询信息的优势。由替代模型的梯度给出的基于先验的转移通过理论分析导出的最优系数适当地整合到我们的算法中。大量实验表明，与替代的现有技术方法相比，我们的方法需要更少的查询来攻击具有更高成功率的黑盒模型。

Differentiated Backprojection Domain Deep Learning for Conebeam Artifact Removal
Authors Yoseob Han, Junyoung Kim, Jong Chul Ye
使用圆形轨迹的Conebeam CT由于其相对简单的几何形状而经常用于各种应用。对于锥束几何，Feldkamp，Davis和Kress算法被认为是标准重建方法，但是随着锥角增加，该算法遭受所谓的锥束伪影。已经开发了各种基于模型的迭代重建方法来减少锥束伪影，但是这些算法通常需要计算昂贵的前向和后向投影的多种应用。在本文中，我们开发了一种新颖的深度学习方法，用于精确的锥束伪影去除。特别地，我们在差分反投影域上设计的深度网络执行与希尔伯特变换相关的病态反卷积问题的数据驱动反演。然后使用光谱混合技术将沿冠状和矢状方向的重建结果组合以最小化光谱泄漏。实验结果表明，尽管运行时复杂度显着降低，但我们的方法优于现有的迭代方法。

Sample-Efficient Neural Architecture Search by Learning Action Space
Authors Linnan Wang, Saining Xie, Teng Li, Rodrigo Fonseca, Yuandong Tian
神经架构搜索NAS已经成为一种有前途的自动神经网络设计技术。然而，现有的NAS方法通常利用手动设计的动作空间，其与要优化的性能度量（例如，准确性）不直接相关。因此，使用手动设计的动作空间来执行NAS通常会导致样本低效的体系结构探索，因此可能是次优的。为了提高样本效率，本文提出潜在行为神经架构搜索LaNAS，其学习动作空间以递归地将架构搜索空间划分为区域，每个区域具有集中的性能度量，即低方差。在搜索阶段，由于不同的体系结构搜索动作序列导致不同性能的区域，因此通过偏向具有良好性能的区域可以显着提高搜索效率。在最大的NAS数据集NasBench 101上，我们的实验结果表明，LaNAS分别比随机搜索，正则化演化和蒙特卡罗树搜索MCTS的样本效率高22倍，14.6倍和12.4倍。当应用于开放域时，LaNAS发现一种体系结构，在仅探索6,000种体系结构后，在ImageNet移动设置上实现了CIFAR 10上的SoTA 98.0准确度和75.0 top1准确度。

***Stacked Capsule Autoencoders
Authors Adam R. Kosiorek, Sara Sabour, Yee Whye Teh, Geoffrey E. Hinton
可以将对象看作几何组织的相互关联的部分。明确使用这些几何关系来识别物体的系统对于视点的变化应该是自然稳健的，因为内在的几何关系是视点不变的。我们描述了一种无监督的胶囊网络版本，其中一个神经编码器，用于查看所有部分，用于推断物体胶囊的存在和姿势。编码器通过反向传播通过解码器进行训练，该解码器使用姿势预测的混合来预测每个已经发现的部分的姿势。通过使用神经编码器以类似的方式直接从图像中发现这些部分，所述神经编码器推断出部分及其仿射变换。相应的解码器将每个图像像素建模为由仿射变换部分做出的预测的混合。我们在未标记的数据上学习对象及其部分胶囊，然后聚集对象胶囊存在的向量。当告诉这些星团的名称时，我们在MNHN 98.5上对SVHN 55和近现有技术的无监督分类实现了最先进的结果。

Providentia -- A Large Scale Sensing System for the Assistance of Autonomous Vehicles
Authors Annkathrin Kr mmer, Christoph Sch ller, Dhiraj Gulati, Alois Knoll
自动驾驶车辆的环境感知不仅受到物理传感器范围和算法性能的限制，而且遮挡也会降低他们对当前交通状况的理解。这对安全构成了巨大的威胁，限制了他们的行驶速度，并且可能导致不方便的操作，从而降低他们的接受度。智能交通系统可以帮助缓解这些问题。通过以自己的世界的数字模型（即数字双胞胎）的形式向自动驾驶车辆提供关于当前交通的附加详细信息，智能交通系统可以填补车辆感知的空白并增强其视野。然而，详细描述这种系统的实现和工作原型证明其可行性是稀缺的。在这项工作中，我们提出了一个硬件和软件架构来构建这样一个可靠的智能交通系统。我们已经在现实世界中实现了这个系统，并表明它能够创建一个精确的数字双胞胎，延伸的公路伸展。此外，我们将这款数字双胞胎提供给自动驾驶汽车，并展示它如何将车辆的感知扩展到其车载传感器的极限之外。

A tunable multiresolution smoother for scattered data with application to particle filtering
Authors Gregor A. Robinson, Ian G. Grooms
提出了一种平滑算法，其可以减少在空间扩展域中的分散位置处观察到的数据的小规模内容。更平滑的工作方式是通过形成输入数据的高斯插值，然后将插值与格林函数的多分辨率高斯近似卷积到差分算子，差分算子的频谱可以针对特定问题考虑进行调整。这种更平滑的方法是针对其在粒子滤波中的潜在应用而开发的，粒子滤波通常涉及散布在空间域上的数据，因为使用更平滑的预处理观察减少了避免粒子滤波器坍塌所需的整体尺寸。一个关于气象数据的例子证实我们的平滑器可以改善粒子滤波器重量的平衡。

Model Compression by Entropy Penalized Reparameterization
Authors Deniz Oktay, Johannes Ball , Saurabh Singh, Abhinav Shrivastava
我们描述了端到端神经网络权重压缩方法，该方法从最近的潜在可变数据压缩方法中汲取灵感。网络参数权重和偏差在潜在空间中表示，相当于重新参数化。该空间配备有学习概率模型，其用于在训练期间对参数表示施加熵惩罚，并且在训练之后使用算术编码来压缩表示。因此，我们以端到端的方式联合最大化准确性和模型压缩性，其中由超参数指定的速率误差权衡。我们通过在MNIST，CIFAR 10和ImageNet分类基准上压缩六种不同的模型架构来评估我们的方法。我们的方法在VGG 16，LeNet300 100和几种ResNet架构上实现了最先进的压缩，并且在LeNet 5上具有竞争力。

Joint Visual-Textual Embedding for Multimodal Style Search
Authors Gil Sadeh, Lior Fritz, Gabi Shalev, Eduard Oks
我们介绍了一种用于时装的多模式视觉文本搜索细化方法。现有搜索引擎不能基于特定产品的属性实现检索结果的直观，交互，细化。我们提出了一种基于查询项目图像和文本细化属性来检索类似项目的方法。我们相信这种方法可以用来解决许多现实生活中的客户场景，其中需要不同颜色，图案，长度或样式的类似项目。我们采用联合嵌入式培训方案，其中产品图像及其目录文本元数据在共享空间中紧密映射。这种联合视觉文本嵌入空间使得能够基于文本细化要求在语义上操纵目录图像。我们提出了一种新的训练目标函数，迷你批量匹配检索，并证明其优于常用的三联体损失。此外，我们展示了添加属性提取模块的可行性，该模块在相同的目录数据上进行了培训，并演示了如何将其集成到多模式搜索中以提高其性能。我们引入了一个带有相关基准的评估协议，并比较了几种方法。

Generating Diverse and Informative Natural Language Fashion Feedback
Authors Gil Sadeh, Lior Fritz, Gabi Shalev, Eduard Oks
多模态视觉和语言任务的最新进展使一组新的应用成为可能。在本文中，我们考虑在装备图像上生成自然语言时尚反馈的任务。我们收集一个独特的数据集，其中包含装备图像和相应的积极和建设性的时尚反馈。我们分别处理每种反馈类型，并用视觉注意训练深度生成编码器解码器模型，类似于标准图像字幕管道。按照这种方法，生成的句子往往过于笼统而且没有信息。我们提出了一种基于最大互信息目标函数的替代解码技术，该技术可以产生更多样化和详细的响应。我们使用通用语言指标评估我们的模型，并显示人类评估结果。这项技术应用于Alexa，我如何看待Echo Look设备中公开提供的功能。

4D X-Ray CT Reconstruction using Multi-Slice Fusion
Authors Soumendu Majee, Thilo Balke, Craig A. J. Kemp, Gregery T. Buzzard, Charles A. Bouman
越来越需要在对应于空间，时间和其他独立参数的四维或更多维中重建对象。最好的4D重建算法使用正则化迭代重建方法，例如基于模型的迭代重建MBIR，其主要取决于先前建模的质量。最近，已经证明即插即用方法是使用设计用于去除加性高斯白噪声AWGN的现有技术去噪算法来结合先进的先前模型的有效方式。然而，诸如BM4D和深度卷积神经网络CNN的现有技术去噪算法主要可用于2D和有时3D图像。特别地，CNN在四维或更多维中实现是困难且计算上昂贵的，并且如果没有相关联的高维训练数据则训练可能是不可能的。

***A Statistical View on Synthetic Aperture Imaging for Occlusion Removal
Authors Indrajit Kurmi, David C. Schedl, Oliver Bimber
合成孔径可用于许多领域，例如雷达，射电望远镜，显微镜，声纳，超声波，激光雷达和光学成像。它们接近单个假想的宽孔径传感器的信号，该传感器具有静态小孔径传感器阵列或单个移动小孔径传感器。合成孔径采样中的常识是需要在宽孔径内的密集采样图案来重建清晰信号。在本文中，我们表明合成孔径尺寸和应用遮挡去除的样品数量都存在实际限制。这导致了解如何以最佳和实用有效的方式设计合成孔径采样模式和传感器。我们将我们的发现应用于机载光学切片，该切片使用相机无人机和合成孔径成像来计算地去除遮挡植被或树木以检查地面。

Speeding up VP9 Intra Encoder with Hierarchical Deep Learning Based Partition Prediction
Authors Somdyuti Paul, Andrey Norkin, Alan C. Bovik
在VP9视频编解码器中，通过使用速率失真优化RDO递归地划分64次64个超级块来在编码期间确定块的大小。由于超级块的可能分区的组合搜索空间，该过程是计算密集的。在这里，我们提出了一种基于深度学习的替代框架，使用分层完全卷积网络H FCN以四级分区树的形式预测帧内模式超级块分区。我们创建了一个大型的VP9超级块数据库和相应的分区来训练H FCN模型，该模型随后与VP9编码器集成以减少帧内模式编码时间。实验结果表明，我们的方法平均加速帧内模式编码69.7，代价是Bjontegaard Delta比特率BD率增加1.71。虽然VP9提供了几种内置速度级别，旨在以降低速率失真性能为代价提供更快的编码，但我们发现我们的模型能够胜过参考VP9编码器的最快建议速度级别，以实现高质量的帧内编码配置，就加速和BD率而言。

Multi-Adversarial Variational Autoencoder Networks
Authors Abdullah Al Zubaer Imran, Demetri Terzopoulos
GAN和VAE的无监督训练使他们能够生成模拟真实世界分布的真实图像，并执行基于图像的无监督聚类或半监督分类。结合这两种生成模型的强大功能，我们引入了多对抗变化自动编码器网络MAVEN，这是一种新颖的网络架构，在VAE GAN网络中集成了一组鉴别器，同时具有对抗性学习和变分推理。我们将MAVEN应用于合成图像的生成，并提出一种新的分布测量来量化生成的图像的质量。我们使用来自计算机视觉和医学成像领域的数据集的实验结果街景房号，CIFAR 10和胸部X射线数据集证明了在图像生成和分类任务中对现有技术的半监督模型的竞争性能。

***Time warping invariants of multidimensional time series
Authors Joscha Diehl, Kurusch Ebrahimi Fard, Nikolas Tapia
在数据科学中，人们经常面对代表某些兴趣量的测量的时间序列。通常，在第一步中，需要提取时间序列的特征。这些数字量旨在简洁地描述数据并抑制噪声的影响。在某些应用程序中，还需要这些功能来满足某些不变性属性。在本文中，我们专注于时间扭曲不变量。我们证明了这些对应于时间序列增量的某个迭代和的一族，在数学文献中称为准坐标函数。我们在代数框架中呈现这些不变特征，并且我们开发了它们的一些基本属性。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

tips:
cvpr sisr2019
stereoSR -> PASSRnet

pic from pexels.com

你可能感兴趣的:(视觉,目标检测,深度学习,数据集,图像提升,三维重建,计算机视觉,paper,Computervision)

读《认知天性》（1）云城梦天
认知是对天性是挑战认知可以用数学统计与实践客观来评价，而我感觉是一种自我感知。当未知时，感知痛苦然而这是个时习之中乐的过程。也可以通过rain和轻疗的方法安抚情绪编码，可以以好奇心与视觉画面联动来做记忆编码的过程，因人是视觉性爬行动物，且好奇心也是人的天性好奇时会主动探索算是翻转式学习的一种，编码是记忆过程。另外你可能对记忆中某一刻的感觉记得很清楚，然而忘记了内容，人或许也是感觉爬行动物。巩固，可
MATC：通过数学推理和图表还原增强视觉语言预训练 AI专题精讲模型加速人工智能 AI技术应用多模态视觉语言
温馨提示：本篇文章已同步至"AI专题精讲"MATC：通过数学推理和图表还原增强视觉语言预训练摘要视觉语言数据，如图表、图形和信息图，在人类世界中无处不在。然而，现有的最先进的视觉语言模型在这些数据上的表现并不理想。我们提出了MATCHA（数学推理与图表去渲染预训练），旨在增强视觉语言模型在联合建模图表/图形与语言数据方面的能力。具体而言，我们提出了几个预训练任务，涵盖了图形解构和数值推理，这些是视
【机器学习】探索未来科技的前沿：人工智能、机器学习与大模型 AIGC零基础入门小白 AI大模型大模型教程人工智能机器学习科技 AI大模型 AIGC AI教程大模型教程
文章目录引言一、人工智能：从概念到现实1.1人工智能的定义1.2人工智能的发展历史1.3人工智能的分类1.4人工智能的应用二、机器学习：人工智能的核心技术2.1机器学习的定义2.2机器学习的分类2.3机器学习的实现原理2.4机器学习的应用2.5机器学习的示例代码2.6解释代码三、大模型：推动AI前沿发展的关键技术3.1大模型的定义3.2大模型的发展历程3.3深度学习与神经网络3.4大模型的优势与挑
基于YOLOv8的火灾智能检测系统设计与实现斟的是酒中桃深度学习人工智能 pyqt yolo
在各类安全事故中，火灾因其突发性强、破坏力大，一直是威胁人们生命财产安全的重大隐患。传统的火灾检测方式多依赖烟雾传感器、温度传感器等，存在响应滞后、易受环境干扰等问题。随着深度学习技术的飞速发展，基于计算机视觉的火灾检测方法凭借其实时性强、检测范围广等优势，逐渐成为研究热点。本文将简单介绍一款基于深度学习的火灾智能检测系统的设计与实现过程。一、系统整体设计本火灾智能检测系统旨在通过深度学习技术实现
人工智能入门指南：从基础概念到实际应用
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。https://www.captainbed.cn/north文章目录1.**人工智能的基本概念**1.1什么是人工智能？1.2人工智能的分类2.**人工智能的核心技术**2.1机器学习（MachineLearning）2.1.1机器学习的类型2.1.2机器学习流程2.2深度学习（DeepLearni
Datawhale X 魔塔 Ai夏令营 --深度学习基础
一、局部极小值与全局极小值全局极小值：在损失函数的整个定义域内，损失值最小的点。这是我们在训练深度学习模型时希望找到的点，因为它代表着模型的最佳性能。局部极小值：在损失函数的一个局部区域内，损失值达到最小，但在整个函数定义域内可能不是最小的。当优化算法陷入局部极小值时，它可能会误以为已经找到了全局最优解，从而停止搜索。局部极小值的检测两种直观的方法来检测局部极小值：可视化方法：对于低维问题，我们可
Unet源码实现（pytorch） wyn20001128 pytorch 人工智能 python
U-Net是一种用于生物医学图像分割的卷积神经网络架构。它通过引入一种新颖的网络结构和训练策略解决了传统方法在数据量不足时面临的挑战。U-Net的主要思想是利用数据增强技术来高效利用有限的标注样本，并通过独特的网络设计来提高分割精度。主要贡献U-Net的主要贡献包括：1、数据增强策略：使用随机弹性变形和其他形式的数据增强来增加训练数据的多样性，从而在有限的数据集上训练出更强大的模型。2、U形网络结
深度学习模块实践手册（第十二期）加油吧zkf 目标检测目标检测模块解析与实践深度学习人工智能计算机视觉目标检测 python
56、Ghost模块论文《GhostNet:MoreFeaturesfromCheapOperations》1、作用：Ghost模块是一种轻量级的特征提取模块，旨在通过廉价操作生成更多特征图，减少计算量的同时保持模型性能。传统卷积神经网络在生成特征图时存在大量冗余计算，Ghost模块通过将特征图生成过程分解为两个步骤，有效减少了计算复杂度，特别适合移动端和嵌入式设备部署。2、机制Ghost模块的机
DETR革命：目标检测的Transformer时代加油吧zkf 目标检测 YOLO python 开发语言人工智能图像处理
《DETR从0到1：目标检测Transformer的崛起》为什么会有DETR？在深度学习目标检测发展史上，2014~2019年几乎被基于卷积神经网络（CNN）的检测器统治：两阶段：FasterR-CNN、MaskR-CNN单阶段：YOLO、SSD、RetinaNet这些检测器虽然效果强大，但背后依赖：✅Anchor（先验框）✅NMS（非极大值抑制）✅特征金字塔、手工设计问题：结构复杂、调参困难、不
深度学习模块实践手册（第十一期）加油吧zkf 目标检测目标检测模块解析与实践深度学习人工智能计算机视觉目标检测 python
46、缩放点积注意力模块论文《AttentionIsAllYouNeed》1、作用：缩放点积注意力（ScaledDot-ProductAttention）是Transformer模型的核心组件，旨在解决序列建模中长距离依赖关系捕捉的问题。传统的循环神经网络（RNN）在处理长序列时存在梯度消失或爆炸的问题，且并行性较差。该模块通过计算查询（Query）、键（Key）和值（Value）之间的相似度，实
【Git】git lfs (Large File Storage)-管理大文件晴雨日记 Git git
GitLFS(LargeFileStorage)是Git的一个扩展，用于高效管理大文件（如图像、音频、视频、数据集、二进制文件等）。它能解决传统Git在处理大文件时面临的核心问题：仓库体积急剧膨胀、克隆和拉取操作变得极其缓慢。传统Git处理大文件的痛点：仓库膨胀：每次修改大文件，即使只改了一点，Git也会存储整个文件的新副本。历史记录中积累多个版本会快速耗尽磁盘空间。克隆/拉取缓慢：克隆或拉取仓库
物流3D工业相机：解锁自动化物流新纪元
在当今工业4.0浪潮中，物流自动化已成为企业提升效率、降低成本的战略核心。作为工业自动化领域的先锋，迁移科技凭借其先进的3D工业视觉技术，正重塑物流场景的运作模式。本文将从品牌介绍出发，深入剖析物流3D工业相机的应用价值，结合真实案例，揭示其如何从基础功能延伸至产业价值，助力企业实现智能化转型。迁移科技，工业视觉的引领者迁移科技成立于2017年，作为行业领先的3D工业相机和3D视觉系统供应商，已累
3D Gaussian Splatting (3DGS) 从入门到精通：安装、训练与常见问题全解析
3DGaussianSplatting(3DGS)从入门：安装、训练与常见问题全解析3DGaussianSplatting(3DGS)作为一种新兴的实时神经渲染技术，以其惊人的渲染速度和高质量的视觉效果迅速获得了社区的关注。然而，从环境配置到数据准备，再到模型训练和结果导出，整个流程中充满了各种可能令人困惑的“坑”。本文旨在为您提供一份全面的3DGS安装与使用指南，汇总了从环境搭建到最终结果产出的
【I3D 2024】Deblur-GS: 3D Gaussian Splatting from Camera Motion Blurred Images __星辰大海__ 论文阅读计算机视觉算法人工智能
文章目录1.李群与李代数2.相机运动模糊建模3.相机运动轨迹近似3.1.线性插值3.2.三次样条插值3.3.K阶贝塞尔曲线插值1.李群与李代数参考博客：视觉SLAM十四讲-李群与李代数。2.相机运动模糊建模运动模糊产生的原因是：相机在曝光期间捕捉到了移动的物体或自身发生了移动，导致场景中某些像素在成像过程中不是来自单一点，而是多个位置的光线的混合。假设在时间[t0,t0+T][t_0,t_0+T]
神经网络项目--基于FPGA的AI简易项目（1-9图片数字识别）霖12 深度学习 pytorch 神经网络 fpga开发人工智能机器学习
1.训练MNIST模型importtorch#导入pytorch核心库importtorch.nnasnn#神经网络模块，如卷积层importtorch.optimasoptim#优化器fromtorchvisionimportdatasets,transforms#数据集与图像预处理工具#定义CNN模型classSimpleCNN(nn.Module):#PyTorch库中所有神经网络的“基础模
基于NanoDet的健身姿势纠正系统开发 YOLO实战营人工智能 NanoDet 深度学习计算机视觉 ui
1.引言在现代健身行业中，正确的运动姿势至关重要，不仅能提升训练效果，还能预防运动损伤。尤其是在进行一些高强度的力量训练时，如深蹲、俯卧撑等，错误的姿势可能导致肌肉不平衡或关节损伤。传统的健身姿势纠正方式依赖教练的人工指导，但随着人工智能技术的发展，使用计算机视觉和深度学习技术来进行姿势纠正，逐渐成为一种高效且可扩展的解决方案。本文将详细介绍如何基于NanoDet（一个轻量化目标检测模型）开发一个
大模型算法工程师技术路线全解析：从基础到资深的能力跃迁 Mr.小海大模型算法数据挖掘人工智能机器学习深度学习机器翻译 web3
文章目录大模型算法工程师技术路线全解析：从基础到资深的能力跃迁一、基础阶段（0-2年经验）：构建核心知识体系与工程入门数学与机器学习基础编程与深度学习框架NLP与Transformer入门二、进阶阶段（2-4年经验）：深化模型技术与工程落地能力大模型预训练与微调技术预训练原理：数据与任务的协同设计微调工具：参数高效适配与工程优化对齐实践：价值观优化与实证效果分布式训练与框架工具并行策略：多维度协同
C#进行串口应用开发如何处理串口的异常情况 openwin_top c#串口应用开发问题系列 c#开发语言串口通讯上位机
python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位C#视觉应用开发问题系列c#串口应用开发问题系列microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析在C#中进行串口应用开发时，处理串口的异常情况是非常重要的。常见的串口异常包括端口不可用、数据传输错误、超时等
Kafka 集群架构与高可用方案设计（一）计算机毕设定制辅导-无忧 #Kafka kafka 架构分布式
Kafka集群架构与高可用方案设计的重要性在大数据和分布式系统的广阔领域中，Kafka已然成为了一个中流砥柱般的存在。它最初由LinkedIn开发，后捐赠给Apache软件基金会并成为顶级项目，凭借其卓越的高吞吐量、可扩展性以及持久性，被广泛应用于日志收集、实时数据处理、流计算、数据集成等诸多关键领域。在日志收集场景下，以大型互联网公司为例，每天都会产生海量的日志数据，如用户的访问记录、系统操作日
【深度学习-Day 36】CNN的开山鼻祖：从LeNet-5到AlexNet的架构演进之路吴师兄大模型深度学习入门到精通 python pytorch 开发语言人工智能 CNN 深度学习大模型
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
大数据集成方案对比：Kafka vs Flume vs Sqoop AI天才研究院计算 AI大模型应用入门实战与进阶 Agentic AI 实战大数据 kafka flume ai
大数据集成方案对比：KafkavsFlumevsSqoop关键词：大数据集成、Kafka、Flume、Sqoop、流处理、批量迁移、日志收集摘要：在大数据生态中，数据集成是连接数据源与数据处理平台的关键环节。本文深度对比Kafka、Flume、Sqoop三大主流集成工具，从核心架构、技术原理、适用场景到实战案例展开系统性分析。通过数学模型量化性能差异，结合实际项目经验总结选型策略，帮助开发者根据业
Python批量爬取谷歌原图，2021年最新可用版
文章目录前言一、环境配置1.安装selenium2.使用正确的谷歌浏览器驱动二、使用步骤1.加载chromedriver.exe2.设置是否开启可视化界面3.输入关键词、下载图片数、图片保存路径三、爬取效果四、完整代码前言作为一名CVer，数据集获取少不了用到数据、图片爬虫技术，谷歌作为全球最大的数据搜索网站，如何从中快速获取大量有用图片数据尤为重要，但是技术更新，很多代码大多就会失效，爬与反爬永
德国新表现主义代表艺术家之一：“颠倒乾坤”的乔治·巴塞利兹经典油画
德国新表现主义代表艺术家之一：“颠倒乾坤”的乔治·巴塞利兹原创：听香莫颜中西方视觉艺术5月21日德国新表现主义发源于上个世纪八十年代；它的出现，很大程度上影响了那个年代的艺术格局。一方面，“德国艺术”重新走入人们视野，另一方面，它也成为八十年代绘画复兴潮流的重要开端和表现之一。在西方现代主义艺术发展历史上，德国是仅次于法国的重要艺术地域；德国新表现主义的出现，对现代主义艺术的发展起到了至关重要的推
人脸识别实战：使用Python OpenCV 和深度学习进行人脸识别(2)
先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年最新Python全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课
林燕子分享有感:心里有人，眼里有活，你才能更快的走进别人的心里独处清幽
听了林燕子昨天在21天超级群主训练营的分享，给我的内心触动很大。林燕子本来也是训练营中一位普通的队员，一开始她最大的亮点是她的视觉笔记。但是这样的她是如何在短短一周内逆袭成为超级群主的群主呢？当她被乔帮主任命为超级群主群的群主时，我相信很多人都很羡慕她，也一定很后悔为什么一开始没有像她那样主动的为群里付出。因为她做的事情其实很多人也都可以做得到，只是没有行动而已。正如林燕子自己所说的:想都是问题，
21天趁早手账学习之旅 Sugar_沫沫
结缘趁早，是因为朋友推荐使用趁早日程记录本，18年入手后，只是作为日程安排的记录，还有重点工作的梳理和记录。新的一年目标中有一个是要完成Eva老师视觉基础课程，学习和实践视觉记录。无意中看到了趁早发起的活动内容，觉得很有助于新年视觉学习的目标，带着好奇和怀疑报名了（怀疑自己可能无法打满卡，再之后就满怀期待的等着开营，把这作为新年第一个Flag。一晃眼，21天过去了，与其他小伙伴们一起坚持学习和打卡
【AAAI2025】计算机视觉|P-sLSTM:P-sLSTM：让LSTM在时间序列预测领域“重获新生”
论文地址：https://arxiv.org/pdf/2408.10006代码地址：https://github.com/Eleanorkong/P-sLSTM关注UPCV缝合怪，分享最计算机视觉新即插即用模块，并提供配套的论文资料与代码。https://space.bilibili.com/473764881摘要传统的循环神经网络结构，如长短期记忆神经网络(LSTM)，在时间序列预测(TSF)任
《父母的语言》读书笔记艾利斯顿教育
通过麻醉(所解决的事情能被看得到——解决了患者疼痛的痛苦)和消毒(所解决的事情看不到，视觉里没有——表面上看不到取得的效果)两件事情被重视的程度，引出不可见的东西，被人忽略的，叫做思想的停滞。父母的语言，就是免费的，被忽略店的重要的资源！实际上在3岁以前，父母传递给孩子的语言信息量，就已经拉开了孩子与孩子之间的距离！对孩子最大的教养差距不是在于态度，物质条件，而在乎父母的词汇量！如果能意识到父母的
TensorFlow深度学习实战——DCGAN详解与实现盼小辉丶深度学习 tensorflow 生成对抗网络
TensorFlow深度学习实战——DCGAN详解与实现0.前言1.DCGAN架构2.构建DCGAN生成手写数字图像2.1生成器与判别器架构2.2构建DCGAN相关链接0.前言深度卷积生成对抗网络(DeepConvolutionalGenerativeAdversarialNetwork,DCGAN)是一种基于生成对抗网络(GenerativeAdversarialNetwork,GAN)的深度学
【TPAMI2024】计算机视觉|即插即用|FreqFusion:炸裂！告别模糊，精准分割，视觉新高度！爆改模型计算机视觉人工智能
论文地址：https://arxiv.org/pdf/2408.12879代码地址：https://github.com/Linwei-Chen/FreqFusion关注UPCV缝合怪，分享最计算机视觉新即插即用模块，并提供配套的论文资料与代码。https://space.bilibili.com/473764881摘要密集图像预测任务需要在高分辨率下具有强大的类别信息和精确空间边界细节的特征。为
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &

【今日CV 计算机视觉论文速览 第132期】Tue, 18 Jun 2019

Interesting:

Daily Computer Vision Papers

你可能感兴趣的:(视觉,目标检测,深度学习,数据集,图像提升,三维重建,计算机视觉,paper,Computervision)

【今日CV 计算机视觉论文速览第132期】Tue, 18 Jun 2019