hitrjj

【AI视野·今日CV 计算机视觉论文速览第162期】Fri, 27 Sep 2019

AI视野·今日CS.CV 计算机视觉论文速览
Fri, 27 Sep 2019
Totally 55 papers
?上期速览✈更多精彩请移步主页

Interesting:

TODO(rjj): details of1-2

?Learned-PCGC点云几何压缩算法, 提出了一种基于变分自编码对点云几何PCG进行有效压缩的方法。(from 南京大学)

?***多粒度注意力机制的图像超分辨, (from 密歇根)

?**基于多信息提炼网络的轻量级图像超分辨, (from 西安电子科大)

?COPHY物理动力学的反事实推理, 提出了一种可以学习物理因果关系的反事实推理模型来从视觉输入中进行学习，并在合成三维数据环境中实现了很好的预测能力。(from 1LIRIS, INSA-Lyon 2Facebook AI Research 3LIFAT, INSA-CVL4Simon Fraser University, Borealis AI 5CITI, INRIA)

ref counterfactural, 1

?**STACNAS稳定且连续的进行可微分的神经架构搜索, (from 华为诺亚实验室)

?****Liquid Warping GAN人体运动合成，外表迁移和新视角合成, (from 上海科技大学)

code:https://svip-lab.github.io/project/impersonator.html

?***隐含语义数据增强, 观察到特征空间中某些方向对应着有意义的语义变换，所以讲特征沿着语义方向进行变换增强(from 清华)

code：https://github.com/blackfeatherwang/ISDA-for-Deep-Networks

?多尺度动态特征编码去除图像摩尔条纹

?Deep Video Deblurring基于关键细节的去模糊

?+++RLBench 机器人学习基准和运行环境

?DISCOMAN 用于SLAM建图和导航的室内场景数据集，（from Samsung AI Center）

?WiderPerson 稠密情况下行人检测数据集

?FoodAI一个智能食物识别系统用于智能记录

?在葡萄树上进行葡萄数量密度估计
?高速完整的基于点云的lidar回环系统
?基于VAE解耦图像的选择和平移，并应用在天文学和蛋白质数据上
?++平衡不同域间目标实例检测的gap

?**乳腺癌相关文章：
基于深度学习的低剂量高精度CT成像
乳腺癌病历组织检查分类 datset:ICIAR, BreakHis, PatchCamelyon, and Bioimaging

基于迁移学习和全局池化的乳腺癌检测

Daily Computer Vision Papers

Range Adaptation for 3D Object Detection in LiDAR
Authors Ze Wang, Sihao Ding, Ying Li, Minming Zhao, Sohini Roychowdhury, Andreas Wallin, Guillermo Sapiro, Qiang Qiu
基于LiDAR的3D对象检测在现代自动驾驶系统中起着至关重要的作用。 LiDAR数据通常在不同观察范围内表现出严重的特性变化。在本文中，我们探索了使用LiDAR进行3D对象检测的跨范围自适应，即远距离观测适用于近距离。这样，优化了远距离检测以实现与近距离检测相似的性能。我们采用鸟瞰BEV检测框架来执行建议的模型适配。我们的模型适应包括对抗性全局适应和细粒度局部适应。所提出的跨范围自适应框架已在基于LiDAR的三种最先进的物体检测网络上得到了验证，并且我们始终观察到远距离物体的性能有所提高，而没有向模型中添加任何辅助参数。据我们所知，本文是研究跨距离LiDAR自适应以进行点云中目标检测的首次尝试。为了证明所提出的适应框架的通用性，进一步进行了更具挑战性的跨设备适应性实验，并发布了具有高质量带注释点云的新LiDAR数据集，以促进未来的研究。

Video Surveillance of Highway Traffic Events by Deep Learning Architectures
Authors Matteo Tiezzi, Stefano Melacci, Marco Maggini, Angelo Frosini
在本文中，我们描述了一种视频监视系统，该系统能够检测高速公路上固定摄像机拍摄的视频中的交通事件。感兴趣的事件包括视频中发生的特定情况序列，例如在紧急车道上停车的车辆。因此，检测这些事件需要分析视频流中的时间序列。我们比较了利用基于递归神经网络RNN和卷积神经网络CNN的体系结构的不同方法。第一种方法从每个视频帧中提取主要与运动有关的特征向量，并利用馈入所得向量序列的RNN。其他方法直接基于帧序列，这些帧最终会以逐像素运动信息丰富。所获得的流由堆叠CNN和RNN的体系结构处理，并且我们还研究了基于转移学习的模型。结果是非常有希望的，最好的架构将在实际操作条件下在线测试。

Liquid Warping GAN: A Unified Framework for Human Motion Imitation, Appearance Transfer and Novel View Synthesis
Authors Wen Liu, Zhixin Piao, Jie Min, Wenhan Luo, Lin Ma, Shenghua Gao
我们在一个统一的框架内处理人类的运动模仿，外观转移和新颖的视图合成，这意味着该模型一旦经过训练即可用于处理所有这些任务。现有的任务特定方法主要使用2D关键点姿势来估计人体结构。但是，它们仅表达位置信息，而无法表征个人的个性化形状并模拟肢体旋转。在本文中，我们建议使用3D身体网格恢复模块来解开姿势和形状，该模块不仅可以建模关节的位置和旋转，而且可以表征个性化的身体形状。为了保留源信息，例如纹理，样式，颜色和脸部身份，我们提出了带有液体翘曲块LWB的液体翘曲GAN，它可以在图像和特征空间中传播源信息，并相对于参考图像进行合成。具体地，通过去噪卷积自动编码器提取源特征以很好地表征源身份。此外，我们提出的方法能够支持来自多个来源的更灵活的变形。此外，我们建立了一个新的数据集，即Impersonator iPER数据集，用于评估人体运动模仿，外观转移和新颖的视图合成。大量的实验证明了我们方法在多个方面的有效性，例如在遮盖情况下的鲁棒性以及保持面部身份，形状一致性和衣服细节。所有代码和数据集均可在

Implicit Semantic Data Augmentation for Deep Networks
Authors Yulin Wang, Xuran Pan, Shiji Song, Hong Zhang, Cheng Wu, Gao Huang
在本文中，我们提出了一种新颖的隐式语义数据扩充ISDA方法，以补充诸如翻转，平移或旋转之类的传统扩充技术。我们的工作受到有趣的属性的启发，即深层网络惊人地擅长于线性化特征，从而使深层特征空间中的某些方向对应于有意义的语义转换，例如添加太阳镜或更改背景。结果，在特征空间中沿许多语义方向翻译训练样本可以有效地扩展数据集以提高泛化性。为了有效，高效地实现这一思想，我们首先对每个类别的深度特征的协方差矩阵进行在线估计，以获取类别内语义的变化。然后从具有估计协方差的零均值正态分布中提取随机向量，以增强该类别中的训练数据。重要的是，代替显式地扩展样本，我们可以直接最小化扩展训练集上预期交叉熵CE损失的上限，从而产生高效算法。实际上，我们表明，所提出的ISDA可以最大程度地减少新颖的健壮CE损失，从而给正常训练过程增加了可忽略的额外计算成本。尽管很简单，但ISDA不断提高了流行的深度模型ResNet和DenseNet在各种数据集（例如CIFAR 10，CIFAR 100和ImageNet）上的泛化性能。可在以下位置获得用于重现我们结果的代码：

Deep Video Deblurring: The Devil is in the Details
Authors Jochen Gast, Stefan Roth
手持摄像机的视频去模糊是一项艰巨的任务，因为潜在的模糊是由摄像机抖动和物体运动引起的。先进的深层网络可以通过空间时间转换器或循环架构来利用相邻帧的时间信息。与这些涉及的模型相反，我们发现当特别注意时，简单的基线CNN可以表现出色。模型和培训程序的详细信息。为此，我们对这些关键细节进行了全面研究，发现了定量和定性性能的极端差异。利用这些细节可以使我们将简单的基线CNN的架构和训练程序提高到惊人的3.15dB，从而使其在竞争中更具竞争力。尖端网络。这就提出了一个问题，即报告的模型之间的准确性差异是否总是由于技术贡献还是受制于此类正交但至关重要的细节。

Fast and Effective Adaptation of Facial Action Unit Detection Deep Model
Authors Mihee Lee, Ognjen Oggi Rudovic, Vladimir Pavlovic, Maja Pantic
检测面部动作单位AU是自动识别情绪和认知状态的面部表情的基本步骤之一。尽管针对此任务提出了多种方法，但是大多数模型仅针对特定目标AU进行了训练，因此它们无法轻松地适应识别新AU的任务，即那些最初不用于训练的AU。目标模型。在本文中，我们提出了一种用于面部AU检测的深度学习方法，该方法可以通过仅利用来自新任务AU或主题的少量标记样本，轻松，快速地适应新AU或目标主题。为此，我们提出了一种基于模型不可知元学习C.Finn和Levine，2017的概念的建模方法，最初是针对一般图像识别检测任务（例如，从Omniglot数据集中的字符识别）提出的。具体地，每个受试者和/或AU被视为新的学习任务，并且模型基于先前任务的知识来学习适应以使用AU和受试者来预训练目标模型。因此，在给定新主题或AU的情况下，可以使用深度学习和不可知论元学习的概念，将训练和测试任务之间共享的元知识用于使模型适应新任务。我们在两个用于面部AU检测的基准数据集BP4D和DISFA上表明，所提出的方法可以轻松适应新任务的AU受试者。仅使用这些任务中的一些标记示例，该模型相对于基准即未调整的模型实现了较大的改进。

DISCOMAN: Dataset of Indoor SCenes for Odometry, Mapping And Navigation
Authors Pavel Kirsanov, Airat Gaskarov, Filipp Konokhov, Konstantin Sofiiuk, Anna Vorontsova, Igor Slinko, Dmitry Zhukov, Sergey Bykov, Olga Barinova, Anton Konushin
我们提出了一个新颖的数据集，用于训练和基准化语义SLAM方法。数据集由200个长序列组成，每个序列包含3000 5000个数据帧。我们使用现实的首页布局生成序列。为此，我们对模拟简单家用机器人运动的轨迹进行采样，然后沿这些轨迹渲染框架。每个数据帧包含使用基于物理的渲染生成的RGB图像，b个模拟的深度测量值，c个模拟的IMU读数和d栋房屋的地面实况占用网格。与现有数据集相比，我们的数据集具有更广泛的用途，并且是第一个专注于SLAM映射组件的大规模基准测试。数据集被分为从不同虚拟房屋集合中采样的列车验证测试部分。我们提供了基于经典几何和基于最近学习的SLAM算法，基线映射方法，语义分割和全景分割的基准测试结果。

WiderPerson: A Diverse Dataset for Dense Pedestrian Detection in the Wild
Authors Shifeng Zhang, Yiliang Xie, Jun Wan, Hansheng Xia, Stan Z. Li, Guodong Guo
通过现有基准数据集的可用性，行人检测取得了重大进展。但是，现实世界的要求与当前行人检测基准之间的多样性和密度存在差距1大多数现有数据集是从通过常规交通场景驾驶的车辆中获取的，通常会导致多样性不足2行人高度拥堵的人群场景是仍然不足以表示，导致密度低。为了缩小这一差距并促进未来的行人检测研究，我们引入了一个名为WiderPerson的大型且多样化的数据集，用于野外密集的行人检测。该数据集在广泛的场景中涉及五种类型的注释，不再局限于交通场景。总共有13382张图像，带有399786个注释，即每个图像29.87个注释，这意味着该数据集包含具有各种遮挡的密集行人。因此，由于场景和遮挡的巨大变化，建议数据集中的行人极富挑战性，这适合评估野外的行人检测器。我们引入了改进的Faster R CNN和香草RetinaNet，以作为新的行人检测基准的基准。在包括Caltech USA和CityPersons在内的先前数据集上进行了一些实验，以分析所提出数据集的泛化能力，我们在这些先前数据集上获得了无与伦比的最新性能。最后，通过对常见故障案例的分析，发现行人探测器的分类能力有待提高，以减少误报和漏检率。提议的数据集可在以下位置获得

Balanced Binary Neural Networks with Gated Residual
Authors Mingzhu Shen, Xianglong Liu, Kai Han, Ruihao Gong, Yunhe Wang, Chang Xu
近年来，二进制神经网络吸引了众多关注。但是，主要由于二值化的偏差导致信息丢失，如何保持网络的准确性仍然是一个关键问题。在本文中，我们尝试维护正向过程中传播的信息，并提出带有门控残差BBG的平衡二值神经网络。首先，引入了权重平衡的二值化以最大化二进制权重的信息熵，因此，信息性二进制权重可以捕获激活中包含的更多信息。其次，对于二进制激活，还附加了门控残差以补偿其在前向过程中的信息丢失，并且开销很小。两种技术都可以包装为通用网络模块，该模块支持用于不同任务（包括分类和检测）的各种网络体系结构。我们评估BBG在CIFAR 10 100和ImageNet上进行的图像分类任务以及在Pascal VOC上进行的检测任务。实验结果表明，BBG Net在各种网络体系结构（例如VGG，ResNet和SSD）上均具有出色的性能，在内存消耗，推理速度和准确性方面均优于最新方法。

Optimal Transport, CycleGAN, and Penalized LS for Unsupervised Learning in Inverse Problems
Authors Byeongsu Sim, Gyutaek Oh, Sungjun Lim, Jong Chul Ye
惩罚最小二乘PLS是解决反问题的经典方法，其中添加了正则项以稳定解。最佳运输OT是另一种用于计算机视觉任务的数学框架，它提供了以最小的成本将一种措施运输到另一种措施的手段。周期一致的生成对抗网络周期GAN是GAN的最新扩展，用于学习具有较少模式崩溃行为的目标分布。尽管相似之处在于不需要监督训练，但算法看起来有所不同，因此这些方法之间的数学关系尚不清楚。在本文中，我们提供了重要的进展来揭示缺少的链接。具体来说，我们发现，如果将具有深度学习惩罚的PLS用作测量和未知图像的两个概率度量之间的运输成本，则可以将cycleGAN体系结构导出为最佳运输问题的对偶公式。这表明cycleGAN可被视为经典PLS方法的随机概括。我们的推论是如此笼统，以至于仅通过改变运输成本就可以轻松推导各种类型的cycleGAN架构。作为概念的证明，本文为加速MRI和解卷积显微镜问题中的无监督学习提供了新颖的cycleGAN架构，这证实了该理论的有效性和灵活性。

In-field grape berries counting for yield estimation using dilated CNNs
Authors L. Coviello, M. Cristoforetti, G. Jurman, C. Furlanello
数字技术引发了被称为精准农业的农业食品领域的一场革命，实现大规模精准农业的一个主要问题是能否利用现有技术和农艺师技能以最低的成本提供准确的产品质量控制。作为沿该方向的一项贡献，我们展示了一种工具，该工具可通过适应最初为人群计数而开发的深度学习算法，从智能手机相机准确估算水果产量。

Follows Form: Regression from Complete Thoracic Computed Tomography Scans
Authors Max Argus, Cornelia Schaefer Prokop, David A. Lynch, Bram van Ginneken
慢性阻塞性肺疾病COPD是发病率和死亡率的主要原因。虽然COPD诊断基于肺功能测试，但可以在计算机断层CT CT扫描上看到疾病的不同方面的早期阶段和进展，并对其进行定量评估。已经发表了许多量化与COPD有关的成像生物标志物的研究。在本文中，我们提出了一个卷积神经网络，该网络可以直接计算视觉气肿评分并根据COPDGene研究预测195次CT扫描的肺功能检查结果。与先前的工作相反，所提出的方法没有对有关量化内容的任何特定的先验知识进行编码，而是通过一组1424次CT扫描来端到端训练其输出参数可用。网络为这些任务提供了最先进的结果视觉肺气肿评分与训练有素的观察员进行的COPD诊断所评估的评分相当，根据估计的肺功能达到ROC曲线下的面积为0.94，优于现有技术。该方法很容易推广到其他情况，其中需要将来自整个扫描的信息汇总为单个数量。

Learned Point Cloud Geometry Compression
Authors Jianqiang Wang, Hao Zhu, Zhan Ma, Tong Chen, Haojie Liu, Qiu Shen
本文提出了一种新颖的端到端学习型点云几何压缩（又称学习型PCGC框架），以使用基于深度神经网络DNN的变分自动编码器VAE有效地压缩点云几何PCG。在我们的方法中，首先对PCG进行体素化，缩放和划分为不重叠的3D立方体，然后将其馈入堆叠的3D卷积中以实现紧凑的潜在特征和超优先生成。 Hyperprior用于改善潜在特征的条件概率建模。加权二元交叉熵WBCE损失在训练中应用，而自适应阈值用于推理以去除不必要的体素并减少失真。客观地讲，我们的方法超过了由著名运动图像专家组MPEG标准化的基于几何的点云压缩G PCC算法，并且使用常见的测试数据集具有显着的性能裕度，例如，至少有60 BD速率的Bjontegaard Delta速率增益。从主观上讲，与所有现有的符合MPEG标准的PCC方法相比，我们的方法具有更好的视觉质量，表面重建更流畅，细节更吸引人。我们的方法总共需要约2.5MB的参数，即使在嵌入式平台上，对于实际实现而言，这也是相当小的大小。额外的消融研究会分析各种方面，例如立方体大小，内核等，以探索我们学到的PCGC的应用潜力。

Convex Relaxations for Consensus and Non-Minimal Problems in 3D Vision
Authors Thomas Probst, Danda Pani Paudel, Ajad Chhatkuli, Luc Van Gool
在本文中，我们使用计算代数几何中的多项式优化问题POP的现有工具来制定通用的非极小值求解器。所提出的方法利用了众所周知的Shor或Lasserre松弛，并讨论了其理论方面。值得注意的是，我们还针对3D视觉中的通用共识最大化问题进一步开发了非最小求解器的POP公式。我们的框架实现起来简单明了，并且在3D视觉中得到了三个不同的应用程序的支持，即刚体变换估计，Motion NRSfM的非刚性结构以及相机自动校准。在所有这三种情况下，都测试了非最小化和共识最大化，并将它们与最新方法进行了比较。我们的结果与比较方法相比具有竞争力，也与我们的理论分析相一致。本文的主要贡献是声称可以使用现有的数值计算代数理论来获得3D视觉中涉及的许多多项式问题的良好近似解。这种说法使我们有理由思考为什么3D视觉中的许多松弛方法表现得如此出色，并且还使我们能够以一种相当直接的方式提供通用的松弛求解器。我们进一步表明，这些多项式的凸松弛可以轻松地用于以确定性方式最大化共识。我们通过针对上述3D视觉中的三个不同问题的几个实验来支持我们的主张。

COPHY: Counterfactual Learning of Physical Dynamics
Authors Fabien Baradel, Natalia Neverova, Julien Mille, Greg Mori, Christian Wolf
了解机械系统中的因果关系是物理世界中推理的重要组成部分。这项工作提出了从视觉输入反事实学习对象力学的新问题。我们开发了COPHY基准测试，以评估用于合成3D环境中因果推理的最新模型的能力，并提出用于在反事实环境中学习物理动力学的模型。观察到机械实验后，例如，涉及到一个下降的砖塔，一组弹跳球或碰撞物体，我们学会了预测其结果如何受到其初始条件的任意干预的影响，例如替换其中一个。场景中的对象。鉴于过去的变化和模型在无人监督的情况下以端到端的方式学习到的混杂因素的潜在表示，可以预测到替代的未来。我们将其与前馈视频预测基准进行比较，并显示观察替代体验如何使网络捕获环境的潜在物理属性，从而在超级人的绩效水平上实现更准确的预测。

The Stroke Correspondence Problem, Revisited
Authors Dominik Klein
我们重新审视中风对应问题13,14。我们通过1评估合适的预处理规范化方法2对该算法进行了优化，以一种额外的距离度量来扩展该算法，以处理具有较少笔触的平假名，片假名和汉字字符，并简化了笔划链接算法。我们的贡献在免费的开源库ctegaki以及演示工具jTegaki和Kanjicanvas中实现。

Subjective and Objective De-raining Quality Assessment Towards Authentic Rain Image
Authors Qingbo Wu, Lei Wang, King N. Ngan, Hongliang Li, Fanman Meng
由于下雨天，由室外视觉系统获取的图像容易受到可见性差和烦人的干扰，这对准确理解和描述视觉内容提出了巨大的挑战。最近的研究已经致力于去除雨水的任务以改善图像的可见性。但是，关于除雨图像质量评估的探索很少，即使对于准确测量各种除雨算法的性能至关重要。在本文中，我们首先创建一个除雨质量评估DQA数据库，该数据库收集206个真实的降雨图像及其由6种代表性单图像除雨算法产生的除雨版本。然后，在我们的DQA数据库上进行主观研究，该数据库收集所有除雨图像的主题评分。为了定量测量具有非均匀伪影的雨水图像的质量，我们提出了一种双向特征嵌入网络B FEN，它将全局感知和局部差异的特征整合在一起。实验证实，该方法明显优于许多现有的通用盲图像质量评估模型。为了帮助研究可感知的首选除雨算法，我们将在以下位置公开发布DQA数据库和B FEN源代码：

Learning Energy-based Spatial-Temporal Generative ConvNets for Dynamic Patterns
Authors Jianwen Xie, Song Chun Zhu, Ying Nian Wu
视频序列包含丰富的动态模式，例如在时域表现出平稳性的动态纹理模式，以及在空间或时域都不稳定的动作模式。我们表明，基于能量的时空生成ConvNet可以用于建模和合成动态模式。该模型定义了视频序列上的概率分布，对数概率由空间时间卷积网络定义，该空间卷积网络由多层空间时间滤波器组成，以捕获不同尺度的空间时间模式。可以通过迭代以下两个步骤的综合学习算法分析，从训练视频序列中学习模型。步骤1根据当前学习的模型合成视频序列。然后，步骤2基于合成视频序列与观察到的训练序列之间的差异来更新模型参数。我们证明了学习算法可以综合现实的动态模式。我们还表明，可以从具有闭塞像素或丢失帧的不完整训练序列中学习模型，从而可以同时完成模型学习和模式完成。

Dual-Stream Pyramid Registration Network
Authors Xiaojun Hu, Miao Kang, Weilin Huang, Matthew R. Scott, Roland Wiest, Mauricio Reyes
我们建议将双流金字塔注册网络（称为Dual PRNet）用于无监督3D医学图像注册。与最近的基于CNN的配准方法（例如VoxelMorph，它探索单个流编码器解码器网络以从一对3D体积计算配准字段）不同，我们设计了两个流体系结构，能够从卷积特征金字塔计算多尺度配准字段。我们的贡献是双重的。我设计了一个两流3D编码器解码器网络，该网络针对一对输入量分别计算两个卷积特征金字塔，从而产生了对变形估计有意义的强大的深层表示形式。ii我们提出了一种能够预测的金字塔配准模块直接来自解码特征金字塔的多尺度配准字段。这使得它可以通过顺序扭曲从粗到细逐步地逐步细化配准场，并使模型具有处理两个体积之间的显着变形（例如在空间域或切片空间中的大位移）的能力。拟议的Dual PRNet在用于大脑MRI配准的两个标准基准上进行了评估，在很大程度上优于最新方法，例如，与最近的VoxelMorph 2相比，LPBA40的改进为0.683 0.778，Mindboggle101的改进为0.511 0.631 ，以平均骰子得分为单位。

Multi-scale Dynamic Feature Encoding Network for Image Demoireing
Authors Xi Cheng, Zhenyong Fu, Jian Yang
诸如数码相机和移动电话之类的数字传感器的普及简化了照片的获取。但是，数字传感器在拍摄具有复杂纹理的物体时会产生莫尔条纹，这会降低照片质量。莫尔条纹分布在图像的各个频带上，是一种动态纹理，具有不同的颜色和形状，这对拆除图像修复中的一项重要任务提出了两个主要挑战。在本文中，为解决第一个挑战，我们设计了一个多尺度网络来处理不同空间分辨率的图像，获得不同频段的特征，因此我们的方法可以共同去除不同频段的莫尔条纹。为了解决第二个挑战，我们提出了一个嵌入在每个比例尺中的动态特征编码模块DFE，用于动态纹理。通过DFE可以更有效地消除莫尔条纹图案。我们提出的方法，即具有动态特征编码的多尺度卷积网络，用于图像DeMoireing MDDM，在保真度和基准方面都可以超越现有技术。

FoodAI: Food Image Recognition via Deep Learning for Smart Food Logging
Authors Doyen Sahoo, Wang Hao, Shu Ke, Wu Xiongwei, Hung Le, Palakorn Achananuparp, Ee Peng Lim, Steven C. H. Hoi
健康监测的一个重要方面是有效记录食物消费量。这可以帮助管理与饮食有关的疾病，例如肥胖，糖尿病甚至心血管疾病。此外，食物记录可以帮助健身爱好者以及想要达到目标体重的人们。然而，食物记录很麻烦，并且不仅需要付出额外的努力来记下定期食用的食物，而且还需要对食用的食物有足够的了解，这由于多种菜式的可获得性而变得困难。随着对智能设备的日益依赖，我们充分利用了通过使用智能手机提供的便利，并提出了智能食品记录系统FoodAI，该系统可提供基于深度学习的先进图像识别功能。 FoodAI已在新加坡开发，尤其专注于新加坡通常消费的食品。 FoodAI模型在来自756个不同类别的40万个食物图像的语料库上进行了训练。在本文中，我们将对该系统的开发进行广泛的分析和见解。 FoodAI已被部署为API服务，并且是为新加坡健康促进委员会开发的移动应用程序Healthy 365提供支持的组件之一。我们有100多家注册组织的大学，公司，初创公司订阅此服务，并且每天都积极收到一些API请求。 FoodAI使食物记录变得便捷，有助于智能消费和健康生活方式。

Multiple Object Forecasting: Predicting Future Object Locations in Diverse Environments
Authors Olly Styles, Tanaya Guha, Victor Sanchez
本文介绍了多目标预测MOF问题，其目的是预测跟踪对象的未来边界框。与主要从鸟瞰角度考虑问题的对象轨迹预测的现有工作形成对比，我们从对象级别的角度阐述问题，并呼吁对整个对象边界框进行预测，而不是仅对轨迹进行预测。为了解决此任务，我们介绍了Citywalks数据集，该数据集包含超过200k的高分辨率视频帧。 Citywalks包含来自10个欧洲国家的21个城市的各种天气条件下记录的镜头，以及超过3.5k的独特行人轨迹。为了进行评估，我们调整了MOF的现有轨迹预测方法，并在不进行微调的情况下确认了MOT 17数据集上的交叉数据集可概括性。最后，我们介绍了STED，一种用于MOF的新颖编码器解码器体系结构。 STED结合了视觉和时间特征来对物体运动和自我运动进行建模，并且优于MOF的现有方法。代码数据集链接

Multi-grained Attention Networks for Single Image Super-Resolution
Authors Huapeng Wu, Zhengxia Zou, Jie Gui, Senior Member, IEEE, Wen Jun Zeng, Jieping Ye, Senior Member, IEEE, Jun Zhang, Member IEEE, Hongyi Liu, Member IEEE, Zhihui Wei
深度卷积神经网络CNN在图像超分辨率SR中引起了极大的关注。近年来，视觉注意力机制同时利用了特征重要性和上下文提示，已被引入到图像SR中，并被证明可有效改善基于CNN的SR性能。在本文中，我们对SR模型中的注意机制进行了深入研究，并阐明了对这些想法的简单有效的改进如何改善了现有技术。我们进一步提出一种称为多粒度注意力网络MGAN的统一方法，该方法充分利用了SR任务中多尺度和注意力机制的优势。在我们的方法中，每个神经元的重要性是根据其周围区域以多粒度方式计算的，然后用于自适应地重新缩放特征响应。更重要的是，先前方法中的通道注意和空间注意策略可以本质上视为我们方法的两个特例。我们还引入了多尺度密集连接以提取多个尺度的图像特征，并通过密集跳过连接捕获不同图层的特征。对基准数据集的消融研究证明了我们方法的有效性。与其他最新的SR方法相比，我们的方法在准确性和模型大小方面均显示出优越性。

A Symmetric Equilibrium Generative Adversarial Network with Attention Refine Block for Retinal Vessel Segmentation
Authors Yukun Zhou, Zailiang Chen, Hailan Shen, Peng Peng, Ziyang Zeng, Xianxian Zheng
目的认识眼底血管异常对眼科疾病和心血管事件的早期诊断至关重要。但是，分割结果受到难以捉摸的细血管的影响。在这项工作中，我们提出了一个合成网络，包括对称均衡的生成对抗网络SEGAN，多尺度特征细化块MSFRB以及注意力机制AM，以增强血管分割的性能，特别是对于细血管。方法所提议的网络具有强大的多尺度表示能力。首先，提出了SEGAN以构建对称的对抗架构，这迫使生成器生成具有局部细节的更逼真的图像。其次，MSFRB旨在防止模糊高分辨率特征，从而保留多尺度特征。最后，AM被用来鼓励网络专注于区分特征。结果在公共数据集DRIVE，STARE和CHASEDB1上，我们定量评估了我们的网络，并将其与最新技术进行了比较。消融实验表明，SEGAN，MSFRB和AM均有助于实现我们网络的理想性能。结论拟议的网络优于其他策略，并在难以捉摸的血管分割中有效发挥作用，在灵敏度，G均值，精确度和F1得分方面得分最高，同时保持其他指标的最高水平。意义显着的性能和较高的计算效率为临床视网膜血管分割应用提供了巨大的潜力。同时，该网络可用于提取有关其他生物医学问题的详细信息。

Adaptive Class Weight based Dual Focal Loss for Improved Semantic Segmentation
Authors Md Sazzad Hossain, Andrew P Paplinski, John M Betts
在本文中，我们提出了双重焦点损失DFL函数，以代替标准的交叉熵CE函数，以更好地处理数据集中的不平衡类。我们的DFL方法是对最近报道的Focal Loss FL交叉熵函数的改进，该函数提出了一种缩放方法，该方法将较难分类的示例放在较容易分类的示例上。但是，FL的缩放参数是根据经验设置的，这取决于问题。另外，像其他CE变体一样，FL仅关注丢失真实类。因此，不会从错误的类中获得损失反馈。尽管由于softmax函数的性质，仅关注真实示例会增加真实类的概率，并相应地降低错误类的概率，但由于避免了错误类的损失，因此无法达到最佳收敛。我们的DFL方法在两个方面改进了简单FL。首先，FL的思想比简单的例子更多地关注困难的例子，但是在同等重要性的真实和负面类别上评估损失。其次，DFL的缩放参数已变得可学习，因此它可以通过反向传播进行自我调整，而不必依赖于手动调整。通过这种方式，我们提出的DFL方法提供了一种自动可调损失函数，可以减少类不平衡的影响，并且可以将更多的注意力放在真实的困难示例和负面的容易示例上。实验结果表明，我们提出的方法可在各种不同的网络模型和数据集上进行的每次测试中提供更高的准确性。

Unsupervised Image Translation using Adversarial Networks for Improved Plant Disease Recognition
Authors Haseeb Nazki, Sook Yoon, Alvaro Fuentes, Dong Sun Park
机器学习的特定任务应用（例如植物病害识别）中的数据获取是一项昂贵的工作，因为需要专业的人类勤奋和时间限制。在本文中，我们提出了一个简单的管道，该管道在无监督的图像翻译环境中使用GAN来改善对植物病害数据集中数据分布的学习，减少由急性类别失衡引起的偏性，从而使分类决策边界朝着更好的方向发展性能。我们的方法的经验分析在2789个番茄植物病害图像的有限数据集上得到了证明，该数据集在9个疾病类别中高度失衡且不平衡。首先，我们通过提高生成的图像的感知质量并保留语义，将基于GAN的图像的现有技术扩展到图像翻译方法。我们介绍了AR GAN，除了对抗损失外，我们的合成图像生成器还优化了激活重建损失ARL功能，该功能优化了针对自然图像的特征激活。与目前最杰出的现有模型相比，我们在视觉上呈现更具吸引力的合成图像，并根据各种数据集和指标评估GAN框架的性能。其次，我们评估基线卷积神经网络分类器的性能，以使用所得的合成样本来增强我们的训练集并将其与经典数据增强方案进行比较，从而提高识别能力。我们观察到使用生成的合成样本在分类准确度5.2上有显着提高，而在同等类别的分布环境中使用经典增强法则提高了0.8。

Deep Model Transferability from Attribution Maps
Authors Jie Song, Yixin Chen, Xinchao Wang, Chengchao Shen, Mingli Song
探索异构任务之间的可传递性，有助于了解它们之间的内在联系，从而使知识从一项任务转移到另一项任务，从而减少了后者的培训工作量。在本文中，我们提出了一种令人尴尬的简单但非常有效的方法来估计深层网络的可传输性，尤其是那些处理视觉任务的网络。与任务法的开创性工作依赖大量注释作为监督并因此在计算上繁琐不同，所提出的方法不需要人工注释，并且对网络的体系结构没有任何约束。具体而言，这是通过将深层网络投影到模型空间中来实现的，其中将每个网络视为一个点，并通过其产生的属性图的偏差来测量两个点之间的距离。所提出的方法比任务法快几个数量级，同时保留了与任务法获得的拓扑结构高度相似的任务方式拓扑结构。代码位于

Joint-task Self-supervised Learning for Temporal Correspondence
Authors Xueting Li, Sifei Liu, Shalini De Mello, Xiaolong Wang, Jan Kautz, Ming Hsuan Yang
本文提出以自我监督的方式从视频中学习可靠的密集对应关系。我们的学习过程集成了两个高度相关的任务，这些任务跟踪较大的图像区域，并在连续的视频帧之间建立细粒度的像素级关联。我们通过共享的帧间相似度矩阵利用两个任务之间的协同作用，该矩阵同时在区域和像素级别对视频帧之间的过渡进行建模。虽然区域级别的本地化通过缩小搜索区域的范围来帮助减少细粒度匹配中的歧义，但细粒度的匹配则提供了自底向上的功能以促进区域级别的本地化。我们的方法在包括视频对象和零件分割传播，关键点跟踪和对象跟踪在内的各种视觉对应任务上，均优于现有的自我监督方法。我们的自我监督方法甚至超过了从ImageNet上经过预先训练的ResNet 18获得的完全监督的亲和力特征表示。

Resolving Marker Pose Ambiguity by Robust Rotation Averaging with Clique Constraints
Authors Shin Fang Ch ng, Naoya Sogi, Pulak Purkait, Tat Jun Chin, Kazuhiro Fukui
平面标记可用于机器人技术和计算机视觉中的地图绘制和定位。给定图像中检测到的标记，常见的任务是估计标记相对于相机的6DOF姿势，这是平面姿势估计PPE的一个实例。尽管存在成熟的技术，但是PPE面临一个基本的歧义问题，因为对于PPE实例，可能有多个可能的姿势解决方案。特别是当标记角的定位很嘈杂时，通常仅基于重投影误差就很难消除姿势解的歧义。先前的方法使用启发式标准在可能的解决方案之间进行选择，或者只是忽略不明确的标记。

Compact Trilinear Interaction for Visual Question Answering
Authors Tuong Do, Thanh Toan Do, Huy Tran, Erman Tjiputra, Quang D. Tran
在“视觉提问” VQA中，答案与问题含义和视觉内容具有很大的相关性。因此，为了有选择地利用图像，问题和答案信息，我们提出了一种新颖的三线性交互模型，该模型同时学习了这三个输入之间的高级关联。另外，为了克服交互的复杂性，我们引入了基于多模量张量的PARALIND分解，该分解有效地参数化了三个输入之间的三线性交互。此外，知识蒸馏是首次以自由形式开放式VQA应用。它不仅用于减少计算成本和所需的内存，还用于将知识从三线性交互模型转移到双线性交互模型。在基准数据集TDIUC，VQA 2.0和Visual7W上进行的广泛实验表明，当在所有三个数据集上使用单个模型时，所提出的紧凑型三线性交互模型可以达到最新的结果。

Overcoming Data Limitation in Medical Visual Question Answering
Authors Binh D. Nguyen, Thanh Toan Do, Binh X. Nguyen, Tuong Do, Erman Tjiputra, Quang D. Tran
视觉问答VQA的传统方法需要大量标记数据进行培训。不幸的是，这样的大规模数据通常不适用于医学领域。在本文中，我们提出了一种新颖的医疗VQA框架，该框架克服了标记数据的局限性。提出的框架探索了无监督的Denoising Auto Encoder DAE和有监督的元学习的使用。 DAE的优点是可以利用大量未标记的图像，而元学习的优点是可以通过有限的标记数据来学习快速适应VQA问题的元权重。通过利用这些技术的优势，可以使用一个小的标签训练集有效地训练所提出的框架。实验结果表明，我们提出的方法明显优于现有的医疗VQA。

Convolutional Neural Networks with Dynamic Regularization
Authors Yi Wang, Zhen Peng Bian, Junhui Hou, Lap Pui Chau
正则化通常用于机器学习中，以缓解过度拟合的情况。在卷积神经网络中，已经提出了诸如Dropout和Shake Shake之类的正则化方法来提高泛化性能。然而，这些方法在整个训练过程中缺乏自我适应性，即，正则化强度被固定为预定的时间表，并且必须执行手动调整以适应各种网络架构。在本文中，我们提出了一种动态正则化方法，该方法可以在训练过程中动态调整正则化强度。具体来说，我们将正则化强度建模为训练损失的后向差异，该差异可以在每次训练迭代中直接提取。借助动态正则化，大型模型可以通过强摄动进行正则化，反之亦然。实验结果表明，该方法可以提高现成网络体系结构的泛化能力，并且优于现有的正则化方法。

UNITER: Learning UNiversal Image-TExt Representations
Authors Yen Chun Chen, Linjie Li, Licheng Yu, Ahmed El Kholy, Faisal Ahmed, Zhe Gan, Yu Cheng, Jingjing Liu
联合图像文本嵌入是大多数视觉和语言V L任务的基础，在此任务中，对多模态输入进行联合处理以实现视觉和文本理解。在本文中，我们介绍UNITER，这是一种通用图像TExt表示形式，它是通过对四个图像文本数据集COCO，Visual Genome，Conceptual Captions和SBU Captions进行大规模的预训练而学习的，这些数据集可以为具有联合多模式嵌入的异构下游V L任务提供支持。我们设计了三个预训练任务，其中包含三种变体：掩蔽语言建模MLM，图像文本匹配ITM和掩蔽区域建模MRM。与将联合随机掩蔽应用于两种模态的多模态预训练的并发工作不同，我们在预训练任务上使用条件掩蔽，即，掩蔽语言区域建模是基于对图像文本的完全观察来进行的。综合分析表明，条件遮罩比未条件遮罩产生更好的性能。我们还进行了彻底的消融研究，以找到适合预训练任务组合的最佳设置。广泛的实验表明，UNITER在9个数据集上的6个V L任务上达到了最新的水平，包括视觉问题解答，图像文本检索，引用表达理解，视觉常识推理，视觉蕴涵和NLVR2。

Learning Pixel Representations for Generic Segmentation
Authors Oran Shayer, Michael Lindenbaum
迄今为止，用于通用非语义分段的深度学习方法是间接的，并且依赖于边缘检测。这与语义分割相反，后者直接应用DNN。我们提出了一种称为深度通用分割DGS的替代方法，并尝试遵循用于语义分割的路径。我们的主要贡献是一种新的方法，用于学习反映段相关性的像素明智表示。该表示形式与CRF结合使用以产生分割算法。我们证明了我们能够学习提高分割质量的有意义的表示，并且表示本身达到了最新的细分相似度得分。细分结果具有竞争力且前景广阔。

Revisit Knowledge Distillation: a Teacher-free Framework
Authors Li Yuan, Francis E.H.Tay, Guilin Li, Tao Wang, Jiashi Feng
知识提炼KD旨在将笨拙的老师模型的知识提炼成轻量级的学生模型。它的成功通常归因于由教师模型提供的类别之间相似性的特权信息，从这个意义上说，只有强大的教师模型才能部署到实践中来教授较弱的学生。在这项工作中，我们通过遵循实验性观察1挑战了这一普遍的信念，除了承认教师可以提高学生的能力外，学生还可以通过逆转KD程序2显着提高教师的能力，而KD程序是一名训练有素的教师，其准确性远低于学生仍然可以显着改善后者。为了解释这些观察，我们提供了KD和标签平滑规则化之间关系的理论分析。我们证明1 KD是一种学习的标签平滑正则化类型，而2标签平滑正则化为KD提供了虚拟教师模型。根据这些结果，我们认为KD的成功并不完全归因于类别之间的相似性信息，还归因于软目标的正则化，这同样重要，甚至更为重要。

Explicitly disentangling image content from translation and rotation with spatial-VAE
Authors Tristan Bepler, Ellen D. Zhong, Kotaro Kelley, Edward Brignole, Bonnie Berger
在给定图像数据集的情况下，我们通常感兴趣的是寻找独立于姿势变量（例如旋转和平移）而对语义内容进行编码的数据生成因子。但是，当前的解缠结方法并未在学习的潜在表示上强加任何特定的结构。我们提出了一种在可变自动编码器VAE框架中将图像旋转和平移与其他非结构化潜在因素明确分离的方法。通过将生成模型公式化为空间坐标的函数，我们使重构误差相对于潜在的平移和旋转参数是可区分的。这种表述使我们能够训练神经网络对这些潜在变量进行近似推断，同时明确地限制它们仅表示旋转和平移。我们证明了这个称为空间VAE的框架有效地学习了从内容中解开图像旋转和平移的潜在表示，并改善了多个基准数据集上标准VAE的重构，包括从单粒子电子显微镜和星系建模蛋白质的连续2D视图的应用在天文图像中。

DCTD: Deep Conditional Target Densities for Accurate Regression
Authors Fredrik K. Gustafsson, Martin Danelljan, Goutam Bhat, Thomas B. Sch n
虽然通常使用标准化方法解决基于深度学习的分类，但可以采用多种技术进行回归。在计算机视觉中，一种特别流行的技术是基于置信度的回归技术，该技术需要预测每个输入目标对x，y的置信度值。尽管这种方法已显示出令人印象深刻的结果，但它需要根据任务进行重要的设计选择，并且所预测的置信度通常缺乏自然的概率意义。我们通过提出深度条件目标密度DCTD（一种具有清晰概率解释的新颖且通用的回归方法）来解决这些问题。 DCTD通过使用神经网络直接根据x，y预测未归一化的密度来对条件目标密度py x建模。通过最小化相关联的负对数似然度来训练p y x的模型，该负对数似然度使用蒙特卡洛采样法近似。我们对四个计算机视觉回归任务进行了综合实验。我们的方法优于直接回归法以及其他基于概率和置信度的方法。值得注意的是，我们的回归模型相对于CORC数据集上的对象检测，在Faster RCNN上实现了1.9 AP的改进，并在应用于边界框回归时在视觉跟踪方面设置了新的技术水平。

RLBench: The Robot Learning Benchmark & Learning Environment
Authors Stephen James, Zicong Ma, David Rovick Arrojo, Andrew J. Davison
我们为机器人学习RLBench提出了具有挑战性的新基准和学习环境。该基准测试具有100个完全独特的手工设计任务，难度范围很广，从简单的目标到达和开门到更长的多阶段任务，例如打开烤箱并在其中放入托盘。我们提供了一系列本体感受性观察和视觉观察，包括来自肩膀上的立体摄像机和手持单眼摄像机的rgb，深度和分段蒙版。独特的是，通过使用运动计划器，每项任务都提供了无限的演示，这些运动计划器在任务创建期间指定的一系列航路点上进行操作，从而实现了一系列令人兴奋的基于演示的学习。 RLBench的设计考虑了可伸缩性，可以轻松创建新任务及其运动计划的演示，然后通过一系列工具进行验证，从而允许用户将自己的任务提交到RLBench任务存储库。这个大型基准旨在加速视觉引导操纵研究领域的进展，包括强化学习，模仿学习，多任务学习，几何计算机视觉，尤其是很少的镜头学习。借助基准测试任务和演示的广度，我们提出了机器人技术中的第一个大规模少击挑战。我们希望RLBench的规模和多样性为机器人学习社区及其他领域提供无与伦比的研究机会。

Smart Ternary Quantization
Authors Gr goire Morin, Ryan Razani, Vahid Partovi Nia, Eyy b Sari
神经网络模型需要大量资源。低位量化（例如二进制和三进制量化）是减轻这种资源需求的常用方法。三元量化提供了更灵活的模型，并且在准确性方面经常优于二元量化，但使内存增加了一倍，并增加了计算成本。另一方面，混合量化深度模型允许在精度和内存占用之间进行权衡。在这样的模型中，量化深度通常是手动选择的，这很累人，或者使用单独的优化例程进行调整，这需要多次训练量化网络。在这里，我们提出了智能三元量化STQ，其中我们通过自适应正则化函数直接修改量化深度，因此我们只训练一次模型。该方法在训练时在二进制和三进制量化之间跳转。我们展示了其在图像分类中的应用。

Towards neural networks that provably know when they don't know
Authors Alexander Meinke, Matthias Hein
最近显示，ReLU网络在远离训练数据的自信预测中任意产生。因此，ReLU网络不知道何时不知道。但是，这在安全关键型应用中是非常重要的属性。在无分布检测OOD的背景下，已经提出了许多缓解该问题的建议，但是没有一个能够提供任何数学上的保证。在本文中，我们提出了一种克服OOD的新方法。我们的方法可以与ReLU网络一起使用，并提供远离训练数据的可证明的低置信度预测，以及出站点附近的低置信度预测的第一份证书。在实验中，我们表明，最先进的方法在这种最坏的情况下会失败，而我们的模型可以保证其性能，同时保持最先进的OOD性能。

Two-stage Image Classification Supervised by a Single Teacher Single Student Model
Authors Jianhang Zhou, Shaoning Zeng, Bob Zhang
两阶段策略已广泛用于图像分类。但是，这些方法在第二预测阶段几乎没有考虑第一阶段的分类标准。在本文中，我们提出了一种新颖的两阶段表示方法TSR，并将其转换为我们的两阶段图像分类框架中的单师单身学生STSS问题。我们寻找测试样本的最近邻居以选择候选目标类别。同时，将第一级分类器制定为教师，该分类器拥有分类分数。在第二阶段，利用候选类的样本来学习基于L2最小化的学生分类器。学生会受到老师分类器的监督，老师分类器只有获得更高的分数才批准学生。实际上，所提出的框架通过以新颖的方式暂存两个较弱的分类器而生成了较强的分类器。在多个面部和对象数据库上进行的实验表明，我们提出的框架是有效的，并且优于多种流行的分类方法。

Balancing Domain Gap for Object Instance Detection
Authors Woo han Yun, Jaeyeon Lee, Jaehong Kim, Junmo Kim
在混乱的室内环境中进行对象实例检测是服务机器人的核心功能。如果我们有大量带注释的数据集，我们可以通过遵循近期成功的深度卷积神经网络策略来轻松构建检测系统。但是，在只有少量样本可用的实例检测问题中，很难准备如此庞大的数据集。这是部署对象检测系统的主要障碍之一。为了克服这个障碍，已经提出了许多生成综合数据集的方法。这些方法都面临领域差距或现实差距问题，原因在于源领域综合训练数据集与目标领域真实测试数据集之间的差异。在本文中，我们提出了一种简单的方法来以最少的人力来生成综合数据集。特别是，我们确定前景和背景的领域差距是不平衡的，并提出了平衡这些差距的方法。在实验中，我们验证了我们的方法可以帮助域间隙平衡并提高在杂乱的室内环境中进行对象实例检测的准确性。

StacNAS: Towards stable and consistent optimization for differentiable Neural Architecture Search
Authors Guilin Li, Xing Zhang, Zitong Wang, Zhenguo Li, Tong Zhang
神经体系结构搜索的早期方法计算量很大。最近提出的差分神经体系结构搜索算法（例如DARTS）可以有效地加快计算速度。但是，当前的提法依赖于原始问题的缓解，这会导致不稳定和次优的解决方案。我们认为这些问题是由以下三个基本原因引起的：1双级优化的难度2相关操作（例如最大池和平均池）的多重共线性3搜索阶段的优化复杂度与最终训练之间的差异。在本文中，我们提出了一种基于一级优化的分组变量修剪算法，从而为可区分的NAS提供了更加稳定和一致的优化解决方案。大量实验证明了该方法在准确性和稳定性方面的优越性。我们的新方法可在CIFAR 10，CIFAR 100和ImageNet上获得最先进的精度。

Segmentation of points of interest during fetal cardiac assesment in the first trimester from color Doppler ultrasound
Authors Ruxandra Stoean, Dominic Iliescu, Catalin Stoean
本文提出了一项早期研究，该研究使用基于Zernike矩的传统分割方法从孕早期彩色多普勒检查的胎儿超声心动图框架中提取重要特征。然后在获得的指标上使用基于距离的方法对正常心脏条件下应出现的三个给定类别的帧进行分类。该计算工具显示出有希望在筛查期间支持产科医生快速识别心脏视图。

Classification of Histopathological Biopsy Images Using Ensemble of Deep Learning Networks
Authors Sara Hosseinzadeh Kassani, Peyman Hosseinzadeh Kassani, Michal J. Wesolowski, Kevin A. Schneider, Ralph Deters
乳腺癌是全世界女性死亡的主要原因之一。这类癌症的早期诊断对于治疗和患者护理至关重要。使用卷积神经网络CNN的计算机辅助检测CAD系统可以帮助进行异常分类。在这项研究中，我们提出了一种基于集合深度学习的方法来对乳房组织学图像进行自动二进制分类。提出的集成模型采用了三个预先训练的CNN，即VGG19，MobileNet和DenseNet。集成模型用于特征表示和提取步骤。然后将提取的特征输入到多层感知器分类器中，以执行分类任务。各种预处理和CNN调整技术（例如污点归一化，数据扩充，超参数调整和微调）用于训练模型。该方法在四个公共基准数据集（即ICIAR，BreakHis，PatchCamelyon和Bioimaging）上得到了验证。所提出的多模型集成方法获得的预测优于单个分类器和机器学习算法，其针对BreakHis，ICIAR，PatchCamelyon和Bioimaging数据集的准确度分别为98.13、95.00、94.64和83.10。

A Hybrid Deep Learning Architecture for Leukemic B-lymphoblast Classification
Authors Sara Hosseinzadeh Kassani, Peyman Hosseinzadeh kassani, Michal J. Wesolowski, Kevin A. Schneider, Ralph Deters
由于组织病理学结构的复杂性，在显微图像中自动检测白血病B淋巴母细胞癌非常具有挑战性。为了解决此问题，需要一种自动且强大的诊断系统来进行早期检测和治疗。在本文中，提出了一种基于自动深度学习的方法来区分未成熟的白血病母细胞和正常细胞。所提出的基于深度学习的混合方法通过不同的数据增强技术得到了丰富，能够从输入图像中提取高级特征。结果表明，所提出的模型比单个模型对白血病B淋巴母细胞分类的预测效果更好，总体准确度为96.17，敏感性为95.17，特异性为98.58。融合从中间层提取的特征，我们的方法有可能改善整体分类性能。

Lightweight Image Super-Resolution with Information Multi-distillation Network
Authors Zheng Hui, Xinbo Gao, Yunchu Yang, Xiumei Wang
近年来，使用深度卷积神经网络CNN的单图像超分辨率SISR方法取得了令人瞩目的成果。由于深层网络具有强大的表示能力，许多以前的方法都可以学习低分辨率LR图像斑块与高分辨率HR版本之间的复杂非线性映射。但是，过度的卷积将限制超分辨率技术在低计算能力设备中的应用。此外，在实际应用中任何任意比例因子的超分辨率都是一个关键问题，在以前的方法中还没有很好地解决。为了解决这些问题，我们通过构造包含蒸馏和选择性融合部分的级联信息多元蒸馏模块IMDB，提出了一种轻量级的信息多元蒸馏网络IMDN。具体来说，蒸馏模块会逐步提取分层特征，然后融合模块会根据候选特征的重要性对它们进行聚合，并通过拟议的对比度感知通道注意机制对其进行评估。为了处理任何尺寸的真实图像，我们开发了一种自适应裁剪策略ACS，以使用相同的训练有素的模型来超级分解逐块图像块。大量实验表明，在视觉质量，内存占用量和推理时间方面，所提出的方法相对于最新的SR算法表现良好。网址中提供了代码

Unsupervised Universal Self-Attention Network for Graph Classification
Authors Dai Quoc Nguyen, Tu Dinh Nguyen, Dinh Phung
现有的图嵌入模型通常在利用图结构相似性，节点之间的潜在依赖关系以及全局网络属性方面存在弱点。为此，我们提出了U2GAN，这是一种新颖的无监督模型，它利用了最近引入的通用自我关注网络Dehghani等人的力量2019，以学习可用于图分类的图的低维嵌入。特别地，给定一个输入图，U2GAN首先应用自我关注计算，然后进行递归转换以迭代地记住其对每次迭代中每个节点及其邻居的向量表示的关注。因此，U2GAN可以解决现有模型中的弱点，以产生合理的节点嵌入，其总和是整个图的最终嵌入。实验结果表明，我们的无监督U2GAN在一系列众所周知的用于图形分类任务的基准数据集上产生了最新的性能。在大多数基准案例中，它甚至优于监督方法。

Breast Cancer Diagnosis with Transfer Learning and Global Pooling
Authors Sara Hosseinzadeh Kassani, Peyman Hosseinzadeh Kassani, Michal J. Wesolowski, Kevin A. Schneider, Ralph Deters
乳腺癌是全世界女性与癌症相关的死亡的最常见原因之一。早期准确诊断乳腺癌可以显着提高患者的生存率。在这项研究中，我们旨在开发一种基于深度学习的全自动方法，该方法使用由深度卷积神经网络DCNN模型提取的描述符特征以及合并操作来对苏木精和曙红染色的HE组织学乳腺癌图像进行分类，这是该方法的一部分。国际图像分析与识别大会ICIAR 2018乳腺癌组织学BACH图像挑战赛。应用了不同的数据增强方法来优化DCNN性能。我们还研究了不同的污渍归一化方法作为预处理步骤的功效。使用预先训练的Xception模型的拟议网络体系结构可产生92.50的平均分类精度。

Unsupervised Domain Adaptation through Self-Supervision
Authors Yu Sun, Eric Tzeng, Trevor Darrell, Alexei A. Efros
本文介绍了无监督域自适应，即在源域上有标签训练数据可用的设置，但目标是在仅包含无标签数据的目标域上具有良好的性能。像以前的许多工作一样，我们力求使源域和目标域的学习表示保持一致，同时保留可分辨性。我们完成对齐的方式是通过学习在两个域上同时执行辅助的自我监督任务。每个自我监督的任务都将两个域沿着与该任务相关的方向拉近。与主要任务分类器一起在源域上进行训练，可以成功地将其推广到未标记的目标域。提出的目标易于实现且易于优化。我们在七个标准基准中的四个基准上获得了最先进的结果，在细分适应方面也获得了竞争性结果。我们还证明了我们的方法与另一种流行的像素级自适应方法组成良好。

LAVAE: Disentangling Location and Appearance
Authors Andrea Dittadi 1 , Ole Winther 1 and 2 and 3 1 Technical University of Denmark, 2 Copenhagen University Hospital, 3 University of Copenhagen
我们提出了一种概率生成模型，用于无监督学习视觉场景的结构化，可解释性，基于对象的表示形式。我们使用摊余的变分推理来训练生成模型的端到端。所学习的对象位置和外观表示完全被解开，并且在潜在空间中对象彼此独立表示。与先前的方法无法区分位置和外观的方法不同，我们的方法可以无缝地将场景概括为训练对象中遇到的物体更多的场景。我们在多MNIST和多dSprites数据集上评估提出的模型。

A fast, complete, point cloud based loop closure for LiDAR odometry and mapping
Authors Jiarong Lin, Fu Zhang
本文提出了一种闭环方法，可以校正LiDAR测距和映射LOAM中的长期漂移。我们提出的方法计算关键帧的2D直方图，局部地图补丁，并使用2D直方图的归一化互相关作为当前关键帧与地图中关键帧之间的相似性度量。我们证明了该方法快速，不变于旋转并且产生可靠且准确的回路检测。所提出的方法经过精心的工程实施，并集成到LOAM算法中，形成了一个完整实用的系统，可供使用。为了通过提供闭环基准来使社区受益，整个系统在Github上开源

Data consistency networks for (calibration-less) accelerated parallel MR image reconstruction
Authors Jo Schlemper, Jinming Duan, Cheng Ouyang, Chen Qin, Jose Caballero, Joseph V. Hajnal, Daniel Rueckert
通过扩展CNN的深层级联并利用数据一致性层，我们提出了用于多线圈数据的简单重构网络。特别是，我们提出了两种变体，其中一种是受POCSENSE启发，而另一种则是较少的校准。我们表明，所提出的方法相对于现有技术在数量和质量上都具有竞争力。

"Good Robot!": Efficient Reinforcement Learning for Multi-Step Visual Tasks via Reward Shaping
Authors Andrew Hundt, Benjamin Killeen, Heeyeon Kwon, Chris Paxton, Gregory D. Hager
为了有效学习，机器人必须能够提取无形的上下文，从而定义任务的进度和错误。在强化学习领域，许多信息是由奖励功能提供的。因此，奖励整形是我们如何在复杂的多步骤任务中获得最新结果的必要部分。但是，相对较少的工作检查了应如何进行奖励整形以使其能够捕获任务上下文，特别是在任务期限长且失败后果严重的情况下。我们的“积极任务SPOT奖励计划”训练了我们的有效视觉任务EVT模型，以解决需要了解任务上下文和多步骤块安排任务的工作空间约束的问题。在模拟中，EVT可以通过推动和抓紧99个案例（相对于先前工作中的82个基线）来完全清除对象的对抗性安排。对于随机安排，EVT清除100个测试用例，其动作效率为86，而以前的工作效率为61。与单独使用EVT的5个基准相比，EVT SPOT还能够证明74个试验中的上下文理解和完整堆栈。就我们所知，这是成功完成此类挑战的基于强化学习的算法的第一个实例。代码位于

Deep-learning-based Breast CT for Radiation Dose Reduction
Authors Wenxiang Cong, Hongming Shan, Xiaohua Zhang, Shaohua Liu, Ruola Ning, Ge Wang
锥形束乳腺计算机断层扫描CT提供具有各向同性分辨率和高对比度信息的真实3D乳腺图像，可检测小至几百微米的钙化并显示出细微的组织差异。但是，乳房对X射线辐射高度敏感。减少辐射剂量对于医疗保健至关重要。很少有视锥束CT仅使用标准锥束乳腺CT采集的X射线投影数据的一部分，从而可以显着降低辐射剂量。但是，采样数据不足会在使用常规方法重建的CT图像中造成严重的条纹伪影。在这项研究中，我们提出了一种基于深度学习的方法来建立残差神经网络模型以进行图像重建，该方法适用于少数视图乳腺CT以产生高质量的乳腺CT图像。我们分别使用标准锥形束乳腺CT的X射线投影视图的三分之一和四分之一来评估基于深度学习的图像重建。基于临床乳房成像数据集，我们执行有监督的学习，以将神经网络从少量的CT图像训练为相应的完整的CT图像。实验结果表明，基于深度学习的图像重建方法几乎没有视线乳腺CT能够实现每次锥束CT扫描6 mGy的辐射剂量，这是FDA为乳腺X线检查设置的阈值。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com

你可能感兴趣的:(深度学习,图像超分辨,点云)

深度学习——CNN（3）飘涯
前言：前面介绍了最基本的Lenet，下面介绍几种其他的网络结构CNN-AlexNet网络结构如下图：从图中可以看出，采用双gpu训练增加LRN归一化层：本质上，这个层也是为了防止激活函数的饱和的。采用dropout防止过拟合基于AlexNet进行微调，诞生了ZF-netCNN-GoogleNetGoogLeNet借鉴了NIN的特性，在原先的卷积过程中附加了11的卷积核加上ReLU激活。这不仅仅提升
OpenGL-原始图像数据 Tobesky
像素包装出于性能考虑，一副图像的每一行都应该从一个特定字节对齐地址开始（空间换时间），绝大多数编译器会自动把变量和缓冲区放置在一个针对该架构对齐优化的地址上Windows中的RMP文件格式的像素数据使用4字节排列；Targa（TGA）文件格式是1个字节排列的，相比较而言TGA格式会更加节省空间//改变或恢复像素的储存方式：voidglPixelStorei(GLenumpname,GLintpar
微算法科技技术突破：用于前馈神经网络的量子算法技术助力神经网络变革 MicroTech2025 量子计算算法神经网络
随着量子计算和机器学习的迅猛发展，企业界正逐步迈向融合这两大领域的新时代。在这一背景下，微算法科技（NASDAQ:MLGO）成功研发出一套用于前馈神经网络的量子算法，突破了传统神经网络在训练和评估中的性能瓶颈。这一创新性的量子算法以经典的前馈和反向传播算法为基础，借助量子计算的强大算力，极大提升了网络训练和评估效率，并带来了对过拟合的天然抗性。前馈神经网络是深度学习的核心架构，广泛应用于图像分类、
微算法科技研究量子视觉计算，利用量子力学原理提升传统计算机视觉任务的性能
计算机视觉，作为人工智能领域的一个重要分支，致力于模拟人类视觉系统对图像或视频等视觉数据的理解与分析能力。它涵盖了图像识别、目标检测、图像分割等一系列复杂任务，广泛应用于自动驾驶、医疗影像分析、安防监控等多个领域。然而，随着数据规模的不断膨胀和任务复杂度的日益提升，传统计算机视觉算法在处理大规模、高维度数据时遇到了性能瓶颈。微算法科技(NASDAQ：MLGO)研究量子视觉计算，探索量子计算与经典卷
ColQwen-Omni：RAG全模态检索来了，支持【文本|图像|视频|音频】四种模态！致Great 音视频
还记得ColPali、ColQwen和DSE吗？这些模型开创了视觉文档检索的新范式：无需费力地从文档中提取文本进行处理，只需将文档页面视为一系列图像（屏幕截图），然后训练视觉语言模型（VLM）直接将其内容表示为向量。ColPali的实践表明，这种策略通常比其他替代方法更快、更简单，并且能带来更好的检索性能。自发布一年以来，ColPali和ColQwen系列模型已被下载数百万次，被誉为“2024年顶
高通camera结构（第五天）
一、摄像头的结构和工作原理镜头用来拍摄景物，拍摄的图片在传感器上将光信号转换成了电信号，电信号经过AD转换器（模数转换器）转换成了数字信号，数字信号经过DSP（数字信号处理器）进行加工处理，再被送到电脑中进行处理，最终转换成了手机屏幕上我们可以看到的图像。数字信号处理器芯片（DSP）功能：主要是通过一系列数学的算法运算，对数字图像信号进行优化处理，并把处理过的信号通过USB等接口传到PC等设备。D
英伟达Triton 推理服务详解 leo0308 基础知识机器人 Triton 人工智能
1.TritonInferenceServer简介TritonInferenceServer（简称Triton，原名NVIDIATensorRTInferenceServer）是英伟达推出的一个开源、高性能的推理服务器，专为AI模型的部署和推理服务而设计。它支持多种深度学习框架和硬件平台，能够帮助开发者和企业高效地将AI模型部署到生产环境中。Triton主要用于模型推理服务化，即将训练好的模型通过
高通平台camera构架sensor驱动详解 a55662551 android camera 驱动 v4l2
1.Sensor驱动的基本概念与流程Sensor驱动的作用：Sensor驱动是Camera硬件与CamX框架之间的桥梁，负责控制Sensor的启动、数据采集、寄存器配置以及与图像处理单元（如IFE、BPS）的交互。通俗理解：就像工厂的“原料采集工”，负责从摄像头传感器（如CMOS）获取原始图像数据，并将数据传递到流水线（Pipeline）中进行加工。数据流关键步骤：Sensor初始化：配置电源、时
Java NLP炼金术：从词袋到深度学习，构建AI时代的语言魔方墨夶 Java学习资料人工智能 java 自然语言处理
一、JavaNLP的“三剑客”：框架与工具链1.1ApacheOpenNLP：传统NLP的“瑞士军刀”目标：用词袋模型实现文本分类与实体识别代码实战：文档分类器的“炼成术”//OpenNLP文档分类器（基于词袋模型）importopennlp.tools.doccat.*;importopennlp.tools.util.*;publicclassDocumentClassifier{//训练模型
Android 开源组件和第三方库汇总 gyyzzr Android Android 开源框架
转载1、github排名https://github.com/trending,github搜索：https://github.com/search2、https://github.com/wasabeef/awesome-android-ui目录UIUI卫星菜单节选器下拉刷新模糊效果HUD与Toast进度条UI其它动画网络相关响应式编程地图数据库图像浏览及处理视频音频处理测试及调试动态更新热更新
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Shader面试题100道之（81-100）还是大剑师兰特 #Shader 综合教程100+大剑师 shader面试题 shader教程
Shader面试题（第81-100题）以下是第81到第100道Shader相关的面试题及答案：81.Unity中如何实现屏幕空间的热扭曲效果（HeatDistortion）？热扭曲效果可以通过GrabPass抓取当前屏幕图像，然后在片段着色器中使用噪声或动态UV偏移模拟空气扰动，再结合一个透明通道控制扭曲强度来实现。82.Shader中如何实现物体轮廓高亮（OutlineHighlight）？轮廓
被动降噪的概念及编程实现 CodeByte 人工智能算法 javascript 编程
被动降噪是指通过编程技术和算法，对输入的数据进行处理，以减少或消除其中的噪声。噪声可以是各种形式的干扰，例如来自传感器、通信信号或其他外部源的干扰。在本文中，我们将探讨被动降噪的意义以及如何使用编程来实现这一目标。被动降噪的意义：噪声对数据的准确性和可靠性产生负面影响。在许多应用领域，例如图像处理、音频处理和信号处理中，噪声的存在可能导致数据质量下降，使得后续的分析和处理变得困难。因此，被动降噪技
盲超分的核心概念小冷爱读书数学建模盲超分超分重建
一、盲超分的本质与数学建模1.退化过程的数学表达低分辨率图像（LR）可看作高分辨率图像（HR）经过退化模型后的结果：：观测到的低分辨率图像：待恢复的高分辨率图像：模糊核（BlurKernel）⊗：卷积操作↓：下采样（步长为）：加性噪声（如高斯噪声、泊松噪声等）盲超分的核心问题：在未知、、的情况下，从估计。2.为什么传统超分方法会失效？传统方法（如SRCNN、EDSR）假设退化是固定的（如双三次下采
AI 图像编辑提示词参考之：背景替换
在AI图像编辑中（以FluxKontext为例），“替换背景”（BackgroundReplacement）是提升图像表现力的关键手段之一。但背景更换不仅仅是简单的视觉置换，更重要的是：确保人物主体外观不变，并与新背景在色温、色调、光影等方面自然融合。只有这样，最终图像才会呈现出“原本拍摄于该背景环境”的真实感。建议使用以下结构组织提示词：Replacethebackgroundwith[新背景]
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
模型训练与部署注意事项篇---resize Atticus-Orion 图像处理篇深度学习篇模型训练与部署注意事项篇深度学习计算机视觉人工智能
图像大小的影响在YOLOv系列模型的训练和推理部署过程中，图像大小的选择是影响模型性能（精度、速度、泛化能力）的关键因素之一。两者的关系既相互关联，又存在一定的灵活性，具体可从以下几个方面详细分析：一、核心关系：训练与推理图像大小的“基准一致性”YOLOv模型（如YOLOv5、v7、v8等）的训练和推理图像大小通常以**“基准尺寸”**为核心关联，即训练时设定的图像尺寸会作为模型设计的基础，而推理
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
NVIDIA 系列之使用生成式 AI 增强 ROS2 机器人技术：使用 BLIP 和 Isaac Sim 进行实时图像字幕制作知识大胖 NVIDIA GPU和大语言模型开发教程人工智能机器人
简介在快速发展的机器人领域，集成先进的AI模型可以显著增强机器人系统的功能。在本博客中，我们将探讨如何在ROS2（机器人操作系统2）环境中利用BLIP（引导语言图像预训练）模型进行实时图像字幕制作，并使用NVIDIAIsaacSim进行模拟。我们将介绍如何实现一个ROS2节点，该节点订阅摄像头源、应用BLIP模型进行图像字幕制作，并实时显示结果。这种集成展示了生成式AI在增强人机交互方面的强大功能
卫星分析系列之使用卫星图像量化野火烧毁面积在 Google Colab 中使用 Python 使用 Sentinel-2 图像确定森林火灾烧毁面积知识大胖 NVIDIA GPU和大语言模型开发教程 python sentinel 开发语言
简介几年前，当大多数气候模型预测如果我们不采取必要措施，洪水、热浪和野火将会发生更多时，我没想到这些不寻常的灾难现象会成为常见事件。其中，野火每年摧毁大量森林面积。如果你搜索不同地方的重大野火表格，你会发现令人震惊的统计数据，显示由于野火，地球上有多少森林面积正在消失。在本教程中，我将结合我已经发表过的关于下载、处理卫星图像和可视化野火的故事，量化加州发生的其中一场重大野火的烧毁面积。与之前的帖子
使用NVIDIA NeRF将2D图像转换为逼真的3D模型（Python） ByteWhiz 3d python 计算机视觉 Python
使用NVIDIANeRF将2D图像转换为逼真的3D模型（Python）NeuralRadianceFields（NeRF）是一种强大的方法，可以将2D图像转换为逼真的3D模型。它使用神经网络来建模场景的辐射场，并通过渲染多个视角的图像来重建3D模型。在本文中，我们将使用Python和NVIDIANeRF库来实现这一过程。首先，我们需要安装所需的库。我们可以通过以下命令使用pip安装NVIDIANe
Android 图像处理 - Bitmap 图像处理观察记录（基本图像复制、带目录创建的图像复制、字节流处理的图像复制、并发图像复制、单线程池顺序图像复制）
Bitmap图像处理观察记录1、基本图像复制从应用内部存储目录读取test.png使用BitmapFactory解码为Bitmap对象将Bitmap重新压缩保存为newTest.png操作成功，compress返回trueFilefile=newFile(getFilesDir(),"test.png");StringabsolutePath=file.getAbsolutePath();Bitm
OpenCV图像数据处理:convertTo,normalize和scaleAdd luofeiju OpenCV函数实战 opencv
在OpenCV图像处理的世界里，有几个函数进行一些基本数据变换：cv::convertTo()：类型转换与线性缩放；cv::normalize()：归一化处理；cv::scaleAdd()：加权叠加运算。cv::addWeighted():与scaleAdd相似，进行加权叠加运算；一、cv::convertTo()：线性变换+数据类型转换voidcv::Mat::convertTo(OutputA
Gradio全解系列7——Additional Features：补充特性（上）龙焰智能 Gradio全解教程人工智能 gradio 补充特性队列输入输出流提示及进度条批处理函数
Gradio全解7——AdditionalFeatures：补充特性（上）前言第7章AdditionalFeatures：补充特性7.1队列7.1.1使用方法7.1.2配置队列演示7.2输入输出流7.2.1输出流1.生成器yield2.流媒体7.2.2输入流1.流事件2.图像滤镜7.2.3统一的输入输出流7.2.4跟踪过去的输入或输出7.3提示及进度条7.3.1提示7.3.2进度条7.4批处理函数
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置

【AI视野·今日CV 计算机视觉论文速览 第162期】Fri, 27 Sep 2019

Interesting:

Daily Computer Vision Papers

你可能感兴趣的:(深度学习,图像超分辨,点云)

【AI视野·今日CV 计算机视觉论文速览第162期】Fri, 27 Sep 2019