hitrjj

【今日CV 计算机视觉论文速览第139期】Tue, 2 Jul 2019

今日CS.CV 计算机视觉论文速览
Tue, 2 Jul 2019
Totally 63 papers
?上期速览✈更多精彩请移步主页

Interesting:

?*****更深入地理解PointNet，提出新的点云模块和更深更宽的网络架构, 研究人员提出了一种精度更高内存消耗更小的点云处理模块，使得深度网络可以在更宽更深的网络上处理点云。这三种模块包括了多尺度点云处理模块、可以用于混合邻域信息的内存高效的点云卷积操作、以及可以共享高低层级间信息的交叉连接模块。(from 伦敦大学学院)
几种不同的基本模块：

几种构建出的网络层结构，包标准的pointnet，并行的多尺度pointnet，以及允许信息流动的多支路交叉link层，还有提高内存利用率和更深的点云处理网络结构：

一些得到的结果和误差图：

project:https://github.com/erictuanle/GoingDeeperwPointNetworks
dataset:ShapeNet-Part,ScanNet, PartNet
ref:PointNet++, DGCNN, SpiderCNN,PointCNN

?场景文字放大, 提出了一种场景中文字的放大器，可以在不改变背景的情况下放大目标区域的问题。整个网络由四个子网络组成，分别是去除文字的编码器、抽取文字区域并输出文字及其掩膜、然后进行文字放大(1.2x,1.5x)、最后进行图像合成将放大的文字贴回原图中。(from 九州大学日本)

第三阶段的利用坐标卷积来代替原来的卷积，避免文字模糊：

最后的结果：

?基于高斯过程的RGB-D相机实时空间热校正, RGB-D相机大都使用厂家的标定结果，但由于标定精度不高、使用消耗和热影响使得深度显示结果不稳定质量也不高。研究人员提出了一种方法来精度的标定深度，考虑空间和热影响。基于四维空间和热空间的高斯过程回归，并利用GPU来对深度图进行实时校正。(from JKU Department of Computational Perception,)
温度对深度相机性能造成的影响：

深度图明显变得更加连续和精确了：

code:https://github.com/cheind/rgbd-correction/blob/master/sensor_correction/gp_gpu.py
camera：https://orbbec3d.com/astra-mini/

?Pano Popups室内三维重建, 提出了一种从360度图像中重建深度、表面法向量和边缘的新方法，基于平面的注意力来实现。注意到平面的损失函数利用了场景中的平面边界和原始曲率来提高了精度和法向量的预测效果。(from 北卡教堂山)

一个很对称的网络结构，输入和三个输出结果，复用多尺度特征：

在SUMO[27]数据集上预测的结果：

平面描述损失和权重，以及最后的损失函数：

dataset: Scene Understanding and Modeling (SUMO) dataset [27]

?用于三维刚体数据匹配的局域几何特征表达评测, (from 西工大)
各种特征表示方法：

六个实验数据集和加入的四种扰动：

最后的finding值得学习。directly replacing attribute description with occupancy labels can achieve comparative or even stronger discriminative power and more robustness to common perturbations, yet being more compact and efficient！

?+++XNect:单图像多人实时三维姿势检测, 这是一种三阶段的方法，首先获取局域的每个关键的位置、全局的全身关节以及最后通过帧间来推理时域相关性。(from 马普研究所 EPFL)
第一阶段利用SelecSLS Net 架构得到可见部分的2D和中介的3D姿势；第二阶段今年利用全连接并行的对每个人进行检测、包括遮挡的关节；第三阶段提供了时域稳定性，通过动力学骨架拟合来获取相对于相机的位置和关节角度。

第二阶段的输入：

上一步骤中三维位姿编码：

结果展示：

?CDTB彩色和深度结合的视觉追踪数据集, (from University of Ljubljana, Slovenia)
不同光照下运动下的室内室外数据：

采集设备：

ref:
http://alan.lukezicfri.uni-lj.si/
标定：http://www.vision.caltech.edu/bouguetj/calib_doc/
图像序列注释：https://github.com/votchallenge/aibu

Daily Computer Vision Papers

Going Deeper with Point Networks
Authors Eric Tuan Le, Iasonas Kokkinos, Niloy J. Mitra
在这项工作中，我们引入了三个通用点云处理模块，它们提高了现有技术网络的精度和内存消耗，从而可以设计更深入，更准确的网络。新颖的处理块是多分辨率点云处理块，用于以存储器有效方式混合邻域信息的点集的卷积类型操作和在低分辨率和高分辨率处理分支上有效地共享信息的交联块。通过组合这些块，我们可以设计出更广泛，更深入的架构。我们广泛评估了多点分割基准ShapeNet Part，ScanNet，PartNet的建议架构，并通过将我们的通用模块与多个最新架构PointNet，DGCNN，SpiderCNN，PointCNN结合使用，报告了精度和内存消耗方面的系统改进。我们报告在最复杂的PartNet数据集上IoU增加3.4，同时将内存占用减少57。

ICDAR2019 Robust Reading Challenge on Multi-lingual Scene Text Detection and Recognition -- RRC-MLT-2019
Authors Nibal Nayef, Yash Patel, Michal Busta, Pinaki Nath Chowdhury, Dimosthenis Karatzas, Wafa Khlif, Jiri Matas, Umapada Pal, Jean Christophe Burie, Cheng lin Liu, Jean Marc Ogier
随着现代城市日益增长的国际化文化，对强大的多语言场景文本MLT检测和识别系统的需求从未如此巨大。为了系统地进行基准测试和推动现有技术发展，我们提出的竞赛建立在RRC MLT 2017之上，还有一个额外的端到端任务，一个真实图像数据集中的附加语言，一个大规模的多语言合成数据集协助培训，以及基线端到端识别方法。真实数据集包含20,000个包含10种语言文本的图像。挑战有4个任务，涵盖多语言场景文本的各个方面，文本检测，b裁剪词脚本分类，c联合文本检测和脚本分类以及端到端检测和识别。总的来说，竞赛收到了来自研究和工业界的60份意见书。本文介绍了提出的RRC MLT 2019挑战的数据集，任务和结果。

Estimating brain age based on a healthy population with deep learning and structural MRI
Authors Xinyang Feng, Zachary C. Lipton, Jie Yang, Scott A. Small, Frank A. Provenzano
大量研究已经确定，从健康人群训练的统计模型得出的估计脑年龄构成了预测认知衰退和各种神经疾病的有价值的生物标志物。在这项工作中，我们策划了一个大规模的异质数据集N 10,158，来自多个公开可用来源的健康人群中结构性脑MRI的年龄范围1897，我们在其上训练用于脑年龄估计的深度学习模型。大规模数据集的可用性使得在成年寿命期间的年龄分布更均匀，以进行有效的年龄估计，而不偏向某些年龄组。我们证明了用平均绝对误差MAE和相关系数r评估的年龄估计准确度，在反映自定义人口MAE 4。06年，r 0.970和独立寿命评估数据集MAE 4.21的保持测试集中均优于先前报告的方法。年，先前的一项研究已经评估了0.960。我们进一步证明了估计年龄在认知功能的寿命老化分析中的效用。此外，我们进行了广泛的消融测试，并采用特征归因技术来分析哪些区域贡献了最具预测价值，展示了额叶的突出性以及寿命期间的模式转变。总之，我们实现了卓越的年龄估计性能，证实了深度学习的有效性以及训练的附加效用，数据的数量更多，分布更均匀，比以前的研究更均匀。我们通过多种途径证明了对我们大脑年龄预测的区域贡献，并确认了估计和按时间顺序的脑年龄与神经心理测量之间的差异之间的关联。

Pano Popups: Indoor 3D Reconstruction with a Plane-Aware Network
Authors Marc Eder, Pierre Moulon, Li Guan
在这项工作中，我们提出了一种训练平面感知卷积神经网络的方法，用于密集深度和表面法线估计以及来自单个室内三维图像的平面边界。使用我们提出的损失函数，我们的网络优于现有的单视图，室内，全向深度估计方法，并为三维图像提供表面法线预测的初始基准。我们的改进是由于使用了一种新的平面意识损失，利用主曲率作为平面边界的指标。我们还表明，包括测地坐标图作为网络先验可以显着提高表面法线预测精度。最后，我们演示了如何将网络输出结合起来生成室内场景的高质量3D弹出模型。

An Efficient Solution for Breast Tumor Segmentation and Classification in Ultrasound Images Using Deep Adversarial Learning
Authors Vivek Kumar Singh, Hatem A. Rashwan, Mohamed Abdel Nasser, Md. Mostafa Kamal Sarker, Farhan Akram, Nidhi Pandey, Santiago Romani, Domenec Puig
本文提出了一种有效的乳腺超声总线图像肿瘤分割和分类解决方案。我们建议在条件生成性对抗网络cGAN分割模型中添加一个充满紊乱的卷积层，以学习不同分辨率的BUS图像的肿瘤特征。为了自动平衡每个最高级编码特征的相对影响，我们还建议在网络中添加通道明智的加权块。此外，具有典型对抗性损失的SSIM和L1范数损失被用作训练模型的损失函数。我们的模型在Dice和IoU指标方面优于最先进的细分模型，分别达到93.76和88.82的最高分。在分类阶段，我们表明从预测的面具边界的形状中提取的很少的统计特征可以正确地区分良性和恶性肿瘤，准确度为85

+++移动端的生产对抗实现MobileGAN: Skin Lesion Segmentation Using a Lightweight Generative Adversarial Network
Authors Md. Mostafa Kamal Sarker, Hatem A. Rashwan, Mohamed Abdel Nasser, Vivek Kumar Singh, Syeda Furruka Banu, Farhan Akram, Forhad U H Chowdhury, Kabir Ahmed Choudhury, Sylvie Chambon, Petia Radeva, Domenec Puig
皮肤镜检查中的皮肤病变分割由于其模糊和不规则边界而成为挑战。由于数以亿计的参数，大多数基于深度学习的分割方法都耗费时间和内存。因此，难以将它们应用于具有有限GPU和存储器资源的真实皮肤镜设备。在本文中，我们提出了一种轻量级和高效的Generative Adversarial Networks GAN模型，称为MobileGAN，用于皮肤病变分割。更确切地说，MobileGAN将1D非瓶颈因子分解网络与GAN模型中的位置和信道关注模块相结合。所提出的模型在ISBI 2017挑战的测试数据集和ISIC 2018挑战的验证数据集上进行评估。尽管所提出的网络仅具有235万个参数，但它仍然与现有技术相当。实验结果表明，我们的MobileGAN获得了相当的性能，准确度为97.61。

XNect: Real-time Multi-person 3D Human Pose Estimation with a Single RGB Camera
Authors Dushyant Mehta, Oleksandr Sotnychenko, Franziska Mueller, Weipeng Xu, Mohamed Elgharib, Pascal Fua, Hans Peter Seidel, Helge Rhodin, Gerard Pons Moll, Christian Theobalt
我们使用单个RGB相机以超过30 fps的速度呈现实时多人3D动作捕捉方法。它在通用场景中运行，并且对于其他人和对象的困难遮挡是鲁棒的。我们的方法在后续阶段运作。第一阶段是卷积神经网络CNN，其估计2D和3D姿势特征以及所有个体的所有可见关节的身份分配。我们为这个名为SelecSLS Net的CNN提供了一种新架构，它使用新颖的选择性长距离和短距离跳过连接来改善信息流，从而在不影响准确性的情况下实现更快的网络速度。在第二阶段，完全连接的神经网络将可能部分地由于每个受试者的遮挡2D姿势和3D姿势特征变成每个人的完整3D姿势估计。第三阶段将空间时间骨架模型拟合应用于每个主体的预测2D和3D姿势，以进一步协调2D和3D姿势，并实施时间一致性。我们的方法返回每个主题的关节角度的完整骨架姿势。这是与先前工作的进一步关键区别，其既不提取全局身体位置也不提取多人场景的实时连贯骨架的关节角度结果。在给出512x320图像作为输入的同时，所提出的系统以超过30 fps的先前看不见的速度在消费者硬件上运行，同时实现最先进的精度，我们将在一系列具有挑战性的现实世界场景中展示。

Online Multiple Pedestrian Tracking using Deep Temporal Appearance Matching Association
Authors Young Chul Yoon, Du Yong Kim, Kwangjin Yoon, Young min Song, Moongu Jeon
在线多行人跟踪中，构建可靠的成本矩阵以将观测值分配给轨道非常重要。通过使用相似性度量来构造成本矩阵的每个元素。以前的许多作品都提出了自己的相似度计算方法，包括几何模型，边界框坐标和外观模型。特别地，外观模型包含与几何模型相比具有更高维度的信息。由于最近基于深度学习的方法的成功，可以处理高维外观信息。在许多深度网络中，通常采用具有三重态丢失的暹罗网络作为外观特征提取器。由于暹罗网络可以独立地提取每个输入的特征，因此可以自适应地建模轨迹，例如线性更新。但是，它不适合需要与其他输入进行比较的多对象设置。在本文中，我们提出了一种基于联合推理网络的新型轨道外观建模来解决这个问题。所提出的方法使得能够比较两个输入以用于自适应外观建模。它有助于消除目标观察匹配的歧义并巩固身份一致性。强化实验结果支持我们方法的有效性。

++基于声呐的目标检测Learning Objectness from Sonar Images for Class-Independent Object Detection
Authors Matias Valdenegro Toro
在没有类信息的情况下检测新物体并非易事，因为很难从小型训练集中推广出来。对于水下机器人而言，这是一个有趣的问题，因为在声纳图像中对海洋物体进行建模本身就更加困难，并且训练数据可能无法获得。检测提议算法可用于此目的，但通常需要大量输出边界框。在本文中，我们提出使用完全卷积神经网络，该网络直接从前视声纳图像中回归对象值。通过对对象进行排名，我们可以产生高召回率96，每个图像只有100个提案。相比之下，EdgeBoxes需要5000个提案才能更好地召回97个，而选择性搜索需要2000个提案来实现95个召回。我们还表明，我们的方法在很大程度上优于模板匹配基线，并且能够推广到全新的对象。我们希望这种技术可以在现场用于寻找海底丢失的物体。

Automated Image Registration Quality Assessment Utilizing Deep-learning based Ventricle Extraction in Clinical Data
Authors Florian Dubost, Marleen de Bruijne, Marco Nardin, Adrian V. Dalca, Kathleen L. Donahue, Anne Katrin Giese, Mark R. Etherton, Ona Wu, Marius de Groot, Wiro Niessen, Meike Vernooij, Natalia S. Rost, Markus D. Schirmer
注册是许多成像管道的核心组成部分。在临床扫描的情况下，具有较低的分辨率和有时大量的运动伪影，登记会产生较差的结果。在大型临床数据集中对注册质量的视觉评估是低效的。在这项工作中，我们建议在临床FLAIR MRI脑部扫描中自动评估注册质量。该方法包括使用神经网络自动分割给定扫描的心室，并将分割与传播到图像空间的寰椎心室进行比较。我们使用所提出的方法通过计算多个配准然后选择产生最高心室重叠的配准来改进临床图像配准到一般地图集。在超过1000次扫描的单个站点数据集中评估方法，以及包含来自12个站点的142次临床扫描的多中心数据集。自动心室分割达到Dice系数，单个站点数据集中的手动注释为0.89，多中心数据集中的手动注释为0.83。与直接登记到一般地图集相比，通过年龄特定的地图集登记可以改善心室重叠。骰子相似系数增加到0.15。实验还表明，使用配准质量评估方法选择扫描可以提高白质高强度负荷平均图的质量，而不是使用所有扫描来计算白质高强度图。在这项工作中，我们展示了自动化工具在临床扫描中评估图像配准质量的效用。该图像质量评估步骤最终可以帮助将自动神经成像管道转换到诊所。

Scene Text Magnifier
Authors Toshiki Nakamura, Anna Zhu, Seiichi Uchida
场景文本放大镜旨在放大自然场景图像中的文本而无需识别。它可以帮助有近视或阅读障碍的特殊群体更好地了解现场。在本文中，我们通过交互式四个基于CNN的网络字符擦除，字符提取，字符放大和图像合成来设计场景文本放大镜。基于沙漏编码器解码器扩展网络的体系结构。它输入原始场景文本图像并输出文本放大图像，同时保持背景不变。中间，我们可以获得文本擦除和文本提取的侧输出结果。四个子网络首先被独立训练并在端到端模式中进行微调。每个阶段的训练样本通过ICDAR2013中的原始图像和文本注释以及Flickr数据集作为输入，以及相应的文本擦除图像，放大文本注释和文本放大场景图像作为输出来处理。为了评估文本放大器的性能，结构相似度用于测量每个字符区域的区域变化。实验结果表明，我们的方法可以有效地放大场景文本而不影响背景。

The Resale Price Prediction of Secondhand Jewelry Items Using a Multi-modal Deep Model with Iterative Co-Attention
Authors Yusuke Yamaura, Nobuya Kanemaki, Yukihiro Tsuboshita
二手珠宝物品的转售价格评估在很大程度上依赖于领域专家的个人知识和技能。在本文中，我们提出了一种重建人工智能系统的方法，该系统可以自主评估二手珠宝物品的转售价格，而无需专业知识。如最近关于时尚物品的研究所示，结合物品的规格和视觉信息的多模式方法已成功获得时尚物品的细粒度表示，尽管它们通常通过多模式融合应用简单的矢量操作。我们类似地使用产品的图像和属性构建多模型模型，并且进一步采用应用于计算机视觉的现有技术多模式深度神经网络以实现实际性能水平。此外，我们使用迭代共同关注网络对专家的定价程序进行建模，其中仔细和迭代地观察产品的外观和属性。在这里，我们使用从合作时装零售商处收到的二手无品牌珠宝物品的大型数据集来证明我们的模型的有效性，并且表明迭代共同关注过程在转售价格预测的背景下有效地运作。我们的模型架构广泛适用于其他外观和规格是重要方面的时尚产品。

Self-supervised Hyperspectral Image Restoration using Separable Image Prior
Authors Ryuji Imamura, Tatsuki Itasaka, Masahiro Okuda
使用卷积神经网络的监督学习被认为是图像恢复的有力手段。然而，大多数这样的方法已被设计用于灰度和/或彩色图像，因此，当应用于高光谱图像恢复时，它们的成功有限。这部分是由于难以收集大数据集，以及与具有许多光谱带的图像的恢复相关的大量计算负荷。为了解决这一困难，我们提出了一种新的自我监督学习策略，用于高光谱图像恢复。我们的方法从单个降级图像自动创建训练数据集，并训练一个没有任何清晰图像的去噪网络。我们方法的另一个值得注意的特征是使用可分离的卷积层。我们进行实验以证明使用可分离网络可以使我们获得高光谱图像的先验并实现有效的恢复。我们通过大量实验证明了我们方法的有效性，并表明我们的方法比目前被认为是现有技术的方法具有更好的特性。

Permutohedral Attention Module for Efficient Non-Local Neural Networks
Authors Samuel Joutard, Reuben Dorent, Amanda Isaac, Sebastien Ourselin, Tom Vercauteren, Marc Modat
诸如分割之类的医学图像处理任务通常需要捕获非本地信息。由于器官，骨骼和组织具有共同的特征，例如强度，形状和纹理，因此上下文信息在正确标记它们中起着关键作用。现在通常使用卷积神经网络CNN来完成分段和标记，但是CNN的上下文受到接收场的限制，该接收场本身受到存储器要求和其他属性的限制。在本文中，我们提出了一个新的注意模块，我们称之为Permutohedral Attention Module PAM，以有效地捕获图像的非局部特征。所提出的方法既有记忆又有计算效率。我们提供此模块的GPU实现，适用于3D医疗成像问题。我们展示了模块的效率和可扩展性以及椎骨分割和标记的挑战性任务，其中上下文起着至关重要的作用，因为不同椎骨的外观非常相似。

CDTB: A Color and Depth Visual Object Tracking Dataset and Benchmark
Authors Alan Luke i , Ugur Kart, Jani K pyl , Ahmed Durmush, Joni Kristian K m r inen, Ji Matas, Matej Kristan
提出了长期视觉对象跟踪性能评估方法和基准。通过遵循长期跟踪定义来设计性能测量，以最大化分析探测强度。新措施在解释潜力方面优于现有措施，并更好地区分不同的追踪行为。我们表明这些措施概括了短期绩效指标，从而将两个跟踪问题联系起来。此外，新测量对于时间注释稀疏性非常稳健，并且允许对序列的注释比当前数据集中的数百倍长，而不增加手动注释劳动。提出了一个具有许多目标消失的精心挑选序列的新挑战数据集。提出了一种新的跟踪分类法，用于在短期长期频谱上定位跟踪器。该基准包含对最大数量的长期攻击者的广泛评估，并与最先进的短期跟踪器进行比较。我们分析了跟踪架构实现对长期性能的影响，并探讨了各种重新检测策略以及视觉模型更新策略对长期跟踪漂移的影响。该方法被集成到VOT工具包中，以自动化实验分析和基准测试，并促进长期跟踪器的未来发展。

One Network for Multi-Domains: Domain Adaptive Hashing with Intersectant Generative Adversarial Network
Authors Tao He, Yuan Fang Li, Lianli Gao, Dongxiang Zhang, Jingkuan Song
随着近来数字数据的爆炸式增长，图像识别和检索成为一种关键的实际应用。由于存储要求低，查询速度快，散列是解决此问题的有效方法。但是，过去的大部分工作都集中在单个源域中的散列。因此，学习的散列函数可能不能很好地适应与源域具有大的分布差异的新目标域。在本文中，我们探索了一种端到端域自适应学习框架，它同时精确地生成判别式哈希码并对目标域图像进行分类。我们的方法将两个域图像编码成一个语义公共空间，然后是两个独立的生成对抗网络，在交叉重建两个域图像时，减少域差异并改善共享空间中的对齐。我们在四个公共基准数据集上评估我们的框架，所有这些都表明我们的方法在对象识别和图像检索任务方面优于其他最先进的方法。

+++Learning to Approximate Directional Fields Defined over 2D Planes
Authors Maria Taktasheva, Albert Matveev, Alexey Artemov, Evgeny Burnaev
方向场的重建是许多几何处理任务的需要，例如图像追踪，3D几何特征的提取和寻找主表面方向。从数据构造方向字段的常用方法依赖于复杂的优化过程，这些过程通常很难形成，需要相当大的计算量，并且不能跨应用程序进行传输。在这项工作中，我们提出了一种基于深度学习的方法，并研究表达能力和泛化能力。

Spatio-thermal depth correction of RGB-D sensors based on Gaussian Processes in real-time
Authors Christoph Heindl, Thomas P nitz, Gernot St bl, Andreas Pichler, Josef Scharinger
商品RGB D传感器实时捕获彩色图像以及密集像素明智的深度信息。典型的RGB D传感器具有工厂校准，并且由于粗略的校准值，老化和热影响效应而显示出不稳定的深度读数。这限制了它们在计算机视觉和机器人技术中的适用性。我们提出了一种新的方法来联合考虑空间和热影响来精确校准深度。我们的工作基于四维笛卡尔和热域中的高斯过程回归。我们建议利用现代GPU实时进行密集深度图校正。为了重现性，我们公开了数据集和源代码。

Large Area 3D Human Pose Detection Via Stereo Reconstruction in Panoramic Cameras
Authors Christoph Heindl, Thomas P nitz, Andreas Pichler, Josef Scharinger
我们提出了一种使用两个全景相机的新型3D人体姿势探测器我们表明，将鱼眼视角转换为直线视图允许直接应用二维深度学习姿势估计方法，而不需要昂贵的重新训练步骤来补偿鱼眼图像失真。通过利用全景相机，我们的方法能够在大视场上准确地估计人体姿势。这使我们的方法适用于人体工程学分析和其他基于姿势的评估。

Cross-view Relation Networks for Mammogram Mass Detection
Authors Jiechao Ma, Sen Liang, Xiang Li, Hongwei Li, Bjoern H Menze, Rongguo Zhang, Wei Shi Zheng
乳房X线照片是早期乳腺癌肿块病变检测的最有效的成像方式。来自两个配对视图的信息，即中间侧倾和尾颅尾部是高度相关和互补的，这对于医生在临床实践中的决定是至关重要的。然而，现有的质量检测方法不考虑联合学习来自两个关系视图的有效特征。为了解决这个问题，本文提出了一种新的乳房X线照片质量检测框架，称为基于交叉视图关系区域的卷积神经网络CVR RCNN。拟议的CVR RCNN预期捕获来自两个配对视图的相应质量感兴趣区域ROI之间的潜在关系信息。对新的大规模私人数据集和公共乳房X线照片数据集的评估表明，所提出的CVR RCNN优于现有技术的质量检测方法。同时，我们的实验结果表明，将关系信息整合到两个视图中有助于训练一个优秀的检测模型，这是乳房X线照片质量检测的一个有前景的途径。

Learning to Blindly Assess Image Quality in the Laboratory and Wild
Authors Weixia Zhang, Kede Ma, Xiaokang Yang
用于盲图像质量评估的先前模型由于难以将具有不同感知尺度的多个数据库组合，因此BIQA只能在一个主题评级数据库上进行训练或微调。因此，在具有合成失真的良好控制的实验室环境中训练的模型不能推广到实际的扭曲，其数据分布是不同的。类似地，针对在野外捕获的图像优化的模型不考虑在实验室中模拟的图像。在这里，我们描述了一种在多个数据库上同时训练BIQA模型的简单技术，无需对比例重新排列进行额外的主观测试。具体来说，我们首先在各个数据库中创建和组合图像对，其地面实况二进制标签是根据相应的平均意见得分计算出来的，表明两个图像中哪一个具有更高的质量。然后，我们通过学习对大量此类图像对进行排序来训练BIQA的深度神经网络。对六个数据库进行的大量实验表明，基于所提出的学习技术的BIQA方法适用于合成和现实的扭曲，优于现有的BIQA模型和一组模型参数。通过组最大分化gMAD竞争进一步验证了我们方法的普遍性。

ICDAR 2019 Competition on Scene Text Visual Question Answering
Authors Ali Furkan Biten, Rub n Tito, Andres Mafla, Lluis Gomez, Mar al Rusi ol, Minesh Mathew, C.V. Jawahar, Ernest Valveny, Dimosthenis Karatzas
本文介绍了ICDAR 2019场景文本视觉问题答疑竞赛ST VQA的最终结果。 ST VQA引入了迄今为止任何视觉问答系统都无法解决的重要方面，即结合场景文本来回答有关图像的问题。该竞赛引入了一个新的数据集，包括23,038个带有31,791个问题答案对的图像，其中答案始终基于图像中存在的文本实例。这些图像来自7种不同的公共计算机视觉数据集，涵盖了广泛的场景。

Predicting video saliency using crowdsourced mouse-tracking data
Authors Vitaliy Lyudvichenko, Dmitriy Vatolin
本文介绍了一种获取高质量视频显着图的新方法，使用更便宜的眼动追踪数据替代方案。我们设计了一个鼠标偶然视频观看系统，它根据鼠标光标的位置模拟观众周边视觉。该系统使得能够使用从普通计算机鼠标记录的鼠标跟踪数据作为由更昂贵的眼动仪记录的真实凝视注视的替代。我们开发了众包系统，可以大规模收集此类鼠标跟踪数据。使用收集的鼠标跟踪数据，我们发现它可以作为眼动追踪数据的近似值。此外，为了提高收集的鼠标跟踪数据的效率，我们提出了一种新的深度神经网络算法，该算法提高了鼠标跟踪显着性图的质量。

INN: Inflated Neural Networks for IPMN Diagnosis
Authors Rodney LaLonde, Irene Tanner, Katerina Nikiforaki, Georgios Z. Papadakis, Pujan Kandel, Candice W. Bolan, Michael B. Wallace, Ulas Bagci
导管内乳头状粘液性肿瘤IPMN是胰腺导管腺癌的前体。虽然超过一半的患者在远处被诊断为胰腺癌，但早期诊断的患者的5年生存率高达34，而前者为3，因此早期诊断至关重要。医学成像领域的独特挑战，例如极其有限的注释数据集和典型的大型3D体积数据，使得深度学习难以确保稳固的立足点。在这项工作中，我们构建了两个新的膨胀深度网络架构，textit InceptINN和textit DenseINN，用于从多序列T1和T2 MRI诊断IPMN的任务。这些网络将他们的2D图层膨胀为3D，并且他们的2D对应物Inceptionv3和DenseNet121分别在ImageNet上训练到新的3D内核。我们还通过进一步扩展预先训练的内核来处理任何数量的输入模态和不同的融合策略来扩展通胀过程。这是首次在IPM诊断的多序列MRI上训练端到端深度网络的研究之一，并表明我们提出的新型充气网络架构能够处理极其有限的训练数据139 MRI扫描，同时提供绝对改进8.76在现有技术水平上诊断IPMN的准确性。代码公开于

Adversarially Trained Deep Neural Semantic Hashing Scheme for Subjective Search in Fashion Inventory
Authors Saket Singh, Debdoot Sheet, Mithun Dasgupta
从库中的一个检索查询图像的最接近匹配的简单方法，使用像素或特征空间中的绝对差之和来比较图像对。该过程在计算上是昂贵的，不利于照明，背景构成，姿势变化，以及在具有超过1000个元素的图库集上部署效率低。散列是一种更快的替代方案，它涉及在缩小的维度简单特征空间中表示图像。将图像编码成二进制哈希码使得能够使用汉明距离度量在图像对中进行相似性比较。然而，挑战在于使用语义散列方案对图像进行编码，该方案允许主观邻居位于可容忍的汉明半径内。这项工作提出了一种解决方案，采用深层神经语义哈希网络的对抗性学习来进行时尚库存检索。它包括一个特征提取卷积神经网络CNN学习到我最小化服装分类类型的错误，ii最小化语义邻居之间的汉明距离和最大化语义不相似图像之间的距离，iii最大限度地加扰鉴别器识别相应的哈希码图像的能力在处理语义相似的查询库图像对时配对。时间库存搜索的实验验证在找到最接近的匹配时产生90.65的平均精度mAP，而通过用于汉明空间检索的深度Cauchy散列的现有技术获得53.26。

Difficulty-aware Meta-Learning for Rare Disease Diagnosis
Authors Xiaomeng Li, Lequan Yu, Chi Wing Fu, Pheng Ann Heng
与具有大量可用标记数据的常见疾病不同，罕见疾病具有极低的数据方案。因此，训练神经网络用少数几类数据样本对罕见疾病进行分类是非常具有挑战性的，到目前为止，很少引起人们的注意。在本文中，我们提出了一种难以识别的元学习方法来解决罕见的疾病分类，并展示其对皮肤镜图像进行分类的能力。我们的关键方法是首先从常见疾病数据中培养和构建元学习模型，然后调整模型以执行罕见疾病

Random Vector Functional Link Neural Network based Ensemble Deep Learning
Authors Rakesh Katuwal, P.N. Suganthan, M. Tanveer
在本文中，我们提出了一个基于随机神经网络的深度学习框架。特别是，受随机矢量功能链路RVFL网络原理的启发，我们提出了具有堆叠层的深度RVFL网络dRVFL。 dRVFL的隐藏层的参数在合适的范围内随机生成并保持固定，而输出权重使用封闭形式的解决方案计算，如在标准RVFL网络中那样。我们还提出了一个集合深度网络edRVFL，可以被视为集成学习与深度学习的结合。与需要独立训练多个模型的传统集成方法不同，edRVFL是通过一次训练单个dRVFL网络获得的。 dRVFL和edRVFL框架都是通用的，可以与任何RVFL变体一起使用。为了说明这一点，我们将深度学习网络与最近提出的稀疏预训练RVFL SP RVFL集成在一起。来自不同领域的基准数据集的广泛实验表明我们提出的深度RVFL网络的卓越性能。

Learning to Find Correlated Features by Maximizing Information Flow in Convolutional Neural Networks
Authors Wei Shen, Fei Li, Rujie Liu
用于图像分类任务的训练卷积神经网络通常导致信息丢失。虽然大多数时候信息丢失对于目标任务来说是多余的，但仍然存在区分信息也被丢弃的情况。例如，如果属于同一类别的样本具有多个相关特征，则该模型可能仅学习特征的子集而忽略其余特征。除非测试集中的分类高度依赖于忽略的特征，否则这可能不是问题。我们认为，相关判别信息的丢弃部分是由于分类损失的最小化不能确保学习整体判别信息而只是最有辨别力的信息。为了解决这个问题，我们提出信息流最大化IFM损失作为正则化项来找到判别相关特征。由于信息丢失较少，分类器可以基于更多信息特征进行预测。我们在移位的MNIST数据集上验证我们的方法，并显示IFM损失在学习代表性和判别性特征方面的有效性。

Large-scale, real-time visual-inertial localization revisited
Authors Simon Lynen, Bernhard Zeisl, Dror Aiger, Michael Bosse, Joel Hesch, Marc Pollefeys, Roland Siegwart, Torsten Sattler
基于图像的本地化的总体目标是规模，稳健性和速度。近年来，基于局部特征和稀疏3D点云模型的方法都在基准测试中占主导地位，并且看到了成功的真实世界部署。它们的应用范围从机器人导航，自动驾驶，虚拟和增强现实到设备地理定位。最近已经提出了端到端学习的定位方法，其在小规模数据集上显示出有希望的结果。然而，这些方法的定位准确性，可扩展性，延迟和计算存储要求仍然是开放式挑战。我们的目标是在全球范围内部署本地化，因此人们依赖于使用局部特征和稀疏3D模型的方法。我们的方法涵盖从离线模型构建到实时客户端姿势融合。该系统压缩场景的外观和几何形状，以实现高效的模型存储和查找，从而实现超出之前演示的可扩展性。它通过将服务器端定位与基于实时视觉惯性的相机姿态跟踪相结合，允许在移动平台上实现低延迟定位查询和高效融合。为了进一步提高效率，我们利用先验，最近邻搜索，几何匹配剔除和级联姿势候选细化步骤的组合。在使用大型模型时，这种组合优于以前的方法，并允许以前所未有的规模进行部署。我们证明了我们的方法在概念验证系统上的有效性，该系统针对来自世界不同地区的四个城市的模型定位了250万个图像，实现了200ms范围内的查询延迟。

Visual Space Optimization for Zero-shot Learning
Authors Xinsheng Wang, Shanmin Pang, Jihua Zhu, Zhongyu Li, Zhiqiang Tian, Yaochen Li
零射击学习旨在识别未包括在训练集中的新类别，由于其在真实单词应用中的潜在能力而受到欢迎。零镜头学习模型依赖于学习嵌入空间，其中可以嵌入类的语义描述和实例的视觉特征以用于最近邻搜索。最近，大多数现有作品都将深度视觉特征所构成的视觉空间视为嵌入空间的理想选择。但是，视觉空间中实例的离散分布使得数据结构不起眼。我们认为优化视觉空间至关重要，因为它允许语义向量更有效地嵌入视觉空间。在这项工作中，我们提出了两个实现这一目标的策略。一种是基于视觉原型的方法，它为每个视觉类学习视觉原型，因此，在视觉空间中，类可以由原型特征代替一系列离散的视觉特征来表示。另一种是在中间嵌入空间中优化视觉特征结构，并且在该方法中我们成功地设计了基于多层感知器框架的算法，该算法能够学习共同的中间嵌入空间，同时使视觉数据结构更加独特。通过对四个基准数据集的广泛实验评估，我们证明优化视觉空间有利于零射击学习。此外，所提出的基于原型的方法实现了新的最新技术性能。

Multiple Landmark Detection using Multi-Agent Reinforcement Learning
Authors Athanasios Vlontzos, Amir Alansary, Konstantinos Kamnitsas, Daniel Rueckert, Bernhard Kainz
解剖标志的检测是医学图像分析和诊断，解释和指导应用的关键步骤。手工注释地标是一个繁琐的过程，需要特定领域的专业知识，并引入观察者间的可变性。本文提出了一种基于多智能体强化学习的多地标检测方法。我们的假设是所有解剖标志的位置在人体解剖学中是相互依赖和非随机的，因此找到一个标志可以帮助推断出其他人的位置。使用Deep Q网络DQN架构，我们构建了一个具有隐式内部通信的环境和代理，这样我们就可以容纳K个代理同时执行和学习，同时他们尝试检测K个不同的地标。在培训期间，代理商通过分享他们积累的知识进行协作以获得集体收益。我们将我们的方法与最先进的架构进行比较，并通过将检测误差减少50来实现更高的准确性，同时与分别训练K代理的天真方法相比，需要更少的计算资源和训练时间。

Generative Mask Pyramid Network forCT/CBCT Metal Artifact Reduction with Joint Projection-Sinogram Correction
Authors Haofu Liao, Wei An Lin, Zhimin Huo, Levon Vogelsang, William J. Sehnert, S. Kevin Zhou, Jiebo Luo
计算机断层摄影CT或锥形束CT CBCT金属伪影减少的传统方法是用合成数据替换金属迹线内的X射线投影数据。然而，现有的投影或正弦图完成方法不能总是产生解剖学上一致的信息来填充金属迹线，因此，当金属植入物很大时，通常会引入显着的二次伪影。在这项工作中，我们建议通过联合投影正弦图校正以及对抗性学习来替换具有解剖学上一致内容的金属伪影影响区域。为了处理各种形状和大尺寸的金属植入物，我们还提出了一种新颖的掩模金字塔网络，该网络在网络编码层上强制执行掩模信息，并减少掩模融合损失，从而减少对抗训练的早期饱和度。我们的实验结果表明，所提出的投影正弦图校正设计是有效的，并且我们的方法比现有技术方法更好地从金属迹线中恢复信息。

SLAM Endoscopy enhanced by adversarial depth prediction
Authors Richard J. Chen, Taylor L. Bobrow, Thomas Athey, Faisal Mahmood, Nicholas J. Durr
由于图像特征的稀疏性和防止直接深度感测的尺寸限制，医学内窥镜仍然是同时定位和映射SLAM的具有挑战性的应用。我们提出了一种SLAM方法，该方法结合了由对侧训练的卷积神经网络CNN应用于单眼内窥镜图像的深度预测。深度网络使用简单结肠模型的合成图像进行训练，然后使用从人体冒号的计算机断层扫描测量结果呈现的域随机化照片级真实图像进行微调。每个图像都配有一个无差错深度图，用于监督对抗性学习。然后将单目RGB图像与相应的深度预测融合，从而在内窥镜通过胃肠道前进时实现密集重建和镶嵌。我们的初步结果表明，将单眼深度估计结合到SLAM架构中可以实现内窥镜场景的密集重建。

Improving 3D U-Net for Brain Tumor Segmentation by Utilizing Lesion Prior
Authors Po Yu Kao, Jefferson W. Chen, B.S. Manjunath
我们提出了一种新颖，简单而有效的方法来整合病变先前和3D U Net以改善脑肿瘤分割。首先，我们利用来自一组患者的地面真相脑肿瘤病变来生成不同类型病变的热图。这些热图用于创建感兴趣的体积VOI图，其包含关于脑肿瘤病变的先前信息。然后将VOI图与多模MR图像集成并输入到3D U Net以进行分割。该方法在公共基准数据集上进行了评估，实验结果表明，所提出的特征融合方法比基线方法有所改进。此外，与现有技术方法相比，我们提出的方法也实现了竞争性能。

Stereo relative pose from line and point feature triplets
Authors Alexander Vakhitov, Victor Lempitsky, Yinqiang Zheng
立体相对姿势问题是在许多应用中使用的立体视觉测距系统的核心。在这项工作中，我们提出了两个用于立体相对姿势的最小解算器。我们特别考虑最小集由三个点或线特征组成的情况，并且每个特征在两个立体相机上具有三个已知投影。我们在运动估计实验中验证了该配方在实际应用中的重要性。然后，我们提出了一个完整的最小案例分类，其中三个点或线对应，每个都有三个投影，并提出两个新的求解器，可以处理所有这些情况。我们通过将新求解器集成到可视SLAM系统中展示了相当大的效果。

+++NetTailor: Tuning the Architecture, Not Just the Weights
Authors Pedro Morgado, Nuno Vasconcelos
对象识别的真实世界应用通常需要在单个平台中解决多个任务。在网络微调的标准范例下，每个任务都学习一个全新的CNN，最终的网络规模与任务复杂性无关。这是浪费的，因为简单的任务需要比更复杂的任务更小的网络，并且限制了可以同时解决的任务的数量。为了解决这些问题，我们提出了一种转移学习过程，表示为NetTailor，其中预先训练的CNN的层被用作通用块，其可以与小任务特定层组合以生成新网络。除了最小化分类错误之外，新网络被训练为模仿强无约束CNN的内部激活，并且通过结合块上的软注意机制和2个复杂度正则化约束来最小化其复杂性。通过这种方式，NetTailor可以使网络架构（而不仅仅是其权重）适应目标任务。实验表明，适应简单任务（如角色或交通标志识别）的网络比适应硬任务（如细粒度识别）的网络要小得多。更重要的是，由于该过程的模块化特性，在不牺牲任务间的参数共享或分类准确性的情况下实现了网络复杂性的这种降低。

DuDoNet: Dual Domain Network for CT Metal Artifact Reduction
Authors Wei An Lin, Haofu Liao, Cheng Peng, Xiaohang Sun, Jingdan Zhang, Jiebo Luo, Rama Chellappa, Shaohua Kevin Zhou
计算机断层扫描CT是一种广泛用于医学诊断和治疗的成像模式。当患者携带金属植入物时，CT图像经常被不希望的伪像破坏，这产生了金属伪影减少MAR的问题。由于两个主要原因，用于减少由金属植入物引起的伪影的现有方法是不合适的。首先，金属伪像是结构化的和非局部的，因此简单的图像域增强方法是不够的。其次，试图减少X射线投影正弦图域中的金属伪影的MAR方法不可避免地由于正弦图不一致而导致严重的二次伪影。为了克服这些困难，我们提出了一种端到端的可训练双域网络DuDoNet，以同时恢复正弦图一致性并增强CT图像。 sigogram和image域之间的联系是一种新颖的Radon反转层，它允许梯度在训练期间从图像域反向传播到正弦图域。大量实验表明，我们的方法比其他单域MAR方法实现了显着的改进。据我们所知，这是结束MAR双域网络的第一个终点。

+++Learning to Generate Synthetic 3D Training Data through Hybrid Gradient
Authors Dawei Yang, Jia Deng
由图形引擎呈现的合成图像是用于训练深度网络的有前途的来源。然而，确保它们可以帮助训练网络在真实图像上表现良好是具有挑战性的，因为基于图形的生成管道需要许多设计决策，例如3D形状的选择和相机的放置。在这项工作中，我们提出了一种新方法，该方法基于我们所谓的混合梯度来优化3D训练数据的生成。我们将设计决策参数化为实数向量，并将近似梯度和分析梯度组合以获得相对于该向量的网络性能的混合梯度。我们评估我们从单个图像估计表面法线的任务的方法。在标准基准上的实验表明，我们的方法在优化3D训练数据的生成方面可以优于现有技术水平，特别是在计算效率方面。

Evaluating Local Geometric Feature Representations for 3D Rigid Data Matching
Authors Jiaqi Yang, Siwen Quan, Peng Wang, Yanning Zhang
局部几何描述符仍然是3D刚性数据匹配和融合的基本组成部分。旋转不变局部几何描述符的设计通常包括两步本地参考系LRF构造和特征表示。现有的评估工作主要是在LRF或整体描述符上进行的，但特征表示的定量比较仍未得到探索。本文通过综合评估九种最先进的局部几何特征表示来填补这一空白。我们的评估基于以下方面：利用基础事实LRF，使得经过测试的特征表示的排序与现有研究相比更具说服力。实验部署在六个标准数据集上，具有各种应用场景形状检索，点云配准，物体识别和数据模态LiDAR，Kinect和时空以及扰动，包括高斯噪声，散粒噪声，数据抽取，杂波，遮挡，和有限的重叠。评估的术语涵盖了特征表示的主要问题，例如，独特性，鲁棒性，紧凑性和效率。结果提出了有趣的发现，可以为这个社区提供新的视角，并为现有的关于局部几何特征描述主题的评估提供补充的观点。还介绍了有关其特性的评估方法的摘要，以指导现实世界的应用和新的描述符制作。

Predicting Social Perception from Faces: A Deep Learning Approach
Authors U. Messer, S. Fausser
温暖和能力代表了社会判断的基本特征，决定了对社会目标的情绪反应和行为意图。该研究调查了一种算法是否可以学习社会分类的视觉表征，并准确地预测人类感知者对面部图像的温暖和能力的印象。此外，这项研究揭示了面部哪些区域对于温暖和能力的分类很重要。我们使用深度卷积神经网络从面部图像和梯度加权类激活映射梯度CAM方法中提取特征，以了解面部区域对分类的重要性。给定单个面部图像，训练的算法可以准确地预测温度印象，精确度约为90，能力印象精确度约为80。这些发现对面部的自动处理和人工角色的设计都有影响。

Non-destructive three-dimensional measurement of hand vein based on self-supervised network
Authors Xiaoyu Chen, Qixin Wang, Jinzhou Ge, Yi Zhang, Jing Han
目前，基于深度神经网络的监督立体方法取得了令人瞩目的成果。但是，在某些情况下，准确的三维标签对于监督培训是不可访问的。在本文中，提出了一种自监视网络用于双目视差匹配SDMNet，它从立体图像对计算密集视差图而没有视差标签。在自监督训练中，我们密集地匹配立体图像以近似视差图并使用它们来扭曲左右图像用于估计左右图像，我们在估计图像和原始图像之间建立自我监督训练的损失函数，采用感知损失来帮助提高细节和结构中视差图的质量。然后，我们使用SDMNet来获得手部静脉的差异。 SDMNet在KITTI 2012，KITTI 2015，模拟静脉数据集和真实静脉数据集上取得了优异的成果，超越了许多最先进的监督匹配方法。

Learning Where to Look While Tracking Instruments in Robot-assisted Surgery
Authors Mobarakol Islam, Yueyuan Li, Hongliang Ren
在手术中跟踪仪器时指导任务特别注意在机器人辅助干预中具有很大的潜力。为此，我们提出了一种用于实时手术器械分割和注意力预测的端到端可训练多任务学习MTL模型。我们的模型设计有重量共享编码器和两个面向任务的解码器，并针对联合任务进行了优化。我们引入批量Wasserstein bW损失并构建一个软关注模块，以完善独特的视觉区域，实现高效的显着性学习。对于多任务优化，在同一时期内获得两个任务的收敛总是具有挑战性。我们通过采用多重减重和两个阶段的训练来解决这个问题。我们进一步提出了一种在MICCAI机器人仪器分割数据集上生成任务感知显着图和仪器扫描路径的新方法。与最先进的细分和显着性模型相比，我们的模型优于大多数评估指标。

High Sensitivity Snapshot Spectrometer Based on Deep Network Unmixing
Authors XiaoYu Chen, Xu Wang, Lianfa Bai, Jing Han, Zhuang Zhao
在本文中，我们提出了一种基于卷积神经网络的方法，从重叠的色散光谱中恢复光强度分布，而不是添加额外的光路，以便首次直接捕获它。然后，我们基于我们以前的双路径快照光谱仪构建单路径子Hadamard快照光谱仪。在所提出的单路光谱仪中，我们使用重建的光强度作为原始光强度并成功地恢复高信噪比光谱。与双路快照光谱仪相比，基于网络的单路光谱仪具有更紧凑的结构，保持快照和高灵敏度。大量的模拟和实验结果表明，与双路径子Hadamard光谱仪相比，该方法可以获得更好的重建信噪比光谱，因为它具有更高的光通量。

frame attention networks for facial expression recognition in videos
Authors Debin Meng, Xiaojiang Peng, Kai Wang, Yu Qiao
基于视频的面部表情识别旨在将给定视频分类为几种基本情绪。如何整合各个框架的面部特征对于此任务至关重要。在本文中，我们提出帧注意网络FAN，以自动突出端到端框架中的一些判别框架。网络采用具有可变数量的面部图像的视频作为其输入并产生固定的维度表示。整个网络由两个模块组成。特征嵌入模块是深度卷积神经网络CNN，其将面部图像嵌入到特征向量中。帧关注模块学习多个关注权重，其用于自适应地聚合特征向量以形成单个判别视频表示。我们在CK和AFEW8.0数据集上进行了大量实验。与其他基于CNN的方法相比，我们提出的FAN表现出优越的性能，并且在CK上实现了最先进的性能。

Improved ICH classification using task-dependent learning
Authors Amir Bar, Michal Mauda, Yoni Turner, Michal Safadi, Eldad Elnekave
头部CT是急诊科设置中最常进行的影像学研究之一，颅内出血ICH是头部CT检测中最关键和最敏感的发现之一。我们介绍了BloodNet，一种深度学习架构，旨在对头部CT进行最佳分类，目标是缩短从CT采集到精确ICH检测的时间。 BloodNet架构结合了独立的分段和分类任务之间的依赖关系，实现了改进的分类结果。据报道，在从超过10家不同医院获得的超过1400项研究中，持有的阳性富集和随机抽样组的AUC为0.9493和0.9566。这些结果与先前报道的结果相当，标记研究数量较少。

RFBNet: Deep Multimodal Networks with Residual Fusion Blocks for RGB-D Semantic Segmentation
Authors Liuyuan Deng, Ming Yang, Tianyi Li, Yuesheng He, Chunxiang Wang
来自RGB和深度数据的信号携带有关场景的补充信息。传统的RGB D语义分割方法采用两种流融合结构，使用两种模态特定编码器从RGB和深度数据中提取特征。目前还没有明确的机制来模拟编码器之间的相互依赖性。这封信提出了一种新颖的自下而上的交互式融合结构，它引入了一种交互流来桥接模态特定的编码器。交互流逐渐聚合来自编码器的模态特定特征，并计算编码器的互补特征。为了实例化该结构，该字母提出了残余融合块RFB以制定编码器的相互依赖性。 RFB由两个剩余单元和一个带有门机构的融合单元组成。它学习模态特定编码器的互补特征，并提取模态特定特征以及交叉模态特征。基于RFB，该信函展示了用于RGB D语义分割的深度多模网络，称为RFBNet。在两个数据集上进行的实验证明了相互依赖性建模的有效性，并且RFBNet优于最先进的方法。

Robustness Guarantees for Deep Neural Networks on Videos
Authors Min Wu, Marta Kwiatkowska
深度学习模型的广泛采用对其稳健性提出了要求。在本文中，我们考虑了视频上的深度神经网络的鲁棒性，其包括由卷积神经网络提取的各个帧的空间特征和由递归神经网络捕获的相邻帧之间的时间动态。为了测量鲁棒性，我们研究了最大安全半径问题，该问题计算从给定输入获得的光流集与标准球中的对抗示例的最小距离。我们证明，在Lipschitz连续性的假设下，可以通过离散光流空间使用有限优化来近似问题，并且近似具有可证明的保证。然后，我们表明可以通过在协作设置中利用基于双玩家回合的游戏来解决有限优化问题，其中第一玩家选择光流并且第二玩家确定要在所选流中操纵的尺寸。我们采用随时随地的方法解决游戏问题，即通过单调改进游戏的上限和下限来近似游戏的价值。我们利用基于梯度的搜索算法来计算上界，并利用可允许的A算法来更新下界。最后，我们在UCF101视频数据集上评估我们的框架。

++A 1d convolutional network for leaf and time series classification
Authors Dongyang Kuang
本文设计了一种1d卷积神经网络，用于以质心轮廓距离曲线CCDC为单一特征的叶片分类任务。使用这种分类器，CCDC的简单特征显示出比以前人们想象的更强的辨别能力。相同的体系结构也可用于对1维时间序列进行分类，几乎没有变化。对一些基准数据集的实验表明，该体系结构可以提供比某些现有方法更高的分类精度。该文件的代码可在以下网址找到

On Reducing Negative Jacobian Determinant of the Deformation Predicted by Deep Registration Networks
Authors Dongyang Kuang
图像配准是医学图像分析的基本步骤。理想情况下，将一个图像注册到另一个图像的转换应该是可逆和平滑的微分同胚。传统方法如测地线射击通过微分几何来解决问题，理论上保证了所产生的变换将是平滑和可逆的。大多数先前使用无监督深度神经网络进行配准的研究通常使用局部平滑约束，空间变化损失来解决平滑问题。这些网络通常产生具有在多个体素位置折叠的不可逆变换，由变换的雅可比矩阵的负行列式表示。虽然使用特别惩罚折叠的损耗函数是一种简单的解决方案，但这通常需要仔细调整正则化强度，尤其是在存在其他损失时。在本文中，我们通过研究可能的训练机制从不同角度解决这个问题，这些机制将帮助网络避免负面的雅可比人并产生更平滑的变形。我们在这方面贡献了两个独立的想法。这两种想法都大大减少了预测变形中折叠位置的数量，而没有对现有基线配准网络中使用的超参数或体系结构进行更改。

Explainable Shape Analysis through Deep Hierarchical Generative Models: Application to Cardiac Remodeling
Authors Carlo Biffi, Juan J. Cerrolaza, Giacomo Tarroni, Wenjia Bai, Ozan Oktay, Loic Le Folgoc, Konstantinos Kamnitsas, Antonio de Marvao, Georgia Doumou, Jinming Duan, Sanjay K. Prasad, Stuart A. Cook, Declan P. O Regan, Daniel Rueckert
解剖形状变化的量化仍依赖于标量全局指数，其对区域或不对称修改很不敏感。准确评估病理学驱动的解剖学重塑是心脏病的诊断和治疗的关键步骤。深度学习方法最近在医学图像分析方面取得了广泛的成功，但它们在特征提取和决策过程中缺乏可解释性。在这项工作中，我们提出了一种新的可解释的形状分析深度学习模型。特别地，我们利用深度生成网络通过条件潜在变量的层次来对解剖分割的群体进行建模。在该层次结构的最高级别，同时优化二维潜在空间以区分不同的临床状况，从而实现分类空间的直接可视化。此外，由于模型的生成特性，可以在分割空间中可视化由该判别性潜在空间编码的解剖变异性，使得分类任务透明。当在我们自己的多中心数据集以及外部验证集中对看不见的分割进行测试时，这种方法在健康和重塑心脏的分类中产生了高精度。更重要的是，它使得在两个条件之间的最具辨别力的解剖学特征的三维可视化成为可能。所提出的方法有效地扩展到大群体，在大规模体积成像研究中促进正常解剖学和病理学的高通量分析。

Classification of glomerular hypercellularity using convolutional features and support vector machine
Authors Paulo Chagas, Luiz Souza, Ikaro Ara jo, Nayze Aldeman, Angelo Duarte, Michele Angelo, Washington LC dos Santos, Luciano Oliveira
肾小球是由交织的毛细血管形成的肾皮质的组织结构，并且负责血液过滤。肾小球病变损害肾脏过滤能力，导致蛋白质损失和代谢废物保留。损伤的一个例子是肾小球细胞过多，其特征在于肾小球不同区域中细胞核数量的增加。肾小球细胞过多症是不同肾脏疾病中常见的病变。自动检测肾小球细胞过多将加速扫描病变的扫描组织切片，增强临床诊断。考虑到这一点，我们提出了一种新的方法来分类人类肾脏图像中的细胞过多。我们提出的方法引入了卷积神经网络CNN的新颖架构以及支持向量机，利用二进制分类病变或正常的FIOCRUZ数据集实现接近完美的平均结果。我们的基于深度的分类器在同一数据集上优于最先进的结果。另外，在这个多分类任务中，考虑到系膜，内皮和两个病变，还进行了细胞过程亚损伤的分类，我们提出的方法在4个病例中失败了。据我们所知，这是对人体肾脏肾小球细胞过度图像数据集深入学习的第一项研究。

++++高效的NAS设计实现CMU_Single-Path Mobile AutoML: Efficient ConvNet Design and NAS Hyperparameter Optimization
Authors Dimitrios Stamoulis, Ruizhou Ding, Di Wang, Dimitrios Lymberopoulos, Bodhi Priyantha, Jie Liu, Diana Marculescu
我们能否将神经架构搜索NAS的搜索成本从几天降低到仅几个小时NAS方法在硬件限制下自动设计卷积网络会议，它们已成为AutoML框架的关键组件。然而，由于组合的大型设计空间和至少200个GPU小时的显着搜索时间，NAS问题仍然具有挑战性。在这项工作中，我们将NAS搜索成本降低到不到3小时，同时在移动延迟限制下实现最先进的图像分类结果。我们提出了一种新颖的可区分NAS公式，即单路径NAS，它使用参数化的ConvNet上的单个路径来编码基于共享卷积核参数的所有架构决策，因此大大降低了搜索开销。 Single Path NAS实现了最先进的ImageNet精度75.62，因此在80ms的类似延迟设置中优于现有的移动NAS方法。特别是，我们通过使用我们新颖的单路径编码将挤压和激励路径视为完全可搜索的操作，增强了可微分NAS中的精度运行时折衷。我们的方法总成本仅为8个时期24 TPU小时，比之前的工作快了5,000倍。此外，我们研究不同的NAS配方选择如何影响设计的ConvNets的性能。此外，我们利用我们的方法的效率来回答一个有趣的问题，而不是像以前的工作那样凭经验调整NAS求解器的超参数，我们能否自动找到产生所需精度的超参数值运行时权衡我们开源整个代码库在

++UltraSuite: A Repository of Ultrasound and Acoustic Data from Child Speech Therapy Sessions
Authors Aciel Eshky, Manuel Sam Ribeiro, Joanne Cleland, Korin Richmond, Zoe Roxburgh, James Scobbie, Alan Wrench
我们介绍了UltraSuite，这是一个精选的超声和声学数据库，收集自儿童语言治疗课程的录音。此版本包括三个数据集，一个来自典型的发育中的儿童，两个来自患有语音障碍的儿童。此外，它还包括一组注释，一些手动和一些自动生成，以及用于处理，转换和可视化数据的软件工具。

Synchronising audio and ultrasound by learning cross-modal embeddings
Authors Aciel Eshky, Manuel Sam Ribeiro, Korin Richmond, Steve Renals
视听同步是确定语音音频和发音器的视频记录之间的时间偏移的任务。在儿童言语治疗中，使用依靠硬件在记录时同步两种模态的仪器捕获舌头的音频和超声视频。硬件同步在实践中可能会失败，并且不存在事后同步信号的机制。为了解决这个问题，我们采用了一个双流神经网络，它利用两种模态之间的相关性来找到偏移量。我们在69个扬声器的录音中训练我们的模型，并表明它正确地将82.9个测试话语与看不见的治疗会话和看不见的扬声器同步，从而大大减少了手动同步的话语数量。对测试话语的模型性能的分析表明，与包含诸如单词，句子或对话的语音中的自然变化的话语相比，定向电话关节更难以自动同步。

Deep Multi-Task Learning for Anomalous Driving Detection Using CAN Bus Scalar Sensor Data
Authors Vidyasagar Sadhu, Teruhisa Misu, Dario Pompili
在将人工智能AI系统应用于安全关键应用时，拐角情况是主要的瓶颈。 AI系统应该足够智能以检测这种情况，以便系统开发人员可以为后续规划做好准备。在本文中，我们提出了考虑正常情况不平衡的半监督异常检测。特别地，驾驶数据包括多个正的正常情况，例如右转，直行，其中一些例如U转弯可能与异常情况一样罕见。当应用于这种不平衡数据时，基于现有机器学习的异常检测方法不能很好地完成。在本文中，我们提出了一种新的基于多任务学习的方法，该方法利用领域知识机动标签来驱动数据中的异常检测。我们在150小时的实际驾驶数据上定量和定性地评估所提出的方法，并显示出比基线方法更好的性能。

Avoiding Implementation Pitfalls of "Matrix Capsules with EM Routing" by Hinton et al
Authors Ashley Daniel Gritzman
Hinton等人最近在胶囊网络方面取得的进展。在机器学习社区引起了相当大的兴奋。胶囊背后的想法受到大脑中皮质微柱的启发，其中由大约100个神经元组成的垂直组织组接收共同输入，具有共同输出，相互连接，并且可能构成大脑皮层的基本计算单元。然而，不幸的是，Hinton关于带有EM路由的Matrix Capsule的论文没有附带源代码的发布，这使得感兴趣的研究人员试图实现该架构并自己重现基准。这无疑减缓了这项工作的研究进展。在编写我们自己的实现时，我们注意到我们遇到的其他开源实现中的几个常见错误。在本文中，我们分享了一些这些学习，特别关注三个实现缺陷以及如何避免它们1个父母胶囊只有一个孩子2规范分配给父胶囊的数据量3个不同位置的父胶囊竞争儿童胶囊。虽然我们的实施相对于目前可用的实施方案有了相当大的改进，但它仍然略微低于Hinton等人报告的性能。 2018年。此实现的源代码可在GitHub的以下URL中找到

Weight Normalization based Quantization for Deep Neural Network Compression
Authors Wen Pu Cai, Wu Jun Li
随着深度神经网络的发展，网络模型的规模越来越大。模型压缩已成为将这些网络模型部署到移动或嵌入式设备的迫切需求。模型量化是代表性的模型压缩技术。尽管已经提出了许多量化方法，但是它们中的许多都遭受由网络权重的长尾分布引起的高量化误差。在本文中，我们提出了一种新的量化方法，称为基于权重归一化的量化WNQ，用于模型压缩。 WNQ采用权重归一化来避免网络权重的长尾分布，从而减少量化误差。 CIFAR 100和ImageNet上的实验表明，WNQ可以超越其他基线，以实现最先进的性能。

Conditional Segmentation in Lieu of Image Registration
Authors Yipeng Hu, Eli Gibson, Dean C. Barratt, Mark Emberton, J. Alison Noble, Tom Vercauteren
经典的成对图像配准方法搜索空间变换，该空间变换优化表示一对移动和固定图像对齐的数值测量。当前基于学习的配准方法采用相同的范例，并且对于任何新的输入图像对，通常预测密集位移场形式的密集对应或空间变换模型的参数。然而，在许多注册应用中，空间变换本身仅需要传播感兴趣的点或区域ROI。在这种情况下，这些ROI内部或外部的详细像素或体素水平对应通常具有很小的临床价值。在本文中，我们提出了一种替代范例，其中学习在一个图像中定义的相应图像特定ROI在另一图像内的位置。这导致通过条件分割算法替换图像配准，其可以建立在典型的图像分割网络上以及它们广泛采用的训练策略。以3D MRI和前列腺超声图像的配准为例来说明这种新方法，我们报告术中超声图像定义的基础真实ROI与术前MR图像传播的ROI之间的中位目标配准误差TRE为2.1 mm。。与使用先前提出的空间变换预测的登记网络获得的那些相比，使用所提出的条件分割获得显着更低的34个TRE，所述空间变换预测用单个图像对的相同多个ROI标签训练的登记网络。我们通过使用定量偏差方差分析来总结这项工作，以提供观察到的注册准确性改进的一种解释。

Multi-Label Product Categorization Using Multi-Modal Fusion Models
Authors Pasawee Wirojwatanakul, Artit Wangperawong
在这项研究中，我们使用图像，描述和标题来研究多模态方法，以对电子商务产品进行分类

GarmNet: Improving Global with Local Perception for Robotic Laundry Folding
Authors Daniel Fernandes Gomes, Shan Luo, Luis F. Teixeira
开发自主助理以帮助完成家务是机器人研究中的一个重要课题。在这些任务中，服装折叠是其中之一仍然远未实现，主要是由于皱褶的衣服可能呈现的大量可能的构造。已经进行了关于估计整个服装的姿势或者分别检测地标以进行研究的研究。然而，这样的工作通过限制单个任务的表示来约束机器人感知服装状态的能力。在本文中，我们提出了一种新颖的端到端深度学习模型GarmNet，它能够同时定位服装并检测地标以便抓取。服装的定位表示用于识别服装类别的全局信息，而标志的检测可以促进随后的抓取动作。我们使用CloPeMa Garment数据集训练和评估我们提出的GarmNet模型，该数据集包含不同姿势的不同服装类型的3,330张图像。实验表明，包含地标检测GarmNet B可以大大改善服装定位，错误率降低24.7。我们的解决方案对于机器人应用非常重要，因为它们可以扩展到许多类，内存和处理高效的解决方案。

Collaboration of AI Agents via Cooperative Multi-Agent Deep Reinforcement Learning
Authors Niranjan Balachandar, Justin Dieter, Govardana Sachithanandam Ramachandran
有许多AI任务涉及多个交互代理，代理应该学习合作和协作以有效地执行任务。在这里，我们开发和评估各种多代理协议，以培训代理与网格足球中的队友协作。我们针对使用智能手动编码策略的团队培训和评估我们的多代理方法。作为基准，我们同时并独立地培训代理人，没有沟通。我们的协作协议是参数共享，协调学习与沟通，以及反事实政策梯度。对于手动编码团队，团队通过参数共享进行训练，并且在协调学习训练的团队中，在与手动编码团队比赛时，分别以89.5和94.5的分数进行了最佳评分。针对参数分享团队，通过对抗性训练，协调学习团队对75集进行了评分，表明它是我们方法中最具适应性的。从我们的工作中获得的见解可以应用于多代理协作可能有益的其他领域。

Dissecting Pruned Neural Networks
Authors Jonathan Frankle, David Bau
修剪是一种标准技术，用于从神经网络中移除不必要的结构，以减少其存储空间，计算需求或能耗。修剪可以将许多现有技术神经网络的参数计数减少一个数量级而不损害准确性，这意味着这些网络包含大量不必要的结构。在本文中，我们研究修剪和解释之间的关系。也就是说，我们考虑去除不必要的结构对隐藏单元数量的影响，这些隐藏单元学习通过网络解剖识别的人类可识别概念的解开的表示。我们的目标是评估修剪后的神经网络在压缩时的可解释性如何变化。我们发现修剪对这种可解释性度量没有不利影响，直到很少的参数仍然存在准确性下降。在ImageNet上训练的Resnet 50模型保持相同数量的可解释概念和单元，直到修剪了90多个参数。

Robust Linear Discriminant Analysis Using Ratio Minimization of L1,2-Norms
Authors Feiping Nie, Hua Wang, Zheng Wang, Heng Huang
线性判别分析LDA方法作为最受欢迎的线性子空间学习方法之一，已在机器学习领域得到广泛研究，并应用于许多科学应用。传统的LDA最小化了L2范数的平方比率，这对异常值很敏感。在最近的研究中，提出了许多基于L1范数的鲁棒主成分分析方法来提高对异常值的鲁棒性。然而，由于L1范数比优化的困难，到目前为止还没有现成的工作来利用LDA目标的稀疏诱导规范。在本文中，我们提出了一种基于L1,2范数比最小化的鲁棒线性判别分析方法。最小化L1,2范数比是比传统方法更具挑战性的问题，并且没有现有的优化算法来解决这种非平滑项比率问题。我们推导出一种新的有效算法来解决这一具有挑战性的问题，并对算法的收敛性进行了理论分析。该算法易于实现，并且在实践中快速收敛。对合成数据和九个真实基准数据集的广泛实验表明了所提出的鲁棒LDA方法的有效性。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com

你可能感兴趣的:(视觉,深度学习,机器学习,计算机视觉,目标检测,高斯过程,点云,三维重建,数据集,Papers,Paper,computerVision,三维点云,深度相机,文字处理)

使用vite+react+ts+Ant Design开发后台管理项目（五）吕彬-前端 react.js javascript 前端
前言本文将引导开发者从零基础开始，运用vite、react、react-router、react-redux、AntDesign、less、tailwindcss、axios等前沿技术栈，构建一个高效、响应式的后台管理系统。通过详细的步骤和实践指导，文章旨在为开发者揭示如何利用这些技术工具，从项目构思到最终实现的全过程，提供清晰的开发思路和实用的技术应用技巧。项目gitee地址：lbking666
C#进阶之路：揭秘反序列化漏洞与解决方案计算机学长开发工具 C#web安全网络 c#
一、引言在现代软件开发中，数据的持久化和传输是至关重要的环节。C#作为一种广泛使用的编程语言，其序列化与反序列化机制在这两个环节中扮演着不可或缺的角色。序列化，是将对象的状态信息转换为可以存储或传输的形式的过程，比如将对象转换为字节流、JSON字符串或者XML格式。而反序列化则是将这些序列化后的数据重新转换回原始对象的过程。在实际应用中，当我们需要将对象保存到文件系统、数据库，或者通过网络在不同的
语音识别学习系列（13）：语音识别中的情感识别与表达 DoYangTan 语音识别学习人工智能
语音识别学习系列（13）：语音识别中的情感识别与表达前言在语音识别领域，仅仅将语音准确转换为文字内容已不能满足日益多样化的人机交互需求。人们在交流过程中往往蕴含着丰富的情感信息，语音识别若能对情感进行识别与表达，将会使交互变得更加自然、智能且贴合人性化需求。本期我们就围绕语音识别中的情感识别与表达这一重要主题展开深入探讨，了解其背后的原理、方法以及实际应用价值。一、语音情感识别的基本原理与常用方法
目标检测领域总结：从传统方法到 Transformer 时代的革新 DoYangTan 目标检测系列目标检测 transformer 人工智能
目标检测领域总结：从传统方法到Transformer时代的革新目标检测是计算机视觉领域的一个核心任务，它的目标是从输入图像中识别并定位出目标物体。随着深度学习的兴起，目标检测方法已经取得了显著的进展。从最早的传统方法到现如今基于Transformer的先进算法，目标检测的发展经历了多个重要的阶段。本文将详细总结目标检测领域的演进，涵盖传统方法、两阶段检测方法、单阶段检测方法和基于Transform
2024MathorCup数学建模之——MathorCup奖杯”获得者经验思路分享美赛数学建模数学建模
一、经验分享1.工具选择：顺手即可。Matlab和Python都是比较主流的选择，二者的应用场合各有不同。Python在数据分析、深度学习方面的优势愈发明显，而Matlab更适合进行物理仿真和数值计算。不过随着Python社区不断发展，其功能也愈发全面与强大，因此我们比较推荐学有余力的情况下可以更早接触Python。2.模型算法：多多益善。不一定要精通所有的算法，但是手上至少要准备一些常用的算法（
194.HarmonyOS NEXT系列教程之图案锁交互反馈系统详解 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT系列教程之图案锁交互反馈系统详解效果预览1.交互反馈系统概述1.1反馈类型//反馈类型定义interfaceFeedbackTypes{visual:boolean;//视觉反馈haptic:boolean;//触觉反馈message:
AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
YOLOV8多模态(可见光+红外光，基于Ultralytics官方代码实现） @M_J_Y@ 目标检测 YOLO 计算机视觉目标检测 python
YOLOV8多模态(可见光+红外光，基于Ultralytics官方代码实现）各位读者麻烦给个star或者fork，求求了。YOLOV8双分支模型架构图YOLOV8多模态目标检测前言：环境配置要求1.数据集DroneVehicle数据集(可见光+热红外)2.数据集文件格式(labeles:YOLO格式)3.权重文件下载4.配置模型yaml文件和数据集yaml文件5.训练6.测试7.打印模型信息8.o
深度学习框架PyTorch——从入门到精通（6.2）自动微分机制 Fansv587 深度学习 pytorch 人工智能经验分享 python 机器学习
本节自动微分机制是上一节自动微分的扩展内容自动微分是如何记录运算历史的保存张量非可微函数的梯度在本地设置禁用梯度计算设置requires_grad梯度模式（GradModes）默认模式（梯度模式）无梯度模式推理模式评估模式（`nn.Module.eval()`）自动求导中的原地操作原地操作的正确性检查多线程自动求导CPU上的并发不确定性计算图保留自动求导节点的线程安全性C++钩子函数不存在线程安全
操作系统高频（一）线程与进程 HUZ_小Z 开发语言操作系统课程设计笔记经验分享
操作系统高频（一）线程与进程1.什么是线程？进程，线程，彼此有什么区别？⭐⭐⭐进程进程（Process）是计算机中的程序关于某数据集合上的一次运行活动，是系统进行资源分配的基本单位。是操作系统结构的基础。进程是线程的容器。程序是指令、数据及其组织形式的描述，进程是程序的实体。线程线程是操作系统最小的运算调度单位。线程包含在进程中，是进程中实际执行任务的单位。在一些操作系统中，线程也被称为轻量级进程
云计算习题「已注销」
云计算一、单选题二、多选题三、实操题单选题多选题实操题一、单选题下面哪个是软件代码版本控制软件？（B）A.projectB.SVNC.notepad++D.Xshell为满足金融业务的监管和安全要求，平台不需要考虑下列哪个应用?（A）A.文档版本管理B.防火墙策略C.安全漏洞扫描D.多租户安全隔离以下哪一个是项目收尾过程的正确顺序？（C）A.得到正式验收、解散团队、写出经验教训、结束合同B.写出经
使用Yeager.ai轻松构建LangChain工具和代理 qahaj 人工智能 langchain python
技术背景介绍在现代AI开发框架中，如何快速构建、测试和部署AI解决方案是一个重要的课题。Yeager.ai为此提供了一个完整的生态系统，旨在简化AI智能体和工具的创建过程。它的核心组件yAgents是一个无代码的LangChain代理构建器，能够让用户轻松地集成各种语言模型和资源，非常适合开发者、研究人员和AI爱好者在不同应用场景中使用。核心原理解析Yeager.ai利用LangChain框架，通
Pytorch深度学习教程_9_nn模块构建神经网络 tRNA做科研深度学习保姆教程深度学习 pytorch 神经网络
欢迎来到《深度学习保姆教程》系列的第九篇！在前面的几篇中，我们已经介绍了Python、numpy及pytorch的基本使用，进行了梯度及神经网络的实践并学习了激活函数和激活函数，在上一个教程中我们学习了优化算法。今天，我们将开始使用pytorch构建我们自己的神经网络。欢迎订阅专栏进行系统学习：深度学习保姆教程_tRNA做科研的博客-CSDN博客目录1.理解nn模块：(1)使用nn.Sequent
【机器学习】算法分类 CH3_CH2_CHO 什么？！是机器学习！！机器学习算法有监督学习无监督学习半监督学习强化学习
1、有监督学习1.1定义使用带标签的数据训练模型。有监督学习是机器学习中最常见的一种类型，它利用已知的输入特征和对应的输出标签来训练模型，使模型能够学习到特征与标签之间的映射关系。在训练过程中，模型会不断地调整自身的参数，以最小化预测值与真实标签之间的误差，从而提高预测的准确性。1.2回归问题1.2.1目标预测连续值。回归问题的目标是预测一个连续的数值结果，模型的输出是一个实数值。1.2.2解释回
使用定时器中断进行延时，取代delay，不影响主流程的运行 litvm bug解决经验分享单片机嵌入式硬件
在单片机开发中，我们经常会用到延时函数-delay();比如LED的闪烁、ADC采集、向其他设备发送指令后等待回复数据等等，应用非常广泛，也很好用。但它也有一个致命的缺点——死等，举个例子，一个工程中有A、B、C三个任务，如果是裸机开发，不考虑中断的话，它会按while(1)中固定的顺序去执行。由于任务需要，B中会经常delay_ms(500);，那么在delay过程中，整个程序都会在B中等待50
从零实现KV存储项目实战程序员老舅 C++Linux后端 c++c++存储 kv存储分布式存储后端项目 c++项目 cpp项目
本项目是从零实现一个完整的、兼容Redis协议的KV数据库项目。通过每一行代码的编写。你会对整个系统了如指拿，这样对自己基本功的锻炼、对编程能力的提升都是很大的项目提供完整的视频教程+代码下面是关于KV存储项目的技术大纲：如果你在学习的过程当中，遇到有任何问题，都可以在项目社群提出了，有专人给大家答疑的。适用人群这个KV存储项目对以下同学应该都非常的合适,包括但不限于:●想入门数据库的同学，存储对
SpringMVC-解决跨域的两种方案青岛欢迎您开发框架 springmvc
1.什么是跨域跨域，即跨站HTTP请求(Cross-siteHTTPrequest)，指发起请求的资源所在域不同于请求指向资源所在域的HTTP请求。2.跨域的应用情景当使用前后端分离，后端主导的开发方式进行前后端协作开发时，常常有如下情景：后端开发完毕在服务器上进行部署并给前端API文档。前端在本地进行开发并向远程服务器上部署的后端发送请求。在这种开发过程中，如果前端想要一边开发一边测试接口，就需
图神经网络实战——分层自注意力网络盼小辉丶图神经网络从入门到项目实战神经网络人工智能深度学习
图神经网络实战——分层自注意力网络0.前言1.分层自注意力网络1.1模型架构1.2节点级注意力1.3语义级注意力1.4预测模块2.构建分层自注意力网络相关链接0.前言在异构图数据集上，异构图注意力网络的测试准确率为78.39%，比之同构版本有了较大提高，但我们还能进一步提高准确率。在本节中，我们将学习一种专门用于处理异构图的图神经网络架构，分层自注意力网络(hierarchicalself-att
Radiance Fields from VGGSfM和Mast3r:两种先进3D重建方法的比较与分析 2401_87458718 3d
VGGSfM和Mast3r:3D场景重建的新方向在计算机视觉和3D重建领域,如何从2D图像重建3D场景一直是一个充满挑战的研究课题。近年来,随着深度学习技术的发展,一些新的方法被提出并取得了显著的进展。本文将重点介绍两种最新的基于深度学习的3D重建方法:VGGSfM和Mast3r,并通过GaussianSplatting技术对它们的性能进行全面比较和分析。VGGSfM:基于视觉几何的深度结构运动恢
基于STC89C52的8255并行口拓展实验 @小张要努力 mongodb 数据库学习单片机 proteus 嵌入式硬件 51单片机
摘要本文围绕基于STC89C52单片机的8255并行口扩展实验展开，详细阐述实验原理、硬件设计、软件编程及Proteus仿真实现过程。通过扩展8255芯片，实现单片机I/O口资源的灵活应用，完成对LED阵列的控制，验证8255并行口扩展在单片机系统中的实用性，为单片机外围接口扩展应用提供实践参考。一、引言STC89C52作为经典的51系列单片机，在工业控制、嵌入式系统等领域应用广泛。然而，其内部I
R语言入门课| 02 R及Rstudio的下载与安装 Biomamba生信基地 r语言开发语言生信
视频教程先上教程视频，B站同步播出：https://www.bilibili.com/video/BV1miNVeWEkw完整视频回放可见：R语言入门课回放来啦"R语言入门课"是我们认为生信小白入门不得不听的一个课程，我们也为这个课程准备了许多干货。在第二节课中，我们给大家详细的介绍了R及Rstudio的安装过程，大家赶紧装起图文内容1、R语言安装R是用于统计分析、绘图的语言和操作环境。R是一款属
假如我有一台新电脑, 我要做些什么? t.y.Tang 随笔闲谈经验分享
有时候我要重装系统,或者买了一台新电脑,或者帮别人清理电脑,我个人感觉是有一条还算清晰的整理思路的.今天把它写下来做个备份,方便以后年龄大了记不清事情了还能查阅.所以以后想到什么补充的也会添加进来.本人常用的是windows系统,所以说的也是windows系统.目录安装过程中电脑分区分区方案初始设置进入系统后更新系统处理一些设置项更新MicrosoftStore应用卸载不用的预装应用文件资源管理器
链接-简介 zhubo_1117 深入理解计算机系统
链接是将代码和数据合成一个文件的一个过程，生成的文件可以直接拷贝到存储器中并且执行。链接可以在程序编译时，加载时，甚至运行时执行。1.编译器的驱动程序编译器系统中包含编译驱动程序，驱动程序主要包含：预处理器，编译器，汇编器和连接器。处理过程如下：预处理器编译器汇编器main.c------------------>main.i----------------------->main.s------
基于 PyTorch 的 MNIST 手写数字分类模型欣然～ pytorch 分类人工智能
一、概述本代码使用PyTorch框架构建了一个简单的神经网络模型，用于解决MNIST手写数字分类任务。代码主要包括数据的加载与预处理、神经网络模型的构建、损失函数和优化器的定义、模型的训练、评估以及最终模型的保存等步骤。二、依赖库torch：PyTorch深度学习框架的核心库，提供了张量操作、自动求导等功能。torch.nn：PyTorch的神经网络模块，包含了各种神经网络层、损失函数等。torc
阿里云在使用 Docker 过程中踩过的坑 weixin_34293059 运维
昨天下午朋友在微信上丢给我一条新闻，看看，我们阿里云支持Docker企业版了。我打开一看，果然，阿里云发布了飞天敏捷版，开始支持企业级的Docker容器。美国中部时间4月19日，阿里云在容器技术大会DockerCon2017上正式推出了ApsaraStackAgility，也就是飞天的敏捷版。Docker公司首席执行官BenGolub在大会上宣布了ApsaraStackAgility的正式发布，这
linux内核路由子系统,深入理解Linux网络技术内幕——路由子系统的概念与高级路由... 罗心澄 linux内核路由子系统
本文讨论IPv4的路由子系统。(IPv6对路由的处理不同)。基本概念路由子系统工作在三层，用来转发入口流量。路由子系统主要设计路由器、路由、路由表等概念。路由器：配备多个网络接口卡(NIC)，并且能利用自身网络信息进行入口流量转发的设备。路由：流量转发，决定目的地的过程路由表：转发信息库，该库中储存路由需要本地接收还是转发的信息，以及转发流量时所需要的信息。(即，信息库用来判断，要不要转发，如果要
使用 Airbyte Typeform 加载器进行数据文档化 shuoac python
在数据集成的世界中，Airbyte是一个非常强大的平台，它为我们的ETL管道提供了从API、数据库和文件到数据仓库和湖泊的连接器。但是，随着技术的快速发展，某些工具和方法可能会被弃用，例如AirbyteTypeform加载器。不过这并不意味着不能使用其他更好的解决方案。因此，这篇文章就带大家一起了解如何使用Airbyte原生支持的加载器来处理Typeform的数据文档化。技术背景介绍Airbyte
RestTemplate和RPC区别酷爱码经验分享 rpc 网络协议网络
RestTemplate是Spring框架中用于进行RESTful风格的HTTP请求的模板类，通常用于与外部服务进行通信。它基于HTTP协议，使用GET、POST、PUT、DELETE等HTTP方法来进行通信，传输的数据通常使用JSON或XML格式。它是一种基于资源的通信方式，通过URL来标识资源。RPC（RemoteProcedureCall）是一种远程过程调用的通信机制，用于不同进程或不同主机
brew 安装pip_pip brew wget 安装 weixin_32612253 brew 安装pip
终端播放器安装教程从简书上看到一篇,终端实现网易云音乐的文章,并给出了一个github链接.心里有些痒痒,想看看是什么样子,于是尝试安装.安装过程中有些坎坷,记录以便以后查阅.程序实现是用Python写的.安装使用方式仅仅给了三行命令.安装$pipinstallnetease-musicbox$brewinstallmpg123使用$musicbox下载了源码后,不知道该如何安装.三行命令也是莫名
使用 Baseten 部署和运行机器学习模型的指南 shuoac 机器学习人工智能 python
随着机器学习模型在各个行业中的广泛应用，如何高效地部署和运行这些模型成为一个关键问题。本文将介绍如何使用Baseten平台来部署和服务机器学习模型。Baseten是LangChain生态系统中的一个重要提供者，它提供了所需的基础设施来高效地运行模型。无论是开源模型如Llama2和Mistral，还是专有或经过微调的模型，Baseten都能在专用GPU上运行。技术背景介绍Baseten提供了一种不同
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla

【今日CV 计算机视觉论文速览 第139期】Tue, 2 Jul 2019

Interesting:

Daily Computer Vision Papers

你可能感兴趣的:(视觉,深度学习,机器学习,计算机视觉,目标检测,高斯过程,点云,三维重建,数据集,Papers,Paper,computerVision,三维点云,深度相机,文字处理)

【今日CV 计算机视觉论文速览第139期】Tue, 2 Jul 2019