AI视野·今日CS.CV 计算机视觉论文速览
Mon, 17 May 2021
Totally 40 papers
上期速览✈更多精彩请移步主页
*****盲超分辨算法优化,一种联合退化核估计与重建的盲超分辨方法,在统一模型内部交替优化算法。 (from 中科院自动化所 谭铁牛组)
两步法超分辨:
i) estimating the blur kernel from given low-resolution (LR) image and
ii) restoring the SR image based on the estimated kernel.
Adopt an alternating optimization algorithm, which can estimate the blur kernel and restore the SR image in a single model.
code: https://github.com/greatlog/DAN.git
****Biometrics 生物度量学的综述, (from Michigan State University)
SpikeMS, 基于脉冲神经网络的运动分割(from 马里兰大学)
XAI Handbook, 可解释性AI(from German Research Center for Artificial Intelligence)
link:https://sites.google.com/view/value-iteration
Omnimatte: Associating Objects and Their Effects in Video Authors Erika Lu, Forrester Cole, Tali Dekel, Andrew Zisserman, William T. Freeman, Michael Rubinstein 计算机愿景在图像和视频中分段对象越来越有效,但是,通常被忽略与对象阴影,反射,生成的烟雾等的场景效果。识别此类场景效果并将其与产生的对象相关联,对于提高对视觉场景的基本理解是很重要的,并且还可以帮助各种应用,例如删除,复制或增强视频中的对象。在这项工作中,我们迈出了解决自动将对象与视频中的效果自动关联对象的新问题。给定普通视频和粗略分割掩模随着时间的推移一个或多个感兴趣的主题,我们为每个受试者估计一个alpha遮罩和彩色图像,该alpha遮罩和彩色图像包括其主体以及其所有相关的时间变化场景元素。我们的模型仅在自我监督的方式上培训,没有任何手动标签,并且是通用的,它会自动为任意对象和各种效果产生全部。我们展示了现实世界视频,其中包含不同类型的主题汽车,动物,人物和复杂效果之间的相互作用,从诸如烟雾和反射等半透明元素,以完全不透明的效果,例如附着在受试者上的物体。 |
Automatic Non-Linear Video Editing Transfer Authors Nathan Frey, Peggy Chi, Weilong Yang, Irfan Essa 我们提出了一种自动方法,可以在源视频中提取编辑样式,并将编辑应用于视频创建的匹配素材。我们的计算机视觉技术技术考虑了每个输入视频段的框架,内容类型,播放速度和照明。通过应用这些功能的组合,我们演示了一种有效的方法,可自动将视觉和时间风格从专业编辑的视频传输到看不见的原始素材。我们评估了我们的方法与现实世界的视频,其中包含各种编辑风格的3872个视频镜头,包括不同的主题,摄像机运动和照明。我们报告了调查参与者的反馈,他们审查了一套结果。 |
Evaluating the Robustness of Self-Supervised Learning in Medical Imaging Authors Fernando Navarro, Christopher Watanabe, Suprosanna Shit, Anjany Sekuboyina, Jan C. Peeken, Stephanie E. Combs, Bjoern H. Menze 在小型注释数据集上培训目标任务时,自我监督表明是有效的学习策略。虽然目前的研究侧重于创建新颖的借口任务,以学会目标任务的有意义和可重复使用的陈述,但与全面监督学习相比,这些努力获得了边际性能。与此同时,已经注意到,研究了以自我监督方式培训的网络的稳健性。在这项工作中,我们展示了通过自我监督学习训练的网络与医学成像的背景下的完全监督学习相比具有卓越的鲁棒性和普遍性。我们对X射线肺炎和多器官分割的肺炎的实验,CT产生的一致结果暴露了自我监督的隐藏效益,用于学习鲁棒特征表示。 |
Open-set Face Recognition for Small Galleries Using Siamese Networks Authors Gabriel Salomon, Alceu Britto, Rafael H. Vareto, William R. Schwartz, David Menotti 面部认识是最相关和最探索的生物识别领域之一。在现实世界应用中,面部识别方法通常必须处理在培训阶段开放式场景中没有看到并非所有探针个人的情况。因此,开放式面部识别是一种越来越兴趣的主题,因为它涉及识别不提前已知所有面的空间中的个体。这在若干应用程序中是有用的,例如访问身份验证,其中允许在其中允许以前已注册在库中的少数个人。目前的作品介绍了一种新颖的开放式面部识别方法,其关注小型画廊和注册检测,而不是身份检索。建议暹罗网络架构学习模型以基于类似于方法的验证在图中注册了脸部探测器的模型。对Pubfig83,FRGCV1和LFW数据集进行的小型画廊实现了有希望的结果。如HFCN和HPL等现有方法的状态在FRGCV1上表现优于HFCV1。此外,在LFW上的小型画廊中引入了一种新的评估方案。 |
End-to-end Alternating Optimization for Blind Super Resolution Authors Zhengxiong Luo, Yan Huang, Shang Li, Liang Wang, Tieniu Tan 以前的方法将盲超分辨率SR问题分解为两个顺序步骤Syrite I,其估计来自给定的低分辨率LR图像和基于估计的内核的SR图像恢复SR图像的模糊内核。这两个步骤解决方案涉及两个独立培训的型号,这可能不会彼此兼容。第一步的小估计误差可能导致第二个的严重性能下降。虽然另一方面,第一步只能利用来自LR图像的有限信息,这使得难以预测高精度的模糊内核。对这些问题,而不是分别考虑这两个步骤,我们采用了一个交替优化算法,它可以估计模糊内核并在单个模型中恢复SR图像。具体而言,我们设计了两个卷积神经模块,即纺织修复程序和纺织估计器。 Textit Restorer基于预测的内核恢复SR图像,并且TextIT估计器在恢复的SR图像的帮助下估计Blur内核。我们重复替换这两个模块,并展开此过程以形成结束到最终培训网络。以这种方式,纺织估计器利用来自LR和SR图像的信息,这使得模糊内核的估计更容易。更重要的是,Textit Restorer训练,内核训练由TextIt Estimator估计,而不是地面真理内核,因此纺织品恢复器可能更容易容忍刷毛估计器的估计误差。关于合成数据集和现实世界的图像的广泛实验表明,我们的模型可以大大优于现有技术的状态,并以更高的速度产生更多的视觉上有利的结果。源代码在URL上可用 |
VICE: Visual Identification and Correction of Neural Circuit Errors Authors Felix Gonda, Xueying Wang, Johanna Beyer, Markus Hadwiger, Jeff W. Lichtman, Hanspeter Pfister 单一突触分辨率的神经元的连接图提供了科学家,提供了理解健康和疾病中神经系统的工具。在大脑电子显微镜EM数据集中的自动图像分割和突触预测的最新进展使得可以在纳米级中重建神经元。然而,自动分割有时会努力努力分割大神经元,需要人类努力校对其产出。一般校对涉及检查大卷以在像素电平,视觉密集和耗时的过程中纠正分割误差。本文介绍了分析框架的设计和实现,可简化校对,专注于连接相关的错误。我们通过自动化可能的错误检测和突触群集来实现这一目标,该扫描群体通过高度交互式的3D可视化驱动校对努力。特别是,我们的战略中心校对单个电池的局部电路以确保基本完整程度。我们展示了我们的框架S型实用程序,用户学习和报告了用户的定量和主观反馈。总的来说,用户找到框架更高效的校对,了解演化图形,并共享错误更正策略。 |
Multi-task Graph Convolutional Neural Network for Calcification Morphology and Distribution Analysis in Mammograms Authors Hao Du, Melissa Min Szu Yao, Liangyu Chen, Wing P. Chan, Mengling Feng 集群中微钙化的形态和分布是放射科学家诊断乳腺癌的最重要的特征。然而,辐射学家可以识别这些特征是耗时和困难的,并且还缺乏有效的自动表征解决方案。在这项研究中,我们提出了一种多任务深图卷积网络GCN方法,用于自动表征乳房X线图中微钙化的分布。我们提出的方法将形态和分布表征转换为节点和图形分类问题,并同时学习表示。通过广泛的实验,我们用与基线比较的建议的多任务GCN展示了显着的改进。此外,实现的改进可以与临床理解有关。我们首次探索GCNS在微钙化表征中的应用,表明图表学习的潜力,以便更加强大地了解医学图像。 |
Predicting Surface Reflectance Properties of Outdoor Scenes Under Unknown Natural Illumination Authors Farhan Rahman Wasee, Alen Joy, Charalambos Poullis 在户外照明条件下估计和建模物体的外观是复杂的过程。虽然有几次关于照明估计和致密的研究,但它们中的很少很少集中在估计室外物体和场景的反射特性。本文解决了这个问题,提出了一个完整的框架,以预测未知自然照明下的户外场景的表面反射性能。唯一地,我们将问题重新回收到其两个组成部分,涉及在图像中捕获的BRDF传入的光和传出视图的I表面点辐射,并且传出视图被聚合并编码到反射率图中,并且II在反射率训练的神经网络在任意光方向下的单位球的渲染是表示场景中每个表面的反射特性的低参数反射模型。我们的模型基于现象学和物理散射模型的组合,可以根据新颖观点的景象。我们存在实验,表明具有预测的反射率特性的渲染导致视觉上类似的外观,以使用不能从反射特性中解开的纹理。 |
Collaborative Spatial-Temporal Modeling for Language-Queried Video Actor Segmentation Authors Tianrui Hui, Shaofei Huang, Si Liu, Zihan Ding, Guanbin Li, Wenguan Wang, Jizhong Han, Fei Wang 语言查询视频演员分割旨在预测演员的像素级掩模,其执行由目标帧中的自然语言查询描述的动作。现有方法通过视频剪辑通过3D CNNS作为一般编码器来提取目标帧的混合时空时间特征。尽管3D卷积可识别识别哪个演员正在执行查询动作,但是它也不可避免地引入来自相邻帧的未对准空间信息,这使得目标帧的特征困扰并产生不准确的分割。因此,我们提出了一种协同空间时间编码器解码器框架,其包含视频剪辑上的3D时间编码器,以识别查询的动作,以及在目标帧上方的2D空间编码器,以精确地段段段段验证的achiD actor。在解码器中,提出了一种语言引导特征选择LGFS模块,以灵活地集成来自两个编码器的空间和时间特征。我们还提出了一种跨模型自适应调制CMAM模块,用于动态重组两个编码器的每个阶段的多模式特征交互的空间和时间相关语言特征。我们的方法在两个流行的基准测试中实现了新的最新性能,而不是比以前的方法更少计算开销。 |
Waste detection in Pomerania: non-profit project for detecting waste in environment Authors Sylwia Majchrowska, Agnieszka Miko ajczyk, Maria Ferlin, Zuzanna Klawikowska, Marta A. Plantykow, Arkadiusz Kwasigroch, Karol Majek 废弃物污染是现代世界中最重要的环境问题之一。回收回收的重要性是众所周知的,无论是为了经济还是生态的原因,行业都要求高效率。我们的团队对废物检测和分类中的人工智能使用进行了全面的研究,以对抗世界的废物污染问题。结果,开发了一种开源框架,其开发了能够检测和分类垃圾。最终管道由两个神经网络组成,检测垃圾和第二次负责垃圾分类。废物被分为七类生物,玻璃,金属和塑料,不可回收,其他,纸张和未知。我们的方法在废物检测中实现了高达70的平均精度,并在测试数据集上进行了大约75个分类精度。研究中使用的代码在线公开提供。 |
Salient Feature Extractor for Adversarial Defense on Deep Neural Networks Authors Jinyin Chen, Ruoxi Chen, Haibin Zheng, Zhaoyan Ming, Wenrong Jiang, Chen Cui 近年来,计算机愿景领域的深度学习模型实现了前所未有的成功。然而,他们对仔细制作的对抗性示例的脆弱性也引起了研究人员的越来越关注。通过观察到,对抗性示例是由于由模型从原始数据集中学到的非强大特征,我们提出了突出特征SF和微小特征TF的概念。前者代表了类相关的功能,而后者通常采用误导模型。我们利用耦合生成的对抗网络模型提取这两个特征,提出了一种名为Parient特征提取器SFE的新型检测和防御方法,以防御对抗性攻击。具体地,通过分离和比较输入的SF和TF之间的差异来实现检测。同时,通过识别SF来达到防御目的来获得正确的标签。在MNIST,CIFAR 10和Imagenet数据集上进行了广泛的实验,其中SFE显示了与基线相比的有效性和效率导致有效性和效率。此外,我们提供了对防御和检测过程的可解释理解。 |
Exploring the Intrinsic Probability Distribution for Hyperspectral Anomaly Detection Authors Shaoqi Yu, Xiaorun Li, Shuhan Chen, Liaoying Zhao 近年来,由于与传统方法相比,神经网络基于基于的异常的异常检测方法引起了极高的重建能力,引起了极高的重建能力。但是,未通过利用重建误差来发现隐藏在潜空间中的实际概率分布统计,因为异常的概率分布未明确建模。为了解决这个问题,我们提出了一种新颖的概率分布代表探测器PDRD,探讨了本文的原始数据中的背景和异常的内在分布。首先,我们代表具有来自概率视角的多元高斯分布的高光谱数据。然后,我们将本地统计数据与获得的分布组合起来利用空间信息。最后,通过计算修改的Wassersein距离来获取检测图,测量测试像素的相应分布和Chebyshev邻域中的像素的平均期望之间的差异。我们在四个真实数据集中进行实验,以评估我们提出的方法的性能。实验结果表明,与现有技术检测方法相比,我们所提出的方法的准确性和效率。 |
Learning Group Activities from Skeletons without Individual Action Labels Authors Fabio Zappardino, Tiberio Uricchio, Lorenzo Seidenari, Alberto Del Bimbo 为了了解人类行为,我们不得只承认个人行为,而是可能是复杂的群体活动和互动。分层模型在组活动识别中获得最佳结果,但在演员级别需要细粒度的单个动作注释。在本文中,我们示出了仅使用骨架数据,我们可以在序列级别使用组活动标签仅使用群体活动标签训练最新的最终系统。我们的实验表明,没有个人行动监督训练的型号表现不佳。另一方面,我们表明可以从任何预训练的特征提取器计算伪标签,具有可比的最终性能。最后,我们精心设计的精益姿势仅架构展示了竞争激烈的结果,即使在自我监督的变体中也与更复杂的多模式方法相比。 |
Troubleshooting Blind Image Quality Models in the Wild Authors Zhihua Wang, Haotao Wang, Tianlong Chen, Zhangyang Wang, Kede Ma 最近,借助完整的参考指标,借助于改善盲目图像质量评估BIQA模型的群体最大区别竞争。当应用这种方法来解决野外的最佳表演BIQA模型时,我们面临着实际挑战,这对于获得更强的竞争模型来实现有效的失败斑点,这是非常非凡的挑战。灵感来自最近发现的深层模型的困难样本可能通过网络修剪暴露,我们构建一组自竞争对手,作为要改进的目标模型的修剪版本的随机组合。然后可以通过自我转换竞争有效地识别不同的失败。接下来,我们在人类额定标准组合套装上微调目标及其修剪的变体。这允许所有模型从各自的失败中吸取教训,为下一轮自我改造比赛做好准备。实验结果表明,我们的方法有效地排除了野外的BIQA模型,改善了普遍性。 |
Facial Age Estimation using Convolutional Neural Networks Authors Adrian Kj rran, Christian Bakke Venner d, Erling Stray Bugge 本文是挪威科技大学机器学习中的学生项目的一部分。在本文中,提出了一种具有五个卷积层和三个完全连接层的深卷积神经网络,以估计基于图像的个体年龄。该模型从头开始培训,其中三个不同数据集的组合用作训练数据。这些数据集是Appa DataSet,UTK DataSet和IMDB数据集。使用专有的面部识别软件预处理图像。我们的模型在举行的测试集和高等教育基准上进行了评估。在测试集上,我们的模型实现了52的分类精度。在景观基准中,我们的型号与其他领先型号相比,我们的型号劣化,精确的速度为30,以及46的一个关闭精度。此外,创建了一个脚本,允许用户使用他们的网络摄像头直接估计他们的年龄。脚本与所有其他代码一起,位于我们的GitHub存储库Agenet中。 |
Automated segmentation of microtomography imaging of Egyptian mummies Authors Marc Tanti, Camille Berruyer, Paul Tafforeau, Adrian Muscat, Reuben Farrugia, Kenneth Scerri, Gianluca Valentino, V. Armando Sol , Johann A. Briffa 传播相位对比度同步同步rotron MICROTOMOGP PPC SR MU CT是用于非侵入性和非破坏性访问的金色标准,对考古遗骸的内部结构。在该分析中,虚拟标本需要分段为分开不同的部件或材料,这一过程通常需要相当多的人力努力。在MICROROMACTOM成像ASEMI项目的自动分割中,我们开发了一种自动分割这些体积图像的工具,使用手动分段样本来调谐和培训机器学习模型。对于一套四个古埃及动物木乃伊标本,与手动分段切片相比,我们达到了94 98的整体准确性,使用深度学习97 99以更低的复杂性接近货架商业软件的结果。对分段输出的定性分析表明,我们的结果是对来自深度学习的人的可用性的术语,证明了这些技术的使用。 |
Verification of Size Invariance in DNN Activations using Concept Embeddings Authors Gesina Schwalbe 深度神经网络DNNS的好处已经对医疗版本或自动驾驶等安全关键应用感兴趣。然而,在这里,对DNN内部表示的定量见解是强制性的。这是一种方法是概念分析,旨在建立DNN和直观语义概念的内部表示之间的映射。这样可以是人体部件等子对象,对于人行检测有价值。据我们所知,概念分析尚未应用于大型物体探测器,特别是不适用于子部分。因此,这项工作首先表明了基本上改善了Net2VEC方法的版本 |
Confidence-guided Adaptive Gate and Dual Differential Enhancement for Video Salient Object Detection Authors Peijia Chen, Jianhuang Lai, Guangcong Wang, Huajun Zhou 视频突出对象检测VSOD通过利用隐藏在视频序列中隐藏的空间线索和时间线索来定位和分割最有吸引力的对象。然而,空间和时间线索通常在现实世界场景中不可靠,例如低对比度前景,快速运动和多个移动物体。为了解决这些问题,我们提出了一个新的框架,以自适应地从空间和时间线索捕获可用信息,其中包含信心引导的自适应门CAG模块和双差分增强DDE模块。对于RGB特征和光学流量特征,CAG估计通过预测和地面真理之间的IOU监督的置信度分数来重新校准具有栅极机制的信息。 DDE捕获差分特征表示,以丰富空间和时间信息并生成融合功能。四种广泛使用的数据集上的实验结果证明了提出的方法对本领域13型的有效性。 |
REGINA - Reasoning Graph Convolutional Networks in Human Action Recognition Authors Bruno Degardin, Vasco Lopes, Hugo Proen a 众所周知,人体骨架的运动学揭示了行动识别中的有价值的信息。最近,据报道,用图形卷积网络GCNS为时空骨架建模骷髅,以巩固现有性能的状态。然而,基于GCN的方法专门从原始骨架数据中学习,并且预计将自己提取固有的结构信息。本文介绍了Regina,在人类行动识别中推理图形卷积网络推理的新方法。理由是向GCNS提供关于通过手工特征获得的骨架数据的额外知识,以便于学习过程,同时保证它仍然完全可收到最终的方式。挑战是捕获通过连续帧之间的动态的互补信息,这是由艺术GCN技术提取的关键信息。此外,所提出的策略可以很容易地集成在基于GCN的现有GCN的方法中,我们也要积极地。我们的实验是在众所周知的动作识别数据集中进行的,并且能够得出结论,当纳入其他基于GCN的方法时,Regina在没有任何其他关于原始方法的情况下进行性能的固体改进。为了重现性,REGINA码和所开展的所有实验将公开可用 |
Attentional Prototype Inference for Few-Shot Semantic Segmentation Authors Haoliang Sun, Xiankai Lu, Haochen Wang, Yilong Yin, Xiantong Zhen, Cees G. M. Snoek, Ling Shao 本文旨在解决少量拍摄语义细分。虽然现有的基于原型的方法取得了相当大的成功,但它们遭受了由有限标记的例子引起的不确定性和歧义。在这项工作中,我们提出了注意力原型推理API,这是几个拍摄语义分割的概率潜在的变量框架。我们定义了一个全局潜在的变量来表示每个对象类别的原型,我们模型是概率分布。原型的概率建模通过处理由有限数据和类对象的帧内变化引起的固有不确定性来增强模型的泛化能力。为了进一步增强模型,我们介绍了一个本地潜在变量来表示每个查询映像的注意图,这使得模型能够在抑制背景时参加前景对象。所提出的模型的优化被制定为变分贝叶斯推理问题,这是由摊销推理网络建立的。我们在三个基准上进行广泛的实验,我们的提案至少比现有方法的状态获得竞争力和往往更好的性能。我们还提供全面的分析和消融研究,以了解我们对少量语义细分的方法的有效性。 |
Sketch2Model: View-Aware 3D Modeling from Single Free-Hand Sketches Authors Song Hai Zhang, Yuan Chen Guo, Qing Wen Gu 我们调查从单一免费手绘3D网格的问题,针对新手用户的快速3D建模。它可以被视为一个单一的视图重建问题,但具有独特的挑战,通过草图的变化和简洁来带来。绘制较差的草图中的歧义可以使其难以确定草图对象是如何提出的。在本文中,我们解决了观点规范来克服这种歧义的重要性,并提出了一种新颖的观点意识到的一代方法。通过在给定的视点上显式调节生成过程,我们的方法可以使用预测的视点自动生成合理的形状,或者使用指定的视点来帮助用户更好地表达他们的意图。对各种数据集的广泛评估展示了我们认为意识设计在解决草图歧义和提高重建质量方面的有效性。 |
Biometrics: Trust, but Verify Authors Anil K. Jain, Debayan Deb, Joshua J. Engelsma 在过去的二十年中,生物识别识别已经爆发成全球各地的不同应用。这种扩散可以归因于高水平的认证准确性和用户便利性,即生物识别系统提供最终用户。然而,尽管生物识别系统的成功,但有许多出色的问题和担心与生物识别系统的各种子模块有关,这些识别系统的各种子模块在科学界和公众方面创造了两种误判的元素大。其中一些问题包括我与系统识别性能,II安全欺诈攻击,对抗攻击,模板重建攻击和人口统计信息泄漏有关的问题,iii对系统的偏见和公平的不确定性,所有用户,IV释放性的看似黑匣子的解释性大多数识别系统的决定,以及V涉及数据集中和用户隐私。在本文中,我们提供了每个上述公开挑战的概述。我们调查工作,以解决这些问题,并突出需要进一步关注的问题。最后,我们提供了对生物识别社区如何解决核心生物识别系统设计问题的洞察,以更好地灌输信任,公平性和安全性。 |
City-Scale Multi-Camera Vehicle Tracking Guided by Crossroad Zones Authors Chong Liu, Yuqi Zhang, Hao Luo, Jiasheng Tang, Weihua Chen, Xianzhe Xu, Fan Wang, Hao Li, Yi Dong Shen 多目标多摄像机跟踪具有广泛的应用,并且是许多高级推论和预测的基础。本文介绍了我们在2021年艾丽城市挑战AICITY21的轨道3多相机车辆跟踪任务的解决方案。本文提出了由十字路口引导的多目标多相机车辆跟踪框架。该框架包括1使用成熟检测和车辆RE识别模型,以提取目标和外观特征。 2使用改进的JDetracker而无需检测模块跟踪单个相机车辆并生成单个相机轨迹。图3是根据十字路口的特性,提出了轨道滤波器策略和方向的时间掩模。 4在相邻摄像机中提出用于多相机轨迹匹配的相邻摄像机。通过上述技术,我们的方法获得了0.8095的IDF1得分,首先在排行榜上排名。代码发布了 |
Meta Auxiliary Learning for Facial Action Unit Detection Authors Yong Li, Shiguang Shan 尽管对面部动作单位的深度神经网络取得了成功,但更好的性能取决于具有精确AU注释的大量训练图像。但是,标记AU是耗时,昂贵和容易出错的耗时。考虑到AU检测和面部表情识别FER是两个高度相关的任务,并且面部表达FE相对容易注释,我们考虑以多任务方式学习AU检测和FER。但是,由于多任务场景中的负转移,不能始终增强AU检测任务的性能。为了缓解这个问题,我们提出了一个META辅助学习方法,通过以META学习方式学习培训FE样本的适应性重量,自动选择高效的FE样本。学习的样本权重减轻了两个方面的负面转移1自动平衡每个任务的损失,2抑制了具有大不确定性的FE样本的权重。与艺术多任务和辅助学习方法的状态相比,几个流行的AU数据集上的实验结果证明了与AU检测性能一致地改善了AU检测性能。根据其与主要AU检测任务的语义相关性,MAL自动估计辅助FE样品的自适应权重。 |
TriPose: A Weakly-Supervised 3D Human Pose Estimation via Triangulation from Video Authors Mohsen Gholami, Ahmad Rezaei, Helge Rhodin, Rabab Ward, Z. Jane Wang 估算视频的3D人类姿势是一个具有挑战性的问题。缺乏3D人类姿势注释是监督培训的主要障碍,并为看不见的数据集概括。在这项工作中,我们通过提出不需要3D注释或校准摄像机的弱监督培训方案来解决这个问题。所提出的方法依赖于时间信息和三角测量。使用从多个视图中的2D姿势作为输入,我们首先估计相对摄像机方向,然后通过三角测量生成3D姿势。三角测量仅适用于高2D人类联合信心的视图。然后,生成的3D姿势用于训练估计来自2D姿势的3D姿势的反复提升网络RLN。我们进一步应用于估计的3D姿势的多视图重新投影损耗,并强制执行从多视图估计的3D姿势以保持一致。因此,我们的方法在实践中放宽了约束,只需要多视图视频来训练,因此方便在野外设置方便。在推理中,RLN仅需要单视图视频。所提出的方法优于两个具有挑战性的数据集,Human3.6M和MPI INF 3DHP的工作。代码和预付费型号将公开。 |
Handwriting Recognition with Novelty Authors Derek S. Prijatelj 1 , Samuel Grieggs 1 , Futoshi Yumoto 2 , Eric Robertson 2 , Walter J. Scheirer 1 1 University of Notre Dame, 2 PAR Government 本文介绍了一种以代理为中心的方法来处理手写识别HWR的视觉识别领域的新颖性。理想的转录代理将竞争或超越人类的感知,能够识别图像中的已知和新字符,并检测在文档内或跨文档中可能发生的任何风格变化。一个关键的混淆是存在新颖性,即使是这些任务的最佳机器学习的算法也持续到Stymie。在手写文件中,新奇可以是作者,角色属性,写作属性或整体文档外观的变化。我们暗示可以同时处理已知字符和新奇的集成代理是更好的策略。本文将手写识别的领域正式描述了一种基准代理,介绍了具有基准数据的评估协议,并提供了设置现有技术的实验。结果表明,代理为中心的方法,但需要更多的工作来接近人类阅读能力,使HWR社区正式建立在解决这一具有挑战性的问题。 |
SpikeMS: Deep Spiking Neural Network for Motion Segmentation Authors Chethan M. Parameshwara, Simin Li, Cornelia Ferm ller, Nitin J. Sanket, Matthew S. Evanusa, Yiannis Aloimonos 尖刺神经网络SNN是所谓的第三代神经网络,其试图更紧密地匹配生物脑的运作。它们本质地编码时间数据,允许培训较少的能量使用,并且在神经形状硬件上编码时可以非常节能。此外,它们非常适合涉及基于事件的传感器的任务,其匹配SNN的基于事件的性质。然而,由于算法和训练复杂性,SNNS并未与现实世界有效地应用于现实世界,作为标准人工神经网络的大规模任务。为了进一步加剧这种情况,输入表示是非常规的,需要仔细分析和深刻的理解。在本文中,我们提出了Texit Spikems,这是第一个深度编码器解码器SNN架构,用于现实世界的大规模运动分割问题,使用基于事件的DVS相机作为输入。为实现这一目标,我们介绍了一种新颖的时空损失制定,其包括尖峰计数和分类标签,以及使用新技术进行SNN BackPropagation。此外,我们表明帖子尖峰能够提供纺织增量预测,或者从培训的较少量的测试数据预测。这对于提供输出即使具有用于低延迟应用的部分输入数据和需要快速预测的那些,这是非常宝贵的。我们评估了来自EV IMO,EED和MOD数据集的挑战综合性和现实世界序列的纺织尖峰,并以可比的ANN方法实现了PAR的结果,但使用可能的50倍的功率。 |
Network Architecture Search for Face Enhancement Authors Rajeev Yasarla, Hamid Reza Vaezi Joze, Vishal M Patel 各种因素,如环境照明条件,噪音,运动模糊等。影响捕获的面部图像的质量。质量较差的面部图像经常降低面部分析和识别系统的性能。因此,重要的是提高在这种条件下收集的面部图像的质量。我们提出了一个多任务面部恢复网络,称为网络架构搜索面部增强NASFE,其可以增强包含单个降级的差的质量面图像i.e.噪声或模糊或多重降低噪声模糊低光。在训练期间,NASFE使用存在于劣化图像中存在的人的清洁面部图像以提取用于恢复图像的特征的特征。此外,网络由身份丢失引导,使得在恢复的图像中保持形成的身份。此外,我们提出了一个网络架构在NASFE中的基于网络的融合网络,其融合了使用任务特定编码器提取的任务特定功能。我们在融合网络中介绍FFT OP和DeveIning运算符,以有效地熔断任务特定功能。综合性和真实图像的综合实验表明,在定量和视觉性能方面,所提出的方法优于最近最近的近期艺术面部恢复和增强方法。 |
Internet of Things (IoT) Based Video Analytics: a use case of Smart Doorbell Authors Shailesh Arya IoT Internet Internet的愿景现在是现实。物联网设备越来越便宜。它们变得越来越多地计算和节能。近年来,基于物联网视频分析的全球市场市场显着增长,预计将成为一个不断增长的市场部门。对于任何基于IOT的视频分析应用,需要几个关键点,例如成本效益,广泛使用,灵活的设计,精确的场景检测,框架的可重用性。基于视频的智能门铃系统是用于视频分析的一个这样的应用领域,其中许多商业产品都可以在消费市场上提供。然而,这些现有产品昂贵,单片和专有。此外,在准确性和可移植性之间将有折衷。为了解决预见的问题,我向视频分析提出了一种带有智能门铃系统的用例的分布式框架。建议的框架使用AWS云服务作为基础平台,并满足价格实惠的限制,系统是在实惠的覆盆子PI上实现的。智能门铃将能够以最精确识别为已知的未知人。智能门铃系统还具有额外的检测功能,例如有害武器检测,值得注意的车辆检测,动物宠物检测。专门为该实现开发了IOS应用程序,该实现可以实时接收智能门铃的通知。最后,本文还提到了视频分析的经典方法,它们在实现这种用例中实现的可行性,并且在进行帧中检测对象所需的准确度和时间方面的比较分析。结果得出结论,基于AWS云的方法对于这种智能门铃用例是值得的。 |
Comparing Human and Machine Deepfake Detection with Affective and Holistic Processing Authors Matthew Groh, Ziv Epstein, Chaz Firestone, Rosalind Picard 最近的EdioFake视频的出现导致了一个重要的社会问题,我们如何知道我们观看的视频是真实的或假装在三个在线研究中,我们呈现出真实的视频和Deewakes,并要求参与者识别哪个。我们比较普通参与者对领先的计算机视觉DeepFake检测模型的表现,并在制作不同类型的错误时发现它们同样准确。在一起,对模型的预测的访问者比单独更准确,但是不准确的模型预测通常会降低参与者的准确性。我们嵌入随机实验,发现偶然的愤怒降低参与者的性能和阻碍面孔的整体视觉处理也阻碍了参与者的表现,同时主要不影响模型的模型。这些结果表明,考虑到情感影响和采用专业的,普通人的整体视觉处理可能是对机器操纵媒体的承诺防御。 |
A Frequency Domain Constraint for Synthetic X-ray Image Super Resolution Authors Qing Ma, Jae Chul Koh, WonSook Lee 合成X射线图像可以有助于图像引导系统和VR模拟。然而,由于CT扫描分辨率,高计算资源需求或算法复杂性,因此难以实时生产高质量任意观看合成X射线图像。我们的目标是通过上采样的低分辨率im年代实时生成高分辨率合成X射线图像。基于参考的超分辨率Refsr近年来一直在很好地研究,并且已被证明比每分辨率SISR的传统单一图像苏更强大。 REFSR可以通过利用参考图像来产生细细节,但它仍然不可避免地产生一些伪影和噪声。在本文中,我们提出了具有频域TTSR FD的纹理变压器超级分辨率。我们将频域损耗引入了一个约束,以进一步提高REFSR结果的质量,并没有明显的伪影。这使得实时合成X射线图像引导程序VR仿真系统成为可能。据我们所知,这是利用频域作为超分辨率领域的损耗函数的一部分的第一篇论文。我们在合成X射线图像数据集中评估了TTSR FD并实现了最新的状态。 |
Fit4CAD: A point cloud benchmark for fitting simple geometric primitives in CAD models Authors Chiara Romanengo, Andrea Raffo, Yifan Qie, Nabil Anwer, Bianca Falcidieno 我们提出了Fit4CAD,是评估和比较拟合CAD模型的点云中简单几何基元的方法的基准。该基准测试旨在帮助两种方法开发人员和那些想要识别最佳执行工具的人。 FIT4CAD数据集由225个高质量点云组成,每个都通过采样CAD模型获得。使用现有平台和数据集创建这些元素的方式使得基准易于扩展。数据集已分成培训集和测试集。为了评估不同原始拟合方法的性能和准确性,定义了各种措施。为了证明FIT4CAD的有效使用,我们已经测试了属于两种不同类别的方法对原始拟合问题的两种方法,基于原始生长框架的聚类方法和基于Hough变换的参数方法。 |
Exploiting Aliasing for Manga Restoration Authors Minshan Xie, Menghan Xia, Tien Tsin Wong 作为一个受欢迎的娱乐艺术形式,漫画丰富了线条图纸细节与沥分截面。然而,由于扫描重构分辨率不适当,互联网上的漫画资源通常会显示截图伪影。在本文中,我们提出了一种创新的两个阶段方法,可以从退化中恢复高质量的沥青漫步。我们的关键观察是,下采样点形屏幕引起的锯齿化可以用作信息性线索以推断出原始分辨率和截图。首先,我们通过具有空间投票方案的规模估计网络SE网来预测来自降级的漫画的目标分辨率。然后,在目标分辨率下,我们通过漫画恢复网络净歧视地恢复该区域明智的点形屏幕,这取决于劣化程度。具体地,原始截列素在模式可识别区域中直接恢复,并且视觉上合理的截肢素在图案不可知区域中合成。对现实世界案例的合成数据和视觉评估的定量评估说明了我们方法的有效性。 |
Domestic waste detection and grasping points for robotic picking up Authors Victor De Gea, Santiago T. Puente, Pablo Gil 本文介绍了应用于位置和机器人抓的AI系统。实验设置基于一个参数研究,以基于面罩RCNN培训深度学习网络,在室内和室外环境中执行废物位置,使用五种不同的类,并生成新的废物数据集。最初,AI系统获取环境的RGBD数据,然后使用神经网络检测对象。稍后,使用网络结果和深度通道计算3D对象形状。最后,该形状用于计算具有两个手指夹具的机器人臂的抓握。目标是将垃圾分类为改善回收策略。 |
Dual-Attention Residual Network for Automatic Diagnosis of COVID-19 Authors Jun Shi, Huite Yi, Xiaoyu Hao, Hong An, Wei Wei 持续全球冠状病毒疾病2019年Covid 19对公共卫生和经济构成严重威胁。迅速准确地诊断Covid 19对于防止疾病的进一步传播并降低其死亡率至关重要。胸部计算断层扫描CT是早期诊断肺病,包括肺炎的有效工具。然而,从CT中检测Covid 19要求且易于人类误差,因为一些早期患者可能对图像产生负面发现。在这项研究中,我们提出了一种新的残余网络,可以使用CT图像自动识别来自其他常见肺炎和正常人的Covid 19。具体而言,我们使用改进的3D Reset18作为骨干网,其配备了频道明智的关注CA和深度明智的注意力DA模块,以进一步提高诊断性能。大型开源数据集上的实验结果表明,我们的方法可以将Covid 19与其他两类具有94.7精度,93.73灵敏度,98.28特异性,95.26 f1分数,以及0.99的接收器操作特性曲线Auc的区域方法。这些结果表明,该方法可能有助于临床医生对战斗Covid 19进行快速诊断。 |
XAI Handbook: Towards a Unified Framework for Explainable AI Authors Sebastian Palacio, Adriano Lucieri, Mohsin Munir, J rn Hees, Sheraz Ahmed, Andreas Dengel 可解释的领域艾Xai迅速成为一个繁荣和多产的界。但是,这一领域的沉默,经常性和承认的问题是缺乏关于其术语的共识。特别是,每个新贡献似乎依靠自己的和通常是直观的术语,如解释和解释。这种混乱妨碍了巩固领域的进步,以实现科学和监管要求,例如,当比较方法或建立偏见和公平制约的遵守情况时。我们提出了一个理论框架,不仅为这些术语提供了具体的定义,而且还概述了产生解释和解释所需的所有步骤。该框架还允许对中文化的现有贡献,使得可以测量它们的范围,从而使它们与其他方法相当。我们展示该框架符合关于解释的DesiderATA,可在解释性和评估指标上进行解释。我们提供了一个用例,展示了框架如何用于比较石灰,Shap和MDNet,建立其优势和缺点。最后,我们从我们框架的角度讨论了Xai的相关趋势以及未来工作的建议。 |
One Network to Solve Them All: A Sequential Multi-Task Joint Learning Network Framework for MR Imaging Pipeline Authors Zhiwen Wang, Wenjun Xia, Zexin Lu, Yongqiang Huang, Yan Liu, Hu Chen, Jiliu Zhou, Yi Zhang 磁共振成像MRI采集,重建和分割通常在MRI工作流程的传统实践中独立处理。很容易注意到这些任务之间存在显着相关性,并且此过程中的人为切断了这些潜在的连接,这可能导致对最终诊断失去临床重要信息。为了涉及这些潜在的关系进行进一步的性能改进,提出了一个顺序多任务联合学习网络模型,以便以可分散的方式训练结束到结束管道,旨在同时探索这些任务之间的相互影响。我们的设计由三个级联模块组成1深度采样模式学习模块优化具有预定采样率的k空间采样模式2深度重建模块专用于使用学习的采样模式3深段模块编码重建的MR图像来重建MR图像从以前的模块分段感兴趣的核糖。所提出的模型检索那些任务之间的潜在互动和循环关系,每个任务将是互利的。在MRB数据集中验证了所提出的框架,在重建和分割方面,在其他SOTA方法上实现了卓越的性能。 |
COVID-Net CXR-2: An Enhanced Deep Convolutional Neural Network Design for Detection of COVID-19 Cases from Chest X-ray Images Authors Maya Pavlova, Naomi Terhljan, Audrey G. Chung, Andy Zhao, Siddharth Surana, Hossein Aboutalebi, Hayden Gunraj, Ali Sabri, Amer Alaref, Alexander Wong 随着Covid 19流行病在全球范围内延续,使用胸部X射线CXR成像作为RT PCR测试的互补筛选策略仍然在呼吸投诉的常规临床用途中持续增长。作为CoVID网开源倡议的一部分,我们引入了Covid网CXR 2,这是Covid 19的增强的深度卷积神经网络设计,从CXR图像检测使用比原始Covid网的数量和多样性建造。为了促进这一点,我们还介绍了由至少51个国家的16,656名患者的跨国队列的19,203个CXR图像组成的新基准数据集,使其成为开放式访问表格中最大,最多的Covid 19 CXR数据集。 Covid Net CXR 2网络分别实现了灵敏度和阳性预测值95.5 97.0,并以透明和负责任的方式进行审计。解释性地在审计期间使用了驱动性能验证,以获得其决策行为的更深层次的见解,并确保临床相关因素被利用以改善其使用信任。还进行了放射学家的验证,其中两名董事会认证放射科医生分别审查并报告了有超过10岁至19年的经验,并表明Covid Net CXR 2的关键因素与放射学家解释一致。虽然不是生产准备的解决方案,但我们希望开源,开放式访问Covid网CXR 2和各自的CXR基准数据集将鼓励研究人员,临床科学家和公民科学家加速对抗大流行的进步和创新。 |
Stroke Lesion Segmentation with Visual Cortex Anatomy Alike Neural Nets Authors Chuanlong Li 脑血管事故或中风,是一种急性疾病,对患者和医疗保健系统产生极大影响,是全世界第二大死因。快速和精确的行程病变检测和位置是关于中风诊断,治疗和预后的极端重要的过程。除了手动分割和传统分割方法外,基于机器学习的分段方法是考虑效率和准确性最有前途的分割方法,而卷积神经网络的模型是其首先。然而,这些神经网络模型中的大多数并不与脑解剖结构对齐。直观地,这项工作提出了更具大脑相同的模型,其模仿人类视觉皮层的解剖结构。通过对行程病变分割任务的初步实验,发现所提出的模型能够同样适用于美术模型的一些状态。 |
CrossRoI: Cross-camera Region of Interest Optimization for Efficient Real Time Video Analytics at Scale Authors Hongpeng Guo, Shuochao Yao, Zhe Yang, Qian Zhou, Klara Nahrstedt 视频摄像机普遍部署在城市规模中,以获得公共良好或社区安全性,即交通监测或疑似人员跟踪。然而,实时分析大规模视频源是数据密集型的,并对今天的网络和计算系统构成严重挑战。我们呈现Crossroi,一种资源有效的系统,可通过利用视频内容关联和冗余,通过在相机的舰队中利用视频内容关联和冗余来实现实时视频分析。 Crossroi利用交叉摄像机观察字段的内在物理相关性,从而大大降低了通信和计算成本。 Crossroi在多个摄像机中除去相同对象的悔改外观,而不会损害场景的全面覆盖范围。 Crossroi以两个阶段运行的离线相位以建立交叉相机相关性,以及实时视频推断的有效的在线阶段。现实世界视频饲料的实验表明,与基线方法相比,Crossroi在实时视频分析应用中实现了42 65,对网络开销减少了42 65,对响应延迟的响应延迟减少了超过99个查询精度。如果与SOTA帧过滤系统集成,Crossroi的性能收益达到50 80个网络开销,33 61端以结束延迟。 |
Chinese Abs From Machine Translation |
Papers from arxiv.org
更多精彩请移步主页
pic from pexels.com