hitrjj

【今日CV 计算机视觉论文速览第100期】Mon, 15 Apr 2019

今日CS.CV 计算机视觉论文速览
Mon, 15 Apr 2019
Totally 37 papers
?上期速览 ✈更多精彩请移步主页

Interesting:

?MAANet多视角图像超分辨,通过局域注意力和全局注意力机制解决图像超分辨中高频信息缺失的问题，从局域和全局视角来分辨特征，并提出了基于注意力残差单元来便于深度网络的训练。(from 香港理工上海交大)

局域注意力机制：

全局注意力机制：

局域注意力残差块：

一些结果的恢复过程：

dataset:n DIV2K dataset [28], Set5 [5], Set14 [37], BSDS100 [1], Urban100 [14], and Manga109 [22].

?通过对抗样本分析并提高超分辨模型的鲁棒性, (from 延世大学 UCLA)
低分辨率图像中注入了很少的扰动，但对结果造成很大影响。基于I-FGSM [11]对抗攻击下超分辨的结果呈现出各式各样的畸变：

各种模型的鲁棒性：

?基于3D可变形模型和GAN的人脸去遮挡, 3DMM不仅作为几何先验，同时为局域判别器提供了人脸区域。利用全局和局域对抗网络实现了3D人脸的去遮挡，(from Inha University)

网络架构，包含了局域和全局的判别器，以及人脸部分的掩膜作为GT：

合成与真实数据结果：

dataset:300W-3D,AFLW2000-3D CelebA [16]

?Deep Dense Trajectory (DDT), The Sound of Motions, 从运动中分辨出声音的音源(from MIT)
从运动中分辨出两个个演奏者的音乐

网络包含了运动轨迹特征抽取、外部特征、视觉特征融合(作为声音分离的条件)、声音分离网络等四部分构成。

实验结果和相关方法比较：

从混合声音重分离出两个独立的声源：

数据集：MUSIC [52] and URMP [28].
video:https://www.youtube.com/watch?v=XDuKWUYfA_U

?LDTNet图像去雾,在图像去雾的同时估计了场景的投射图 (from 哈工程)
网络架构：

效果比较：

相关指标：airlight robustness evaluation (ARE), coefficient robustness evaluation (CRE), scale robustness evaluation (SRE) and noise robustness evaluation (NRE).
相关方法：DCP [17] CAP [34] MSCNN [24] DehazeNet [23] AOD-Net [25]

?暗光增强, (from 阿联酋人工智能感知研究院)

相关方法和数据集的比较：
dataset: See-in-the-Dark (SID)dataset [3]

?基于单个自编码器实现照片的编码重建，并通过隐空间编码生成新的高清图像, (from 芬兰阿尔托大学 GenMind)

一些结果：

相关方法：PIONEER networks，IntroVAE
相关数据集：CELEBA-HQ LSUN Bedrooms dataset
code:https://aaltovision.github.io/balanced-pioneer

?基于合成数据识别珍稀物种, 通过不同位姿、光照、模型和模拟法探究了合成数据提升野外识别效果。（小样本学习）合成数据可有效降低错误率，提升精度。(from 加州理工微软研究院)
四种合成方法与真实数据的比较：

?iWildCam数据集, 野外自动观察相机数据集，为了实现自动标注的挑战，包含了美国西南部143个地点的292732张图像(from 加州理工)

相关数据集：Caltech Camera Traps (CCT) dataset[19]
参考文献中有一堆合成方法和动物研究。

?PWOC-3D场景流估计方法, 从立体视觉图像序列中高效的预测出场景流（光流和立体匹配）、并学会如何处理遮挡场景。(from 德国AI研究中心DFKI)

金字塔层中的结构：

最终预测结果：

? Prior-aware Neural Network(PaNN)医学影像多器官分割网络, 通过器官大小的分布的先验知识，来训练网络获取领域知识，完成多器官分割。(from 约翰霍普金斯)
少部分完全分割图像和大部分部分只包含单个器官的分割图像：

得到了边缘较为清晰的分割结果：

相关数据集：
spleen segmentation dataset1 Available at http://medicaldecathlon.com
pancreas segmentation dataset2 Available at https://wiki.cancerimagingarchive.net/
display/Public/Pancreas-CT
3https://github.com/tensorflow/models/tree/
master/research/deeplab
4https://github.com/DLTK/DLTK

Daily Computer Vision Papers

Big but Imperceptible Adversarial Perturbations via Semantic Manipulation
Authors Anand Bhattad, Min Jin Chong, Kaizhao Liang, Bo Li, David A. Forsyth
机器学习，尤其是深度学习，广泛应用于计算机视觉，机器人和自然语言处理等一系列应用。然而，已经表明，机器学习模型容易受到对抗性的例子，精心设计的样本欺骗学习模型。深入研究对抗性示例可以帮助更好地了解潜在的漏洞，从而提高模型的稳健性。最近的作品引入了各种产生对抗性例子的方法。然而，所有这些都要求扰动具有小幅度的数学L p范数，使得人类难以察觉，这在实践中难以部署。在本文中，我们提出了两种新方法，tAdv和cAdv，它们利用纹理转移和着色来产生具有大数学L p范数的自然扰动。我们进行了大量实验，表明所提出的方法足以攻击ImageNet和MSCOCO数据集上的图像分类和图像字幕任务。此外，我们在各种条件下进行全面的用户研究，以表明即使扰动很大，我们生成的对抗性例子对人类也是不可察觉的。我们还评估了针对几种最先进防御的拟议攻击的可转移性和稳健性。

Prior-aware Neural Network for Partially-Supervised Multi-Organ Segmentation
Authors Yuyin Zhou, Zhe Li, Song Bai, Chong Wang, Xinlei Chen, Mei Han, Elliot Fishman, Alan Yuille
准确的多器官腹部CT分割对于许多临床应用是必不可少的，例如计算机辅助干预。由于数据注释需要来自经验丰富的放射科医师的大量人力，因此通常训练数据被部分标记，例如，胰腺数据集仅标记胰腺而将其余部分标记为背景。然而，这些背景标签在多器官分割中可能会产生误导，因为背景通常包含一些其他感兴趣的器官。为了解决这些部分标记的数据集中的背景模糊性，我们通过明确地将腹部器官大小的解剖学先验结合起来，提出先验感知神经网络PaNN，用领域特定知识指导训练过程。更具体地说，PaNN假设腹部的平均器官大小分布应该接近它们的经验分布，这是从完全标记的数据集获得的先前统计数据。由于我们的训练目标难以使用随机梯度下降20直接优化，我们建议以最小最大形式重新形成它并通过随机原始双梯度算法对其进行优化。 PaNN在MICCAI2015挑战Multi Atlas Labeling Beyond the Cranial Vault上实现了最先进的性能，这是一项关于腹部器官分割的竞赛。我们报告的平均骰子得分为84.97，超过现有技术的3.27。

Incremental multi-domain learning with network latent tensor factorization
Authors Adrian Bulat, Jean Kossaifi, Georgios Tzimiropoulos, Maja Pantic
深度学习的突出性，大量注释数据和越来越强大的硬件使得有可能在监督分类任务中达到显着的性能，在许多情况下使训练集饱和。然而，将学习的分类调整到新域仍然是一个难题，因为至少有三个原因1域和任务可能完全不同2新域上的注释数据量可能非常有限，而新域的3个完整培训由于深度网络参数的剪切数，每个新任务的模型在内存方面是禁止的。相反，新任务应该逐步学习，建立在已经学过的任务的先验知识的基础上，没有灾难性遗忘，即不损害先前任务的表现。据我们所知，本文提出了第一种多域任务学习方法，无需使用完全张量化的体系结构进行灾难性遗忘。我们的主要贡献是用于多域学习的方法，其将CNN内的相同结构化的块的组建模为高阶张量。我们证明了这种联合建模自然地利用了不同层之间的相关性，并且导致每个新任务域的表达比以前的方法更紧凑，这些方法侧重于分别调整每个层。我们将所提出的方法应用于视觉十项全能挑战赛的10个数据集，并表明我们的方法在分类准确度和迪卡侬评分方面平均提供约7.5倍的参数数量和优异的性能。特别是，我们的方法优于Visual Decathlon Challenge的所有先前工作。

GeoCapsNet: Aerial to Ground view Image Geo-localization using Capsule Network
Authors Bin Sun, Chen Chen, Yingying Zhu, Jianmin Jiang
交叉视图图像地理定位的任务旨在通过将查询地面视图图像与参考数据集中的GPS标记的航空卫星图像进行匹配来确定查询地面视图图像的地理位置GPS坐标。由于视点的剧烈变化，匹配交叉视图图像具有挑战性。在本文中，我们提出了基于胶囊网络的GeoCapsNet，用于地面到航空图像的地理定位。网络首先通过标准卷积层从地面视图和航空图像中提取特征，并且胶囊层进一步对特征进行编码以对空间特征层级进行建模并增强表示能力。此外，我们通过在线批量硬样本挖掘引入了一种简单有效的加权软边缘三元组损失，可以大大提高图像检索的准确性。实验结果表明，我们的GeoCapsNet明显优于两个基准数据集的最新技术方法。

ACE: Adapting to Changing Environments for Semantic Segmentation
Authors Zuxuan Wu, Xin Wang, Joseph E. Gonzalez, Tom Goldstein, Larry S. Davis
当深度神经网络在相同的数据分布上进行训练和测试时，它们表现出非凡的准确性。然而，当面对随时间发生的输入分布中的域移位变化时，神经分类器通常非常脆弱。我们提出了ACE，这是一种语义分段框架，可以随时动态适应不断变化的环境。通过将来自原始源域的标记训练数据的分布与移位域中的输入数据的分布对齐，ACE在其看到的环境中合成标记的训练数据。然后，使用此风格化数据更新分段模型，以使其在新环境中表现良好。为了避免忘记过去环境中的知识，我们引入了一个存储器来存储以前看到的域中的特征统计信息。这些统计数据可用于重放任何先前观察到的域中的图像，从而防止灾难性遗忘。除了使用随机梯度体面SGD的标准批量训练之外，我们还尝试了基于自适应元学习的快速自适应方法。对来自SYNTHIA的两个数据集进行了大量实验，结果证明了该方法在适应许多任务时的有效性。

MAANet: Multi-view Aware Attention Networks for Image Super-Resolution
Authors Jingcai Guo, Shiheng Ma, Song Guo
近年来，基于深度卷积神经网络DCNN的图像超分辨率SR在多媒体和计算机视觉社区中受到越来越多的关注，重点在于从低分辨率LR图像恢复高分辨率HR图像。然而，基于DCNN的方法的一个不可忽视的缺陷是它们中的大多数不能从具有低频信息冗余的低分辨率图像恢复包含足够高频信息的高分辨率图像。更糟糕的是，随着DCNN的深度增加，训练容易遇到梯度消失的问题，这使得训练更加困难。这些问题阻碍了DCNN在图像SR任务中的有效性。为了解决这些问题，我们提出了用于图像SR任务的多视图感知注意网络MAANet。具体而言，我们建议本地知晓的LA和全球意识的GA注意以不相等的方式处理LR特征，其可以突出高频分量并且分别在局部视图和全局视图中区分LR图像中的每个特征。此外，我们提出了局部注意力残留密集LARD模块，它将LA注意力与多个残余和密集连接相结合，以适应更深入，更易于训练的体系结构。实验结果表明，与其他最先进的方法相比，我们提出的方法可以获得显着的性能。

Generative Hybrid Representations for Activity Forecasting with No-Regret Learning
Authors Jiaqi Guan, Ye Yuan, Kris M. Kitani, Nicholas Rhinehart
关于未来人类行为的自动推理是辅助系统的重要实际应用的难题。部分困难源于学习系统无法表现各种行为。一些行为，例如运动，最好用连续表示来描述，而其他行为，例如拿起杯子，最好用离散表示来描述。此外，人的行为一般不固定，人们可以改变他们的习惯和惯例。这表明这些系统必须能够不断学习和适应。在这项工作中，我们开发了一种有效的深度生成模型，以共同预测一个人未来的离散动作和连续动作。在大规模的自我中心数据集EPIC KITCHENS中，我们观察到我们的方法生成高质量和多样化的样本，同时展示出比相关生成模型更好的泛化。最后，我们提出了一种变体，从流数据中不断学习我们的模型，观察其实际效果，并在理论上证明其学习效率。

Multimodal Machine Learning-based Knee Osteoarthritis Progression Prediction from Plain Radiographs and Clinical Data
Authors Aleksei Tiulpin, Stefan Klein, Sita M.A. Bierma Zeinstra, J r me Thevenot, Esa Rahtu, Joyce van Meurs, Edwin H.G. Oei, Simo Saarakkala
膝关节骨性关节炎OA是最常见的无法治愈的肌肉骨骼疾病，目前的治疗方案仅限于缓解症状。 OA进展的预测是一个非常具有挑战性和及时的问题，如果得到解决，它可以加速疾病调节药物的开发，并最终有助于防止每年进行数百万次全关节置换手术。在这里，我们提出了一种基于多模态机器学习的OA进展预测模型，该模型利用原始射线照相数据，临床检查结果和患者的既往病史。我们在来自2,129名受试者的3,918张膝关节图像的独立测试集上验证了这种方法。我们的方法在ROC曲线AUC为0.79 0.78 0.81，平均精度AP为0.68 0.66 0.70时产生面积。相比之下，基于逻辑回归的参考方法产生的AUC为0.75 0.74 0.77，AP为0.62 0.60 0.64。该方法可以显着改善OA药物开发试验的受试者选择过程，并有助于个性化治疗计划的发展。

Generalized Presentation Attack Detection: a face anti-spoofing evaluation proposal
Authors Artur Costa Pazo, David Jimenez Cabello, Esteban Vazquez Fernandez, Jose L. Alba Castro, Roberto J. L pez Sastre
在过去几年中，Presentation Attack Detection PAD已经成为面部识别系统的基本组成部分。尽管在反欺骗研究方面投入了大量精力，但在真实场景中的推广仍然是一项挑战。在本文中，我们提出了一个新的开源评估框架来研究面部PAD方法的泛化能力，在这里被创造为面向GPAD。该框架有助于创建侧重于泛化问题的新协议，建立公平的评估程序和PAD解决方案之间的比较。我们还引入了一个大型聚合和分类数据集，以解决公开数据集之间不兼容的问题。最后，我们提出了一个基准，增加了两个新的评估协议，一个用于测量面部分辨率变化引入的影响，另一个用于评估对抗性操作条件的影响。

Topological signature for periodic motion recognition
Authors Javier Lamar Leon, Rocio Gonzalez Diaz, Edel Garcia Reyes
在本文中，我们提出了一种算法，用于计算给定周期运动序列的拓扑签名。这种特征由通过持久同源性获得的矢量组成，该矢量捕获模拟运动的对象的拓扑和几何变化。简单地通过相应矢量之间的角度比较两个拓扑签名。关于步态识别，我们仅使用身体轮廓的最低四分之一测试了我们的方法。通过这种方式，在实际场景中非常频繁的身体上部变化的影响显着降低。我们还使用其他周期性运动（例如跑步或跳跃）测试了我们的方法。最后，我们正式证明了我们的方法对输入数据中的小扰动是鲁棒的，并且不依赖于周期运动序列中包含的周期数。

An Empirical Evaluation Study on the Training of SDC Features for Dense Pixel Matching
Authors Ren Schuster, Oliver Wasenm ller, Christian Unger, Didier Stricker
训练深度神经网络是一项非常重要的任务。不仅可以调整超参数，还可以收集和选择训练数据，设计损失函数以及构建训练计划对于充分利用模型非常重要。在这项研究中，我们进行了一系列与这些问题相关的实验。研究不同训练策略的模型是最近呈现的SDC描述符网络堆叠扩张卷积。它用于描述像素级别的图像，用于密集匹配任务。我们的工作更详细地分析了SDC，验证了深度神经网络训练的一些最佳实践，并提供了对多域数据训练的见解。

PWOC-3D: Deep Occlusion-Aware End-to-End Scene Flow Estimation
Authors Rohan Saxena, Ren Schuster, Oliver Wasenm ller, Didier Stricker
在过去几年中，卷积神经网络CNN已经证明在学习许多计算机视觉任务方面取得了越来越大的成功，包括密集估计问题，如光流和立体匹配。然而，这些任务的联合预测，称为场景流，传统上使用基于原始假设的慢经典方法来解决，这些方法未能概括。本文介绍的工作通过提出PWOC 3D克服了速度和准确性方面的这些缺点，PWOC 3D是一种紧凑的CNN架构，用于预测端到端监督设置中立体图像序列的场景流。此外，大的运动和遮挡是场景流估计中众所周知的问题。 PWOC 3D采用专门的设计决策来明确地模拟这些挑战。在这方面，我们提出了一种新颖的自我监督策略来预测从没有任何标记的遮挡数据的图像中的遮挡。利用多种此类构造，我们的网络在KITTI基准测试和具有挑战性的FlyingThings3D数据集上实现了竞争结果。特别是在KITTI上，PWOC 3D在端到端深度学习方法中排名第二，参数比最佳表现方法少48倍。

Face De-occlusion using 3D Morphable Model and Generative Adversarial Network
Authors Xiaowei Yuan, In Kyu Park
近几十年来，3D可变形模型3DMM已经普遍用于基于图像的照片级真实感3D面部重建。然而，面部图像经常被包括眼镜，面具和手的非面部物体严重遮挡而破坏。这些对象阻止正确捕获地标和阴影信息。因此，重建的3D人脸模型难以重复使用。本文提出了一种基于3DMM反向使用和生成对抗网络恢复被遮挡人脸图像的新方法。我们在提出的对抗网络之前使用3DMM，并结合全局和局部对抗卷积神经网络来学习面部遮挡模型。 3DMM不仅用作几何先验，还为局部鉴别器提出面部区域。实验结果证实了所提出的算法在去除具有各种头部姿势和照明的具有挑战性的遮挡类型方面的有效性和鲁棒性。此外，所提出的方法利用去遮挡纹理重建正确的3D面部模型。

Evaluating Robustness of Deep Image Super-Resolution against Adversarial Attacks
Authors Jun Ho Choi, Huan Zhang, Jun Hyuk Kim, Cho Jui Hsieh, Jong Seok Lee
单图像超分辨率旨在生成低分辨率图像的高分辨率版本，其在许多计算机视觉应用中充当必要组件。本文研究了基于深度学习的超分辨率方法对抗对抗性攻击的鲁棒性，这可以显着恶化超分辨率图像，而在受到攻击的低分辨率图像中没有明显的失真。已经证明，现有技术的深度超分辨率方法极易受到对抗性攻击。从理论上和实验上分析了不同方法的不同水平的鲁棒性。我们还分析了攻击的可转移性，以及针对性攻击和普遍攻击的可行性。

Digging Deeper into Egocentric Gaze Prediction
Authors Hamed R. Tavakoli, Esa Rahtu, Juho Kannala, Ali Borji
本文深入研究了影响自我中心凝视的因素。我们建议在日常工作中检查有助于注视引导的因素，而不是盲目地为此目的训练深层模型。与强空间先验基线相比，评估自下而上的显着性和光流。任务特定提示（例如消失点，操纵点和手区域）被分析为自上而下信息的代表。我们还通过研究自我中心凝视预测的简单递归神经模型来研究这些因素的贡献。首先，为所有输入视频帧提取深度特征。然后，使用门控递归单元随时间整合信息并预测下一次固定。我们还提出了一个集成模型，它将循环模型与几个自上而下和自下而上的线索相结合。在多个数据集上进行的大量实验表明，自我中心视频中有1个空间偏差很强，2个自下而上显着模型在预测凝视和表现空间偏差方面表现不佳，3个深度特征与传统特征相比表现更好，4与手部区域相比，操纵点是凝视预测的一个强有力的影响因素，5将提出的复发模型与自下而上的线索，消失点相结合，特别是操纵点导致对自我中心视频的最佳凝视预测准确性，6知识转移最适用于任务或序列是相似的，7任务和活动识别可以受益于凝视预测。我们的研究结果表明，1应该更多地强调手对象的相互作用，2自我中心视觉社区应该考虑更大的数据集，包括不同的刺激和更多的主题。

Multi-View Region Adaptive Multi-temporal DMM and RGB Action Recognition
Authors Mahmoud Al Faris, John P. Chiverton, Yanyan Yang, David L. Ndzi
人类行为识别仍然是一项重要而又具有挑战性这项工作提出了一种新颖的行动识别系统它使用新颖的多视图区域自适应多分辨率时间深度运动图MV RAMDMM公式结合外观信息。多流3D卷积神经网络CNN在区域自适应深度运动图的不同视图和时间分辨率上进行训练。合成多个视图以增强视图不变性。基于局部运动的区域自适应权重，强调和区分具有更快运动的动作的部分。还包括用于多时间分辨率外观信息RGB的专用3D CNN流。这些有助于识别和区分小对象交互。这里使用预先训练的3D CNN，对每个流进行微调，以及多类支持向量机SVM。平均分数融合用于输出。所开发的方法能够识别人类行为和人类对象的相互作用。三个公共领域数据集（包括MSR 3D Action，西北UCLA多视图操作和MSR 3D日常活动）用于评估建议的解决方案。实验结果证明了该方法与现有算法相比的鲁棒性。

Unifying Heterogeneous Classifiers with Distillation
Authors Jayakorn Vongkulbhisal, Phongtharin Vinayavekhin, Marco Visentini Scarzanella
在本文中，我们研究了将一组具有不同体系结构和目标类的分类器中的知识统一到单个分类器中的问题，只给出了一组通用的未标记数据。我们将此问题称为统一异构分类器UHC。该问题的动机是从多个源收集数据的情况，但是例如由于隐私问题，源不能共享其数据，并且只能共享经过私人训练的模型。此外，由于每个源的数据可用性，每个源可能无法收集数据以训练所有类，并且由于不同的计算资源，可能无法训练相同的分类模型。为了解决这个问题，我们提出了将知识蒸馏概括为合并HC的概括。我们推导出HC的输出与所有类别的概率之间的概率关系。基于这种关系，我们提出了两类基于交叉熵最小化和矩阵因子分解的方法，它们允许我们从未标记的样本中估计所有类的软标签，并使用它们代替地面实况标签来训练统一的分类器。我们在ImageNet，LSUN和Places365数据集上的广泛实验表明，我们的方法明显优于蒸馏的天然延伸，并且可以实现与以集中，监督方式训练的分类器几乎相同的精度。

Unsupervised Method to Localize Masses in Mammograms
Authors Bilal Ahmed Lodhi
乳腺癌是最常见和最普遍的癌症类型之一，主要影响女性人群。早期诊断有效治疗的机会增加。乳房X线照相术被认为是早期诊断乳腺癌的有效且经过验证的技术之一。肿块周围的组织看起来相同，这使得自动检测过程成为一项非常具有挑战性的任务。它们与周围的薄壁组织无法区分。在本文中，我们提出了一种有效的自动化方法来分割乳房X线照片中的肿块。所提出的方法使用分层聚类来隔离显着区域，然后提取特征以拒绝错误检测。我们将我们的方法应用于两个流行的公开数据集mini MIAS和DDSM。随机选择来自迷你mias数据库的56个图像和来自DDSM的76个图像。根据ROC接收器操作特性曲线解释结果并与其他技术进行比较。实验结果证明了该系统在乳房X线照片中自动质量识别的效率和优势。

Adaptive Weighting Multi-Field-of-View CNN for Semantic Segmentation in Pathology
Authors Hiroki Tokunaga, Yuki Teramoto, Akihiko Yoshizawa, Ryoma Bise
自动数字组织病理学图像分割是帮助病理学家诊断肿瘤和癌症亚型的重要任务。对于癌症亚型的病理诊断，病理学家通常改变整个载玻片图像WSI观察者的放大率。一个关键假设是放大倍数的重要性取决于输入图像的特征，例如癌症亚型。在本文中，我们提出了一种新的语义分割方法，称为自适应加权多视场CNN AWMF CNN，可以自适应地使用来自不同放大率的图像的图像特征来分割输入图像中的多个癌症亚型区域。所提出的方法通过根据输入图像自适应地改变每个专家的权重来聚合几个专家CNN用于不同放大率的图像。它利用可能对识别子类型有用的不同放大率的图像中的信息。它在实验中胜过其他最先进的方法。

EvalNorm: Estimating Batch Normalization Statistics for Evaluation
Authors Saurabh Singh, Abhinav Shrivastava
批量标准化BN对于深度学习非常有效并且被广泛使用。然而，当使用小型微型培训时，使用BN的模型表现出性能的显着降低。在本文中，我们研究了BN的这种特殊行为，以便更好地理解问题，并根据统计洞察确定潜在原因。我们建议EvalNorm通过估计在评估期间用于BN的校正归一化统计来解决该问题。 EvalNorm支持在训练模型时在线估计校正后的统计数据，并且不会影响模型的训练方案。因此，EvalNorm的一个附加优势是它可以与现有的预训练模型一起使用，从而使它们能够从我们的方法中受益。 EvalNorm为使用较小批次训练的模型带来了巨大的收益。我们的实验表明，对于ImageNet验证集上的2个批量大小，EvalNorm执行6.18绝对优于vanilla BN，并且在各种设置中，COCO对象检测基准上的绝对增益为1.5到7.0个点。

Cycle-Consistent Adversarial GAN: the integration of adversarial attack and defense
Authors Lingyun Jiang, Kai Qiao, Ruoxi Qin, Linyuan Wang, Jian Chen, Haibing Bu, Bin Yan
在深度学习的图像分类中，用于增加小幅度扰动的输入的对抗性示例可能误导深度神经网络DNN到不正确的结果，这意味着DNN易受它们的攻击。为了更好地研究深度学习的机制，已经提出了不同的攻防策略。然而，这些网络中的研究仅仅针对一个方面，无论是攻击还是防御，不考虑攻击和防御应该相互依赖和相互加强，就像长矛和盾牌之间的关系一样。在本文中，我们提出循环一致性对抗性GAN CycleAdvGAN来生成对抗性示例，其可以学习和近似原始实例和对抗性示例的分布。对于CycleAdvGAN，一旦生成并且经过训练，就可以有效地为任何实例生成对抗性扰动，从而使DNN预测错误，并恢复对抗性实例来清理实例，从而使DNN预测正确。我们在两个公共数据集MNIST和CIFAR10上的半白盒和黑盒设置下应用CycleAdvGAN。通过广泛的实验，我们证明了我们的方法已经达到了最先进的对抗攻击方法，并且有效地提高了防御能力，使得对抗攻击和防御的整合成为现实。此外，它还改进了攻击效果，仅对任何类型的对抗性攻击所产生的对抗性数据集进行训练。

A Light Dual-Task Neural Network for Haze Removal
Authors Yu Zhang, Xinchao Wang, Xiaojun Bi, Dacheng Tao
单一图像去雾是一个具有挑战性的问题，因为它具有不良的性质。现有方法依赖于次优的两步法，其中估计诸如深度图的中间产品，基于该中间产品随后使用人工先验公式生成无雾图像。在本文中，我们提出了一种称为LDTNet的轻型双任务神经网络，可以一次性恢复无雾图像。我们使用传输图估计作为辅助任务来辅助主要任务，雾霾去除，特征提取以及增强网络的泛化。在LDTNet中，同时产生无雾度图像和透射图。结果，人工先验减少到最小程度。大量实验表明，我们的算法在合成和真实世界图像上都能够针对最先进的方法实现卓越的性能。

Real-Time Dense Stereo Embedded in A UAV for Road Inspection
Authors Rui Fan, Jianhao Jiao, Jie Pan, Huaiyang Huang, Shaojie Shen, Ming Liu
路面状况评估对于确保其可维护性至关重要，同时仍能提供最大的道路交通安全。本文介绍了一种嵌入无人机无人机的鲁棒立体视觉系统。首先将目标图像的透视图变换为参考视图，这不仅提高了视差精度，而且降低了算法的计算复杂度。然后使用双边滤波器对立体匹配产生的成本量进行滤波。后者已被证明是完全连通马尔可夫随机场模型中功能最小化问题的可行解。最后，通过相对于侧倾角和视差投影模型最小化能量函数来变换视差图。这使受损的道路区域更加与路面区分开来。所提出的系统在具有CUDA的NVIDIA Jetson TX2 GPU上实现，用于实时目的。通过实验证明，可以容易地将受损的道路区域与变换的视差图区分开。

A New Loss Function for CNN Classifier Based on Pre-defined Evenly-Distributed Class Centroids
Authors Qiuyu Zhu, Pengju Zhang, Xin Ye
随着近年来卷积神经网络CNN的发展，网络结构变得越来越复杂多变，在模式识别，图像分类，目标检测和跟踪方面取得了很好的效果。对于用于图像分类的CNN，除了网络结构外，现在越来越多的研究关注于损失函数的改进，从而扩大类间特征差异，并尽快减少类内特征变化。。除了传统的Softmax之外，典型的损耗函数包括L Softmax，AM Softmax，ArcFace和Center loss等。基于CSAE网络中预定义均匀分布的类质心PEDCC的概念，本文提出了一种基于PEDCC的损失函数，称为PEDCC Loss，这可以使隐藏的特征空间中的类间距离最大和类内距离足够小。多个图像分类和人脸识别实验证明，该方法具有最佳的识别精度，网络训练稳定，易于收敛。

An Introduction to Person Re-identification with Generative Adversarial Networks
Authors Hamed Alqahtani, Manolya Kavakli Thorne, Charles Z. Liu
人格识别是计算机视觉领域的基础课程。传统方法在解决复杂背景下的遮挡，姿势变化和特征变化等人物照明问题上存在一些局限性。幸运的是，深度学习范式开辟了人物识别研究的新途径，成为该领域的热点。生成性对抗网在过去几年中，GAN在解决这些问题时引起了很多关注。本文回顾了基于GAN的人员识别方法，重点关注不同基于GAN的框架的相关论文，并讨论了它们的优缺点。最后，提出了未来研究的方向，特别是基于GAN的人员识别方法的前景。

The iWildCam 2018 Challenge Dataset
Authors Sara Beery, Grant van Horn, Oisin MacAodha, Pietro Perona
相机陷阱是研究生物多样性的有用工具，但使用这些数据的研究受到人类注释速度的限制。由于现有大量数据，我们必须开发自动解决方案来注释相机陷阱数据，以便进行此项研究。一种有前景的方法是基于对人类注释图像进行训练的深度网络。我们提供了一个挑战数据集，以探索这些解决方案是否可以推广到新的位置，因为经过一次训练并可能部署在新位置自动运行的系统将是最有用的。

Cramnet: Layer-wise Deep Neural Network Compression with Knowledge Transfer from a Teacher Network
Authors Jon Hoffman
神经网络完成了惊人的事情，但它们受到限制其使用的计算和内存瓶颈的影响。没有比在移动领域更好地看到这一点，在移动领域，正在创建专门的硬件以满足对神经网络的需求。以前的研究表明，神经网络的连接数量远远超过实际工作所需的连接数。本文开发了一种方法，可以将网络压缩到小于10的内存和小于25的计算能力，而不会损失准确性，并且不会创建需要特殊代码运行的稀疏网络。

The Sound of Motions
Authors Hang Zhao, Chuang Gan, Wei Chiu Ma, Antonio Torralba
声音源于物体运动和周围空气的振动。受到人类能够从物体如何在视觉上移动来解释声源这一事实的启发，我们提出了一种新颖的系统，该系统明确地捕获了声音定位和分离任务的运动提示。我们的系统由一个名为Deep Dense Trajectory DDT的端到端可学习模型和一个课程学习方案组成。它利用了来自大量未标记视频的视听信号的固有连贯性。定量和定性评估表明，与先前依赖视觉外观线索的模型相比，我们的基于动作的系统提高了分离乐器声音的性能。此外，它将声音组件与同类仪器的二重奏分开，这是一个以前没有解决过的具有挑战性的问题。

TAFE-Net: Task-Aware Feature Embeddings for Low Shot Learning
Authors Xin Wang, Fisher Yu, Ruth Wang, Trevor Darrell, Joseph E. Gonzalez
学习图像的良好特征嵌入通常需要大量的训练数据。因此，在训练数据受限的设置中，例如，少量镜头和零镜头学习，我们通常被迫使用嵌入各种任务的通用特征。理想情况下，我们希望构建针对给定任务进行调整的要素嵌入。在这项工作中，我们建议任务感知特征嵌入网络TAFE网络学习如何以元学习方式使图像表示适应新任务。我们的网络由元学习器和预测网络组成。基于任务输入，元学习器生成预测网络中的特征层的参数，使得可以针对该任务精确地调整特征嵌入。我们证明TAFE Net在推广新任务或概念方面非常有效，并且在零射击和少射击学习的一系列基准测试中评估TAFE网络。我们的模型在所有任务上都达到或超过了最新技术水平。特别地，我们的方法在具有挑战性的视觉属性对象组合任务上将未看见的属性对象对的预测准确度提高了4到15个点。

Automatic Pulmonary Nodule Detection in CT Scans Using Convolutional Neural Networks Based on Maximum Intensity Projection
Authors Sunyi Zheng, Jiapan Guo, Xiaonan Cui, Raymond N. J. Veldhuis, Matthijs Oudkerk, Peter M.A.van Ooijen
计算机断层扫描中准确的肺结节检测是肺癌筛查中的关键步骤。计算机辅助检测CAD系统不是常规用于临床实践中肺结节检测的放射科医师，尽管它们具有潜在的益处。最大强度投影MIP图像通过计算机断层扫描CT扫描改善了放射学评估中肺结节的检测。在这项工作中，我们旨在探索利用MIP图像提高卷积神经网络CNNs自动检测肺结节的有效性的可行性。我们提出了一种基于CNN的方法，该方法将不同厚度的5mm，10mm，15mm和1mm平板多平面重建MPR图像的MIP图像作为输入。这种方法利用更具代表性的空间信息来增强2D D CT图像，这有助于通过其形态从血管中区分出结节。我们使用从七个学术中心收集的公共LUNA16集来训练和测试我们的方法。我们提出的方法在该数据集中实现了91.13的灵敏度，每次扫描具有1个假阳性，灵敏度为94.13，每次扫描有4个假阳性用于肺结节检测。使用厚MIP图像有助于检测3mm 10mm的小肺结节并获得较少的假阳性。实验结果表明，应用MIP图像可以提高灵敏度，降低假阳性数，证明了基于CNN框架的CT扫描自动肺结节检测的有效性和重要性。索引术语计算机辅助检测CAD，卷积神经网络CNNs，计算机断层扫描，最大强度投影MIP，肺结节检测

Absolute Human Pose Estimation with Depth Prediction Network
Authors M rton V ges, Andr s L rincz
3D人体姿势估计的常见方法是预测相对于臀部的身体关节坐标。这适用于单个人，但在多个交互人员的情况下是不够的。预测绝对坐标的方法首先估计根相对姿势，然后通过辅助优化任务计算转换。我们提出了一种神经网络，它可以预测相机中心坐标系中的关节，而不是相对于根的坐标系。与以前的方法不同，我们的网络只需一步即可完成，无需任何后期处理。我们的网络优于MuPoTS 3D数据集的先前方法，并实现最先进的结果。

Learning Digital Camera Pipeline for Extreme Low-Light Imaging
Authors Syed Waqas Zamir, Aditya Arora, Salman Khan, Fahad Shahbaz Khan, Ling Shao
在低光条件下，传统的相机成像管道产生亚最佳图像，由于低光子计数和低信噪比SNR，这些图像通常是暗的和有噪声的。我们提出了一种数据驱动方法，该方法可以学习曝光良好的图像所需的属性，并将它们反映在极低环境光环境中捕获的图像中，从而显着改善这些低光图像的视觉质量。我们提出了一种新的损失函数，它利用像素和感知指标的特征，使我们的深度神经网络能够学习相机处理流程，将短曝光，低光RAW传感器数据转换为曝光良好的sRGB图像。结果表明，根据心理物理测试以及像素标准度量和最近基于学习的感知图像质量测量，我们的方法优于现有技术。

Synthetic Examples Improve Generalization for Rare Classes
Authors Sara Beery, Yang Liu, Dan Morris, Jim Piavis, Ashish Kapoor, Markus Meister, Pietro Perona
检测和分类图像中罕见事件的能力具有重要的应用，例如，在研究生物多样性时计算稀有和濒危物种，或检测对自驾车造成危险的不常见的交通场景。很少有镜头学习是一个开放的问题，当前的计算机视觉系统很难对他们在训练期间很少看到的物体进行分类，并且收集足够数量的罕见事件的训练样本通常具有挑战性且昂贵，有时甚至是不可能的。我们深入探讨了这个问题的方法，用特殊的模拟数据补充了少数可用的训练图像。

Boundary-Preserved Deep Denoising of the Stochastic Resonance Enhanced Multiphoton Images
Authors Sheng Yong Niu, Lun Zhang Guo, Yue Li, Tzung Dau Wang, Yu Tsao, Tzu Ming Liu
随着生物医学研究中高速和深部组织成像的快速发展，迫切需要找到一种稳健有效的去噪方法来保留形态特征，以进行进一步的纹理分析和分割。传统的去噪滤波器和模型可以很容易地抑制高对比度图像中的微扰噪声。然而，对于低光子预算的多光子图像，高检测器增益不仅会增强信号，还会带来巨大的背景噪声。在这种成像的随机共振方案中，可以借助噪声检测亚阈值信号。因此，非常需要能够巧妙地去除噪声而不牺牲诸如单元边界的重要细胞特征的去噪滤波器。在本文中，我们提出了一种基于卷积神经网络的自动编码器方法，即全卷积深度去噪自动编码器DDAE，以提高三光子荧光3PF和三次谐波产生THG显微图像的质量。获取的给定位置的200个图像的平均值用作DDAE训练的低噪声答案。与其他广泛使用的去噪方法相比，我们的DDAE模型对3PF和THG分别表现出更好的信噪比26.6和29.9，3PF和THG的结构相似性分别为0.86和0.87，以及核或细胞边界的保留。

Compressing deep neural networks by matrix product operators
Authors Ze Feng Gao, Song Cheng, Rong Qiang He, Z. Y. Xie, Hui Hai Zhao, Zhong Yi Lu, Tao Xiang
深度神经网络是根据许多交替排列的线性和非线性变换的信号的多层映射的参数化。线性变换通常用于完全连接和卷积层，包含训练和存储的大多数变分参数。压缩深度神经网络以减少变分参数的数量而不是其预测能力是建立优化方案以有效地训练这些参数和降低过度拟合风险的重要但具有挑战性的问题。在这里，我们表明通过用矩阵乘积算子MPO表示线性变换可以有效地解决这个问题。我们在五个主要的神经网络中测试了这种方法，包括FC2，LeNet 5，VGG，ResNet和DenseNet两个广泛使用的数据集，即MNIST和CIFAR 10，并发现这个MPO表示确实建立了忠实和有效的映射输入和输出信号，可以显着减少参数数量，从而保持甚至提高预测精度。

Towards Photographic Image Manipulation with Balanced Growing of Generative Autoencoders
Authors Ari Heljakka, Arno Solin, Juho Kannala
我们建立在逐步增长的生成自动编码器模型的最新进展的基础上。这些模型可以编码和重建现有图像，并以与生成对抗网络GAN相当的分辨率生成新的图像，同时仅由单个编码器和解码器网络组成。重建和任意修改现有样本（如图像）的能力将自动编码器模型与GAN分开，但图像自动编码器的输出质量仍然较差。最近提出的PIONEER自动编码器可以在256次256 CelebAHQ数据集中重建面部，但是像最近的另一种方法IntroVAE一样，它常常会失去过程中人的身份。我们提出了PIONEER的改进和简化版本，并在视觉和数量上显示了CelebAHQ中面部身份的显着改善的质量和保存。我们还通过定量和通过逼真的图像特征操作来显示模型潜在空间的现有技术解开的证据。在LSUN Bedrooms数据集上，我们的模型还改进了原始PIONEER的结果。总的来说，我们的结果表明，PIONEER网络提供了一种照片般逼真的面部操作方法。

Evaluating the Representational Hub of Language and Vision Models
Authors Ravi Shekhar, Ece Takmaz, Raquel Fern ndez, Raffaella Bernardi
在计算语言学和计算机视觉交叉领域的新兴领域中使用的多模式模型实现了认知科学中提出的Hub和Spoke架构的自下而上的处理，以表示大脑如何处理和组合多个感官输入。特别地，Hub被实现为神经网络编码器。我们研究了文献视觉问题回答，视觉参考分辨率和视觉基础对话中提出的各种视觉和语言任务对该编码器的影响。为了测量编码器学习的表示的质量，我们使用两种分析。首先，我们评估在不同视觉和语言任务上预先训练的编码器，用于评估多模态语义理解的现有诊断任务。其次，我们进行了一系列分析，旨在研究编码器如何合并和利用这两种模式。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pixels.com

你可能感兴趣的:(目标检测,视觉,计算机视觉,机器学习,深度学习)

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
ThinkSound V2版 - 一键给无声视频配音，为AI视频生成匹配音效支持50系显卡一键整合包下载昨日之日2006 ai语音音视频人工智能
ThinkSound是阿里通义实验室开源的首个音频生成模型，它能够让AI像专业“音效师”一样，根据视频内容生成高度逼真、与视觉内容完美契合的音频。ThinkSound可直接应用于影视后期制作，为AI生成的视频自动匹配精准的环境噪音与爆炸声效；服务于游戏开发领域，实时生成雨势变化等动态场景的自适应音效；同时可以无障碍视频生产，为视障用户同步生成画面描述与环境音效。今天分享的ThinkSoundV2版
【目标检测】机场内部目标检测数据集4106张YOLO+VOC格式
数据集格式：VOC格式+YOLO格式压缩包内含：3个文件夹，分别存储图片、xml、txt文件JPEGImages文件夹中jpg图片总计：4106Annotations文件夹中xml文件总计：4106labels文件夹中txt文件总计：4106标签种类数：7标签名称:["Ground_vehicles","Horizontal_sign","Runaway_limit","Taxiway","Ver
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
反光衣识别漏检率 30%？陌讯多尺度模型实测优化
在建筑工地、交通指挥等场景中，反光衣是保障作业人员安全的重要装备，对其进行精准识别是智能监控系统的核心功能之一。但传统视觉算法在实际应用中却屡屡碰壁：强光下反光衣易与背景混淆、远距离小目标漏检率高达30%、复杂场景下模型泛化能力不足[实测数据来源：某智慧工地项目2024年Q1日志]。这些问题直接导致安全监控系统预警滞后，给安全生产埋下隐患。一、技术解析：反光衣识别的核心难点与陌讯算法创新反光衣识别
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
AI 图像编辑提示词参考之：背景替换
在AI图像编辑中（以FluxKontext为例），“替换背景”（BackgroundReplacement）是提升图像表现力的关键手段之一。但背景更换不仅仅是简单的视觉置换，更重要的是：确保人物主体外观不变，并与新背景在色温、色调、光影等方面自然融合。只有这样，最终图像才会呈现出“原本拍摄于该背景环境”的真实感。建议使用以下结构组织提示词：Replacethebackgroundwith[新背景]
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
探索WPF界面的神器：Snoop 伍霜盼Ellen
探索WPF界面的神器：Snoop项目地址:https://gitcode.com/gh_mirrors/sno/snoopwpfSnoop是一款由PeteBlois发起，并由BastianSchmidt维护的开源WPF应用监视工具。它提供了一种无需调试器就能浏览和操作任何运行中WPF应用程序视觉、逻辑和自动化树的强大功能。无论是修改属性值、查看触发器还是在属性变化时设置断点，Snoop都能轻松应对
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
目标检测中的NMS算法详解
好的，我们来详细解释一下目标检测中非极大值抑制（Non-MaximumSuppression,NMS）的相关概念和计算过程。1.为什么需要NMS？问题：目标检测模型（如FasterR-CNN,YOLO,SSD等）在推理时，对于同一个目标物体，通常会预测出多个重叠的、不同置信度（confidencescore）的候选边界框（BoundingBoxes）。直接输出所有这些框会导致：结果冗余：同一个物体
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
用Python和OpenCV从零搭建一个完整的双目视觉系统（三） presenttttt 双目立体视觉数码相机
本系列文章旨在系统性地阐述如何利用Python与OpenCV库，从零开始构建一个完整的双目立体视觉系统。本项目github地址：https://github.com/present-cjn/stereo-vision-python.git在上一篇文章中，我们为项目设计了清晰的架构。现在，我们将深入第一个，也是整个双目视觉系统最关键的模块——相机标定(CameraCalibration)。如果说双目
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
虚拟视频器：为QQ等通讯软件添加创意功能 TEDDYYW
本文还有配套的精品资源，点击获取简介：虚拟视频技术提供了一种模拟摄像头的新方法，使得用户能创建虚拟的视频源，用于在线视频通话中展示预定内容而非真实画面。该软件支持QQ、MSN等主流通讯工具，使用户能控制和自定义视频通话的呈现方式。通过使用虚拟视频器，用户可以在各种场景下（如在线演示、隐私保护、教育培训和艺术创作）展示静态图像、预录制视频或实时视觉效果，增强视频通信的个性化和灵活性。1.虚拟视频技术
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found

【今日CV 计算机视觉论文速览 第100期】Mon, 15 Apr 2019

Interesting:

Daily Computer Vision Papers

你可能感兴趣的:(目标检测,视觉,计算机视觉,机器学习,深度学习)

【今日CV 计算机视觉论文速览第100期】Mon, 15 Apr 2019