hitrjj

【AI视野·今日CV 计算机视觉论文速览第227期】Fri, 25 Jun 2021

AI视野·今日CS.CV 计算机视觉论文速览
Fri, 25 Jun 2021
Totally 63 papers
上期速览✈更多精彩请移步主页

Interesting:

*****VOLO, 基于局域编码增强token的新型视觉识别模块(from Sea AI Lab National University of Singapore)
code:https://github.com/sail-sg/volo
图像分类指标榜单：https://paperswithcode.com/sota/image-classification-on-imagenet

***Video Swin Transformer, 视觉transformer用于视频预测(from MSRA)

code:https://github.com/SwinTransformer/Video-Swin-Transformer

***Learning by Planning, 基于语言的全局图像编辑模型 (from 罗彻斯特大学 cvpr2021)

code: https://jshi31.github.io/T2ONet/

***AudioCLIP, 文本、语音和视频模型多模态(from TU Kaiserslautern)

code:https://github.com/AndreyGuzhov/AudioCLIP
dataset: Composite CLIP Dataset ImageNet AudioSet UrbanSound8K ESC-50

**MatchVIE, 实体相关性抽取与匹配。(from 南方科技大学)

code: https://www.pazhoulab.com/ scut.edu.cn

FaDIV-Syn, 与深度独立的快速场景合成 (from 波恩大学)

Sparse Needlets, 场景光源估计新方法 (from 南洋理工)

SGTBN,单根激光雷达探测线辅助的深度估计方法。(from )

自动驾驶中多模态三维目标检测综述, (from 中科大)

Florida Wildlife Camera Trap Dataset,触发相机的小动物数据集 (from University of Central Florida)

, (from )

AVHYAS, 开放的高光谱数据处理分析平台(from Space Applications Centre, ISRO, Ahmedabad, Gujarat, India)

Deep Fake Detection综述, (from AITR india )

Fuji，开源生物图像处理软件。 (from …)

code：https://imagej.net/software/fiji/

Daily Computer Vision Papers

Video Swin Transformer
Authors Ze Liu, Jia Ning, Yue Cao, Yixuan Wei, Zheng Zhang, Stephen Lin, Han Hu
愿景界正在目睹从CNN到变形金刚的模型转变，纯变压器架构在主要视频识别基准上实现了最高准确性。这些视频型号全部基于整体跨空间和时间尺寸的变压器图层构建。在本文中，我们提倡视频变压器中的局部局部偏差，与之前的方法相比，与空间时间分解相比，与以前的方法计算出自我注意的方法，导致更好的速度准确性折衷。通过调整为图像域设计的Swin变压器来实现所提出的视频架构的局部性，同时继续利用预训练图像模型的功率。我们的方法在广泛的视频识别基准上实现了最新的技术准确性，包括在动作识别84.9上的动力学400和86.1前1个精度。 69.6在v2的东西上的1个高精度。代码和模型将公开可用

HyperNeRF: A Higher-Dimensional Representation for Topologically Varying Neural Radiance Fields
Authors Keunhong Park, Utkarsh Sinha, Peter Hedman, Jonathan T. Barron, Sofien Bouaziz, Dan B Goldman, Ricardo Martin Brualla, Steven M. Seitz
神经辐射田间NERF能够重建具有前所未有的保真度的场景，并且各种最近的作品延长了NERF来处理动态场景。重建这种非刚性场景的常见方法是通过使用从每个输入图像中的坐标中的学习变形字段映射到规范模板坐标空间。然而，这些基于变形的方法努力模拟拓扑的变化，因为拓扑变化需要变形场中的不连续性，但这些变形字段必须连续。我们通过将NERFS提升到更高的尺寸空间，并且通过将每个单独的输入图像表示为切片，通过该超空间来解决这些限制。我们的方法是通过级别设置方法的启发，该方法将表面的演变模拟通过更高的尺寸表面作为切片。我们在两个任务中评估我的方法，即在瞬间，即场景的配置之间平稳地，在输入图像中看到的，同时保持视觉合理性，以及在固定时刻的综合。我们展示我们的方法，我们将Hivernerf提供优于两项任务的现有方法，通过显着的利润。与NERFIES相比，HypernerF通过LPIP测量的新型视图合成的插值和8.8来减少8.6的平均误差率。

AutoAdapt: Automated Segmentation Network Search for Unsupervised Domain Adaptation
Authors Xueqing Deng, Yi Zhu, Yuxin Tian, Shawn Newsam
当大量注释的数据可用时，神经网络的语义分割已经取得了显着的结果，即在监督箱中。然而，这些数据收集昂贵，因此已经开发了方法以适应培训的模型，这些模型通常是易于获得的标签的合成数据。当前的适应方法不考虑这些模型对网络架构的泛化可转移性的依赖性。在本文中，我们执行神经结构搜索NAS，为域适应提供体系结构级透视和分析。我们确定搜索域为无监督域适应的架构时存在的优化差距，这使得该NAS问题唯一困难。我们提出通过使用最大平均差异和区域加权熵来弥合来估计准确度指标的缩小。关于若干广泛采用的基准测试的实验结果表明，我们提出的Autoadapt框架确实发现了提高了许多现有适应技术的性能的架构。

Depth Confidence-aware Camouflaged Object Detection
Authors Jing Zhang, Yunqiu Lv, Mochu Xiang, Aixuan Li, Yuchao Dai, Yiran Zhong
伪装的物体检测鳕鱼旨在掩盖掩藏环境中的伪装物体，这是由于伪装物体及其周围环境的类似外观而挑战。生物学研究表明，深度可以为伪装的物体发现提供有用的对象定位提示，因为所有动物都有3D感知能力。但是，未被利用深度信息以伪装对象检测。为了探索伪装检测的深度的贡献，我们介绍了一个深度引导的伪装对象检测网络，具有来自现有单眼深度估计方法的预计算机深度映射。由于深度估计数据集和我们的伪装对象检测数据集之间的域间隙，所生成的深度可能不足以直接在我们的框架中使用。然后，我们引入深度质量评估模块，以评估基于RGB COD分支和RGB D COD分支的模型预测的深度质量。在培训期间，只使用高质量的深度来更新多模态学习的模态交互模块。在测试期间，我们的深度质量评估模块可以有效地确定深度的贡献，并选择RGB分支或RGB D分支以进行伪装预测。各种伪装对象检测数据集的广泛实验证明了我们解决方案在探索伪装对象检测的深度信息方面的有效性。我们的代码和数据在URL上公开提供

GaussiGAN: Controllable Image Synthesis with 3D Gaussians from Unposed Silhouettes
Authors Youssef A.Mejjati, Isa Milefchik, Aaron Gokaslan, Oliver Wang, Kwang In Kim, James Tompkin
我们提出了一种算法，该算法从未曝光的多视图2D掩码监控学习对象的粗略3D表示，然后使用它来生成详细的掩码和图像纹理。与基于Voxel基于的未铺设的对象重建的方法相比，我们的方法学习通过透视照相机代表生成的形状和姿势，并通过透视照相机和每个图像变换的一组自我监督的规范3D各向异性高斯。我们表明这种方法可以强大地估计相机和对象的3D空间，而最近的基线有时会在此设置中重建相位的3D空间。我们在具有现实照明的合成数据集上显示结果，并用交互式摆展示对象插入。通过我们的工作，我们帮助转向结构化的表示，这些表现在基于学习的物体重建中处理了更多的世界变化。

Handling Data Heterogeneity with Generative Replay in Collaborative Learning for Medical Imaging
Authors Liangqiong Qu, Niranjan Balachandar, Miao Zhang, Daniel Rubin
协作学习，可以在隐私保存方式下在多个机构中进行协作和分散培训深神经网络，并在医疗保健应用中迅速涌现为宝贵的技术。然而，其分布式性质通常导致机构数据分布中的显着异质性。现有的协作学习方法通常不会占机构之间数据中的异质性，或者仅研究了轻度倾斜标签分布。在本文中，我们提出了一种新的生成重播策略，以解决协作学习方法中数据异质性的挑战。而不是直接培训用于任务性能的模型，利用最近的图像综合技术来开发一种新型双模型体系结构，初级模型学习所需的任务，而辅助生成重放模型合成密切地类似于输入图像的图像或帮助提取潜伏变量。生成重播策略是灵活的，可以使用，可以纳入现有的协作学习方法，以提高其在机构跨机构处理数据异质性的能力，或者被用作被称为联邦交叉口的新颖和个人协作学习框架以降低通信成本。实验结果表明了跨机构处理异构数据的方法的能力。在高度异构的数据分区上，与糖尿病视网膜病分类数据集的预测准确性有49.8，与骨龄预测数据集的预测准确性的提高有关，与最新的协作学习方法相比，49.8分别对骨龄预测数据集进行了49.8。

When Differential Privacy Meets Interpretability: A Case Study
Authors Rakshit Naidu, Aman Priyanshu, Aadith Kumar, Sasikanth Kotti, Haofan Wang, Fatemehsadat Mireshghallah
鉴于在医学成像和诊断等任务中使用个人数据的使用增加，DNN的差异私人培训在重要性中飙升，并且有一个巨大的工作致力于提供更好的隐私式贸易。但是，对这些模型的可解释性具有很少的关注，以及DP的应用程度如何影响解释的质量。我们提出了广泛的研究在APTOS数据集上对DP培训对DNN训练的影响，特别是在医学成像应用程序上。

Driver-centric Risk Object Identification
Authors Chengxi Li, Stanley H. Chan, Yi Ting Chen
大量的流量死亡是由于驾驶员错误。为了减少死亡人，开发智能驾驶系统，协助司机识别潜在风险的迫切需要。风险情况通常根据现有研究中的碰撞预测来定义。但是，碰撞只是交通方案中的一种风险。我们相信需要更通用的定义。在这项工作中，我们提出了一种新颖的驾驶员中心风险定义，即风险对象影响驾驶员行为。基于此定义，介绍了一种新的任务，称为风险对象识别。我们将任务作为原因效果问题，并提出了一种新颖的两个阶段风险对象识别框架，从事情况意识和因果推断的模型采取灵感。策划驾驶员中心风险对象识别ROI数据集以评估所提出的系统。与ROI数据集上的强基线相比，我们展示了艺术风险对象识别性能的状态。此外，我们进行了广泛的消融研究，以证明我们的设计选择。

FitVid: Overfitting in Pixel-Level Video Prediction
Authors Mohammad Babaeizadeh, Mohammad Taghi Saffar, Suraj Nair, Sergey Levine, Chelsea Finn, Dumitru Erhan
能够预测接下来发生什么的代理可以通过规划没有任何额外的培训来执行各种任务。此外，这种代理可以在内部代表现实世界的复杂动态，因此可以获得对各种视觉感知任务的表示。这使得预测视频的未来帧，在观察到的过去和可能未来的行动上，这是一个有趣的任务，尽管最近的进步，尽管仍然存在异常具有挑战性。现有的视频预测模型在简单的窄基准测试中显示了有希望的结果，但它们在具有更复杂的动态或更广泛的域的现实生活数据集上产生低质量的预测。还有一种日益增长的证据，即训练数据的贴筑是低质量预测的主要原因之一。在本文中，我们认为当前视频模型中参数的低效使用是底层的主要原因。因此，我们介绍了一个名为FITVID的新架构，它能够在公共基准上严重过度拟合，同时具有与最新的艺术模型的当前状态相似的参数计数。我们分析过度装备的后果，说明它如何产生意外结果，例如通过重复训练数据来产生高质量的输出，以及如何使用现有的图像增强技术来减轻它。因此，FITVID在四个不同度量上的四个不同视频预测基准上占据了本领域的当前状态。

Differential Morph Face Detection using Discriminative Wavelet Sub-bands
Authors Baaria Chaudhary, Poorya Aghdaie, Sobhan Soleymani, Jeremy Dawson, Nasser M. Nasrabadi
面部识别系统非常容易受到变形攻击的影响，其中变形面部参考图像可以被成功验证为两个或更多个不同的身份。在本文中，我们提出了一种变形攻击检测算法，其利用未传定的2D离散小波变换DWT来识别变形面部图像。我们框架的核心是在空间频域中可以更容易地识别由图像域中不可辨别的变形过程产生的伪像。鉴别的小波频带可以突出真实和变形图像之间的视差。为此，将多级DWT应用于所有图像，每个图像都产生48个中频和高频子带。每个子带的熵分布是单独计算的真实和变形图像。对于一些子频带，在真人般的图像中的子带的熵和变形图像中的相同子带S熵之间存在明显的差异。因此，我们采用Kullback Leebler Divergence KLD利用这些差异，并将这些差异隔离为最判别的子频段。我们测量子频带是如何通过其KLD值的差异，并且选择具有最高KLD值的22个子带进行网络培训。然后，我们使用这22个选择的子带来训练深度暹罗神经网络，用于差异变形攻击检测。我们研究了变形攻击检测的鉴别小波子带的功效，并表明在这些子带上培训的深神经网络可以准确地识别变形图像。

Learning by Planning: Language-Guided Global Image Editing
Authors Jing Shi, Ning Xu, Yihang Xu, Trung Bui, Franck Dernoncourt, Chenliang Xu
最近，语言引导的全球形象编辑利用日益增长的应用潜力提高了不断的关注。然而，以前的GaN基方法不仅限于特定的域，低分辨率数据，而且缺乏可解释性。为了克服集体困难，我们开发一个文本到操作模型，以将模糊的编辑语言请求映射到一系列编辑操作中，例如，更改对比度，亮度和饱和度。每个操作都是可解释和可微分的。此外，任务中唯一的监督是目标图像，这不足以稳定地训练顺序决策。因此，我们提出了一种新颖的操作规划算法，以从目标图像生成可能的编辑序列，作为伪基础。新收集的MA5K REQ数据集和Gier DataSet上的比较实验显示了我们的方法的优势。代码可用

FaDIV-Syn: Fast Depth-Independent View Synthesis
Authors Andre Rochow, Max Schwarz, Michael Weinmann, Sven Behnke
我们介绍了Fadiv Syn，一个快速深度独立的视图合成方法。我们的多视图方法解决了观看合成方法的问题通常受到深度估计阶段的限制，其中不正确的深度预测可能导致大的投影错误。为避免此问题，我们将多个输入图像有效地将多个输入图像横发到目标帧中，以进行一系列假定的深度平面。由此产生的张量表示被馈送到具有门控卷积的U NET等CNN中，其直接产生新颖的输出视图。因此，我们侧行显式深度估计。这提高了透明，反射性和功能较少的场景部件的效率和性能。 Fadiv Syn可以处理在大规模Realestate10K数据集上的内插和外推任务和优于最佳推出方法的状态。与可比方法相比，由于其轻量级架构，它能够实时运行。我们进一步通过较少的示例从较少的示例中培训来展示Fadiv Syn的数据效率，以及在严重深度离散化下的更高分辨率和任意深度范围内的概率。

Exploring Corruption Robustness: Inductive Biases in Vision Transformers and MLP-Mixers
Authors Katelyn Morrison, Benjamin Gilby, Colton Lipchak, Adam Mattioli, Adriana Kovashka
最近，已经开发了视觉变换器和基于MLP的模型，以解决卷积神经网络中的一些普遍缺陷。由于在该领域使用的变压器的新颖性以及自我关注机制，因此这些架构对损坏的鲁棒程度仍然不清楚。尽管有些作品提出，数据增强对模型对腐败的稳健仍然是必不可少的，但我们建议探讨架构对腐败鲁棒性的影响。我们发现视觉变形金刚架构本质上对损坏具有比Reset 50和MLP混频器更强大。我们还发现，比Reset 50更少的参数的视觉变压器具有更多的形状偏差。我们的代码可用于复制。

VOLO: Vision Outlooker for Visual Recognition
Authors Li Yuan, Qibin Hou, Zihang Jiang, Jiashi Feng, Shuicheng Yan
视觉识别多年来一直由卷积作业网络中的CNN主导。虽然最近，预vailing视觉变压器Vits在Imagenet Classifica中显示了基于自我关注的潜力，但它们的性能仍然不如最新的SOTA CNNSIF，没有提供额外的数据。在这项工作中，我们的目标是为了收取性能差距，并证明基于的注意力确实能够优于CNN。我们发现限制了IMA遗传分类VITS性能的主要因素是它们在编码细水位特征到令牌表示中的低功效。对于解决方案，我们介绍了一个新颖的agooutlook注意力和一般建筑，被称为愿景Outlooker沃罗。与专注于粗糙水平的全球凭证建模的自我关注不同，展望Aimsto有效地编码更精细的级别特征和上下文intotokens，这些功能对于每个格式的识别至关重要，但在很大程度上被自我关注忽略了识别。实验证明我们的沃洛实现了87.1前面1精度的ImageNet 1K分类，是第一个在这个竞争基准上超过87准确性的模型，毫无尊重培训数据。此外，预训练过滤良好地转移到下游任务，例如Seman TIC分段。我们在ChecityScapes验证集中达到84.3 miou得分和ADE20K Valida Tion集的54.3。代码可用

Sparse Needlets for Lighting Estimation with Spherical Transport Loss
Authors Fangneng Zhan, Changgong Zhang, Wenbo Hu, Shijian Lu, Feiying Ma, Xuansong Xie, Ling Shao
准确的照明估算是挑战，对于许多计算机视觉和计算机图形任务，如高动态范围HDR致密的挑战性问题是至关重要的。现有方法在频域或空间域中的模型照明，其不足以表示场景中的复杂照明条件，并且倾向于产生不准确的估计。本文呈现了一种新的照明估计模型，该模型代表了针对针的照明，并共同允许在频域和空间域中的照明估计。最佳阈值函数旨在实现稀疏针头，其修剪冗余照明参数，并展示了照明表示的卓越的定位特性。此外，基于最佳运输理论设计了一种新的球形传输损失，该优化传输理论是考虑空间信息来回归照明表示参数。此外，我们提出了一种新的指标，它通过直接评估估计的照明映射而不是渲染的图像来简明扼要的公制。广泛的实验表明，与现有技术的状态相比，针状智能概括在多种评估指标上一致地实现了卓越的照明估计。

ChaLearn Looking at People: Inpainting and Denoising challenges
Authors Sergio Escalera, Marti Soler, Stephane Ayache, Umut Guclu, Jun Wan, Meysam Madadi, Xavier Baro, Hugo Jair Escalante, Isabelle Guyon
处理不完整信息是在机器学习和计算智能的背景下进行了良好的问题。然而，在计算机视觉的上下文中，仅在特定场景中研究了问题，例如，特定类型的图像中的某些类型的闭塞，但是在视觉数据中具有不完整的信息。本章介绍了一个专注于侵染WCCI2018竞争计划的图像和视频序列的学术竞争的设计，并将卫星活动与ECCV2018合作。看着人们的挑战，旨在通过促进图像和视频恢复丢失和封闭信息的方法来推进挑战的挑战。提出了三条曲目，其中视觉染色可能有用，但仍然具有挑战性的人体姿势估计，文本覆盖和指纹去噪。本章介绍了挑战的设计，包括释放三个新型数据集，以及评估度量，基线和评估协议的描述。分析并详细分析挑战的结果，并详细讨论并讨论了从该事件中得出的结论。

Unsupervised Learning of Depth and Depth-of-Field Effect from Natural Images with Aperture Rendering Generative Adversarial Networks
Authors Takuhiro Kaneko
了解来自2D预计的自然图像的3D世界是计算机视觉和图形中的根本挑战。最近，由于其在数据收集方面的优势，无监督的学习方法已经得到了相当大的关注。然而，为了缓解训练限制，典型方法需要施加视点分布的假设，例如，包含各种视点图像或对象形状的数据集。，对称对象。这些假设通常将应用程序限制为非刚性物体或从类似视点捕获的图像的应用程序，例如，花或鸟图像仍然是一个挑战。为了补充这些方法，我们提出了孔径渲染生成的对策网络AR GAN，它在GAN的顶部装备光圈渲染，并采用焦点提示来学习未标记的自然图像的现场DOF效果的深度和深度。为了解决由无监督设置触发的含糊不清的含糊之处，即在光滑的纹理和焦影之间以及前景和背景模糊之间，我们开发DOF混合学习，这使得发电机能够在产生各种DOF图像的同时学习真实的图像分布。此外，我们在引导学习方向之前设计一个中心重点。在实验中，我们展示了AR GAN在各种数据集中的AR GAN的有效性，例如花，鸟和面部图像，通过将它们结合到其他3D表示学习GAN来证明它们的可移植性，并验证其在浅水渲染中的适用性。

A Transformer-based Cross-modal Fusion Model with Adversarial Training for VQA Challenge 2021
Authors Ke Han Lu, Bo Han Fang, Kuan Yu Chen
在本文中，灵感来自Visionlanguage预训练模型的成功以及来自对抗攻击的培训的益处，我们通过纳入VQA挑战2021的两个概念来提出一种新型变换基础跨模型融合建模。具体地，所提出的模型是最重要的VINVL模型19的架构和对抗训练策略4的应用程序用于使模型稳健和广义。此外，我们的系统中也使用了两个实现技巧以获得更好的结果。实验表明，新颖的框架可以在VQAV2测试STD集上实现76.72。

A Simple and Strong Baseline: Progressively Region-based Scene Text Removal Networks
Authors Yuxin Wang, Hongtao Xie, Shancheng Fang, Yadong Qu, Yongdong Zhang
现有场景文本删除方法主要培训具有配对图像的详细网络，以实现文本本地化和背景重建的功能同时，但存在两个问题1缺乏文本区域的详尽擦除，导致过度擦除到无自由区域。为了处理这些问题，本文提供了一种新颖的基于区域的场景文本橡皮擦Pert，其介绍基于区域的修改策略，以逐步删除仅文本区域的像素。首先，Pert将str任务分解为几个删除阶段。由于每个阶段旨在朝文本移除图像而不是直接回归到最终结果，因此分解的操作减少了每个阶段的学习难度，并且可以通过迭代具有共享的轻质擦除块来获得详尽的擦除结果参数。然后，Pert介绍基于区域的修改策略，以确保通过从擦除过程中解耦文本本地化来指导删除的文本定位的完整性。受益于简单架构，Pert是一种简单而强大的基线，很容易遵循和开发。广泛的实验表明Pert获得了合成和现实世界数据集的最新状态。代码是可用的，Athttps github.com王莹，87 Pert。

Exploring Stronger Feature for Temporal Action Localization
Authors Zhiwu Qing, Xiang Wang, Ziyuan Huang, Yutong Feng, Shiwei Zhang, jianwen Jiang, Mingqian Tang, Changxin Gao, Nong Sang
时间操作本地化旨在通过行动类别本地化启动和结束时间。受GPU内存的限制，主流方法为每个视频提取特征。因此，特征质量决定了检测性能的上限。在本技术报告中，我们探讨了基于经典的卷积的骨干和最近的变压器底座震荡。我们发现基于变压器的方法可以实现比基于卷积更好的分类性能，但它们无法生成准确性的行动提案。另外，提取具有更大帧分辨率的特征以减少空间信息的丢失也可以有效地提高时间动作定位的性能。最后，我们通过简单的组合BMN Tcanet实现了验证的验证集42.42，这是一个简单的BMN Tcanet，它比2020 S多模型集合的结果高1.87。最后，我们在CVPR2021 HACS监督时间行动本地化挑战中实现了第1次。

SGTBN: Generating Dense Depth Maps from Single-Line LiDAR
Authors Hengjie Lu, Shugong Xu, Shan Cao
深度完成旨在从稀疏深度图生成密集深度图并对齐RGB图像。但是，当前深度完成方法使用极其昂贵的64行LIDAR约100,000以获得稀疏深度图，这将限制其应用方案。与64线LIDAR相比，单行LIDAR更便宜，更强大。因此，我们提出了一种解决单线深度完成问题的方法，其中我们的目标是从单行LIDAR信息和对准的RGB图像产生密集的深度图。基于现有的64行深度完成数据集Kitti提出了单行深度完成数据集。为此任务提出了一个名为Semantic引导的两个分支网络SGTBN，其中包含全局和本地分支以提取和保险丝全局和本地信息。我们的网络中使用了一个语义引导深度上采样模块，以充分利用RGB图像中的语义信息。除了通常的MSE亏损外，我们添加了虚拟正常丢失，以增加我们网络中高阶3D几何的约束。我们的网络在单行深度完成任务中优于现有技术。此外，与单眼深度估计相比，我们的方法在精度和模型尺寸方面也具有显着的优势。

Evaluation of deep lift pose models for 3D rodent pose estimation based on geometrically triangulated data
Authors Indrani Sarkar, Indranil Maji, Charitha Omprakash, Sebastian Stober, Sanja Mikulovic, Pavol Bauer
对实验室动物行为的评估是对现代神经科学研究的核心兴趣。通常在姿势变化方面研究了行为，其理想地捕获三维。这需要通过多摄像机系统进行三角测量，该系统从不同的角度观看动物。然而，由于闭塞和其他技术限制，这在现实实验室设置中具有挑战性。在这里，我们提出了升降机姿势模型，其允许从单个视图相机视图自由移动啮齿动物的鲁棒3D姿态估计。为了获得用于姿势升降的高质量训练数据，我们首先在涉及底部的相机设置中执行几何校准以及表现动物的侧视图。然后，我们根据给定推理的观点评估两个先前提出的模型架构的性能，并且得出结论可以使用时间卷积获得可靠的3D姿势推断。通过这项工作，我们希望为在神经科学区广泛的实验和设置方面，为自由移动啮齿动物提供更强大和多样化的行为跟踪。

Relationship between pulmonary nodule malignancy and surrounding pleurae, airways and vessels: a quantitative study using the public LIDC-IDRI dataset
Authors Yulei Qin, Yun Gu, Hanxiao Zhang, Jie Yang, Lihui Wang, Feng Yao, Yue Min Zhu
为了研究非对比计算断层摄影术的胸膜，气道和血管是否可以区分良性和恶性肺结核。 LIDC IDRI DataSet是最大的公开可用的CT数据库之一，被利用进行学习。共有1556名来自694名患者的结节涉及统计分析，其中具有平均速度3和3的结节分别表示为良性和恶性肿瘤。此外，来自113名诊断患者的339名结节是独立评估的。将计算机算法开发成肺部结构，并量化胸膜表面，气道和血管的距离，以及结节附近的气道和血管的计数数量和归一化。进行差距或志方志2测试以证明周围结构的特征与结节恶性肿瘤之间的相关性。在逻辑回归中进行了非参数接收器操作特征ROC分析，以评估每个结构的判别能力。对于良性和恶性群体，从结节到胸膜表面，气道和血管的平均距离分别为6.56,5.19,37.08,26.43和1.42,1.07 mm。结节与呼吸数量的关联和接触或朝向结节的血管的相关性分别为22.96，CHI 2 105.04和或7.06，CHI 2 290.11。结节与气道和血管的体积之间的相关性或9.19，CHI 2 159.02和或2.29，CHI 2 55.89。曲线曲线，气道和血管的曲线区域分别为0.5202,0.6943和0.6529。我们的研究结果表明，与良性人员相比，恶性结节通常被更多的肺部结构包围，表明这些结构的特征可以被视为肺癌生物标志物。

Class agnostic moving target detection by color and location prediction of moving area
Authors Zhuang He, Qi Li, Huajun Feng, Zhihai Xu
移动目标检测在计算机视觉中起着重要作用。然而，诸如帧差和光学流程的传统算法通常遭受低精度或重计算。最近的基于深度学习的卷积神经网络的算法已经取得了高精度和实时性能，但他们通常需要提前了解目标的类别，这限制了实际应用。因此，我们提出了一种自由移动目标检测算法。该算法通过图像特征的差异提取移动区域。然后，将通过最大概率计算移动区域的颜色和位置概率图。并且可以通过两张地图之间的点乘以点来获得目标概率图。最后，可以通过目标概率图上的随机梯度下降来解决最佳移动目标区域。结果表明，该算法与最先进的算法相比实现了最高精度，而无需了解目标类别。此外，当现有数据集不适合移动目标检测时，我们提出了一种制造评估数据集的方法。此外，我们还证明了所提出的算法可用于协助目标跟踪。

Continual Novelty Detection
Authors Rahaf Aljundi, Daniel Olmeda Reino, Nikolay Chumerin, Richard E. Turner
新颖性检测方法识别不代表模型S训练的样本，从而标记误导性预测并在部署时间带来更大的灵活性和透明度。然而，在该区域的研究中仅考虑了离线设置中的新奇检测。最近，在计算机视觉社区中，应用程序需要更加灵活的框架持续学习，其中新批次，代表新域名，新课程或新任务的新批次在不同的时间点可用。在这个环境中，新奇的检测变得更加重要，有趣和具有挑战性。这项工作确定了两个问题与持续学习环境下的新奇检测问题之间的关键联系。我们制定持续的新颖性检测问题，并提供基准，在不同的持续学习设置下比较几种新颖性检测方法。

Self-Supervised Monocular Depth Estimation of Untextured Indoor Rotated Scenes
Authors Benjamin Keltjens, Tom van Dijk, Guido de Croon
自我监督的深度学习方法利用立体声图像训练单眼深度估计。虽然这些方法在户外数据集（如KITTI）上显示出强烈的结果，但它们与相机旋转的室内环境上不匹配监督方法的性能。室内，旋转场景对于较少约束的应用和构成问题是常见的，因为两个原因在于低纹理区域的丰富度和旋转图像的图像的深度线索的复杂性增加。努力将自我监督的学习扩展到更广泛的环境，我们提出了两种补充。首先，我们提出了一种新颖的填充差异损失术语，可以纠正Textulless区域中图像重建误差损失的模糊性。具体而言，我们使用周围纹理区域的估计差异在未致致致致细胞区域中插入差异，并使用L1损耗来校正原始估计。我们的实验表明，与Godard等人的单一相比，在低纹理场景中，在低纹理场景中，深度估计显着提高了纹理场景。其次，我们表明，在俯仰和辊中，通过应用S代表性旋转的训练足以显着提高整个预期旋转范围的性能。我们证明，在没有相机旋转的测试集上评估时，深度估计成功概括为性能不会丢失。这些发展能够更广泛地利用复杂环境的单眼深度估计学习。

Regularisation for PCA- and SVD-type matrix factorisations
Authors Abdolrahman Khoshrou, Eric J. Pauwels
奇异值分解SVD及其紧密相对，主成分分析PCA是众所周知的线性矩阵分解技术，其广泛用于尺寸减少和聚类等应用。然而，SVD PCA的一个重要限制是对输入数据中的噪声的敏感性。在本文中，我们拍摄了正规化问题，并表明最小化问题的不同配方导致定性不同的解决方案。

MatchVIE: Exploiting Match Relevancy between Entities for Visual Information Extraction
Authors Guozhi Tang, Lele Xie, Lianwen Jin, Jiapeng Wang, Jingdong Chen, Zhen Xu, Qianying Wang, Yaqiang Wu, Hui Li
视觉信息提取VIE任务旨在从多种文档图像中提取关键信息，例如，发票和购买收据。最先前的方法将VIE任务视为序列标记问题或分类问题，这需要模型通过引入多式联偶特征，例如字体，颜色，布局来仔细识别各种语义。但是，当面对数字语义类别或一些模糊的文本时，简单地引入多模式功能可能会很好地工作。为了解决这个问题，在本文中，我们提出了一种基于vie匹配的图形神经网络的新型关键价值匹配模型。通过基于相关性评估的关键价值匹配，所提出的匹配可以绕过各种语义的识别，并简单地关注实体之间的强有力。此外，我们引入了一个简单但有效的操作Num2Vec，以解决编码值的不稳定性，这有助于更平滑的模型会聚。综合实验表明，所提出的匹配可以显着优于先前的方法。值得注意的是，据我们所知，匹配可能是第一次尝试通过建模键和值之间的相关性来解决vie任务，并且它是现有方法的良好补充。

Attention Toward Neighbors: A Context Aware Framework for High Resolution Image Segmentation
Authors Fahim Faisal Niloy, M. Ashraful Amin, Amin Ahsan Ali, AKM Mahbubur Rahman
由于中间特征图的巨大大小，高分辨率图像分割仍然持挑战性和易于忽略。传统方法通过使用基于贴片的方法来避免此问题，其中每个补丁被独立分割。然而，独立的补丁分割导致错误，特别是在贴片边界处，由于在与完整图像相比的贴片大小的非常高分辨率图像中的上下文信息缺乏上下文信息。为了克服这些限制，在本文中，我们提出了一种新颖的框架来通过从其邻近的补丁中包含上下文信息来分割特定修补程序。这允许分段网络在没有更大的特征映射的情况下看到具有更宽视野的目标补丁。来自许多实验的比较分析表明，我们所提出的框架能够将高分辨率图像分段，具有显着改善的联合和整体精度的平均交叉口。

Unsupervised Deep Image Stitching: Reconstructing Stitched Features to Images
Authors Lang Nie, Chunyu Lin, Kang Liao, Shuaicheng Liu, Yao Zhao
基于传统的特征的图像拼接技术严重依赖于特征检测质量，往往不能缝合少数功能或低分辨率的图像。由于缺乏标记数据，很少研究基于学习的图像拼接解决方案，使监督方法不可靠。为了解决上述限制，我们提出了一种无监督的深度图像拼接框架，其由两个阶段无监督粗糙图像对准和无监督的图像重建组成。在第一阶段，我们设计基于消融的损失，以限制无监督的同住网络，这更适合大型基线场景。此外，引入变压器层以在拼接域空间中经过输入图像。在第二阶段，通过洞察力的激励，即在像素级别中的错位可以在特征级别中消除错位，我们设计无监督的图像重建网络，以消除来自特征的伪像到像素。具体地，重建网络可以由低分辨率变形分支和高分辨率精制分支实现，从而学习图像拼接的变形规则并同时增强分辨率。为了建立评估基准和培训学习框架，介绍和释放了一个用于无监督深映像拼接的全面的真实世界图像数据集。广泛的实验很好地展示了我们对现有技术的方法的优越性。即使与监督解决方案相比，我们的图像拼接质量仍然是用户仍然优选。

Detection of Deepfake Videos Using Long Distance Attention
Authors Wei Lu, Lingyi Liu, Junwei Luo, Xianfeng Zhao, Yicong Zhou, Jiwu Huang
随着近年来DeepFake技术的快速进步，面部视频伪造可以产生高度欺骗的视频内容并带来严重的安全威胁。并检测这种伪造的视频更为紧迫和具有挑战性。大多数现有的检测方法将问题视为香草二进制分类问题。在本文中，问题被视为一个特殊的细粒度分类问题，因为假和真正的面孔之间的差异非常微妙。观察到，大多数现有的面部伪造方法在空间域和时域中留下了一些常见的伪像，包括空间域中的生成缺陷和时域中的帧间帧不一致。提出了一种空间时间模型，其具有分别在全局透视中捕获空间和颞伪迹线的两个组件。两种组件采用新型长距离关注机构设计。空间域的一个组件用于捕获单帧中的伪像，并且时域的其他组件用于捕获连续帧中的伪像。它们以补丁的形式产生注意图。注意方法具有更广泛的愿景，有助于更好地组装全球信息并提取本地统计信息。最后，注意力映射用于指导网络聚焦面部的关键部件，就像其他细粒度的分类方法一样。不同公共数据集的实验结果表明，该方法实现了现有性能的状态，并且所提出的长途注意方法可以有效地捕获面部伪造的关键部件。

Fast Monte Carlo Rendering via Multi-Resolution Sampling
Authors Qiqi Hou, Zhan Li, Carl S Marshall, Selvakumar Panneer, Feng Liu
蒙特卡罗渲染算法被广泛用于生产光电型计算机图形图像。然而，这些算法需要每个像素采样大量的光线以实现适当的全局照明，因此需要巨大的计算。在本文中，我们介绍了一种混合渲染方法来加速蒙特卡罗渲染算法。我们的方法首先以低分辨率为低分辨率生成两个版本，具有高样本速率LRHS，另一个以低采样率HRL的高分辨率。然后，我们开发一个深度卷积神经网络，使这两个渲染融入高质量的图像，就像以高采样率以高分辨率渲染一样。具体地，我们将该融合任务制定为超分辨率问题，该问题从低分辨率输入LRH生成高分辨率渲染，辅助HRL渲染。 HRL渲染提供关键的高频细节，这些细节难以从LRHS获取任何超分辨率方法。我们的实验表明，当在我们自己的BCR数据集和Gharbi数据集上测试时，我们的混合渲染算法比艺术蒙特卡罗去噪方式的状态明显快于艺术蒙特卡罗去噪方法的速度。 URL.

Towards Automatic Speech to Sign Language Generation
Authors Parul Kapoor, Rudrabha Mukhopadhyay, Sindhu B Hegde, Vinay Namboodiri, C V Jawahar
我们的目标是解决了第一次从语音段生成连续手语视频的高度挑战性任务。在不考虑其他方式的情况下，这个空间中最近的努力都集中在从人类注释的文本成绩单中产生这些视频。然而，用手语替换语音证明是一个实用的解决方案，同时与遭受听力损失的人们沟通。因此，我们消除了使用文本作为输入和设计技术的需要，这些技术适用于更自然，连续，自由地发出广泛的词汇。由于当前数据集不足以直接从语音生成手语，因此我们收集并释放包括语音级注释，文本成绩单和相应的手语视频的第一个印度标志语言数据集。接下来，我们提出了一种训练的多任务变压器网络，以从语音段生成签名者的姿势。用语音到文本作为辅助任务和额外的跨模式鉴别器，我们的模型学会以结束以结束的方式生成连续标志姿势序列。与其他基线的广泛实验和比较展示了我们方法的有效性。我们还进行额外的消融研究，以分析我们网络不同模块的影响。包含若干结果的演示视频附加到补充材料。

Video Super-Resolution with Long-Term Self-Exemplars
Authors Guotao Meng, Yue Wu, Sijin Li, Qifeng Chen
现有视频超分辨率方法通常利用少数相邻帧来为每个帧生成更高分辨率的图像。然而，在这些方法中尚未充分利用遥控帧之间的冗余信息，相同实例的相应斑块在不同尺度处的远处帧中出现。基于该观察，我们提出了一种视频超分辨率，具有长期交叉尺度聚集的视频，它利用了跨越帧的类似补丁自我示例。我们的模型还包括多参考对齐模块，以融合从类似补丁导出的功能我们融合了遥远参考的功能，以执行高质量的超分辨率。我们还提出了一种基于转票的新颖和实践培训策略。为了评估我们提出的方法的性能，我们对我们收集的Carcam数据集和Waymo Open DataSet进行了广泛的实验，结果证明了我们的方法优于现有技术的状态。我们的源代码将公开。

Planetary UAV localization based on Multi-modal Registration with Pre-existing Digital Terrain Model
Authors Xue Wan, Yuanbin Shao, Shengyang Li
行星UAV的自主实时光学导航是保证勘探成功的关键技术。在这种GPS拒绝环境中，基于视觉的本地化是一种最佳方法。在本文中，我们提出了一种基于多模型登记的SLAM算法，其与预先存在的数字地形模型相比，在UAV上使用Nadir视图相机估计行星UAV的位置。为了克服船上UAV图像和预安装数字地形模型之间的刻度和外观差异，提出了一种理论模型来证明UAV图像和DEM的地形特征可以通过交叉功率谱在频域中相关。为了提供无人机的六个DOF，我们还开发了一种优化方法，使GEO通过LBA本地捆绑调整融合到SLAM系统中，以实现鲁棒和准确的基于视觉的导航，即使在无特征的行星区域中也是如此。为了测试所提出的定位算法的稳健性和有效性，提出了一种用于行星勘探的新的跨源无人机的定位数据集。所提出的数据集包括40200种合成无人机图像，其中九个行星场景与相关的DEM查询图像。进行的比较实验证明，在33.8km的飞行距离，所提出的方法达到平均定位误差为0.45米，而ORB SLAM为1.31米，加工速度为12Hz，确保实时性能。我们将使我们的数据集可以鼓励在这一有前途的话题上进一步努力。

Frequency Domain Convolutional Neural Network: Accelerated CNN for Large Diabetic Retinopathy Image Classification
Authors Ee Fey Goh, ZhiYuan Chen, Wei Xiang Lim
卷积神经网络中的传统空间卷积层CNNS在训练时间可能需要数天的点上计算昂贵，除非层数，训练图像的次数或训练图像的尺寸减小。 256x256像素的图像尺寸通常用于CNN的大多数应用，但对于糖尿病视网膜病变DR分类等应用而言，该图像尺寸太小，其中图像细节对于准确分类是重要的。本研究提出了频域卷积FDC和频域池池FDP层，其用RFFT，内核初始化策略，卷积器删除和渠道独立卷积CIC构建，以取代传统的卷积和汇集层。 FDC和FDP层用于构建频域卷积神经网络FDCNN，以加速对DR分类的大图像的训练。完整的FDC层是FDC层的扩展，以便在传统的CNN中直接使用，它还用于修改VGG16架构。与等效的CNN架构相比，FDCNN速度较快，70.74更快，70.74更高。据报道，具有全FDC层的改进的VGG16架构，以实现更短的培训时间和更高的精度，而在95.63上与原始VGG16架构进行DR分类。

Multi-Modal 3D Object Detection in Autonomous Driving: a Survey
Authors Yingjie Wang, Qiuyu Mao, Hanqi Zhu, Yu Zhang, Jianmin Ji, Yanyong Zhang
在过去几年中，我们目睹了自动驾驶的快速发展。然而，由于复杂和动态的驾驶环境，实现完全自主权仍然是一个艰巨的任务。因此，自动驾驶汽车配备了一套传感器，可以进行稳健和准确的环境感知。随着传感器的数量和类型继续增加，将它们与更好的感知相结合正在成为一种自然趋势。到目前为止，没有侧无期注目的评论，专注于基于多传感器融合的感知。为了弥补这种差距并激励未来的研究，这项调查旨在审查最近基于融合的3D检测深度学习模型，它利用多个传感器数据来源，尤其是相机和闪光灯。在本调查中，我们首先介绍自动车辆的流行传感器背景，包括它们的常见数据表示以及为每种类型的传感器数据开发的对象检测网络。接下来，我们讨论一些流行的数据集进行多模态3D对象检测，特别关注每个数据集中包含的传感器数据。然后我们通过考虑融合融合位置，融合数据表示和融合粒度的以下三个方面来介绍最近的多模态3D检测网络的深度评论。在详细审查后，我们讨论开放挑战并指出可能的解决方案。我们希望我们的详细审查可以帮助研究人员在多模态3D对象检测领域开始调查。

Feature Completion for Occluded Person Re-Identification
Authors Ruibing Hou, Bingpeng Ma, Hong Chang, Xinqian Gu, Shiguang Shan, Xilin Chen
人员重新识别Reid在计算机愿景中发挥着重要作用。然而，现有方法在封闭场景中遭受性能下降。在这项工作中，我们提出了一个遮挡强大的块，区域功能完成RFC，用于遮挡REID。不同于丢弃遮挡区域的最先前作品，RFC块可以在特征空间中恢复遮挡区域的语义。首先，开发了空间RFC SRFC模块。 SRFC利用来自非遮挡区域的长距离空间上下文来预测遮挡区域的特征。单位明智的预测任务导致编码器解码器架构，其中区域编码器模拟非遮挡和闭塞区域之间的相关性，并且区域解码器利用空间相关来恢复封闭区域特征。其次，我们介绍时间RFC TRFC模块，该模块捕获长期时间上下文以优化SRFC的预测。 RFC块是重量轻的，端到端可训练，可以轻松插入现有的CNN以形成RFCNet。广泛的实验是在封闭和普通的Reid基准上进行的。我们的方法显着优于遮挡数据集的现有方法，而在整体数据集上仍然是较高的性能。源代码可用

All You Need is a Second Look: Towards Arbitrary-Shaped Text Detection
Authors Meng Cao, Can Zhang, Dongming Yang, Yuexian Zou
任意形状的文本检测是一个具有挑战性的任务，因为野生中的弯曲文本是复杂的几何布局。现有的主流方法遵循实例分段管线以获取文本区域。然而，由于变化的尺度，难以通过一个分割网络来描绘任意拍摄的文本。在本文中，我们提出了一种基于两级分割的探测器，称为NAKS需要第二个外观，用于任意形状的文本检测。与传统的单级分割网络相比，我们的NAKK以粗略的方式对检测进行粗略地进行矩形文本提案和第二个检索紧凑型表示。具体而言，NASK由文本实例分段TIS网络第一阶段，几何意识文本ROI对齐地理统计模块，以及基准点表达式FOX模块第二阶段。首先，TIS利用新型组空间和通道注意GSCA模块提取增强功能，并进行实例分段以获得矩形提案。然后，Geoalign将这些矩形转换为固定大小并编码ROI Wise特征表示。最后，FOX将文本实例拆解为Serval Tivotal几何属性以优化检测结果。在三个公共基准中的广泛实验结果包括总文本，SCUTCTW1500和ICDAR 2015，验证了我们的NAKS优于最近的最新状态的方法。

Topological Semantic Mapping by Consolidation of Deep Visual Features
Authors Ygor C. N. Sousa, Hansenclever F. Bassani
近期文献中的许多作品介绍了使用CNNS卷积神经网络的语义映射方法，以识别图像中的语义属性。属性的类型例如。房间大小，地方类别和对象及其课程，例如。厨房和浴室，适用于地方类别通常是预定义的，并限于特定任务。因此，在地图的构造期间获取和处理的所有视觉数据都丢失，并且仅在地图上仍然存在识别的语义属性。相比之下，该工作介绍了一种拓扑语义映射方法，该方法使用由CNN，Goodlenet提取的深度视觉特征从环境中的多个视图中捕获的2D图像，以创建区域中获取的可视特征的统一表示每个拓扑节点覆盖。这些综合表示允许灵活地识别区域的语义属性，并在一系列视觉任务中使用。使用现实世界室内数据集执行的实验表明，该方法能够整合区域的视觉特征，并使用它们识别对象和将类别作为语义属性，并指示图像的拓扑位置，具有非常有前途的结果。使用Googlenet的分类层进行分类对象，无需再培训，并且使用浅多层的Perceptron识别地点类别。

Conditional Deformable Image Registration with Convolutional Neural Network
Authors Tony C. W. Mok, Albert C. S. Chung
最近的基于深度学习的方法在可变形图像配准中显示了有前途的结果和运行时优势。但是，分析了超参数和搜索最佳正则化参数的影响，证明了在基于深度学习的方法中过于抑漫。这是因为它涉及培训具有不同的超参数值的大量单独模型。在本文中，我们提出了一种有条件的图像登记方法和用于深可变形图像配准的新自我监督学习范式。通过学习与正则化QuandParameter相关的条件特征，我们证明可以通过单个深度卷积神经网络捕获具有任意超参数的最佳解决方案。另外，可以在推理期间以任意平滑正则化的任意强度操纵所得变形场的平滑度。大规模脑MRI数据集的广泛实验表明，我们所提出的方法使得能够精确控制变形场的平滑度，而不会牺牲运行时的优势或登记精度。

What makes visual place recognition easy or hard?
Authors Stefan Schubert, Peer Neubert
视觉地位识别是移动机器人本地化的基本能力。它在物理世界中操作的物理代理的实际背景下放置图像检索。它是一种积极的研究领域，在许多不同的实验中提出并评估了许多不同的方法。在下文中，我们认为，由于这种实际情况和个人设计决策的变化，地点识别实验在不同的纸质上几乎没有比较，并且有各种各样的性质可以从一个实验到另一个实验发生变化。我们提供了广泛的此类属性列表，并举例说明如何使用它们更容易或更难的位置识别实验。这可能对不同涉及的缔约方有趣的是一个只想选择适合其特定任务的属性的人，2名研究人员来说，这是一个寻找开放研究问题的研究人员，并对特别困难的情况感兴趣3个作者这希望在本主题创建可重复的论文，4个也有审查员，该审核人员可以识别正在审查的论文中的潜在问题。

Human Activity Recognition using Continuous Wavelet Transform and Convolutional Neural Networks
Authors Anna Nedorubova, Alena Kadyrova, Aleksey Khlyupin
世界上有很多人必须保持永久监测，因为健康原因，他们包括糖尿病人或其他一些慢性病的人，老人和残疾人。这些团体可能面临着生命威胁下降或被击中的风险一个晕厥。由于资源可用性有限，风险的大部分人无法获得必要的监测，因此暴露于过度危险。如今，这个问题通常通过应用人类活动识别Har方法来解决。 HAR是一个透视和快节奏的数据科学领域，具有广泛的应用领域，如医疗保健，运动，安全等。然而，目前的识别技术明显缺乏准确性，因此缺乏本文表明高度准确人类活动分类方法。 Wepropose一个新的工作流程来解决HAR问题并在UNIMIB Shar DataSet上进行评估，该数据集由加速度计信号组成。我们建议的模型基于连续小波变换CWT和卷积神经网络CNNS。小波变换定位在时间和频率域中的信号特征，之后CNN提取这些功能并识别活动。值得注意的是，CWT将1D加速度计信号转换为2D图像，从而使得能够获得更好的结果，因为2D网络具有明显更高的预测能力。在工作过程中，我们构建卷积神经网络并随着空间轴的数量，层数，每层的神经元数，图像尺寸，母小波类型，母小波的顺序而变化。此外，我们还应用具有剩余块的模型，导致度量明显更高。最后，我们成功达到99.26的准确性，这是一个值得这个问题的表现。

Florida Wildlife Camera Trap Dataset
Authors Crystal Gagne, Jyoti Kini, Daniel Smith, Mubarak Shah
Trail Camera Imagery在生物学家中越来越受到保护和生态研究的流行。操作摄像机陷阱所需的最小人性干扰允许捕获无偏见的物种活动。基于人和野生动物互动的几项研究，各种物种的迁徙模式，濒危人群灭绝的风险受到缺乏丰富的数据和手动注释迹线相机图像的耗时性质的限制。我们介绍了从佛罗里达州西南部的两个不同地点收集的挑战性野生动物摄像头陷阱分类数据集，包括104,495张图片，具有视觉上类似的物种，不同的照明条件，偏斜阶级分布以及包括濒危物种的样本，即佛罗里达黑豹。与RESET 50架构的实验评估表明基于图像的数据集可以进一步推动野生动物统计建模的进步。我们将公开提供数据集。

IA-RED$^2$: Interpretability-Aware Redundancy Reduction for Vision Transformers
Authors Bowen Pan, Yifan Jiang, Rameswar Panda, Zhangyang Wang, Rogerio Feris, Aude Oliva
基于自我注意的模型，变压器，最近成为计算机视野领域的领先骨干。尽管变压器在各种视野任务中取得了令人印象深刻的成功，但它仍然存在沉重的计算和密集内存成本。为了解决这个限制，本文提出了一种可解释性意识的冗余减少框架IA红色2。我们首先观察大量的冗余计算，主要花在不相关的输入修补程序上，然后引入可解释的模块以动态且优雅地删除这些冗余补丁。然后将该新颖框架扩展到分层结构，其中不同阶段的不相关令牌逐渐被移除，导致计算成本相当收缩。我们在图像和视频任务中包括广泛的实验，其中我们的方法可以通过仅牺牲小于0.7的精度，为艺术模型的状态提供高达1.4倍的速度。更重要的是，与其他加速方法相反，我们的方法本质上是具有实质性视觉证据的可观解释，使视觉变压器更接近更加人类的理解建筑，同时更轻。我们证明，我们框架中自然出现的可解释性可以越优于原始的视觉变压器学习的原始注意力，以及由货架解释方法产生的那些，具有定性和定量结果。项目页面

Handwritten Digit Recognition using Machine and Deep Learning Algorithms
Authors Samay Pashine, Ritik Dixit, Rishika Kushwah
人类对机器的依赖从未如此之高，使得从照片中的对象分类来向静音电影添加声音，可以通过深度学习和机器学习算法来执行所有内容。同样，手写的文本识别是具有可以实现的流媒数的重要研究和开发领域之一。手写识别HWR，也称为手写文本识别HTR，是计算机接收和解释从索取文件，照片，触摸屏和其他设备1的源的可理解手写输入的能力。显然，在本文中，我们使用支持向量机SVM，多层Perceptron MLP和卷积神经网络CNN模型的MNIST数据集进行了手写的数字识别。我们的主要目标是比较上面规定的模型的准确性以及他们的执行时间来获得最佳模型的数字识别。

Deep Fake Detection: Survey of Facial Manipulation Detection Solutions
Authors Samay Pashine, Sagar Mandiya, Praveen Gupta, Rashid Sheikh
作为一个领域的深度学习已经成功地习惯了一种夸张的复杂问题，我们不能想象几十年来的人。但随着它的许多好处，它仍然可以使用它来对我们的社会带来伤害。被证明的深刻假装是一个这样的问题，现在，当任何个人都可以在智能手机上使用应用程序创建假图像或视频时，需要有一些对策，我们可以检测图像是否可以检测到图像或视频是假的或实际和处置问题威胁在线信息的可信度。虽然神经网络创造的深刻迎板可能似乎是真实的图像或视频，但它仍然在空间和时间迹线或符号后留下，这些签名可以通过帮助来检测对人眼不可见的同时一个培训的神经网络，专注于深度假检测。在本文中，我们分析了若干本艺术神经网络Mesonet，Reset 50，VGG 19和Xcepion Net的状态，并将它们相互比较，以找到各种场景的最佳解决方案，如要部署的实时深度假检测。在线社交媒体平台，分类应尽可能快地或为分类不需要实时但需要最精确的小额新闻机构。

Q-space Conditioned Translation Networks for Directional Synthesis of Diffusion Weighted Images from Multi-modal Structural MRI
Authors Mengwei Ren, Heejong Kim, Neel Dey, Guido Gerig
目前对扩散MRI建模的电流深度学习方法规避了通过直接预测从稀疏采样的DWIS的微观结构索引来抑制密集采样扩散加权图像DWIS的需要。然而，在训练和重建期间，它们隐含地产生了静态Q空间采样的不切实际的假设。此外，这种方法可以限制可变采样的DWIS的下游使用，以进行使用，包括微观结构索引或牵引的估计。我们提出了一种用于高质量DWI合成的生成的对抗性翻译框架，所述高质量DWI合成，所述任意Q空间抽样给予通常获得的结构图像，例如，B0，T1，T2。我们的翻译网络线性地调制其在连续Q空间信息上的内部表示，从而删除了对固定采样方案的需求。此外，该方法能够从任意限制的DWIS从任意限位的DWIS下游估计高质量的微结构图，这在具有稀疏采样的DWIS的情况下可能尤为重要。在几个最近的方法中，所提出的方法产生了改善的DWI合成精度和保真度，通过从合成图像估计的标量微结构索引的准确性来量化的增强的下游效用。代码可用

Towards Fully Interpretable Deep Neural Networks: Are We There Yet?
Authors Sandareka Wickramanayake, Wynne Hsu, Mong Li Lee
尽管表现出色，但深度神经网络DNNS表现为黑匣子阻碍了用户信任的人工智能AI系统。打开黑匣子DNN的研究可以广泛地分为HOC方法和固有的可解释的DNN。虽然已经在后HOC解释方法进行了许多调查，但很少努力致力于固有地解释的DNN。本文介绍了具有内在解释性的现有方法，以重点关注卷积神经网络CNNS。目的是了解对全部可解释的DNN的目前的进展，可以迎合不同的解释要求。最后，我们确定当前工作中的差距并提出潜在的研究方向。

High-resolution Image Registration of Consecutive and Re-stained Sections in Histopathology
Authors Johannes Lotz, Nick Weiss, Jeroen van der Laak, StefanHeldmann
我们将不同的分析图像配准与组织病理学的联系和重新染色部分进行比较。我们为非参数非线性图像注册提供了一个全自动算法，并将其应用于来自Anhir挑战230幻灯片的先前现有的数据集，连续的部分和新的数据集混合重新染色和连续，81幻灯片，CA。 3000个地标，可公开可用。注册超参数在ANHIR数据集中获得，并在未修改的情况下应用于新数据集。在新数据集中，登记后的地标误差范围为13.2微米，连续部分为1微米染色部分。我们观察到非参数登记在两种情况下都能降低地标错误，即使RE染色部分中的效果较小。重新染色部分非参数配准后的核水平对准提供了一种有价值的工具，用于在组织病理学中为机器学习应用产生自动基础真理。

Advancing biological super-resolution microscopy through deep learning: a brief review
Authors Tianjie Yang, Yaoru Luo, Wei Ji, Ge Yang
超分辨率显微镜克服了空间分辨率中常规光学显微镜的衍射极限。通过在纳米分辨率下提供关于生物过程的新的空间或时空时间信息，具有分子特异性，它在生命科学中起着越来越重要的作用。但是，其技术限制要求履行贸易问题，以平衡其空间分辨率，时间分辨率和样品的光暴露。最近，深入学习在许多图像处理和计算机视觉任务中取得了突破性的表现。它对推动超分辨率显微镜的性能包络有很大的承诺。在这篇简短的综述中，我们调查了最近利用深度学习提高超分辨率显微镜性能的进步。我们主要专注于深度学习广告如何重建超分辨率图像。讨论了相关的主要技术挑战。尽管存在挑战，但深入学习是在超分辨率显微镜的发展中发挥不可或缺的变革作用。我们得出了展望深度学习如何塑造这种新一代光学显微镜技术的未来。

AudioCLIP: Extending CLIP to Image, Text and Audio
Authors Andrey Guzhov, Federico Raue, J rn Hees, Andreas Dengel
过去，从其他域的方法的应用很大地利用了迅速发展的声音分类领域。今天，我们遵守熔断器域特定任务和方法的趋势，为社区提供了新的优秀模型。

Symmetric Wasserstein Autoencoders
Authors Sun Sun, Hongyu Guo
利用最佳运输框架，我们先前介绍了一个新的生成自动统计器系列，称为对称Wassersein AutoEncoders SWAES。我们建议对称地匹配观察到的数据的联合分布和编码器和解码器所引起的潜在表示。结果算法在数据空间中的损失中共同优化了数据和潜在空间中的建模损失，导致去噪效果。利用数据的对称处理和潜在表示，算法隐式地保留了潜在空间中数据的本地结构。为了进一步提高潜在代表的质量，我们将重建损失纳入目标，这显着利用了生成和重建。在分类，重建和生成方面，我们经验展示了艺术生成自身拓扑状态的卓越性能。

Rate Distortion Characteristic Modeling for Neural Image Compression
Authors Chuanmin Jia, Ziqing Ge, Shanshe Wang, Siwei Ma, Wen Gao
端到端优化能力提供神经图像压缩NIC卓越的损坏压缩性能。然而，需要训练不同的模型，以验证速率失真空间中的不同点。在本文中，我们考虑了对NIC的R D特征分析和建模的问题。我们努力制定使用深网络和统计建模来描述NIC的R D行为的基本数学函数。因此，通过通过单个培训的网络利用这种模型可以典范地实现连续比特率点。在这方面，我们提出了一个模块中的插件，以了解自动编码器的潜变量的目标比特率和二进制表示之间的关系。此外，我们分别将NIC的速率和失真特性模拟分别为编码参数Lambda的函数。我们的实验表明，我们提出的方法易于采用，并以固定的速率编码方法获得竞争性编码性能，这将有利于NIC的实际部署。此外，所提出的模型可以应用于使用单个网络的有限比特率误差的NIC速率控制。

High Performance Hyperspectral Image Classification using Graphics Processing Units
Authors Mahmoud Hossam
实时遥感应用，如搜索和救援任务，军事目标检测，环境监测，危险防护和其他时间关键应用需要船上实时处理能力或自主决策。一些无人驾驶的远程系统，如卫星在物理上远离其运营商，并且必须通过无线无线电链路传输航天器返回的航天器和数据的所有控制。当卫星在其地面站的视线中时，此链接可能无法延长时段。因此，轻量级，小尺寸和低功耗硬件对于车载实时处理系统至关重要。随着近期高光谱成像传感器的维度，规模和分辨率的增加，在遥感处理系统上提出了额外的挑战，并且需要更多的计算架构。图形处理单元GPU作为光重量高性能计算的承诺架构，可以解决车载系统的这些计算要求。本研究的目标是为车载高光谱分析构建高性能方法。我们向众所周知的递归分层分割RhSeG聚类方法提出了加速方法，使用GPU，混合多核CPU具有GPU和混合多核CPU GPU集群。 Rhseg是由美国国家航空航天局开发的方法，该方法旨在提供具有多个产出水平的丰富分类信息。与CPU顺序实现相比，通过并行解决方案实现的加速为21倍，用于具有16个计算节点的平行单个GPU和240x，用于具有16个计算节点的混合多节点计算机集群。与等效的并行CPU集群相比，使用单个GPU将能量消耗降低至74。

VinDr-SpineXR: A deep learning framework for spinal lesions detection and classification from radiographs
Authors Hieu T. Nguyen, Hieu H. Pham, Nghia T. Nguyen, Ha Q. Nguyen, Thang Q. Huynh, Minh Dao, Van Vu
射线照片被用作临床实践中鉴定脊柱异常的最重要的成像工具。然而，对脊髓骨病变的评估是放射科学家的具有挑战性的任务。这项工作旨在开发和评估名为VINDR Spinexr的深度学习框架，用于脊柱X光线的分类和定位。首先，我们构建一个大型数据集，包括来自5,000项研究的10,468个脊柱X射线图像，每个研究每个都是由经验丰富的放射科医师手动注释，其中13个类别中的异常发现周围的界定框。使用此数据集，我们将培训深度学习分类器以确定脊柱扫描是否异常，并且探测器在总数13中定位7个关键结果。VINDR SpineXR在1,000项研究中评估了2,078张图像的测试集。保持与培训集分开。它展示了88.61 95CI 87.19,90.02的接收器操作特性曲线Auroc的区域，用于图像级分类任务，以及用于病变级定位任务的平均平均精度映射0.5的33.56。这些结果担任概念证明，并在此方向上设定了未来研究的基线。鼓励进步，数据集，代码和培训的深度学习模型是公开可用的。

Continuous-Time Deep Glioma Growth Models
Authors Jens Petersen, Fabian Isensee, Gregor K hler, Paul F. J ger, David Zimmerer, Ulf Neuberger, Wolfgang Wick, J rgen Debus, Sabine Heiland, Martin Bendszus, Philipp Vollmuth, Klaus H. Maier Hein
估计肿瘤在未来可能发展的能力可能具有巨大的临床益处，从改善的治疗决策可以更好地分布放射治疗。最近的作品通过深度学习和变分推论，从而完全从真实的患者数据分布完全学习生长动态。到目前为止，这种方法被限制为预定义的图像采集间隔和固定长度的序列，这限制了其在更现实的情况下的适用性。我们通过扩展神经过程，一类用于随机时间序列的条件生成模型来克服这些限制，其中分层多尺度表示编码包括时空关注机构。结果是学习的生长模型可以在任意数量的观察中调节，并且可以在连续时间轴上产生时间上一致的生长轨迹的分布。在379名患者的数据集上，该方法成功地捕获了图像中的全球和更精细的粒度变化，与其他学习的增长模型相比，表现出卓越的性能。

Long-term Cross Adversarial Training: A Robust Meta-learning Method for Few-shot Classification Tasks
Authors Fan Liu, Shuyu Zhao, Xuelong Dai, Bin Xiao
Meta学习模型可以使用少量标记数据快速适应新的任务。然而，尽管在少量拍摄的分类任务上实现了良好的普遍化，但在几次拍摄学习中提高元学习模型的对抗性稳健性仍然挑战。虽然对逆势查询AQ等方法的对抗训练可以提高元学习模型的离前事实稳健性能，但在仍然是计算昂贵的训练。另一方面，与AT培训的META学习模型将降低原始清洁图像的显着准确性。本文提出了一种叫做长期交叉抗逆性训练LCAT的前对方强制性神经网络的元学习方法。 LCAT将在长期内更新Meta学习模型参数沿天然和普发的样品分布方向交叉，以改善对抗性和清洁少量射击分类精度。由于交叉对抗性训练，LCAT仅需要普遍训练的一半，而不是aq，导致对抗的威胁训练计算。实验结果表明，LCAT在清洁和普发的少量拍摄分类精度比SOTA对抗训练方法都能实现卓越的性能。

DCoM: A Deep Column Mapper for Semantic Data Type Detection
Authors Subhadip Maji, Swapna Sourav Rout, Sudeep Choudhary
语义数据类型的检测是自动数据清洁，模式匹配，数据发现，语义数据类型标准化和敏感数据识别的数据科学中的一个非常重要的任务。现有方法包括基于的正则表达式或基于字典的查找方法，其不稳健而不是脏污数据，并且仅限于预测的非常少的语义数据类型。现有机器学习方法从数据和构建逻辑回归，随机森林或前馈神经网络的大量工程特征提取大量工程特征。在本文中，我们介绍了DCOM，一个基于多输入NLP的深神经网络的集合来检测语义数据类型，而不是从数据中提取大量特征，我们将列或实例的原始值作为文本馈送到模型。我们培训从Viznet语料库中提取的686,765个数据列培训DCOM，具有78种不同的语义数据类型。 DCOM在同一数据集上具有相当长的边缘，享受其他当代结果。

A Systematic Collection of Medical Image Datasets for Deep Learning
Authors Johann Li, Guangming Zhu, Cong Hua, Mingtao Feng, BasheerBennamoun, Ping Li, Xiaoyuan Lu, Juan Song, Peiyi Shen, Xu Xu, Lin Mei, Liang Zhang, Syed Afaq Ali Shah, Mohammed Bennamoun
人工智能AI在医疗保健和其他领域的令人震惊的成功证明了AI可以实现人类的表现。然而，成功始终存在挑战。深度学习算法是数据相关的，需要大型数据集进行培训。医学成像领域的数据缺乏创造了应用深度学习对医学图像分析的瓶颈。医学图像采集，注释和分析昂贵，其使用受到伦理限制的限制。他们还需要许多资源，例如人类专业知识和资金。这使得非医学研究人员难以获得有用和大的医疗数据。因此，尽可能全面，本文提供了一系列医学图像数据集，其相关挑战对深度学习研究。我们收集了大约三百个数据集的信息，并在2013年和2020年之间主要报告的挑战，并将其分为四类头颈，胸部腹部，病理血等。我们的论文有三个目的1，提供最新的最新和完整的清单，可以用作普遍参考，以便轻松查找临床图像分析的数据集，2为指导研究人员来测试和评估其方法性能和鲁棒性在相关的数据集中，3提供与相关医疗主题相关算法的路线，并挑战排行榜。

AVHYAS: A Free and Open Source QGIS Plugin for Advanced Hyperspectral Image Analysis
Authors Rosly Boy Lyngdoh, Anand S Sahadevan, Touseef Ahmad, Pradyuman Singh Rathore, Manoj Mishra, Praveen Kumar Gupta, Arundhati Misra
高级高光谱数据分析软件Avhyas插件是基于Python3的Quantum GIS QGIS插件，旨在处理和分析高光谱HX图像。它是为了保证现有和未来的HX机载或星载传感器的全部使用，并提供对HX数据处理的先进算法的访问。该软件可自由提供，提供一系列基本和先进的工具，如空气传播的Avirisng图像，标准加工工具以及用于HX数据分析的强大机器学习和深层学习界面的大气修正。

A Global Appearance and Local Coding Distortion based Fusion Framework for CNN based Filtering in Video Coding
Authors Jian Yue, Yanbo Gao, Shuai Li, Hui Yuan, Fr d ric Dufaux
在循环滤波中用于视频编码以处理重建的帧以删除阻塞伪像。随着卷积神经网络CNN的发展，考虑到它可以被视为图像DE通知任务，已经探索了CNNS的循环滤波。然而，除了被扭曲的图像之外，还通过视频编码中的基于块的编码操作的固定线路获得重建的帧。它携带基于编码单元的编码畸变的一些类似特征。因此，在本文中，我们解决了两个方面的过滤问题，全局外观恢复用于破坏纹理和由固定的编码管道引起的局部编码失真恢复。因此，使用高级全局特征流，高级局部特征流和低级本地特征流进行三流全局外观和基于局部编码失真的融合网络。进行烧蚀研究以验证不同特征的必要性，表明全局特征和本地特征可以在滤波中相互补充并在组合时实现更好的性能。据我们所知，我们是第一个从上述全局外观和局部编码失真恢复方面清楚地表征视频过滤过程的第一个，提供了明显的途径来开发过滤技术。实验结果表明，与HEVC参考软件相比，所提出的方法显着优于现有的基于单帧的方法和实现的单一帧的方法，实现了13.5,11.3，11.7 BD速率，其平均值为AI，LDP和RA配置。

ATP-Net: An Attention-based Ternary Projection Network For Compressed Sensing
Authors Guanxiong Nie, Yajian Zhou
压缩传感CS理论同时实现了信号采样和压缩过程，并且可以使用较少的观察来实现精确的信号恢复，为较好，更快地传输大规模数据来提供解决方案。在本文中，提出了一种基于三元采样矩阵的注意力机制，以解决大多数情况下CS采样矩阵的问题是对CS采样矩阵的问题是随机矩阵，其对采样信号进行扰动，需要大存储空间。该方法包括三个组成部分，即三元采样，初始重建和深度重建，重点是三元抽样。三元方法1,0,1的主要思想是引入注意机制，以评估采样矩阵为二值化之后评估采样层的参数的重要性，然后提出参数的修剪重量，其重要性低于a预定义的阈值，实现Ternarization。此外，基于三元采样矩阵来实现特别是用于图像重建的压缩感测算法，其被称为ATP Net，即基于Ternary投影网络。实验结果表明，通过ATP网的图像重建质量与三元采样矩阵的使用保持令人满意的水平，即，当采样率为0.25时，SET11上的平均PSNR为30.4，与此相比相比大约6分DR2网。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com

你可能感兴趣的:(Transformer,计算机视觉,Papers,transformer,视觉语言模型,图像合成,视角合成,识别)

【长安三万里】观后感淇淇her
昨儿和崽一起去看了【长安三万里】。假期嘛，动画片是一定会安排上的。不只是因为带娃避暑好选择，更多的是现在的国漫，越来越好看了，自己也挺喜欢。每次看完电影都会有不同的感悟，可总是不习惯提笔，或许内心依然觉得逃避写个观后感是对上学时期的小叛逆，内心会舒坦吧。直到前阵子看书，葛先生说提笔即可。确实，人的记忆总是有限的，而每个时期的视角也有不同。不断反思，才能成长。一面是为我，一面也是为娃吧！整个观影过程
基于 Qwen-Agent 与 MCP 实现阿里云 ECS 实例查询（含完整代码与实操）
✅关键词：Qwen-Agent、MCP、阿里云、运维、LLM、FunctionCalling在现代云运维场景中，我们不仅希望大语言模型（LLM）能回答文本问题，更希望它能直接调用云端API、查询资源，实现「智能运维」。本文将分享如何基于Qwen-Agent和MCP，快速实现一个“云资源助手”，能帮你查询阿里云ECS实例信息。什么是MCP？MCP(Model-ComputingPlatform)是阿
读《认知天性》（1）云城梦天
认知是对天性是挑战认知可以用数学统计与实践客观来评价，而我感觉是一种自我感知。当未知时，感知痛苦然而这是个时习之中乐的过程。也可以通过rain和轻疗的方法安抚情绪编码，可以以好奇心与视觉画面联动来做记忆编码的过程，因人是视觉性爬行动物，且好奇心也是人的天性好奇时会主动探索算是翻转式学习的一种，编码是记忆过程。另外你可能对记忆中某一刻的感觉记得很清楚，然而忘记了内容，人或许也是感觉爬行动物。巩固，可
智慧光伏发电信息化系统需求文档小赖同学啊 test Technology Precious 物联网
以下是从产品经理角度撰写的智慧光伏发电信息化系统需求文档，聚焦光伏行业痛点与业务价值，遵循标准PRD结构：智慧光伏发电信息化系统需求文档版本：1.0日期：2025年7月19日作者：产品经理视角一、文档概述1.1产品背景光伏电站运营面临四大挑战：发电损失定位难：组串故障、阴影遮挡等问题人工排查效率低运维成本占比高：占LCOE（平准化度电成本）超15%电网调度协同弱：缺乏精准发电预测，罚款风险高资产收
实现大语言模型与应用的无缝对接 meslog 技术分享语言模型 microsoft 人工智能
在当今人工智能快速发展的时代，大语言模型（LLMs）已经成为众多应用的核心驱动力。然而，如何让这些强大的模型与各种数据源和工具进行有效集成，仍然是一个挑战。ModelContextProtocol（MCP）正是为解决这一问题而设计的开放协议，它标准化了应用程序如何向大语言模型提供上下文信息。本文将介绍MCP的基本概念，并通过C#SDK展示如何实现客户端和服务器端的交互。什么是MCP？ModelCo
Spring AI + MCP Client 配置与使用详解超级小忍 SpringAI spring 人工智能 java
前言随着大模型技术的快速发展，ModelCoordinationProtocol(MCP)逐渐成为连接本地系统和远程AI服务的重要桥梁。SpringAI是Spring官方推出的AI开发框架，支持多种语言模型接口，而MCPClient则是其集成远程推理能力的核心组件之一。本文将详细介绍如何在SpringBoot项目中配置和使用SpringAI的MCPClient，包括环境准备、依赖引入、配置方式、代
csc（x）积分推导 weixin_43420126 数学基础知识数据挖掘人工智能
在MATLAB中同时绘制sin⁡(x),csc(x)和ln⁡∣tan⁡(x/2)∣的函数图像，需要处理函数的奇点（如csc⁡(x)在sin⁡(x)=0时无定义，ln⁡∣tan⁡(x/2)∣在x=kπ时无定义）（deepseek生成matlab代码）%定义x范围（-2π到2π），高密度采样x=linspace(-2*pi,2*pi,10000);%精确识别csc(x)的奇点（sin(x)=0的点）c
【Oracle】Oracle 11g打补丁时遇到opatch apply命令无法识别瑞琪姐大数据模块 oracle 数据库
⚙️1.使用完整路径执行命令问题原因：若未将$ORACLE_HOME/OPatch加入系统PATH环境变量，直接输入opatchapply会因系统无法定位命令而报错。解决方案：改用绝对路径执行：$ORACLE_HOME/OPatch/opatchapply例如：/u01/app/oracle/product/11.2.0/db_1/OPatch/opatchapply注：此方法在Windows/L
【大语言模型基础】GPT（Generative Pre-training ）生成式无监督预训练模型原理
前言ELMo：将上下文当作特征，但是无监督的语料和我们真实的语料还是有区别的，不一定符合我们特定的任务，是一种双向的特征提取。OpenAIGPT:通过transformerdecoder学习出来一个语言模型，不是固定的，通过任务fine-tuning,用transfomer代替ELMo的LSTM。OpenAIGPT其实就是缺少了encoder的transformer：当然也没了encoder与de
GPT-4o mini TTS：领先的文本转语音技术桂花饼 AIGC GPT-4o o4-mini 语音识别人工智能 GPT-4o
什么是GPT-4ominiTTS？GPT-4ominiTTS是OpenAI推出的全新一代文本转语音（TTS）技术，能够以自然、流畅的方式将普通文本转换为语音。依托先进的神经网络架构，GPT-4ominiTTS在语音合成中避免了传统TTS的生硬与机械感，能够生成富有情感和个性化表达的高质量语音。该技术支持多语言与多口音，是视频、播客、电子学习等场景的理想选择。核心特点自然流畅，接近真人GPT-4om
今日分享（2019.1.21）欢喜慈悲
智能服务系统上线了，大家上班都通过“扫脸”打卡，我们开启了每天数次的自拍模式。有时候会遇到难以识别的情况，一些同事对着镜头满脸无辜：上次还好好的，怎么又不“认识”我了……我说，你对自己笑一笑，门就开了……
MATC：通过数学推理和图表还原增强视觉语言预训练 AI专题精讲模型加速人工智能 AI技术应用多模态视觉语言
温馨提示：本篇文章已同步至"AI专题精讲"MATC：通过数学推理和图表还原增强视觉语言预训练摘要视觉语言数据，如图表、图形和信息图，在人类世界中无处不在。然而，现有的最先进的视觉语言模型在这些数据上的表现并不理想。我们提出了MATCHA（数学推理与图表去渲染预训练），旨在增强视觉语言模型在联合建模图表/图形与语言数据方面的能力。具体而言，我们提出了几个预训练任务，涵盖了图形解构和数值推理，这些是视
现代人工智能综合分类：大模型时代的架构、模态与生态系统司南锤 economics 人工智能分类数据挖掘
目录引言：人工智能的第四次浪潮与新分类的必要性第一节：大型模型范式的基础支柱1.1规模化假说：算力、数据与算法的三位一体1.2“涌现能力”之谜：当“更多”变为“不同”1.3自监督学习（SSL）革命第二节：大型模型的技术分类学2.1Transformer：现代人工智能的架构基石2.2架构分化：一种功能性分类2.3提升效率与规模：专家混合模型（MoE）2.4超越Transformer：下一代架构的探索
老板娘们的财务管理（2）——视角不同旅居上海的青青草
中小民营企业，多是夫妻共同创业，老板娘大多管财务。能创业且能把企业做到一定规模，自然是有不同于常人之处，老板娘作为实质上的合伙人，也定是有过人之处。尽管我们大多数专业财务看老板娘管财务，经常不按常规出牌，但企业不但没出什么问题反而蒸蒸日上，这也不由得我们专业的财务人员深思。老板娘们大多不是财务专业出身，但她们对于会计核算之外的风险管理、内控等事情的敏感性非常强，并且大部分老板娘有经营性思维。因此，
Android NFC 技术详解及 IC 卡读取实现 Monkey-旭 microsoft NFC IC卡 android java
NFC（NearFieldCommunication，近场通信）作为一种短距离高频无线通信技术，在移动支付、身份识别、数据传输等场景中应用广泛。在Android设备上，NFC功能可以实现与IC卡、标签、其他NFC设备的交互，其中“读取IC卡”是最常见的需求之一。本文将从技术原理到实际开发，全面讲解AndroidNFC技术及IC卡读取实现。一、AndroidNFC技术基础1.1什么是NFC？NFC是
基于YOLOv8的火灾智能检测系统设计与实现斟的是酒中桃深度学习人工智能 pyqt yolo
在各类安全事故中，火灾因其突发性强、破坏力大，一直是威胁人们生命财产安全的重大隐患。传统的火灾检测方式多依赖烟雾传感器、温度传感器等，存在响应滞后、易受环境干扰等问题。随着深度学习技术的飞速发展，基于计算机视觉的火灾检测方法凭借其实时性强、检测范围广等优势，逐渐成为研究热点。本文将简单介绍一款基于深度学习的火灾智能检测系统的设计与实现过程。一、系统整体设计本火灾智能检测系统旨在通过深度学习技术实现
【图像分割】基于模糊聚类FCM和改进的模糊聚类算法实现CT图像分割matlab代码天天Matlab科研工作室图像处理 Matlab各类代码算法聚类 matlab
1简介医学影像分割的基本目标是将图像分割成不同的解剖组织，从而可以从背景中提取出感兴趣区域。因为图像的低分辨率和弱对比度，实现医学影像分割是一件具有挑战的任务。而且，这个任务由于噪声和伪阴影变得更加困难，这些干扰项可能是因器材限制、重建算法和患者移动等原因造成的。目前还没有通用的医学图像分割算法，算法的优点和缺点经常根据所研究的问题而变化。将分割概念具体到颅内出血CT图像上，就是将颅腔中的出血病灶
21、子图同构问题的深度解析 metal 子图同构图论算法
子图同构问题的深度解析1.子图同构问题概述子图同构问题是图论中的一个核心问题，广泛应用于社交网络分析、生物信息学、模式识别等领域。该问题的定义是：给定两个图，一个是较大的主图（HostGraph），另一个是较小的模式图（PatternGraph），判断主图中是否存在一个子图与模式图同构。简单来说，就是要找到主图中与模式图结构完全一致的子图。子图同构问题的难度在于它是一个NP完全问题，意味着在最坏情
FPGA通信设计十问
1.FFT有什么用？FFT（快速傅里叶变换）是离散傅里叶变换（DFT）的高效实现算法，它的核心作用是快速将信号从时域转换到频域，从而简化信号分析和处理的过程。自然界的信号（如声音、图像、电磁波等）通常以时域形式存在（即随时间变化的波形），但很多特性（如频率成分、谐波分布）在频域中更易分析FFT能快速计算信号中各频率分量的幅值和相位。可以进行频率拆分与实时处理。FFT是“信号的透视镜”，让我们能“看
Java 二维数组详解：从基础语法到实战应用，彻底掌握多维数据结构大葱白菜 java合集开发语言 java 后端学习个人开发
作为一名Java开发工程师，你一定在实际开发中遇到过需要处理表格、矩阵、图像像素、游戏地图等场景。这时候，二维数组（2DArray）就派上用场了。本文将带你全面掌握：Java中二维数组的定义与初始化方式二维数组的内存结构与访问机制二维数组的遍历、修改与扩容技巧二维数组在实际业务中的应用场景二维数组与集合类（如List>）的互转常见误区与最佳实践并通过丰富的代码示例和真实项目场景讲解，帮助你写出更高
机器学习基础：从数据到智能的入门指南
一、何谓机器学习在我们的日常生活中，机器学习的身影无处不在。当你打开购物软件，它总能精准推荐你可能喜欢的商品；当你解锁手机，人脸识别瞬间完成；当你使用语音助手，它能准确理解你的指令。这些背后，都离不开机器学习的支撑。机器学习是一门让计算机能够从数据中学习并改进的学科。随着传感器技术的飞速发展，我们身边充满了各种传感器，如手机中的摄像头、麦克风，交通监控中的传感器等，它们收集了海量的数据。这些数据就
点评方法赵权威
学练评赛点评是终极艺术。视角：点评1314原则:1、核心思想，目的价值，启发深思。例子、读书有用吗。网红。2、克制：声音克制，高潮。肢体。印象原则：亮点：开头，故事。金句。雕刻：声音肢体内容、声音粗到细1，结构。三明治。4、方面：声音肢体形象内容。声音：
Sequential Thinking：AI深度思考的新范式及其与CoT、ReAct的对比分析码字的字节人工智能 Sequential CoT ReAct
引言：AI深度思考的演进与SequentialThinking的崛起在人工智能技术快速发展的今天，AI模型的思考能力正经历着从简单应答到深度推理的革命性转变。这一演进过程不仅反映了技术本身的进步，更体现了人类对机器智能认知边界的持续探索。早期的大语言模型虽然能够生成流畅的文本，但在处理复杂问题时往往表现出"浅思考"的局限性——答案可能看似合理，却缺乏严谨的推理过程和系统性考量。例如，2022年的一
只有做最好的自己才能吸引来最好的别人雷继伟668
陈果说：“只有同等能量的人才会相互吸引、相互识别、相互欣赏”。你若盛开，蝴蝶自来。所以，如果你想要遇到非常优秀的朋友、知己、亦或是情侣，请你静静地成长，美美的绽放。待你盛开，优秀的人自然会被你吸引而来，与你为友、陪你作伴、携你前行！读书、思考、践行，一定能让你成为更好的自己。读书，就是将别人的思想变成一块块垫脚石，筑起自己的思想殿堂。在大多数人的生活中，自己的身边都会有一些非常优秀的人。她们美的貌
纸板制造学习3·DOE实验（如正交试验）优化压力组合 xinzheng新政制造学习
·DOE实验（如正交试验）优化压力组合DOE（DesignofExperiments，实验设计）是一种通过科学规划实验方案，系统分析多因素对结果影响的方法，正交试验是其核心工具之一。在纸板生产中，DOE可通过少量实验快速找到气缸压力、原纸克重等变量的最优组合，提升效率与质量。以下是简要科普：一、DOE的核心目标识别关键因素：确定哪些变量（如热板压力、原纸克重）对结果（如纸板厚度、粘合强度）影响最大
评估遥感云雾浓度的无参化指标（适用于其它合成雾的场景）夏天是冰红茶去雾与加雾 opencv 计算机视觉人工智能
前言本文总结了四种用于评估图像雾浓度的无参考指标：FADE、densityD、AuthESI和JSFD。FADE通过MATLAB实现，能较好反映雾气浓度但计算耗时；densityD基于TensorFlow，对天空场景较为敏感；AuthESI主要用于评估合成雾真实性，不适用于浓度评估；JSFD结合HSV空间S值、白点比例和暗通道特征，准确性较高但计算时间长。实验表明，FADE和JSFD以及densi
2021-09-28 最幸运的幸孕草
孕前饮食需加强哪些营养备孕期间，夫妻双方不但要改掉一些不良的生活和饮食习惯，还要对自身的身体健康加以重视，尤其要注意有益营养的摄入，保证受孕的时候，体内的营养能满足胚胎的需要。1.注意补碘碘是合成人体甲状腺素非常重要的物质，缺乏碘容易导致胎儿在发育期语言、听力和智力的发育，严重的还会导致呆小症的出现，脑科目前对呆小症没有治疗的方法。碘对孩子的智能和体能发育意义重大，孕妇备孕和孕期补充碘元素，宝宝出
Unet源码实现（pytorch） wyn20001128 pytorch 人工智能 python
U-Net是一种用于生物医学图像分割的卷积神经网络架构。它通过引入一种新颖的网络结构和训练策略解决了传统方法在数据量不足时面临的挑战。U-Net的主要思想是利用数据增强技术来高效利用有限的标注样本，并通过独特的网络设计来提高分割精度。主要贡献U-Net的主要贡献包括：1、数据增强策略：使用随机弹性变形和其他形式的数据增强来增加训练数据的多样性，从而在有限的数据集上训练出更强大的模型。2、U形网络结
DETR革命：目标检测的Transformer时代加油吧zkf 目标检测 YOLO python 开发语言人工智能图像处理
《DETR从0到1：目标检测Transformer的崛起》为什么会有DETR？在深度学习目标检测发展史上，2014~2019年几乎被基于卷积神经网络（CNN）的检测器统治：两阶段：FasterR-CNN、MaskR-CNN单阶段：YOLO、SSD、RetinaNet这些检测器虽然效果强大，但背后依赖：✅Anchor（先验框）✅NMS（非极大值抑制）✅特征金字塔、手工设计问题：结构复杂、调参困难、不
035_ClaudeCode_MCP_介绍义薄云天us Claude Code菜鸟到高手专栏 Claude Code 机器学习深度学习 mcp
035_ClaudeCode_MCP_介绍摘要ModelContextProtocol（MCP）是一个开放的标准化协议，专为大型语言模型提供上下文数据而设计。作为ClaudeCode生态系统的重要组成部分，MCP如同"AI应用程序的USB-C端口"，提供了将AI模型连接到不同数据源和工具的标准化方式。本文全面介绍MCP的核心概念、架构设计和在ClaudeCode中的应用场景。目录什么是ModelC
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟

【AI视野·今日CV 计算机视觉论文速览 第227期】Fri, 25 Jun 2021

Interesting:

Daily Computer Vision Papers

你可能感兴趣的:(Transformer,计算机视觉,Papers,transformer,视觉语言模型,图像合成,视角合成,识别)

【AI视野·今日CV 计算机视觉论文速览第227期】Fri, 25 Jun 2021