极市平台

WACV 2021 论文大盘点目标检测与图像分割篇（持续更新）

来源：OpenCV中文网

目标检测篇：

本篇继续对目标检测相关论文进行整理，共计 14 篇。包含2D、 3D、雷达、小目标、带方向的、半监督目标检测、弱监督目标定位等。

如有遗漏，欢迎补充。

下载包含这些论文的 WACV 2021 所有论文：链接: https://pan.baidu.com/s/1vShaCoOrQZ0gTlEPhbUsAg

提取码: [hide] uxp2 [/hide]

3D目标检测

[1].Cross-Modality 3D Object Detection

跨模态3D目标检测。文中提出一个两阶多模态融合框架，结合最佳状态的双目图像对和点云来进行 3D 目标检测。另外，使用 stereo matching 伪激光雷达点作为一种数据增强方法，以使激光雷达点密集化。

作者 | Ming Zhu, Chao Ma, Pan Ji, Xiaokang Yang

单位 | 上海交通大学；NEC Laboratories America

论文 | https://arxiv.org/abs/2008.10436

[2].CenterFusion: Center-based Radar and Camera Fusion for 3D Object Detection

旨在使用低成本的雷达（redar）替换自动驾驶中的激光雷达，并达到高精度3D目标检测的方法。已开源。

作者 | Ramin Nabati, Hairong Qi

单位 | 田纳西大学诺克斯维尔

论文 | https://arxiv.org/abs/2011.04841

代码 | https://github.com/mrnabati/CenterFusion

详解 | CenterFusion：融合雷达与摄像头数据的高精度3D目标检测

[3].Improving Point Cloud Semantic Segmentation by Learning 3D Object Detection

提出 Detection Aware 3D Semantic Segmentation (DASS) 网络来解决当前架构的局限性。DASS 可以在保持高精度鸟瞰（BEV）检测结果的同时，将几何相似类的 3D语义分割结果提高到图像 FOV 的 37.8% IoU。

作者 | Ozan Unal, Luc Van Gool, Dengxin Dai

单位 | 苏黎世联邦理工学院；鲁汶大学

论文 | https://arxiv.org/abs/2009.10569

半监督目标检测

[4].Proposal Learning for Semi-Supervised Object Detection

作者提出一种 proposal 学习方法，从标记和未标记的数据中学习proposal 特征和预测。该方法包括：

一种自监督的 proposal 学习模块，通过 proposal 位置损失和对比损失分别学习上下文感知和噪声粗糙的 proposal 特征
一个基于一致性的 proposal 学习模块，通过一致性损失学习噪声鲁棒proposal 特征和预测，用于边界盒分类和回归预测

在COCO数据集上，所提出方法比各种基于 Faster R-CNN 的完全监督基线和数据蒸馏分别高出约 2.0% 和 0.9%。

作者 | Peng Tang, Chetan Ramaiah, Yan Wang, Ran Xu, Caiming Xiong

单位 | Salesforce Research；约翰斯霍普金斯大学

论文 | https://arxiv.org/abs/2001.05086

小目标检测

[5].Effective Fusion Factor in FPN for Tiny Object Detection

作者 | Yuqi Gong, Xuehui Yu, Yao Ding, Xiaoke Peng, Jian Zhao, Zhenjun Han

单位 | 国科大；Institute of North Electronic Equipment

论文 | https://arxiv.org/abs/2011.02298

代码 | coming

[6].Oriented Object Detection in Aerial Images With Box Boundary-Aware Vectors

提出一个简单有效的策略：BBAVectors 来描述带方向的目标。BBAVectors 是在同一笛卡尔坐标系中对所有任意方向的目标进行测量。与之前的学习目标的宽度、高度和角度的基线方法相比，BBAVectors的性能更好。

将基于中心关键点的目标检测器扩展到定向目标检测任务中。该模型的特点：单阶段、anchor box free、快速和准确。在 DOTA 和 HRSC2016 数据集上实现了最先进的性能。

作者 | Jingru Yi, Pengxiang Wu, Bo Liu, Qiaoying Huang, Hui Qu, Dimitris Metaxas

单位 | 罗格斯大学论文 | https://arxiv.org/abs/2008.07043

代码 | https://github.com/yijingru/BBAVectors-Oriented-Object-Detection

[7].Generalized Object Detection on Fisheye Cameras for Autonomous Driving: Dataset, Representations and Baseline

鱼眼相机覆盖视野广阔，作者系统全面研究了自动驾驶场景鱼眼相机目标检测，作者提出了新的表示方法，数据集和基线算法，相比于之前的工作，获得了显著的改进。

作者 | Hazem Rashed, Eslam Mohamed, Ganesh Sistu, Varun Ravi Kumar, Ciaran Eising, Ahmad El-Sallab, Senthil Yogamani

单位 | Valeo R&D等

论文 | https://arxiv.org/abs/2012.02124

FisheyeYOLO_腾讯视频•v.qq.com

雷达目标检测

[8].RODNet: Radar Object Detection Using Cross-Modal Supervision

提出一种全新的雷达目标检测网络：RODNet，无需摄像头或激光雷达情况下，用在各种驾驶场景下进行鲁棒的目标检测。一个摄像机-雷达融合(CRF)跨模态监管框架，用于训练 RODNet，无需繁琐且可能不一致的人为标注。

作者还收集了一个新的数据集：CRUW，包含相机和雷达的同步数据，对相机-雷达跨模式研究很有价值。以及一种新的雷达目标检测任务的评价方法，并对其有效性进行了论证。

作者 | Yizhou Wang, Zhongyu Jiang, Xiangyu Gao, Jenq-Neng Hwang, Guanbin Xing, Hui Liu

单位 | 华盛顿大学；Silkwave Holdings Limited

论文 | https://openaccess.thecvf.com/content/WACV2021/papers/Wang_RODNet_Radar_Object_Detection_Using_Cross-Modal_Supervision_WACV_2021_paper.pdf

代码 | https://github.com/yizhou-wang/RODNet

数据集 | https://www.cruwdataset.org/

无监督目标定位

Improve CAM With Auto-Adapted Segmentation and Co-Supervised AugmentationWSOL

弱监督目标定位是一种仅使用图像级标签，而不包含位置注释的目标定位方法。本次工作，主要针对 WSOL 任务，作者提出 CSoA。由两个模块组成，对传统的卷积网络进行改进，在不牺牲识别能力的前提下提高其定位性能。

在学习过程中，ConfSeg 模块鼓励网络内部的两个分类器生成更精确和完整的CAM。此外，CoAug 模块基于度量方法对不同样本的 CAM 进行批量调节。最终模型在两个公共基准上优于所有之前的方法，成为新的最先进技术，为解决 WSOL 问题提供了新的见解。

作者 | Ziyi Kou, Guofeng Cui, Shaojie Wang, Wentian Zhao, Chenliang Xu

单位 | 圣母大学；罗格斯大学；圣路易斯华盛顿大学；Adobe；罗切斯特大学

论文 | https://arxiv.org/abs/1911.07160

目标检测

[9].CPM R-CNN: Calibrating Point-Guided Misalignment in Object Detection

该文指出 Point-Guided 网络中检测精度的瓶颈原因在于两种错位问题，并提出解决方案：CPM R-CNN。提出 cascade mapping 以便获得更完整的box分布，并证明了它的有效性。所设计的简单有效的融合评分结构与原来的相比有很大改进。

与 Faster R-CNN 和基于 ResNet-101 与 FPN 的 Grid R-CNN 相比，所提出方法在 without whistles and bells 情况下分别大幅提高 3.3% 和 1.5% mAP。此外，最佳模型在 COCO 测试设备上的改进幅度较大，达到 49.9%。

作者 | Bin Zhu, Qing Song, Lu Yang, Zhihui Wang, Chun Liu, Mengjie Hu

单位 | 北京邮电大学

论文 | https://arxiv.org/abs/2003.03570

代码 | https://github.com/zhubinQAQ/CPM-R-CNN

[10].Towards Resolving the Challenge of Long-tail Distribution in UAV Images for Object Detection

目前无人机图像目标检测存在的问题是无人机图像类别分布分布，就此问题，作者提出 Dual Sampler and Head detection Network (DSHNet)，是首个旨在解决无人机图像中长尾分布的工作。

DSHNet 的关键组成是 Class-Biased Samplers (CBS) 和 Bilateral Box Heads (BBH)，是为应对尾部类和头部类的双路径方式而开发。

DSHNet显著提升了尾类在不同检测框架上的性能。并在 VisDrone 和UAVDT 数据集上，性能明显优于基础检测器和通用方法。当与图像裁剪方法等数据增广方法相结合时，它实现了新 SOTA。

作者 | Weiping Yu, Taojiannan Yang, Chen Chen

单位 | 北卡罗来纳大学夏洛特分校

论文 | https://arxiv.org/abs/2011.03822

代码 | https://github.com/we1pingyu/DSHNet

[11].SliceNets – A Scalable Approach for Object Detection in 3D CT ScansSliceNets：用于 3D CT扫描中目标检测的可扩展方法

作者 | Anqi Yang, Feng Pan, Vishwanath Saragadam, Duy Dao, Zhuo Hui, Jen-Hao Rick Chang, Aswin C. Sankaranarayanan

单位 | 卡内基梅隆大学；IDSS Corporation

论文 | https://openaccess.thecvf.com/content/WACV2021/papers/Yang_SliceNets_–_A_Scalable_Approach_for_Object_Detection_in_3D_WACV_2021_paper.pdf

[12].Class-Agnostic Object Detection

在很多问题中，目标的存在位置信息比类别信息更重要，于是该文作者提出一种新型 class-agnostic（可不知类别的）目标检测问题表述，作为新的研究方向。制订训练和评估协议，以确定基准和推进研究；设计一个新的对抗式学习框架，用于类诊断检测，强制模型从用于预测的特征中排除 class-specific 信息。实验结果表明，对抗式学习提高了 class-agnostic 识别的检测效率。

作者 | Ayush Jaiswal, Yue Wu, Pradeep Natarajan, Premkumar Natarajan

单位 | Amazon Alexa

论文 | https://arxiv.org/abs/2011.14204

[13].Data-Free Knowledge Distillation for Object Detection

用于目标检测的无数据知识蒸馏技术，由两部分组成：DIODE，通过模型逆映射从预训练检测模型中合成图像的框架；一个无数据模仿学习方法，对从老师对学生合成的图像进行知识蒸馏，用于目标检测。实验验证了合成图像的质量和通用性，检测效率与域外数据集(0.313 mAP)相比，有显著的改进(0.450 mAP)，并且与同域数据集(0.466 mAP)具有竞争力。

作者 | Akshay Chawla, Hongxu Yin, Pavlo Molchanov, Jose Alvarez

单位 | 英伟达

论文 | https://openaccess.thecvf.com/content/WACV2021/papers/Chawla_Data-Free_Knowledge_Distillation_for_Object_Detection_WACV_2021_paper.pdf

- END -

图像分割篇：

本篇文章盘点WACV2021图像分割相关论文，包括抠图、实例、全景、语义分割，自然灾害评估等相关应用。值得关注的是有一篇文本抠图，在以往工作中很少或从未研究过的。

共计 11 篇。如有遗漏，欢迎补充。

下载包含这些论文的 WACV 2021 所有论文：

『WACV 2021 开幕，更偏重技术应用，附论文下载』

实例分割

[1].Weakly Supervised Instance Segmentation by Deep Community Learning

文中作者引入一个用于弱监督实例分割的深度社区学习框架，该框架基于一个端到端可训练的深度神经网络，在目标检测、实例掩码生成和目标分割多个任务之间有主动交互。

加入两种有经验的目标定位技术：class-agnostic bounding box regression 和 segmentation proposal generation，且是在没有完全监督的情况下进行的。

所提出的算法在不进行后处理情况下，在标准基准数据集上实现了比现有弱监督方法大幅提高的性能。

作者 | Jaedong Hwang, Seohyun Kim, Jeany Son, Bohyung Han

单位 | 首尔大学；ETRI

论文 | https://arxiv.org/abs/2001.11207

主页 | https://cv.snu.ac.kr/research/WSIS_CL/

#WACV 2021##航空影像##实例分割#

[2].MSNet: A Multilevel Instance Segmentation Network for Natural Disaster Damage Assessment in Aerial Videos

MSNet：用于航空视频自然灾害评估的多级实例分割网络

本文研究通过航空视频分析，有效评估飓风、洪水或火灾等自然灾害后的建筑物损失问题。做出了两个主要贡献：

第一个贡献是一个新的数据集，包括来自社交媒体用户生成的航拍视频，并带有实例级的建筑损伤掩码标注。为利用航拍视频评估建筑物损伤的模型的定量评估提供了第一个基准。

第二个贡献是一个新的模型：MSNet，包含了新的区域 proposal 网络设计和一个无监督的分数细化网络，用于边界盒和掩模分支的置信度分数校准。

实验表明，新的模型和新的数据集与以前的方法相比，取得了最先进的结果。

作者表示将发布数据、模型和代码。

作者 | Xiaoyu Zhu, Junwei Liang, Alexander Hauptmann

单位 | 卡内基梅隆大学

论文 | https://w.url.cn/s/AC2eIwl

代码 | https://github.com/zgzxy001/MSNET

语义分割

[3].Unsupervised Domain Adaptation in Semantic Segmentation via Orthogonal and Clustered Embeddings

作者 | Marco Toldo, Umberto Michieli, Pietro Zanuttigh

单位 | 意大利帕多瓦大学

论文 | https://arxiv.org/abs/2011.12616

主页 | https://lttm.dei.unipd.it/paper_data/UDAclustering/

代码 | https://github.com/LTTM/UDAclustering

[4].Improving Point Cloud Semantic Segmentation by Learning 3D Object Detection

提出 Detection Aware 3D Semantic Segmentation (DASS) 网络来解决当前架构的局限性。DASS 可以在保持高精度鸟瞰（BEV）检测结果的同时，将几何相似类的 3D语义分割结果提高到图像 FOV 的 37.8% IoU。

作者 | Ozan Unal, Luc Van Gool, Dengxin Dai

单位 | 苏黎世联邦理工学院；鲁汶大学

论文 | https://arxiv.org/abs/2009.10569

[5].Multi Projection Fusion for Real-Time Semantic Segmentation of 3D LiDAR Point Clouds

本次工作，作者提出全新的 multi-projection 融合框架，通过使用球面和鸟瞰投影，利用 soft voting 机制对结果进行融合，实现点云语义分割。

所提出的框架在 SemanticKITTI 数据集上的mIoU达到了 55.5，高于最先进的基于single projection 的方法 RangeNet++ 和 PolarNet，比前者快1.6倍，比后者快3.1倍。同时具有更高的 throughput（吞吐量）。

对于未来工作方向，作者称将两种 projections 结合成单一的多视图统一模型，并研究在框架内使用两种以上的 projections 。

作者 | Yara Ali Alnaggar, Mohamed Afifi, Karim Amer, Mohamed Elhelw

单位 | Nile University；

论文 | https://arxiv.org/abs/2011.01974

[6].Shape From Semantic Segmentation via the Geometric Renyi Divergence

作者 | Tatsuro Koizumi, William A. P. Smith

单位 | 约克大学

论文 | https://openaccess.thecvf.com/content/WACV2021/papers/Koizumi_Shape_From_Semantic_Segmentation_via_the_Geometric_Renyi_Divergence_WACV_2021_paper.pdf

全景分割

[7].Boosting Monocular Depth With Panoptic Segmentation Maps作者 | Faraz Saeedan, Stefan Roth

单位 | 达姆施塔特工业大学

论文 | https://openaccess.thecvf.com/content/WACV2021/papers/Saeedan_Boosting_Monocular_Depth_With_Panoptic_Segmentation_Maps_WACV_2021_paper.pdf

视频目标分割

[8].Reducing the Annotation Effort for Video Object Segmentation Datasets

为进一步改进视频目标分割的性能，需要更大、更多样化、更具挑战性的数据集。然而用像素掩码对每一帧进行密集标注并不能扩展到大型数据集。因此作者使用深度卷积网络，从较便宜的边界框标注中自动创建像素级的伪标签，并研究这种伪标签能在多大程度上承载训练最先进的VOS方法。

令人欣喜的是，仅在每个对象的单个视频帧中添加一个手动标注的掩码，足以生成伪标签，用来训练VOS方法，并达到与完全分割视频训练时几乎相同的性能水平。基于此，为 TAO 数据集的训练集创建像素伪标签，手动标注验证集的一个子集。得到了新的TAO-VOS基准，公布在 https://www.vision.rwth-aachen.de/page/taovos（近期公开）

作者 | Paul Voigtlaender, Lishu Luo, Chun Yuan, Yong Jiang, Bastian Leibe

单位 | 亚琛工业大学；清华大学

论文 | https://arxiv.org/abs/2011.01142

代码 | https://www.vision.rwth-aachen.de/page/taovos

备注 | WACV 2021

目标部分分割

[9].Part Segmentation of Unseen Objects using Keypoint Guidance

作者开发了一种端到端学习方法,利用关键点位置引导迁移学习过程，将 pixel-level 目标部分分割从完全标记的目标集迁移到另一个弱标记的目标集。对于部分分割来说，作者证明非参数化的模板匹配方法比像素分类更有效，特别是对于小的或不太频繁的部分。为验证所提出方法的通用性，作者引入了两个新的数据集，共包含 200 只四足动物，同时具有关键点和部分分割标注。并证明所提出方法在训练过程中使用有限的部分分割标签，可以在新型物体部分分割任务上以较大的优势优于现有模型。

作者 | Shujon Naha, Qingyang Xiao, Prianka Banik, Md. Alimoor Reza, David J. Crandall

单位 | 印第安那大学艺术科学学院

论文 | https://openaccess.thecvf.com/content/WACV2021/papers/Naha_Part_Segmentation_of_Unseen_Objects_Using_Keypoint_Guidance_WACV_2021_paper.pdf

数据集 | http://vision.sice.indiana.edu/animal-pose-part/

图像抠图

Towards Enhancing Fine-Grained Details for Image Matting

提出一个关于图像抠图问题的新观点，明确地将这个任务分为两个部分：一个是提取高级语义线索的语义部分，另一个是提供精细细节和低级纹理线索的纹理补偿部分。

基于这一点，提出一种新的深度图像抠图方法，明确定义了两条路径：编码器-解码器语义路径和无下采样纹理补偿路径。进一步提出了一个新的损失项，帮助网络缓解不准确的trimap问题，更好地检测那些 "纯 "背景部分。所提出的方法在具有挑战性的Adobe Composition1k测试数据集上实现了新的最先进的性能。

作者 | Chang Liu, Henghui Ding, Xudong Jiang

单位 | 南洋理工大学

论文 | https://openaccess.thecvf.com/content/WACV2021/papers/Liu_Towards_Enhancing_Fine-Grained_Details_for_Image_Matting_WACV_2021_paper.pdf

Text Matting

ATM: Attentional Text Matting

本次研究，作者尝试解决从图像背景中提取字符(通常为WordArts)的 Text Matting（文本抠图）问题。与传统的图像抠图问题不同，文本抠图的难度要大得多，因为它的前景有三个特性：小、多目标、结构和边界复杂。

方案是提出一个两阶注意力文本抠图 pipeline，作者称是首个文本抠图方法。构建了一个文本抠图图像合成引擎，并合成了一个具有多样性大规模的高质量文本抠图数据集。

在合成和真实图像数据集上进行了大量实验，证明所提出方法比最先进的图像抠图方法在文本抠图任务上的优越性。

作者 | Peng Kang, Jianping Zhang, Chen Ma, Guiling Sun

单位 | 美国西北大学；加拿大麦吉尔大学；南开大学

论文 |

https://openaccess.thecvf.com/content/WACV2021/papers/Kang_ATM_Attentional_Text_Matting_WACV_2021_paper.pdf

代码 | https://github.com/TextMatting/TextMatting

- END -

下载包含这些论文的 WACV 2021 所有论文：链接: https://pan.baidu.com/s/1vShaCoOrQZ0gTlEPhbUsAg

提取码: [hide] uxp2 [/hide]

Jetson平台编译Tengine space01 AIoT Jetson 人工智能深度学习计算机视觉
1.Tengine简介Tengine于2017年在GitHub（https://github.com/OAID/Tengine）开源，是OPENAILAB（开放智能）推出的自主知识产权的边缘AI计算框架，致力于解决AIoT产业链碎片化问题，加速AI产业化落地。Tengine兼容多种操作系统和深度学习算法框架，简化和加速面向场景的AI算法在嵌入式边缘设备上快速迁移，以及实际应用部署落地，可以十倍提升
机器人-组成结构-感知 - 决策 - 执行具身智能-查布嘎具身智能机器人人工智能
目录一、感知系统内部传感器：外部传感器：二、智能决策系统机器学习家族1.1机器学习2.1深度学习2.2深度学习模型(主要属于监督/强化学习范畴，但结构通用)：3.1监督学习3.2监督学习模型4.1半监督学习4.2无/半监督学习模型：5.1无监督学习5.2生成模型(可属于监督/无监督)：6.1强化学习7.1其他学习三、控制系统（运控）①对应小脑和脊柱一、感知系统①对应人体的五官。由具有不同功能的各种
深度学习篇---矩阵 Atticus-Orion 嵌入式知识篇上位机知识篇嵌入式硬件篇深度学习矩阵人工智能
在机械臂解算、深度学习网络等硬件和软件领域中，矩阵运算作为核心数学工具，承担着数据表示、变换、映射和优化的关键作用。以下从具体领域出发，详细总结涉及的矩阵运算及对应的核心知识：一、机械臂解算领域机械臂解算（运动学、动力学分析）的核心是描述“关节空间”与“操作空间”的映射关系，矩阵运算用于精准刻画坐标系转换、运动传递和力/力矩分析。1.运动学解算（正/逆运动学）核心目标：通过矩阵描述关节角度与末端执
Python深度学习实践：LSTM与GRU在序列数据预测中的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：LSTM与GRU在序列数据预测中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来序列数据预测是机器学习领域的一个重要研究方向，涉及时间序列分析、自然语言处理、语音识别等多个领域。序列数据具有时间依赖性，即序列中每个元素都受到前面元素的影响。传统的机器学习算法难以捕捉这种时间依赖性，而深度学习
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现打架检测（C#代码，UI界面版）格林威工业相机机器视觉数码相机 YOLO 深度学习计算机视觉人工智能
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现打架检测（C#代码，UI界面版）工业相机使用YoloV8模型实现打架检测工业相机通过YoloV8模型实现打架检测的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实现
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人脸识别检测（C#代码，UI界面版）格林威机器视觉工业相机数码相机 YOLO 深度学习人工智能视觉检测 c#
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人脸识别检测（C#代码，UI界面版）工业相机使用YoloV8模型实现人脸的检测工业相机通过YoloV8模型实现人脸识别检测的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人物识别（C#代码，UI界面版）格林威工业相机机器视觉数码相机 YOLO c#人工智能计算机视觉开发语言
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人物识别（C#代码，UI界面版）工业相机使用YoloV8模型实现人物识别工业相机实现YoloV8模型实现人物识别的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实现
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现动物分类（C#源码，UI界面版）格林威机器视觉工业相机数码相机 YOLO 深度学习计算机视觉人工智能视觉检测 c#
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现动物分类（C#源码，UI界面版））工业相机使用YoloV8模型实现动物分类工业相机实现YoloV8模型实现动物分类的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实
AI 大模型重塑软件开发流程万花丛中一抹绿人工智能
一、AI大模型的定义与发展历史AI大模型是基于海量数据训练的深度学习模型，具备强大的自然语言理解、逻辑推理和知识生成能力。在软件开发领域，以GPT-4、CodeLlama、GitHubCopilotX为代表的大模型，能理解代码语法、语义及业务逻辑，实现代码生成、漏洞检测等复杂任务。其发展可追溯至2017年，谷歌提出Transformer架构，为大模型奠定了核心基础。2018年，GPT-1问世，参数
在 Conda 中删除环境及所有安装的库 Studying 开龙wu conda
注意事项1.删除环境前确保你没有在该环境中运行任何程序。2.删除操作是不可逆的，所有该环境中的包和配置都会被永久删除。3.如果你想保留环境的配置信息，可以在删除前使用condaenvexport>environment.yml导出环境配置。关于requirements.txt和environment.yaml文件使用介绍详情可参考以往文章，争对机器学习和深度学习里Python项目开发管理项目依赖的
OpenCV学习（二）-二维、三维识别香蕉可乐荷包蛋 #OpenCV opencv 学习人工智能
OpenCV是一个功能强大的计算机视觉库，可以用于识别和处理二维图像和三维图像。以下是关于二维图像和三维图像识别的基础知识和示例代码。1.二维图像识别二维图像识别通常包括图像分类、对象检测、特征提取等任务。以下是一些常见的操作：1.1图像分类使用预训练模型对图像进行分类，例如使用深度学习模型（如ResNet、MobileNet等）。importcv2#加载预训练的深度学习模型net=cv2.dnn
【人工智能之深度学习】6. 卷积核工作原理：从边缘检测到特征抽象的逐层演进（附可视化工具与行业实战代码） AI_DL_CODE 人工智能深度学习卷积核特征提取卷积神经网络边缘检测特征可视化
摘要：卷积核是卷积神经网络（CNN）的核心组件，其通过局部感受野与参数共享机制实现高效特征提取。本文从数学本质出发，揭示卷积操作的空域-频域对偶性：空域卷积等价于频域乘积（F{f∗g}=F{f}⋅F{g}F\{f*g\}=F\{f\}⋅F\{g\}F{f∗g}=F{f}⋅F{g}），解释边缘检测核（Sobel、Laplacian）的频域响应特性。通过特征可视化实验表明，CNN特征呈现逐层抽象规律：
颠覆未来：创新代码引领人工智能与量子计算深度融合金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 人工智能量子计算
摘要在信息时代飞速演进的背景下，人工智能与量子计算正以前所未有的速度互相融合，推动着科技边界的不断拓展。本文回顾了经典算法的智慧，展示了前沿深度学习模型的构建，并通过量子电路设计探讨了创新代码的可能性，为探索未来科技变革提供了全新视角。1.引言当前，科技创新正处于高速迭代的关键阶段，传统计算方法与新型技术的交汇处正成为研究热点。人工智能的发展已渗透到各行各业，而量子计算的崛起则为解决复杂计算问题提
使用UV管理PyTorch项目
PyTorch是深度学习研究和开发的流行选择。可以使用uv管理PyTorch项目，包括不同Python版本依赖、管理环境、甚至加速器选择等。安装Pytorch从打包角度来看，PyTorch有几个不常见的特点：许多PyTorchwheel托管在专门的索引上，而非Python包索引（PyPI）。因此，安装PyTorch通常需要配置项目使用PyTorch专属索引。PyTorch为每种加速器生成不同的构建
数字图像处理（三：图像如果当作矩阵，那加减乘除处理了矩阵，那图像咋变）：从LED冬奥会、奥运会及春晚等等大屏，到手机小屏，快来挖一挖里面都有什么
数字图像处理（三）一、（准备工作：咋玩，用什么玩具）图像以矩阵形式存储，那矩阵一变、图像立刻跟着变？1.Python+JupyterNotebook/Lab+库(NumPy,OpenCV,Matplotlib,scikit-image)2.MATLAB+ImageProcessingToolbox3.JavaScript+HTML5Canvas+浏览器4.专业的图像处理软件(带脚本/插件功能)二、
微算法科技技术创新，将量子图像LSQb算法与量子加密技术相结合，构建更加安全的量子信息隐藏和传输系统
随着信息技术的发展，数据的安全性变得尤为重要。在传统计算模式下，即便采用复杂的加密算法，也难以完全抵御日益增长的网络攻击威胁。量子计算技术的出现为信息安全带来了新的解决方案。然而，量子图像处理领域仍面临复杂度高、效率低的问题。微算法科技通过将量子图像LSQb算法与量子加密技术相结合，提出了一种全新的信息隐藏和传输方案，旨在构建更加安全高效的数据保护机制。LSQb算法，即量子图像的最小有效量子比特算
AI新纪元：2025年深度学习技术突破与行业应用全景像素笔记杂谈人工智能深度学习 ai 自动驾驶工业数字化转型未来趋势技术创新
2025年，人工智能技术迎来爆发式增长，大模型、生成式AI和多模态技术持续突破，人形机器人量产元年正式开启，自动驾驶商业化进程加速，工业数字化转型全面铺开。这些进展不仅重塑了技术边界，更在多个行业创造了实际价值，推动AI从实验室走向产业化。本文将深入剖析2025年深度学习与AI领域的核心技术突破、行业应用案例及未来发展趋势，为技术从业者提供全面视角。一、深度学习核心技术突破：大模型、生成式AI与多
模型移植实战：从PyTorch到ONNX完整指南慕婉0307 神经网络 pytorch 人工智能 python
一、认识ONNXONNX（OpenNeuralNetworkExchange）是一种开放的模型表示格式，由微软和Facebook（现Meta）在2017年共同推出，旨在解决深度学习模型在不同框架之间的互操作性问题。ONNX的主要优势包括：跨框架兼容性：支持主流深度学习框架间的模型转换，包括PyTorch、TensorFlow、MXNet、CNTK等例如，可以将PyTorch训练的ResNet模型导
TensorFlow GPU 2.10.1 for Python 3.9快速安装指南疑样
本文还有配套的精品资源，点击获取简介：TensorFlowGPU2.10.1是专为Windowsx64和Python3.9设计的TensorFlow版本，它集成了GPU支持以加快深度学习模型的训练。本指南提供了该版本的概述、安装步骤及注意事项，旨在帮助开发者利用其性能优势提升机器学习项目的效率。1.TensorFlowGPU介绍1.1TensorFlow的起源与功能TensorFlow是由Goog
计算机视觉产品推荐,个性化推荐:人工智能中的计算机视觉、NLP自然语言处理和个性化推荐系统哪个前景更好一些？...
这个问题直接回答的话可能还是有着很强的个人观点，所以不如先向你介绍一些这几个领域目前的研究现状和应用情况(不再具体介绍其中原理)你自己可以斟酌一下哪方面更适合自己个性化推荐。一．所谓计算机视觉，是指使用计算机及相关设备对生物视觉的一种模拟个性化推荐。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息，就像人类和许多其他类生物每天所做的那样[1]。现在人工智能的计算机视觉主要研究
深度学习方法生成抓取位姿与6D姿态估计的完整实现 ZPC8210 ROS 深度学习人工智能
如何将GraspNet等深度学习模型与6D姿态估计集成到ROS2和MoveIt中，实现高精度的机器人抓取系统。1.系统架构text[RGB-D传感器]→[物体检测与6D姿态估计]→[GraspNet抓取位姿生成]→[MoveIt运动规划]→[执行抓取]2.环境配置2.1安装依赖bash#安装PyTorch(根据CUDA版本选择)pip3installtorchtorchvisiontorchaud
基于深度学习的目标检测：从基础到实践 Blossom.118 机器学习与人工智能深度学习目标检测人工智能音视频语音识别计算机视觉机器学习
前言目标检测（ObjectDetection）是计算机视觉领域中的一个核心任务，其目标是在图像中定位和识别多个对象的类别和位置。近年来，深度学习技术，尤其是卷积神经网络（CNN），在目标检测任务中取得了显著进展。本文将详细介绍如何使用深度学习技术构建目标检测模型，从理论基础到代码实现，带你一步步掌握目标检测的完整流程。一、目标检测的基本概念（一）目标检测的定义目标检测是指在图像中识别和定位多个对象
“显著性”（Saliency）是计算机视觉中的一个重要概念，主要指的是图像或视频中最吸引人注意力的区域或对象步步咏凉天计算机视觉人工智能
“显著性”（Saliency）是计算机视觉中的一个重要概念，主要指的是图像或视频中最吸引人注意力的区域或对象。它模拟的是人类视觉系统对视觉场景中“显著”区域的感知能力。显著性可以用于图像理解、目标检测、图像压缩、图像分割等多个任务。下面是对显著性在计算机视觉中的几个关键方面的解释：一、显著性检测（SaliencyDetection）显著性检测的目标是预测图像中最能吸引人注意的区域，通常输出一个与输
【机器学习】探索未来科技的前沿：人工智能、机器学习与大模型 AIGC零基础入门小白 AI大模型大模型教程人工智能机器学习科技 AI大模型 AIGC AI教程大模型教程
文章目录引言一、人工智能：从概念到现实1.1人工智能的定义1.2人工智能的发展历史1.3人工智能的分类1.4人工智能的应用二、机器学习：人工智能的核心技术2.1机器学习的定义2.2机器学习的分类2.3机器学习的实现原理2.4机器学习的应用2.5机器学习的示例代码2.6解释代码三、大模型：推动AI前沿发展的关键技术3.1大模型的定义3.2大模型的发展历程3.3深度学习与神经网络3.4大模型的优势与挑
基于YOLOv8的火灾智能检测系统设计与实现斟的是酒中桃深度学习人工智能 pyqt yolo
在各类安全事故中，火灾因其突发性强、破坏力大，一直是威胁人们生命财产安全的重大隐患。传统的火灾检测方式多依赖烟雾传感器、温度传感器等，存在响应滞后、易受环境干扰等问题。随着深度学习技术的飞速发展，基于计算机视觉的火灾检测方法凭借其实时性强、检测范围广等优势，逐渐成为研究热点。本文将简单介绍一款基于深度学习的火灾智能检测系统的设计与实现过程。一、系统整体设计本火灾智能检测系统旨在通过深度学习技术实现
人工智能入门指南：从基础概念到实际应用
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。https://www.captainbed.cn/north文章目录1.**人工智能的基本概念**1.1什么是人工智能？1.2人工智能的分类2.**人工智能的核心技术**2.1机器学习（MachineLearning）2.1.1机器学习的类型2.1.2机器学习流程2.2深度学习（DeepLearni
Datawhale X 魔塔 Ai夏令营 --深度学习基础
一、局部极小值与全局极小值全局极小值：在损失函数的整个定义域内，损失值最小的点。这是我们在训练深度学习模型时希望找到的点，因为它代表着模型的最佳性能。局部极小值：在损失函数的一个局部区域内，损失值达到最小，但在整个函数定义域内可能不是最小的。当优化算法陷入局部极小值时，它可能会误以为已经找到了全局最优解，从而停止搜索。局部极小值的检测两种直观的方法来检测局部极小值：可视化方法：对于低维问题，我们可
深度学习模块实践手册（第十二期）加油吧zkf 目标检测目标检测模块解析与实践深度学习人工智能计算机视觉目标检测 python
56、Ghost模块论文《GhostNet:MoreFeaturesfromCheapOperations》1、作用：Ghost模块是一种轻量级的特征提取模块，旨在通过廉价操作生成更多特征图，减少计算量的同时保持模型性能。传统卷积神经网络在生成特征图时存在大量冗余计算，Ghost模块通过将特征图生成过程分解为两个步骤，有效减少了计算复杂度，特别适合移动端和嵌入式设备部署。2、机制Ghost模块的机
DETR革命：目标检测的Transformer时代加油吧zkf 目标检测 YOLO python 开发语言人工智能图像处理
《DETR从0到1：目标检测Transformer的崛起》为什么会有DETR？在深度学习目标检测发展史上，2014~2019年几乎被基于卷积神经网络（CNN）的检测器统治：两阶段：FasterR-CNN、MaskR-CNN单阶段：YOLO、SSD、RetinaNet这些检测器虽然效果强大，但背后依赖：✅Anchor（先验框）✅NMS（非极大值抑制）✅特征金字塔、手工设计问题：结构复杂、调参困难、不
深度学习模块实践手册（第十一期）加油吧zkf 目标检测目标检测模块解析与实践深度学习人工智能计算机视觉目标检测 python
46、缩放点积注意力模块论文《AttentionIsAllYouNeed》1、作用：缩放点积注意力（ScaledDot-ProductAttention）是Transformer模型的核心组件，旨在解决序列建模中长距离依赖关系捕捉的问题。传统的循环神经网络（RNN）在处理长序列时存在梯度消失或爆炸的问题，且并行性较差。该模块通过计算查询（Query）、键（Key）和值（Value）之间的相似度，实
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置

WACV 2021 论文大盘点 目标检测与图像分割篇（持续更新）