TechBeat人工智能社区

ECCV 2022 Oral | 满分文章！视频实例分割新SOTA：SeqFormer & IDOL

原文链接：https://www.techbeat.net/article-info?id=3839&isPreview=1
作者：吴俊峰

本文主要介绍最近两篇 ECCV 2022 Oral 的工作，分别在 offline 和 online 范式下的视频实例分割（Video Instance Segmentation, VIS）任务上取得了目前最高的性能，并在CVPR2022第四届大规模视频物体分割挑战赛（ 4th Large-scale Video Object Segmentation Challenge）的视频实例分割赛道上取得第一名，模型和代码均已开源！

SeqFormer：
https://arxiv.org/abs/2112.08275
IDOL:
https://arxiv.org/abs/2207.10661
官方代码地址:
https://github.com/wjf5203/VNext

SeqFormer：用于视频实例分割的序列Transformer

SeqFormer：Sequential Transformer for Video Instance Segmentation, ECCV, 2022 (Oral).

基于 vision transformer，该文章提出了一种 offline 的 VIS 算法：SeqFormer。SeqFormer为视频中的每一个物体建立对应的特征，并使该特征拥有提取全局信息的能力。与现有的算法不同，SeqFormer 提出了一个 Query 分离的机制，将 Instance Query 分离成 Box Query，在每一帧分别去提取该物体对应位置的信息，然后进行聚合以在 video-level 更有效地表示每个 instance。在不使用任何tracking branches以及后处理的情况下，SeqFormer 在 YouTube-VIS 达到了 47.4 AP （ResNet-50）和 49.0 AP (ResNet-101) 的精度，分别超过了目前的最优算法 4.6 和 4.4 AP。

IDOL : 在线视频实例分割新范式

In Defense of Online Models for Video Instance Segmentation, ECCV, 2022 (Oral).

该文章是ECCV2022满分文章。文章首先分析了在VIS任务中，offline算法往往领先同时期online算法达到 10AP 左右的现象，并深入分析了导致 online 模型和 offline 模型的巨大性能差距的原因，提出了一个基于contrastive learning的 online 算法：IDOL。该算法可以学习更具有区分度的instance embedding，并且充分利用了视频的历史信息来保证算法的稳定性，将online模型表现提高到一个与offline模型相当甚至更高的水平上。IDOL 在 YouTube-VIS 2019 上达到了 49.5 AP，分别超越了之前的最优的 online / offline 算法 13.2 / 2.1 AP。在更有挑战的OVIS数据集上，IDOL 更是达到了30.2 AP，超越了之前的最优算法一倍。而在最近举行的 CVPR 2022 Large-Scale Video Object Segmentation Challenge, Video Instance Segmentation Track 上，IDOL也超越了一众 online/offline 模型，取得了第一名。

VNext是作者提出基于Detectron2的视频实例识别框架，以上两篇文章的代码目前都被整合进了VNext中。VNext旨在为视频实例识别领域提供一个统一且高效的框架来促进该领域的发展，欢迎大家在VNext上进行视频相关任务的探索和实验：https://github.com/wjf5203/VNext 。

SeqFormer：用于视频实例分割的序列Transformer

SeqFormer：Sequential Transformer for Video Instance Segmentation, ECCV, 2022 (Oral)

一、Motivation

视频实例分割是一个近几年兴起的视觉任务，在图像实例分割的基础上引入了时序维度，在分割每一帧物体的同时要求在帧间跟踪这些物体，因此如何利用好视频的时序特征也是该任务的一大难点。最近Transformer的发展给这个领域带来一些新的解决思路，但是之前基于Transformer的方法会将整个视频的三维特征直接展平直接送入Transformer Decoder中，希望模型同时完成Segmentation和Tracking，这样直接的解决方案虽然有效，但是不符合对视频的直觉认知。文章认为，视频的二维空间特征和时序特征应该被分别以不同的方式处理。

因此，SeqFormer提出了Decoder中的Query分离机制，具体来说，SeqFormer把共享的实例Query分离到每一帧上，在每一帧上独立定位物体并提取对应特征，以此来保证模型在每一帧上提取的信息是准确的。最终，每一帧上的信息被聚合到一起成为一个全局的物体特征表示，这个特征最终被用来预测物体类别并且生成动态卷积的参数用来在每一帧上分割出物体。文章认为这样的一个聚合了全局信息的特征可以更加鲁棒和高效的表示视频中的物体，从而进一步提高Transformer在VIS上的表现。

二、SeqFormer

SeqFormer的整体结构包括三部分

骨干网络以及Transformer Encoder
Query Decompose Decoder
各种输出的Output Head。

其中骨干网络和Transformer Encoder 都进行的是frame-level的特征提取。

2.1 Query Decompose Decoder

该部分是SeqFormer的核心结构。当给定的一个视频中，物体的形状、位置出现变化甚至被遮挡的时候，人们通常可以轻易分辨出该物体，因为人们会把这些不同帧的物体当做同一个来看待，这是视频和图片的关键区别。

因此，文章提出Instance Query和Box Query的概念：在Decoder的第一层，共享的Instance Query 会被分离到每一帧上，在每一帧上独立进行attention；且Box Query会通过Box Head预测出物体在每一帧上的包围框，并且在Decoder的每个layer之间迭代优化。Box Query 就像Instance Query留在每一帧上的Anchor，去定位并关注到同一个物体，并将提取到的信息重新聚合到Instance Query上。通过这样一个Query Decompose Decoder，SeqFormer完成了在每一帧上寻找物体并聚合全局特征的过程。

如图所示，可视化了在不同Decoder layer之后，Decoder中的同一个Instance Query 对应的Box Query 在每一帧上的关注区域。(a)是第一层Decoder的关注区域，由于每一帧上的Box Query有着相同的初始化值，所以他们的关注区域是相同的；(b)是第二层的关注区域，可以看出此时模型关注的区域已经分布在对应的物体周围了；( c )是最后一层Decoder 的关注区域，此时关注的区域更加精确。整个Decoder 以这样一种coarse-to-fine的方式定位到每个物体，并聚合得到每个物体的video-level的特征表示。

2.2 Output Head

在得到每个物体的video-level的特征表示之后，通过两个FFN分别得到该物体的分类结果以及Mask Head 的权重参数。Mask Head是一个三层的1x1卷积网络，在Encoder通过Mask Branch得到的高分辨率Feature Map上进行卷积，从而动态在每一帧上利用同一个MaskHead预测mask。由于物体在不同的帧上共用同一个Mask Head进行卷积，这使得SeqFormer对物体的分割非常高效，同时也可以利用在少量帧上生成Mask Head 在所有帧上进行卷积从而完成对整个视频的分割，扩展了SeqFormer的应用方式。

三、Demo

以下Demo 展示了SeqFormer在YouTube-VIS 2019 的一些视频上的可视化效果。

四、Performance

在Youtube-VIS 2019和 2021 上对SeqFormer进行了评测：

4.1 YouTube-VIS 2019

在YouTube-VIS 2019，SeqFormer在与各种backbone的组合下，均在mask AP上超越了之前算法一大截，在ResNet-50上mask AP能够达到47.4，通过与Swin-Transformer的组合，SeqFormer将这个benchmark上的表现推到了59.3的新高度。得益于Offline 模型能够以batch的形式对多帧并行处理，SeqFormer的FPS也达到72.3。

4.2 YouTube-VIS 2021

在YouTube-VIS 2021 上，SeqFormer也能够稳定达到state-of-the-art。

五、Conclusion

SeqFormer对齐了视频中不同帧上的物体信息且自然地解决了视频实例分割中的分割和跟踪问题，而不需要任何后处理，它将VIS的模型性能提高到一个新的台阶。作者希望简洁高效的SeqFormer能够给VIS领域带来一些启发，并且成为未来研究的一个强有力的baseline。

IDOL : 在线视频实例分割新范式

In Defense of Online Models for Video Instance Segmentation, ECCV, 2022 (Oral)

一、Motivation

在VIS任务中，以往offline算法往往领先同时期online算法达到 10AP 左右，然而online算法在处理长视频和持续视频等现实任务中拥有其固有的优势。为了理解VIS任务中 online 模型和 offline 模型性能的巨大差异的原因，作者设计了 frame 和 clip 两种 Oracle 实验，详细研究了现有 offline 模型（IFC & SeqFormer）：

对于 frame oracles，在每个 clip 内和相邻 clip 之间提供 groundtruth 的实例 ID，此时算法的性能仅取决于所估计的 segmentation mask 的质量。对于 clip oracles，只提供相邻 clip 之间的 groundtruth 实例 ID，需要该方法自己在 clip 内进行关联。此时，frame oracles 与 clip oracles 的性能差距则反映了当前 offline 模型中完成的黑盒关联的效果。

同样，文章也对比了目前最佳的 online 算法（CrossVIS）：

通过以上的实验，可以得到如下结论：

从实例分割的角度来看，per-clip 分割在 mask 质量上并没有比 per-frame 分割好很多，而且 mask 质量也不是 online 方法性能不佳的原因：CrossVIS 甚至优于其同时期的工作（即 IFC )
当前 SOTA offline 方法的 per-clip 分割并不总是有效和鲁棒：多帧确实提供了更多信息，但它只适用于某些情况：per-clip 分割并不能明显提高 SeqFormer 的性能。此外，在 OVIS 等更具挑战性的数据集上进行测试时，当片段大小变长时，多帧分割甚至会使 IFC 和 SeqFormer 上的性能分别降低 1.8 和 2.2 AP。虽然从理论上讲，offline 算法的 per-clip 分割具有使用多帧的固有优势，但它仍然需要进一步探索，特别是在如何利用多帧中的信息以及如何处理复杂的运动模式、遮挡和对象变形方面。
从跨帧匹配的角度来看，offline方法的一个巨大优势是它们可以使用黑盒网络进行 clip 内的匹配。这一优势在 YouTube-VIS 数据集上非常明显。作者证明这是造成当前online和offline范式之间性能差距的主要原因。然而，当视频变得复杂时，offline 算法的黑盒关联过程也会迅速恶化（在 OVIS 上，IFC/SeqFormer 的性能分别降低了 12.3/20.9 AP）。此外，在处理较长的视频时，offline 方法需要将输入视频分割成多个clip以避免超出计算限制，clip与clip 的匹配仍然不可避免。因此，匹配/关联是造成online 与 offline 模型性能差距的主要原因，同时对于 offline 模型仍然是不可避免的和非常重要的。

在充分理解了当先 online 与 offline 算法的表现后，作者发现提升online 算法的性能的核心在于提高匹配的性能。

因此，文章提出了IDOL。其关键思想是在 embedding 空间中确保相同实例在帧之间的相似性以及不同实例在所有帧中的差异，同时提供更具判别力的实例特征，具有更好的时间一致性，从而保证了更准确的帧间关联结果。其次，之前的方法往往通过手工设置来选择正负样本，这在遮挡和拥挤的场景中引入了 false positives 。为了解决这个问题，文章将样本选择问题表述为优化理论中的最优传输问题，从而减少 false positives 并进一步提高对比学习样本的质量。在推理过程中，通过使用一对多的时间加权 softmax，利用历史帧上的信息来重新识别由遮挡引起的缺失实例，并加强关联的一致性和完整性。

二、Details

为了提高匹配的性能，作者提出了一个基于对比学习的框架来提取更具有判别性的特征，整体网络结构如下图所示：

IDOL对每一帧图片进行单帧的实例分割，为了与SeqFormer公平对比，IDOL采用与SeqFormer相同的实例分割pipeline。IDOL包括模型训练和推理两个阶段:

训练阶段，如上图所示，训练时随机从训练集中抽取一帧作为关键帧，同时抽取同一个视频的相邻帧作为参考帧。关键帧和参考帧送入一个共享权重的backbone和 Transformer 中进行处理。Transformer 的作用是利用一系列固定数量 N 的可学习的物体查询器在特征图上提取特征，最后输出的 N 个特征表示，包含了图片中每个物体的特征。对于关键帧，这些特征表示被用来送入三个Output Head完成单帧的实例分割，此处为了提供更丰富的对比学习样本，原先SeqFormer中的预测结果与GT之间的一对一匹配，被更改为由最优传输完成的一对多匹配，以此来增加每个GT所对应的特征数量。对于参考帧，Transformer 生成的 N 个特征表示中包含了参考帧上每个物体的信息，对于这些特征表示，通过最优传输理论，根据检测器预测的包围框以及分类分数，为关键帧上的每个物体选择在参考帧上的多个正负样本。图中v 为关键帧上的每个物体的特征表示，k+ 和 k- 分别为其在参考帧上的正样本和负样本特征表示，这些正负样本，通过另外一个对比学习特征生成器，并通过对比的损失函数计算损失值，用来使网络学到更能区分不同物体的特征表示。

推理阶段，IDOL 将视频的每一帧依次送入训练好的模型中，模型在预测每一帧分割结果的同时，会给每个分割结果同时产生一个对比特征，该特征用于将每一帧的分割结果链接起来。具体来说，会先初始化一个实时更新记忆列表，在第一帧被检测出的物体被添加进该列表中，赋予初始化的 id 序号，在之后的每一帧上，被检测出的物体的对比特征会与列表中每个物体的对比特征算一个双向一对多的时间加权 softmax分数，根据该分数将新检测出的物体对应到记忆列表中的物体上，同时更新记忆列表中的对比特征用于下一帧的匹配。

三、Demo

以下Demo 展示了IDOL 在OVIS 以及 YouTube-VIS 2019 的一些视频上的可视化效果。

四、Performance

文章将IDOL与目前主流的online、offline 模型进行了对比，“V” 表示仅使用 YouTube-VIS 训练集进行训练。“V+I” 表示也选取了 COCO 上重叠类别的 synthetic 视频用于联合训练。\dagger† 表示将COCO中的图片随机裁剪两次组成key-reference frame 对IDOL进行预训练。可以看到，IDOL大幅超过了目前的其他online算法，同时也超过了主流的offline算法。

Table1: Comparison on YouTube-VIS 2019 val set

Table2: Comparison on YouTube-VIS 2021 val set

Table3: Comparison on OVIS 2021 val set

五、conclusion

Online VIS 方法在处理长时间/持续视频方面具有其固有的优势，但它们在性能上显著落后于 offline 模型，这项工作旨在弥补性能差距。文章首先深入分析当前的 online 和 offline 模型，发现差距主要来自帧之间的匹配。基于这一观察，文章提出了 IDOL，它使模型能够为 VIS 任务学习更具辨别力和鲁棒性的实例特征。它显着优于所有 online 和 offline 方法，并在所有三个数据集中取得了最新的SOTA结果。同时IDOL也在CVPR 2022 的 VIS workshop 中取得了第一名。期待该文章对当前 VIS 方法的分析可以为未来 online 和 offline 方法的工作提供帮助。

六、1st Place Solution for YouTubeVOS Challenge 2022: Video Instance Segmentation

在CVPR2022 workshop举办的第四届大规模视频物体分割挑战赛的视频实例分割赛道上，以IDOL作为baseline的方法取得了比赛的第一名，并超越了第二4.9%，这也证明了IDOL在各种场景下的优越性。具体参赛方案参见报告：https://youtube-vos.org/assets/challenge/2022/reports/VIS_1st.pdf。

-The End-

关于我“门”
▼

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构，旗下涵盖将门创新服务、将门-TechBeat技术社区以及将门创投基金。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

[email protected]

PL-SLAM: Real-Time Monocular Visual SLAM with Points and Lines
PL-SLAM文章目录PL-SLAM摘要系统介绍综述方法综述LINE-BASEDSLAM一、基于线的SLAM二、基于线和点的BA三、全局重定位使用线条初始化地图实验结果说明位姿求解三角化LSD直线检测算法**一、核心原理**⚙️**二、实现方法****三、应用场景**⚖️**四、优缺点与优化****优缺点对比****总结**End摘要译文——众所周知，低纹理场景是依赖点对应的几何计算机视觉算法的主
Python知识点：如何使用Nvidia Jetson与Python进行边缘计算杰哥在此 Python系列 python 边缘计算开发语言面试编程
开篇，先说一个好消息，截止到2025年1月1日前，翻到文末找到我，赠送定制版的开题报告和任务书，先到先得！过期不候！如何使用NvidiaJetson与Python进行边缘计算NvidiaJetson平台是专为边缘计算设计的一系列AI计算机，它们能够处理和分析来自物联网(IoT)设备和边缘节点的数据。这些设备小巧、节能且功能强大，非常适合用于执行机器学习、计算机视觉和自然语言处理等任务。Python
机器视觉：ransac算法详解无水先生数字图形和图像处理算法计算机视觉
目录一、说明：二、算法步骤三、算法代码四、其它补充一、说明：RANSAC是一种常用的参数估计方法，全称为RandomSampleConsensus（随机抽样一致性）。它通过随机选择数据中的一部分，然后根据这些数据拟合模型，统计模型与其他数据的偏差，最终筛选出符合一定阈值的数据，用于估计参数。RANSAC可以应用于很多领域，如计算机视觉、机器人和地理信息系统等。其优点在于对噪声数据和异常值有很强的鲁
AI人工智能与OpenCV：实现智能图像编辑功能 AI智能探索者 AI Agent 智能体开发实战人工智能 opencv 计算机视觉 ai
AI人工智能与OpenCV：实现智能图像编辑功能关键词：人工智能、OpenCV、图像处理、计算机视觉、深度学习、智能编辑、图像增强摘要：本文深入探讨如何结合人工智能(AI)和OpenCV实现智能图像编辑功能。我们将从基础概念出发，详细介绍核心算法原理，展示实际代码实现，并分析典型应用场景。文章将涵盖从传统图像处理技术到深度学习方法的演进，重点讲解如何利用OpenCV和AI模型实现自动化的图像增强、
前端计算机视觉：使用 OpenCV.js 在浏览器中实现图像处理亿只小灿灿前端 OpenCV 前端计算机视觉 opencv
一、OpenCV.js简介与环境搭建OpenCV（OpenSourceComputerVisionLibrary）是一个强大的计算机视觉库，广泛应用于图像和视频处理领域。传统上，OpenCV主要在后端使用Python或C++等语言。但随着WebAssembly(Wasm)技术的发展，OpenCV也有了JavaScript版本——OpenCV.js，它可以直接在浏览器中高效运行，为前端开发者提供了前
Python 爬虫实战：从图片网站抓取图片并进行特征提取（2025 最新版） Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 github chrome 数据库
一、引言在当今的数字时代，图像数据在各个领域中扮演着至关重要的角色。无论是计算机视觉、机器学习，还是数据分析，图像数据的获取和处理都是基础。然而，获取大量高质量的图像数据并非易事。幸运的是，互联网上充斥着丰富的图像资源，只需借助合适的工具和技术，我们就能高效地从中获取所需的图像数据。本文将详细介绍如何使用Python构建一个完整的爬虫系统，从图片网站抓取图像，并对其进行特征提取。我们将涵盖从网页分
Python从0到100完整学习指南（必看导航）是Dream呀 Python python 人工智能爬虫 web 神经网络算法深度学习
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学业升学和工作就业的先行者！【优惠信息】•新专栏订阅前1000名享9.9元优惠•订阅量破10
前沿技术推动机器人的智能化升级 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据机器人 ai
前沿技术推动机器人的智能化升级关键词：机器人智能化、人工智能、机器学习、计算机视觉、自主导航、人机交互、边缘计算摘要：本文深入探讨了前沿技术如何推动机器人从传统自动化向智能化升级的演进过程。文章首先分析了机器人技术发展的历史脉络和当前挑战，然后详细阐述了人工智能、机器学习、计算机视觉等关键技术如何赋能机器人智能化。通过算法原理分析、数学模型构建和实际项目案例，展示了智能机器人的核心技术实现路径。最
OpenCV让Python实现人脸特征点检测 Python编程之道 Python编程之道 opencv python 人工智能 ai
OpenCV让Python实现人脸特征点检测关键词：OpenCV、Python、人脸检测、特征点定位、计算机视觉、Dlib、深度学习摘要：本文将深入探讨如何使用OpenCV和Python实现人脸特征点检测。我们将从基础概念开始，逐步介绍人脸检测和特征点定位的核心算法原理，包括传统的Haar级联检测器和基于深度学习的Dlib面部特征点检测器。文章将提供详细的代码实现和数学原理讲解，并通过实际项目案例
使用 C++ 和 OpenCV 构建驾驶员疲劳检测软件 whoarethenext c++opencv 开发语言
使用C++和OpenCV构建驾驶员疲劳检测软件重要声明：本文所描述的软件是一个概念验证的原型，绝对不能用作现实世界中的安全系统。真正的车载安全系统需要经过大量的测试、具备冗余设计并通过专业认证，以确保其绝对可靠。驾驶疲劳是全球范围内引发交通事故的主要原因之一。当驾驶员感到困倦时，他们的反应时间会变慢，决策能力会下降，而在方向盘后睡着的风险则会急剧增加。为了解决这一关键问题，计算机视觉技术提供了一个
Cursor黑科技：AI编程实战技术文章 yuehui001 科技 AI编程
引言概述AI编程工具的发展现状Cursor在AI编程领域的独特定位文章目标：展示Cursor的核心功能与实战应用Cursor的核心功能解析智能代码补全：基于上下文的代码生成能力自然语言转代码：通过对话式交互生成完整功能模块代码重构与优化：自动化识别并改进代码质量错误诊断与修复：实时分析代码逻辑并提供解决方案实战场景一：快速原型开发需求描述转化为可执行代码的流程示例：构建一个简易待办事项应用对比传统
AI人工智能中LSTM在视频行为识别的应用
AI人工智能中LSTM在视频行为识别的应用关键词：LSTM、视频行为识别、深度学习、时序建模、计算机视觉、神经网络、动作识别摘要：本文将深入探讨LSTM（长短期记忆网络）在视频行为识别领域的应用。我们将从基础概念出发，逐步讲解LSTM如何解决视频时序建模的挑战，分析其核心算法原理，并通过实际代码示例展示LSTM在行为识别中的具体实现。文章还将探讨当前的应用场景、工具资源以及未来发展趋势，为读者提供
面经总结系列（十六）：元象科技大模型推理优化工程师 GoAI AI面经总结机器学习算法人工智能大模型机器学习深度学习
‍作者简介：CSDN、阿里云人工智能领域博客专家，新星计划计算机视觉导师，百度飞桨PPDE，专注大数据与AI知识分享。✨公众号：GoAI的学习小屋，免费分享书籍、简历、导图等，更有交流群分享宝藏资料，关注公众号回复“加群”或➡️点击链接加群。AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的
【EI会议征稿】2025年第四届计算机视觉与模式分析国际学术大会（ICCPA 2025）
重要信息2025年5月16-18日|中国·鞍山大会官网：www.iccpa.org会议主页：2025年第五届计算机视觉与模式分析国际学术大会（ICCPA2025）_艾思科蓝_学术一站式服务平台接收/拒稿通知：投稿后1周内收录检索：EICompendex，Scopus主办单位辽宁科技大学往届历史ICCPA前四届均已成功举办，并完成EI、Scopus检索（高录用，稳定检索）
JVM核心技术解析 MoneyHacksPro Java场景面试宝典 Java JVM Class Loading
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
YOLOv11革命性升级：基于MobileNetv4的UIB和ExtraDW模块重构C3k2架构，实现移动端推理性能飞跃博导ai君深度学习教学-附源码 YOLO 重构
引言与背景概述在当今人工智能飞速发展的时代，目标检测技术已成为计算机视觉领域的核心技术之一。从自动驾驶汽车到智能安防系统，从移动端AR应用到工业质检，目标检测无处不在。然而，随着应用场景的多样化，特别是移动端和边缘设备的普及，对模型的计算效率提出了更为严苛的要求。YOLO（YouOnlyLookOnce）系列算法作为目标检测领域的领军者，一直在精度与速度之间寻求最佳平衡。从YOLOv1到最新的YO
使用Ultralytics YOLO进行数据增强 alpszero YOLO计算机视觉应用 YOLO 人工智能机器学习
概述数据增强是计算机视觉领域的一项重要技术，它通过对现有图像进行各种转换，人为地扩展训练数据集。在训练深度学习模型时，数据增强有助于提高模型的鲁棒性，减少过拟合，并增强对真实世界场景的泛化。在训练计算机视觉模型的过程中，数据增强具有多种重要作用：扩展数据集：通过创建现有图像的变体，可以有效增加训练数据集的规模，而无需收集新数据。提高泛化能力：模型学会在各种条件下识别物体，使其在实际应用中更加稳健。
鸿蒙应用AR开发：增强现实技术实现方案操作系统内核探秘操作系统内核揭秘 OS harmonyos ar 华为 ai
鸿蒙应用AR开发：增强现实技术实现方案关键词：鸿蒙系统、AR开发、增强现实、ARKit、ARCore、3D渲染、计算机视觉摘要：本文将深入探讨如何在鸿蒙操作系统上开发增强现实(AR)应用。我们将从AR技术的基本原理讲起，逐步深入到鸿蒙AR开发框架的具体实现，包括3D模型渲染、空间定位、手势识别等核心技术。文章将提供完整的代码示例和实战项目，帮助开发者快速掌握鸿蒙AR应用开发的核心技能。背景介绍目的
领域驱动设计核心解析
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
Dubbo与Zookeeper核心解析 Java开发廖志伟 Java场景面试宝典 Dubbo Service Discovery Distributed Systems
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
ShardingSphere 架构解析 Java开发廖志伟 Java场景面试宝典 ShardingSphere Distributed Database Database Middleware
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
Ultralytics YOLO 库介绍与使用指南东北豆子哥人工智能/机器学习 YOLO
文章目录UltralyticsYOLO库介绍与使用指南主要特点安装基本使用1.使用预训练模型进行推理2.训练自定义模型3.验证模型4.导出模型高级功能1.使用不同任务模型2.使用自定义数据集3.跟踪对象(结合ByteTrack)常见问题解决性能优化技巧UltralyticsYOLO库介绍与使用指南UltralyticsYOLO是一个流行的计算机视觉库，专注于实现和优化YOLO(YouOnlyLoo
KITTI数据集可视化实用教程及源码解析国营窝窝乡蛮大人
本文还有配套的精品资源，点击获取简介：本文详细介绍如何使用源码实现KITTI数据集的可视化，强调数据集可视化在计算机视觉领域的关键作用。重点介绍如何加载、处理和融合KITTI数据集中的图像和激光雷达数据，并通过可视化手段分析结果，包括图像点云投影、坐标转换、颜色映射等技术。读者将通过学习源码深入理解数据结构、文件格式，并定制化工具以满足特定项目需求。1.计算机视觉数据集可视化的重要性在计算机视觉领
DiNA：扩张邻域注意力 Transformer AI专题精讲 Paper阅读 transformer 人工智能
摘要Transformer正迅速成为跨模态、跨领域和跨任务中应用最广泛的深度学习架构之一。在计算机视觉领域，除了持续发展的纯transformer架构，分层transformer也因其优越的性能和在现有框架中易于集成而受到广泛关注。这类模型通常采用局部化的注意力机制，如滑动窗口的NeighborhoodAttention（NA）或SwinTransformer的ShiftedWindowSelfA
AI 技术&AI开发框架 34号树洞人工智能深度学习人工智能机器学习 NLP GAI
目录一、AI技术及其开发框架1.AI技术分类与代表方向2.主流AI开发框架3.AI应用开发流程简述4.补充：基础依赖与生态二、AI技术方向1.机器学习（MachineLearning,ML）✦核心概念：✦关键方法：✦应用案例：2.深度学习（DeepLearning,DL）✦核心概念：✦网络结构举例：✦技术趋势：3.自然语言处理（NLP）✦核心任务：✦代表模型：4.计算机视觉（ComputerVis
NeRF-Pytorch：NeRF神经辐射场复现——Pytorch版全流程分析与测试【Ubuntu20.04】【2025最新版！！！】那就举个栗子！三维重建计算机视觉人工智能
一、引言在计算机视觉和计算机图形学的交叉领域中，视图合成（ViewSynthesis）一直是一个充满挑战的研究方向。传统的三维重建方法往往需要复杂的几何建模和纹理映射过程，而且在处理复杂光照和材质时效果有限。2020年，来自UCBerkeley的研究团队提出了NeuralRadianceFields（NeRF），这一革命性的方法彻底改变了我们对三维场景表示和渲染的理解。NeRF的核心思想是将三维场
Java AI 新纪元：Spring AI 与 Spring AI Alibaba 的崛起小沛9 Spring AI Alibaba Spring AI java 人工智能 spring spring ai SAA
此章节没什么营养，只是一个描述，同时也能看到AI的能力（文章基本都是AI进行生成的），小沛觉得开始不写点引言好像差了点什么东西，好像鱼离开了自行车。引言：AI时代对Java开发者的机遇与挑战，Java在AI领域的现状在当今技术飞速发展的时代，人工智能（AI）已不再是遥不可及的未来概念，而是深刻地融入到我们生活的方方面面，从智能推荐系统到自动驾驶，从自然语言处理到计算机视觉，AI正以前所未有的速度改
车牌识别与标注：基于百度OCR与OpenCV的实现（一）喜欢踢足球的老罗大模型应用开发实践之旅 ocr opencv 人工智能
车牌识别与标注：基于百度OCR与OpenCV的实现在计算机视觉领域，车牌识别是一项极具实用价值的技术，广泛应用于交通监控、智能停车场管理等领域。本文将介绍如何在macOS系统下，利用百度OCRAPI进行车牌识别，并结合OpenCV库在图片上绘制标注框和车牌号码，实现一个完整的车牌识别与标注流程。整个工程将使用PyCharm进行组织和开发。一、系统环境与工程结构系统环境操作系统：macOS开发工具：
OpenCV实战：图像颜色识别与提取、掩膜制作
前言在计算机视觉和图像处理领域，颜色识别是一项基础而重要的技术。无论是交通标志识别、工业分拣还是美颜滤镜开发，都离不开对特定颜色的处理。本文将带你全面掌握使用OpenCV进行颜色识别的关键技术，包含完整的代码实现和原理讲解。一、颜色空间基础1.1RGB颜色空间在图像处理中，最常见的就是RGB颜色空间。RGB颜色空间是我们接触最多的颜色空间，是一种用于表示和显示彩色图像的一种颜色模型。RGB代表红色
OpenCV图像添加水印
一、前言在数字图像处理中，为图片添加水印是一项常见且重要的技术。无论是版权保护、品牌宣传还是防止未经授权的使用，水印都能发挥重要作用。OpenCV作为一款强大的计算机视觉库，提供了丰富的功能来实现各种水印效果。本教程将详细介绍如何使用OpenCV为图像添加文字水印和图片水印。二、环境准备在开始之前，请确保已安装以下环境：Python3.xOpenCV库（可通过pipinstallopencv-py
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要

ECCV 2022 Oral | 满分文章！视频实例分割新SOTA：SeqFormer & IDOL

SeqFormer：用于视频实例分割的序列Transformer

一、Motivation

二、SeqFormer

2.1 Query Decompose Decoder

2.2 Output Head

三、Demo

四、Performance

4.1 YouTube-VIS 2019

4.2 YouTube-VIS 2021

五、Conclusion

IDOL : 在线视频实例分割新范式

一、Motivation

二、Details

三、Demo

四、Performance

五、conclusion

六、1st Place Solution for YouTubeVOS Challenge 2022: Video Instance Segmentation

你可能感兴趣的:(技术文章,计算机视觉)