阿里妈妈技术

视频分割新范式：视频感兴趣物体实例分割 VOIS

1. 背景

视频中物体分割是视频理解的基础算法，也是对淘宝商品视频分析和加工所依赖的重要能力。传统的视频分割任务一般分为两种类型：一种是VOS（Video Object Segmentation），该任务需要在第一帧给出物体的初始分割标注，并在此基础上对视频后续帧中的标定物体进行跟踪和分割；另一种是VIS（Video Instance Segmentation），这个任务目标是在预定的物体类别范围内，实现物体的检测、分类、跟踪和分割。

VOS需要给定第一帧标注，在实际应用中可行性低，因为视频的第一帧可能不包含需要分割的商品，另外在批量处理场景也难以通过交互给出物体的分割区域；VIS方案需要预先定义物体的类别范围，但对于淘宝平台而言，商品种类和样式繁多，且新品增速快，无法预先确定需要分割的物体类别集合。

为了实现从视频中分割任意物体，我们提出了一个新任务：视频感兴趣物体实例分割（VOIS，Video Object of Interest Segmentation），给定视频和目标物体图像，从视频中检测、跟踪并分割出目标物体。同时我们设计了一种基于双路Transformer融合图像和视频特征的方案，实现给定任意视频和感兴趣图像对，从视频中跟踪并分割出给定的物体。基于该工作论文已发表在AAAI 2023，欢迎阅读交流。

论文： Video Object of Interest Segmentation

下载（点击↓阅读原文）：：https://arxiv.org/abs/2212.02871

2. 任务介绍&数据集

2.1 VOIS任务介绍

任务定义：给定一个视频和感兴趣物体的图像，从视频中分割出与感兴趣物体相关的实例。

相关物体（实例）：是指视频中的物体在样式、类别和颜色等方面都与图片中的物体一致。物体存在一定的形变、角度变化等情况，仍被认为是相关物体。

分割目标：需对所有的相关物体实例实现跟踪和分割，如果存在多个相关物体，需要能够单独区分实例。

视频分割新范式：视频感兴趣物体实例分割 VOIS_第1张图片

从上到下依次为商品图、原视频帧、视频帧的分割结果（不同颜色代表不同实例）

2.2 数据集

数据集构建

对于VOIS任务，目前没有与之匹配的数据集，因此我们重新构建了一个视频图像对组成的视频实例分割数据集。数据集中的视频来源于淘宝直播场景，图片来源于淘宝商品白底图，标注方式为人工标注。数据集中共包含2418个视频片段和商品图像样本对。其中，视频2003个，目标商品图像2418个，共包含3341个目标物体，11.4万个掩码图（视频和图的掩码数量总和）。每个视频长度在5秒～7.2秒之间，同时在数据构建时保证视频中有目标物体出现。由于视频的来源为淘宝直播，我们将数据集命名为LiveVideos，LiveVideos与常用视频分割数据集对比的情况见下表：

视频分割新范式：视频感兴趣物体实例分割 VOIS_第2张图片

另外，这个数据集也可以作为基础数据集支持其他视频分析相关任务使用，比如视频检索（Video Retrieval），视频精彩片段判断（Video Highlight）等。

评价指标

VOIS的目标与VIS任务类似，均需从视频中检测、跟踪并分割目标物体，因此，我们应用VIS任务中使用的平均准确率（AP， Average Precision ）和平均召回率（AR，Average Recall）指标来对VOIS任务的效果进行评估。

3. 方案介绍

视频分割新范式：视频感兴趣物体实例分割 VOIS_第3张图片

整体方案流程图

为了实现感兴趣物体实例分割，我们提出了一种Encoder-Decoder结构，包括对图片和视频编码、特征解码和目标物体检测、掩码分割几个部分，主要流程如下：

3.1 特征提取

由于VOIS任务需要同时处理一个视频和一个图像，我们使用一个双路Transformer结构来提取视频和图像特征。考虑到效果和时效性，我们采用了Swin Transformer作为特征提取结构，Swin Transformer的特征提取包括4个阶段（Stage），每个阶段对空间维度进行下采样，实现特征提取。

视频分割新范式：视频感兴趣物体实例分割 VOIS_第4张图片

Swin Transformer结构和Cross Transformer结构图

3.2 特征融合

为了将图片和视频的特征结合在一起，我们同时将两个特征输入到Cross Transformer模块，生成融合特征。Swin Transformer的特征提取模块包含4个阶段，我们将Cross Transformer模块添加到第3和第4阶段，以融合更高阶的模型特征，Cross Transformer采用常用的Multi-head Cross-Attention结构。

3.3 实例生成

受到DETR的启发，我们使用一个Transformer Decoder从融合特征中生成物体的候选集合。在融合特征进入到Transformer Decoder之前，我们利用Embedding层实现对特征维度的匹配。经Decoder之后，我们从视频中的每一帧中解码出n个物体，n为预定义的超参数。

3.4 物体匹配

在物体匹配过程，我们利用二部图匹配损失（Bipartite Matching Loss）训练匹配模块，将预测实例和标注（Ground Truth）匹配。在进行了二部图匹配之后，候选物体与目标物体之间将具有最优的匹配方案，也就是最短距离。根据匹配结果，即可找到视频中的感兴趣物体的相关实例。

3.5 视频分割

视频分割环节，使用视频序列分割模块为每个候选物体生成分割结果。我们利用匈牙利损失（Hungarian Loss）实现分割模块的训练，匈牙利损失主要包括：分类、包围框回归和分割三个模块，其中分类模块输出代表候选物体的置信度，包围框回归和分割模块的输出分别代表物体的包围框和分割结果。

4. 实验

4.1 Baseline搭建

由于现有的视频分割方案（如VOS和VIS任务的解决方案）跟VOIS设定存在差异，我们在任务定义的时候额外给定了一张输入图片，因此现有的视频分割方法无法直接与之对比。为了实现合理的方案对照，我们在现有视频分割方案的基础上，增加新的图像编码分支，复现不同方案在VOIS数据上的效果。我们基于MaskTrack R-CNN 和 VisTR两个实例分割方案实现对比Baseline。

MaskTrack R-CNN模型

我们额外增加一条ResNet分支作为图像特征提取Backbone，然后使用Cross Transformer融合图像和视频两种特征，使用双路输入的特征提取和特征融合模块替代原始Backbone。

VisTR模型

VisTR采用了ResNet作为特征提取Backbone，我们采取跟改造MaskTrack R-CNN类似的方式提取图像特征，用融合特征替换原始Backbone。由于VisTR包含Transformer特征处理模块，我们将VisTR模型里的Transformer层改为Cross Transformer，作为视频、图像特征的融合，最后将融合特征输出给Decoder模块。

4.2 对比实验

实验数据

在完成Baseline模型的适配后，我们实验对比了MaskTrack R-CNN 、VisTR和我们提出方案的视频分割效果。实验结果可以看出，我们的双路Swin Transformer方案在平均准确率（AP）和平均召回率（AR）指标上均优于两个Baseline。

视频分割新范式：视频感兴趣物体实例分割 VOIS_第5张图片

不同方法实验指标对比

不同方案效果对比示例

视频分割新范式：视频感兴趣物体实例分割 VOIS_第6张图片

不同方法分割效果对比图

在上图中，左侧给定的是目标物体的图像，右侧的第一列为原始视频帧，右侧第二列为标注结果，右侧的后三列是不同方法的分割结果。在分割结果中，不同颜色代表不同的实例。由于给定的商品（物体）可能包含不同的包装样式，视频中包含很多相似的物品，准确地找出给定物体存在一定难度。从分割结果上可以看出，我们提出的方案在物体识别能力和目标分割准确度上均优于其他方法。

4.3 消融实验

验证目标图像的作用

在VOIS任务定义和模型构建过程时，我们在数据集中提供并在模型中使用了感兴趣的目标图像，我们期望提供的感兴趣图像能够引导模型从视频中找到正确的物体，在此我们验证了给定图像对分割效果的影响。具体来讲，我们在模型中删除图像特征提取分支，只保留视频特征提取分支，与双路输入的模型对比效果。我们发现在去除目标图像分支后，模型的AP和AR1分别下跌了12.1和10.2。由此验证在VOIS任务中，给定图像特征直接影响视频分割的效果，且图像在模型推理过程中可以正确地引导视频分割目标物体。

视频分割新范式：视频感兴趣物体实例分割 VOIS_第7张图片

是否包含图像分支的对比结果

选择最优模型结构

在特征融合时，我们在Swin Transformer的第3、4层添加了Cross Transformer结构，原因为网络初始层只包含低层模型特征，同时前两层的特征图较大，使得Cross Transformer的计算占用过多显存空间难以计算。因此我们主要关注在第3、4阶段（Stage）验证添加Cross Transformer的效果。只在第3阶段或第4阶段添加Cross Transformer，与两层均添加相比 AP 分别降低1.1和1.3，AR1分别降低0.7和0.3。由此可见，两次特征融合可以更好地匹配视频和图像特征。

视频分割新范式：视频感兴趣物体实例分割 VOIS_第8张图片

模型结构对比结果

5. 总结和展望

为了突破传统视频分割算法的局限性，我们提出了一种应用场景更加广泛的视频分割范式VOIS：根据提供的视频和目标物体图像，对视频中的目标物体进行实例分割。同时，我们提出了一种有效解决VOIS任务的模型，该模型可以学习到一种通用的、对视频和图像特征进行提取和匹配的能力，从而能够有效处理任意给定的视频和图像对，满足我们面临的商品样式多、新品增速快的海量视频分析场景。然而，目前方案仍有一定的扩展空间，比如：给定的图像中包含多个物体时，如何在视频中对不同的物体实现多类别的实例分割等，未来我们也将持续在相关方向上探索。

6. 关于我们

我们是阿里妈妈创意&内容算法团队，致力于推动广告创意和内容投放产业的AI升级，努力推动创意制作、理解、模型预估和广告投放的全栈智能化。得益于阿里巴巴庞大而真实的营销场景，团队在图像技术、视频技术、文案生成、广告投放等领域持续发力和创新，现已构建出图片与短视频创意自动生成，创意个性化投放，智能文案写作，全自动与交互式抠图等特色产品，论文发表于CVPR、ICCV、AAAI、ACMMM、WWW、EMNLP、CIKM、ICASSP 等领域知名会议。用AI赋能现代营销，驱动产业升级。真诚欢迎CV、NLP和推荐系统相关领域的同学加入！

投递简历邮箱：

[email protected]

7. 参考文献

[1] Liu, Z.; Lin, Y.; Cao, Y.; Hu, H.; Wei, Y.; Zhang, Z.; Lin, S.; and Guo, B. 2021. Swin transformer: Hierarchical vision transformer using shifted windows. In ICCV.

[2] Liu, Z.; Ning, J.; Cao, Y.; Wei, Y.; Zhang, Z.; Lin, S.; and Hu, H. 2022. Video swin transformer. In CVPR.

[3] Wang, Y.; Xu, Z.; Wang, X.; Shen, C.; Cheng, B.; Shen, H.; and Xia, H. 2021. End-to-end video instance segmentation with transformers. In CVPR.

[4] Ge, W.; Lu, X.; and Shen, J. 2021. Video object segmentation using global and instance embedding learning. In CVPR.

[5] Voigtlaender, P.; Chai, Y.; Schroff, F.; Adam, H.; Leibe, B.; and Chen, L.C. 2019. Feelvos: Fast end-to-end embedding learning for video object segmentation. In CVPR.

[6] Yang, L.; Fan, Y.; and Xu, N. 2019. Video instance segmentation. In ICCV.

END

也许你还想看

丨营销文案的“瑞士军刀”：阿里妈妈智能文案多模态、多场景探索

丨实现"模板自由"？阿里妈妈全自动无模板图文创意生成

丨告别拼接模板 —— 阿里妈妈动态描述广告创意

丨如何快速选对创意 —— 阿里妈妈广告创意优选

喜欢要“分享”，好看要“点赞”哦ღ~

↓欢迎留言参与讨论↓

你可能感兴趣的:(音视频,计算机视觉,人工智能,深度学习)

ai绘画生成软件哪个好？几款好用的AI绘画软件分享! 呼酱小宝箱
随着人工智能技术的不断发展，越来越多的AI绘画生成软件被开发出来。这些软件利用深度学习技术，可以将普通照片或图像转化成具备艺术效果的画作。那么，ai绘画生成软件哪个好？首先，让我们来看一下几个常见的AI绘画生成软件，它们分别是：1、DeepDreamDeepDream是由Google开发的一款AI绘画生成软件。它通过卷积神经网络对输入的图片进行处理，从而生成出具有艺术风格的画作。DeepDream
生成式 AI：从 “理解” 到 “创造” 的突破田园Coder 人工智能科普人工智能科普
1.生成式AI的定义：让AI从“识别”走向“创造”1.1什么是生成式AI生成式AI是一类能自主生成新内容（文本、图像、音频、视频等）的人工智能技术。与传统“判别式AI”（如人脸识别、垃圾邮件过滤，专注于分类和判断）不同，生成式AI的核心是“创造”——它能基于学习的规律，生成与训练数据相似但全新的内容。例如，判别式AI能判断“这是一幅梵高的画”，而生成式AI能模仿梵高的风格创作一幅全新的油画；判别式
青少年人工智能Python编程水平测试四级模拟试卷9 试题解析编程小伙伴测评网 YCL 试题详解 python 开发语言少儿编程青少年编程算法数据结构排序算法
1、以下选项中，说法正确的是？（）A、条件1and条件2，表示条件满足其中1个即可B、条件1or条件2，表示2个条件需要同时满足C、and和or不能在一个条件表达式中同时使用D、andor一般和if语句搭配使用正确答案：D试题解析：and是逻辑与，同时满足结果才满足；or是逻辑或，满足一个结果就是满足；
青少年人工智能Python编程水平测试四级模拟试卷5 试题解析编程小伙伴测评网 YCL 试题详解 python 开发语言少儿编程青少年编程算法推荐算法
【单选题】（每题2分）1、运行下列代码后，输入4，输出的结果是？（）num_1=input()num_2="3"print(num_1+num_2)A、7B
计算机视觉：人工智能的“眼睛” 人工智能教程人工智能计算机视觉机器学习算法 pytorch python 数据结构
前言在人工智能的众多领域中，计算机视觉（ComputerVision）无疑是其中最为引人注目的方向之一。它赋予了机器“看”的能力，使计算机能够像人类一样理解和解释视觉信息。从自动驾驶汽车到医疗影像诊断，从安防监控到虚拟现实，计算机视觉的应用场景无处不在，深刻地改变着我们的生活和工作方式。本文将深入探讨计算机视觉的核心技术、应用场景以及未来的发展趋势，帮助您全面了解这一充满活力的领域。一、计算机视觉
计算机视觉：打开机器之眼看世界 LeafyJee_ 人工智能人工智能深度学习计算机视觉
计算机视觉是人工智能领域中备受关注的一部分，它的目标是赋予计算机类似于人类眼睛的功能，让机器能够感知和理解周围的世界。通过图像和视频数据，计算机视觉技术将信息转化为可理解和可操作的数据，为各种应用领域提供了强大的支持。一、计算机视觉的起源和发展计算机视觉起源于20世纪50年代，当时科学家们开始研究如何让计算机能够识别和理解图像。随着技术的不断进步，计算机视觉逐渐发展成为一门独立的学科，并广泛应用于
如何使用 OpenCV 打开指定摄像头
在计算机视觉应用中，经常需要从特定的摄像头设备获取视频流。例如，在多摄像头环境中，当使用OpenCV的cv::VideoCapture类打开摄像头时，如果不指定摄像头的ID，可能会随机打开系统中的某个摄像头，或者按照设备连接的顺序打开第一个可用的摄像头。比如： //打开两个摄像头 cv::VideoCapture cap0(0); if (!cap0.isOpened()){ c
山东大学软件学院2024-2025人工智能导论期末复习简答题整理飘去数星星多元人工智能
写在前面给我的往年题整理引个流嘿嘿山东大学软件学院2024-2025人工智能导论期末回顾-CSDN博客个人观点：这次考试给我的感觉是意料之外又是意料之中，怎么说呢，意料之中的是这次的题跟往年题不一样，因为我们上一级的期末考试题就跟前几年的非常不一样，所以其实还是有所准备的，但是又是意料之外的，因为他考的也太不一样了，考的非常细节，还是招架不太住哈哈哈以下是我自己整理的一些知识点，仅供参考~需要的可
2024年第六届振我中华资金分仓方案毛振华低碳未来碳交易市场被骗无法出金,真相令人毛骨悚然! 法律咨询维权
日常生活中，经常有陌生电话号称免费拉人进股票群；网络平台上，也经常有各种股票讲课的广告。很多人抱着不花钱只是进群看看、听听课的心态，没想到却一步步陷入被骗的漩涡，损失惨重。这些股票群里所谓的“老师”首先推荐股票，取得信任后，就会推荐自行发行平台，来骗取投资者钱财。数字经济，数字体育市场，人工智能项目，数字低碳，慈善投票网站买数字的等等都是骗局，广大市民对此要提高警惕，遇到此类情况一概不要相信。若你
开源模型应用落地-OpenAI Agents SDK-集成多个MCP Servers与Qwen3-8B模型的创新应用探索（九）开源技术探险家开源模型-实际应用落地开源 python ai 人工智能
一、前言在人工智能技术迅猛发展的今天，如何让AI代理更高效地理解和操作外部资源成为行业关注的焦点。模型上下文协议（MCP）应运而生，作为一项由Anthropic推出的开源标准，它为AI系统提供了一种统一的方式来发现、检索和理解数据。与此同时，OpenAIAgents通过支持多种MCP服务器的集成，为开发者提供了更大的灵活性和扩展性。结合强大的Qwen3-8B模型，其不仅具备快速响应的能力，还能在复
ffmpeg音视频开发实战6，flutter开源项目商业化 2401_84408734 程序员 ffmpeg flutter 开源
正文Java集合：使用场景、源码阅读GC机制虚拟机对象内存分配要学好Android，必须要有扎实的Java基础（当然，现在还有Kotlin）。这里只列出了四点，但Java的体系非常庞大，重难点当然不只这些，列出来的是在实际项目和面试中常用或常见的。Android常用/重要类ActivityHandlerHandlerThreadAsyncTaskBinderAndroid这几个类在编程时是比较高频
Android NDK ffmpeg 音视频开发实战
文章目录接入FFmpeg1.下载FFmpeg源码2.编译FFmpeg.so库异常处理3.自定义FFmpeg交互so库创建4.配置CMakeLists.txt5.CMakeLists.txt环境配置6.Native与Java层调用解码器准备接入FFmpeg1.下载FFmpeg源码FFmpeg官网地址2.编译FFmpeg.so库移动FFmpeg源码文件夹至AndroidStudio的cpp包下（也可以
DeepSeek部署指南：从入门到精通 wujj_whut 热门应用 c++DeepSeek 嵌入式实时数据库
DeepSeek部署指南：从入门到精通引言在人工智能和深度学习领域，模型的部署是一个至关重要的环节。DeepSeek作为一款强大的深度学习框架，其部署过程不仅关系到模型的性能表现，还直接影响到实际应用的效果。本文将详细介绍DeepSeek的部署流程，涵盖从环境配置到实际应用的各个方面，旨在帮助读者全面掌握DeepSeek的部署技巧。一、DeepSeek简介DeepSeek是一款开源的深度学习框架，
七、Uniapp+vue+腾讯IM+腾讯音视频开发仿微信的IM聊天APP，支持各类消息收发，音视频通话，附vue实现源码(已开源)-聊天消息项的实现智密科技 uniapp插件 IM源码音视频微信 uni-app 源码 im
会话好友列表的实现1、项目引言2、腾讯云后台配置TXIM3、配置项目并实现IM登录4、会话好友列表的实现5、聊天输入框的实现6、聊天界面容器的实现7、聊天消息项的实现8、聊天输入框扩展面板的实现9、聊天会话管理的实现10、聊天记录的加载与消息收发11、定位SD配置与收发定位消息12、贴图表情的定制化开发13、腾讯云后台配置TRTC功能14、集成音视频通话功能15、集成仿微信的拍照，相册选择插件16
【人工智能之深度学习】1. 深度学习基石：神经元模型与感知机的数学本质（附代码实现与收敛性证明） AI_DL_CODE 人工智能之深度学习人工智能深度学习神经元模型感知机赫布法则深度学习基础线性可分
摘要：作为深度学习的基础单元，神经元模型与感知机承载着从生物智能到人工神经网络的桥梁作用。本文从生物神经元的工作机制出发，系统剖析数学建模过程：详解赫布法则的权重更新原理（Δwi=η·xi·y），推导McCulloch-Pitts神经元模型的数学表达（y=Θ(∑wixi−b)），重点证明感知机在linear可分情况下的收敛性——通过Novikoff定理严格推导迭代次数上界，揭示间隔γ对收敛速度的影
女性职业新趋势：揭秘未来高薪热门行业氧惠爱高省
女生在职业选择上拥有广阔的空间，尤其是在当前快速发展的社会背景下，一些行业不仅成为了高薪热门，还提供了多样化的职业路径。以下是一些可能成为女生高薪热门选择的行业：➤推荐网购返利app“氧惠”，一个领隐藏优惠券+现金返利的平台。氧惠只提供领券返利链接，下单全程都在淘宝、京东、拼多多等原平台，更支持抖音、快手电商、外卖红包返利等。科技与互联网行业人工智能与大数据：随着人工智能和大数据技术的广泛应用，相
Agora_Unity_WebGL：实时互动的WebGL解决方案
Agora_Unity_WebGL：实时互动的WebGL解决方案项目介绍Agora_Unity_WebGL是一个开源的UnityWebGL插件，它是对AgoraWebSDK4.x版本的封装。这个项目旨在为开发者提供一种在Unity中轻松集成实时音视频互动功能的方法，特别适用于需要在Web平台运行的Unity项目。通过这个插件，开发者可以快速地实现实时音频、视频通信以及直播等功能。项目技术分析Ago
深度学习在环境感知中的应用：案例与代码实现
让机器学会“看”世界：深度学习如何赋能环境感知？关键词深度学习|环境感知|计算机视觉|传感器融合|语义分割|目标检测|自动驾驶摘要环境感知是机器与外界互动的“眼睛和耳朵”——从自动驾驶汽车识别行人，到智能机器人避开障碍物，再到城市监控系统检测异常，所有智能系统都需要先“理解”环境，才能做出决策。传统环境感知方法依赖手工特征提取，难以应对复杂场景；而深度学习通过数据驱动的方式，让机器从大量数据中自动
自编码器表征学习：重构误差与隐空间拓扑结构的深度解析码字的字节机器学习自编码器重构误差隐空间
自编码器基础与工作原理自编码器（Autoencoder）作为深度学习领域的重要无监督学习模型，其核心思想是通过模拟人类认知过程中的"压缩-解压"机制实现数据的表征学习。这种由GeoffreyHinton团队在2006年复兴的神经网络结构，本质上是一个试图通过编码-解码过程来复制其输入的系统，却在实现这一看似简单目标的过程中，意外地获得了强大的特征提取能力。基本架构与工作流程典型自编码器由对称的两部
基于YOLOv8的Web端交互式目标检测系统设计与实现 YOLO实战营 YOLO 前端目标检测人工智能 ui 目标跟踪计算机视觉
1.引言目标检测是计算机视觉领域的一项重要任务，它在安防监控、自动驾驶、医疗影像分析等领域有着广泛的应用。近年来，随着深度学习技术的快速发展，YOLO(YouOnlyLookOnce)系列算法因其出色的速度和精度平衡而备受关注。本文将详细介绍如何基于最新的YOLOv8模型构建一个Web端交互式目标检测系统，包含完整的UI界面设计和数据集处理流程。本系统将实现以下功能：基于YOLOv8的高效目标检测
交错并联Buck+LLC变换器的建模与控制优化研究
交错并联Buck+LLC变换器的建模与控制优化研究前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家，觉得好请收藏。点击跳转到网站。摘要本文针对宽输入电压范围(200-450V)、多电压输出(12-48V)的高效DC-DC变换系统，提出了一种基于交错并联Buck预调节器和LLC谐振变换器的两级式拓扑结构。中间母线电压设定为200V，系统输出功率为1500W，要求电压和
基于卷积神经网络与小波变换的医学图像超分辨率算法复现神经网络15044 python 算法 cnn 算法人工智能图像处理开发语言神经网络深度学习
基于卷积神经网络与小波变换的医学图像超分辨率算法复现前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家，觉得好请收藏。点击跳转到网站。1.引言医学图像超分辨率技术在临床诊断和治疗规划中具有重要意义。高分辨率的医学图像能够提供更丰富的细节信息，帮助医生做出更准确的诊断。近年来，深度学习技术在图像超分辨率领域取得了显著进展。本文将复现一种结合卷积神经网络(CNN)、小波变
使用MMDetection中的Mask2Former和X-Decoder训练自定义数据集及结果复现神经网络15044 算法 python 分类矩阵人工智能数据挖掘深度学习
使用MMDetection中的Mask2Former和X-Decoder训练自定义数据集及结果复现前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家，觉得好请收藏。点击跳转到网站。1.引言1.1研究背景实例分割是计算机视觉领域的重要任务，它要求模型不仅要检测图像中的对象，还要精确地分割出每个对象的像素级掩码。近年来，基于Transformer的模型在实例分割任务上取得
OpenCV引擎：驱动实时应用开发的科技狂飙芯作者 DD：计算机科学领域 opencv 计算机视觉
在人工智能与计算机视觉技术迅猛发展的今天，实时图像处理已成为工业自动化、自动驾驶、医疗诊断、增强现实等领域的核心技术需求。而**OpenCV（OpenSourceComputerVisionLibrary）**作为全球最活跃的开源计算机视觉库，正以其强大的算法生态、跨平台兼容性以及持续进化的架构设计，成为驱动实时应用开发的“数字引擎”。本文将深入剖析OpenCV如何通过技术创新突破实时处理的性能极
深度学习系列-----＞环境搭建（Ubuntu）二师兄用飘柔深度学习历程深度学习 ubuntu 人工智能 pytorch python
1、前言电脑基础系统硬件情况：系统：ubuntu18.04、显卡：GTX1050Ti；后续的环境搭建都在此基础上进行。此次学习选择Pytorch作为深度学习的框架，选择的原因主要由于PyTorch在研究领域特别受欢迎，较多的论文框架也是基于其开发。2、anaconda+python3安装测试在学习深度学习的过程中会涉及到使用不同版本python包的问题，而anaconda可以便捷获取包且对包能够进
深度学习-常用环境配置瑶山 AI linux 人工智能 windows CUDA PyTorch
目录Miniconda安装安装NVIDIA显卡驱动安装CUDA和cnDNNCUDAcuDNNPyTorch安装手动下载测试Miniconda安装最新版Miniconda搭建Python环境_miniconda创建python虚拟环境-CSDN博客安装NVIDIA显卡驱动直接进NVIDIA官网：NVIDIAGeForce驱动程序-N卡驱动|NVIDIA在这里有GeForce驱动程序，立即下载，这是下
全球软件技术峰会 2025：聚焦大模型开发、智能运维与架构创新，共赴技术实战盛宴向日葵也有悲伤运维架构推荐算法数据结构大数据数据库架构
全球软件技术峰会2025：聚焦大模型开发、智能运维与架构创新，共赴技术实战盛宴在软件定义未来的时代，人工智能与数字化技术正以颠覆性力量重塑全球产业格局。2025年8月15-16日，以"全球专家、卓越智慧"为宗旨的全球软件技术峰会将盛大启幕，特邀全球近50位来自微软、谷歌、亚马逊、字节跳动等企业的技术领袖及一线实战专家，围绕大模型智能应用开发、AI与ML智能运维、软件开发智能化、架构设计与演进四大核
AI产品经理面试宝典第42天：学习方法与产品流程解析 TGITCIC AI产品经理一线大厂面试题产品经理 AI面试大模型面试 AI产品经理面试大模型产品经理面试 AI产品大模型产品
具体问答：学习产品及AI知识的方法问：请谈谈您是如何学习产品及AI知识的，以及您认为哪些资源对您帮助最大答：我的学习体系包含三个维度：分层知识架构、实践验证闭环、资源筛选机制。在知识获取阶段，采用「理论-案例-工具」三级学习法：通过《人工智能：一种现代的方法》构建AI基础框架，用TensorFlow官方文档掌握工程实现，结合《启示录》《俞军产品方法论》理解产品逻辑。实践环节采用「项目反哺」模式，例
走进5G时代的音视频开发 Linux高级开发 IT
音频的基础知识1采样和采样频率：现在是数字时代，在音频处理时要先把音频的模拟信号变成数字信号，这叫A/D转换。要把音频的模拟信号变成数字信号，就需要采样。一秒钟内采样的次数称为采样频率2采样位数/位宽：数字信号是用0和1来表示的。采样位数就是采样值用多少位0和1来表示，也叫采样精度，用的位数越多就越接近真实声音。如用8位表示，采样值取值范围就是-128~127，如用16位表示，采样值取值范围就是-
重磅！LM Studio AI编程全面免费
从今天起，LMStudio在家和工作中均可免费使用。查看更新后的条款了解详情。我们的隐私政策保持不变，您可以在此处阅读。在家免费使用，现在也可在工作场所使用LMStudio一直以来都免费供个人使用。这源于我们秉持的根本信念：人工智能应该让人们在自己的机器上轻松访问，无需依赖任何外部资源，并且完全保护隐私。此前，LMStudio应用条款规定，公司或组织若要使用LMStudio，必须联系我们并获得单独
遍历dom 并且存储（将每一层的DOM元素存在数组中）换个号韩国红果果 JavaScript html
数组从0开始！！ var a=[],i=0; for(var j=0;j<30;j++){ a[j]=[];//数组里套数组，且第i层存储在第a[i]中 } function walkDOM(n){ do{ if(n.nodeType!==3)//筛选去除#text类型 a[i].push(n); //con
Android+Jquery Mobile学习系列(9)-总结和代码分享白糖_ JQuery Mobile
目录导航经过一个多月的边学习边练手，学会了Android基于Web开发的毛皮，其实开发过程中用Android原生API不是很多，更多的是HTML/Javascript/Css。个人觉得基于WebView的Jquery Mobile开发有以下优点： 1、对于刚从Java Web转型过来的同学非常适合，只要懂得HTML开发就可以上手做事。 2、jquerym
impala参考资料 dayutianfei impala
记录一些有用的Impala资料 1. 入门资料 >>官网翻译： http://my.oschina.net/weiqingbin/blog?catalog=423691 2. 实用进阶 >>代码&架构分析： Impala/Hive现状分析与前景展望：http
JAVA 静态变量与非静态变量初始化顺序之新解周凡杨 java 静态非静态顺序
今天和同事争论一问题，关于静态变量与非静态变量的初始化顺序，谁先谁后，最终想整理出来！测试代码： import java.util.Map; public class T { public static T t = new T(); private Map map = new HashMap(); public T(){ System.out.println(&quo
跳出iframe返回外层页面 g21121 iframe
在web开发过程中难免要用到iframe，但当连接超时或跳转到公共页面时就会出现超时页面显示在iframe中，这时我们就需要跳出这个iframe到达一个公共页面去。首先跳转到一个中间页，这个页面用于判断是否在iframe中，在页面加载的过程中调用如下代码： <script type="text/javascript"> //<!-- function
JAVA多线程监听JMS、MQ队列 510888780 java多线程
背景：消息队列中有非常多的消息需要处理，并且监听器onMessage（）方法中的业务逻辑也相对比较复杂，为了加快队列消息的读取、处理速度。可以通过加快读取速度和加快处理速度来考虑。因此从这两个方面都使用多线程来处理。对于消息处理的业务处理逻辑用线程池来做。对于加快消息监听读取速度可以使用1.使用多个监听器监听一个队列；2.使用一个监听器开启多线程监听。对于上面提到的方法2使用一个监听器开启多线
第一个SpringMvc例子布衣凌宇 spring mvc
第一步：导入需要的包；第二步：配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi=
我的spring学习笔记15-容器扩展点之PropertyOverrideConfigurer aijuans Spring3
PropertyOverrideConfigurer类似于PropertyPlaceholderConfigurer，但是与后者相比，前者对于bean属性可以有缺省值或者根本没有值。也就是说如果properties文件中没有某个bean属性的内容，那么将使用上下文（配置的xml文件）中相应定义的值。如果properties文件中有bean属性的内容，那么就用properties文件中的值来代替上下
通过XSD验证XML antlove xml schema xsd validation SchemaFactory
1. XmlValidation.java package xml.validation; import java.io.InputStream; import javax.xml.XMLConstants; import javax.xml.transform.stream.StreamSource; import javax.xml.validation.Schem
文本流与字符集百合不是茶 PrintWrite()的使用字符集名字别名获取
文本数据的输入输出; 输入;数据流,缓冲流输出;介绍向文本打印格式化的输出PrintWrite(); package 文本流; import java.io.FileNotFound
ibatis模糊查询sqlmap-mapping-**.xml配置 bijian1013 ibatis
正常我们写ibatis的sqlmap-mapping-*.xml文件时，传入的参数都用##标识，如下所示： <resultMap id="personInfo" class="com.bijian.study.dto.PersonDTO"> <res
java jvm常用命令工具——jdb命令(The Java Debugger) bijian1013 java jvm jdb
用来对core文件和正在运行的Java进程进行实时地调试，里面包含了丰富的命令帮助您进行调试，它的功能和Sun studio里面所带的dbx非常相似，但 jdb是专门用来针对Java应用程序的。现在应该说日常的开发中很少用到JDB了，因为现在的IDE已经帮我们封装好了，如使用ECLI
【Spring框架二】Spring常用注解之Component、Repository、Service和Controller注解 bit1129 controller
在Spring常用注解第一步部分【Spring框架一】Spring常用注解之Autowired和Resource注解（http://bit1129.iteye.com/blog/2114084）中介绍了Autowired和Resource两个注解的功能，它们用于将依赖根据名称或者类型进行自动的注入，这简化了在XML中，依赖注入部分的XML的编写，但是UserDao和UserService两个bea
cxf wsdl2java生成代码super出错,构造函数不匹配 bitray super
由于过去对于soap协议的cxf接触的不是很多,所以遇到了也是迷糊了一会.后来经过查找资料才得以解决. 初始原因一般是由于jaxws2.2规范和jdk6及以上不兼容导致的.所以要强制降为jaxws2.1进行编译生成.我们需要少量的修改: 我们原来的代码 wsdl2java com.test.xxx -client http://..... 修改后的代
动态页面正文部分中文乱码排障一例 ronin47
公司网站一部分动态页面，早先使用apache+resin的架构运行，考虑到高并发访问下的响应性能问题，在前不久逐步开始用nginx替换掉了apache。不过随后发现了一个问题，随意进入某一有分页的网页，第一页是正常的（因为静态化过了）；点“下一页”，出来的页面两边正常，中间部分的标题、关键字等也正常，唯独每个标题下的正文无法正常显示。因为有做过系统调整，所以第一反应就是新上
java-54- 调整数组顺序使奇数位于偶数前面 bylijinnan java
import java.util.Arrays; import java.util.Random; import ljn.help.Helper; public class OddBeforeEven { /** * Q 54 调整数组顺序使奇数位于偶数前面 * 输入一个整数数组，调整数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半
从100PV到1亿级PV网站架构演变 cfyme 网站架构
一个网站就像一个人，存在一个从小到大的过程。养一个网站和养一个人一样，不同时期需要不同的方法，不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。 1：积累是必不可少的架构师不是一天练成的。 1999年，我作了一个个人主页，在学校内的虚拟空间，参加了一次主页大赛，几个DREAMWEAVER的页面，几个TABLE作布局，一个DB连接，几行PHP的代码嵌入在HTM
[宇宙时代]宇宙时代的GIS是什么？ comsci Gis
我们都知道一个事实，在行星内部的时候，因为地理信息的坐标都是相对固定的，所以我们获取一组GIS数据之后，就可以存储到硬盘中，长久使用。。。但是，请注意，这种经验在宇宙时代是不能够被继续使用的宇宙是一个高维时空
详解create database命令 czmmiao database
完整命令 CREATE DATABASE mynewdb USER SYS IDENTIFIED BY sys_password USER SYSTEM IDENTIFIED BY system_password LOGFILE GROUP 1 ('/u01/logs/my/redo01a.log','/u02/logs/m
几句不中听却不得不认可的话 datageek
1、人丑就该多读书。 2、你不快乐是因为：你可以像猪一样懒，却无法像只猪一样懒得心安理得。 3、如果你太在意别人的看法，那么你的生活将变成一件裤衩，别人放什么屁，你都得接着。 4、你的问题主要在于：读书不多而买书太多，读书太少又特爱思考，还他妈话痨。 5、与禽兽搏斗的三种结局：(1)、赢了，比禽兽还禽兽。(2)、输了，禽兽不如。(3)、平了，跟禽兽没两样。结论：选择正确的对手很重要。 6
1 14:00 PHP中的“syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM”错误 dcj3sjt126com PHP
原文地址：http://www.kafka0102.com/2010/08/281.html 因为需要，今天晚些在本机使用PHP做些测试，PHP脚本依赖了一堆我也不清楚做什么用的库。结果一跑起来，就报出类似下面的错误：“Parse error: syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM in /home/kafka/test/
xcode6 Auto layout and size classes dcj3sjt126com ios
官方GUI https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual/AutolayoutPG/Introduction/Introduction.html iOS中使用自动布局（一） http://www.cocoachina.com/ind
通过PreparedStatement批量执行sql语句【sql语句相同，值不同】梦见x光 sql 事务批量执行
比如说：我有一个List需要添加到数据库中，那么我该如何通过PreparedStatement来操作呢？ public void addCustomerByCommit(Connection conn , List<Customer> customerList) { String sql = "inseret into customer(id
程序员必知必会----linux常用命令之十【系统相关】 hanqunfeng Linux常用命令
一.linux快捷键 Ctrl+C : 终止当前命令 Ctrl+S : 暂停屏幕输出 Ctrl+Q : 恢复屏幕输出 Ctrl+U : 删除当前行光标前的所有字符 Ctrl+Z : 挂起当前正在执行的进程 Ctrl+L : 清除终端屏幕，相当于clear 二.终端命令 clear : 清除终端屏幕 reset : 重置视窗，当屏幕编码混乱时使用 time com
NGINX IXHONG nginx
pcre 编译安装 nginx conf/vhost/test.conf upstream admin { server 127.0.0.1:8080; } server { listen 80; &
设计模式--工厂模式 kerryg 设计模式
工厂方式模式分为三种： 1、普通工厂模式：建立一个工厂类，对实现了同一个接口的一些类进行实例的创建。 2、多个工厂方法的模式：就是对普通工厂方法模式的改进，在普通工厂方法模式中，如果传递的字符串出错，则不能正确创建对象，而多个工厂方法模式就是提供多个工厂方法，分别创建对象。 3、静态工厂方法模式：就是将上面的多个工厂方法模式里的方法置为静态，
Spring InitializingBean/init-method和DisposableBean/destroy-method mx_xiehd java spring bean xml
1.initializingBean/init-method 实现org.springframework.beans.factory.InitializingBean接口允许一个bean在它的所有必须属性被BeanFactory设置后，来执行初始化的工作，InitialzingBean仅仅指定了一个方法。通常InitializingBean接口的使用是能够被避免的，（不鼓励使用，因为没有必要
解决Centos下vim粘贴内容格式混乱问题 qindongliang1922 centos vim
有时候，我们在向vim打开的一个xml，或者任意文件中，拷贝粘贴的代码时，格式莫名其毛的就混乱了，然后自己一个个再重新，把格式排列好，非常耗时，而且很不爽，那么有没有办法避免呢？答案是肯定的，设置下缩进格式就可以了，非常简单：在用户的根目录下直接vi ~/.vimrc文件然后将set pastetoggle=<F9> 写入这个文件中，保存退出，重新登录，
netty大并发请求问题 tianzhihehe netty
多线程并发使用同一个channel java.nio.BufferOverflowException: null at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:183) ~[na:1.7.0_60-ea] at java.nio.ByteBuffer.put(ByteBuffer.java:832) ~[na:1.7.0_60-ea]
Hadoop NameNode单点问题解决方案之一 AvatarNode wyz2009107220 NameNode
我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：NetApp NFS Filer)。经常遇到需要中断服务的问题是给hadoop打补丁。 DataNod

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他