乄洛尘

Ref 系列 UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces 论文阅读笔记

一、Abstract
二、引言
三、相关工作
- 3.1 统一的模型
- 3.2 特定任务的目标分割
- - 指代图像分割
  - Few-shot 分割
  - 指代视频目标分割
  - 视频目标分割
四、方法
- 4.1 总览
- 4.2 指代编码
- - Few-shot Segmentation and Video Object Segmentation
  - Referring Image Segmentation
  - Referring Video Object Segmentation
- 4.3 多尺度 UniFusion 模块
- 4.4 统一的架构
- - Transformer
  - Mask 解码器
- 4.5 训练和推理
- - 训练
  - 推理
五、实验
- 5.1 实验设置
- - 数据集
  - 实施细节
- 5.2 定量分析
- - 指代图像分割 RIS
  - Few-shot Segmentation
  - Referring Video Object Segmentation
  - Video Object Segmentation
- 5.3 消融研究
- 5.4 定性结果
六、将 UniFusion 插入到 SAM
七、结论

写在前面

这周得加更两篇论文阅读笔记，完成 2023 的 flag。

此论文也是 Arxiv 比较新的文章，设计了一个大一统模型，解决图像和视频的指代分割问题，应该是篇大佬工作。

论文地址：UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces
代码地址：https://github.com/FoundationVision/UniRef
预计提交于：CVPR 2024
Ps：2023 年每周一篇博文阅读笔记，主页更多干货，欢迎关注呀，期待 6 千粉丝有你的参与呦~

一、Abstract

基于指代的目标分割任务，有指代图像分割 referring image segmentation (RIS)、少样本图像分割 few-shot image segmentation (FSS)、指代视频目标分割 referring video object segmentation (RVOS) 和视频目标分割 video object segmentation (VOS)。这些任务要么利用语言或 masks 标注作为指代去分割出特定的目标。虽然这些任务的进展很大，但当前方法仍然设计于特定任务，应用于不同的方向，这妨碍了多任务的能力。于是本文提出一种统一的框架 UniRef++ 统一这四个基于指代的目标分割任务。方法的核心思想在于提出的 UniFusion 模块执行不同任务的多种方式融合。UniRef++ 能够在广泛的数据集中进行训练，同时兼容其它多种任务。实验表明本文的方法在 RIS、RVOS、FSS、VOS 上达到了 SOTA。此外，本文的 UniFusion 模块很容易整合进 SAM 中，从而实现高效参数微调。

二、引言

基于指代引导的分割任务定义，四个：指代图像分割 referring image segmentation (RIS)、少样本图像分割 few-shot image segmentation (FSS)、指代视频目标分割 referring video object segmentation (RVOS) 和半监督视频目标分割 video object segmentation (VOS)。

尽管这些任务各自发展都很不错，但需要特定的模型，以及额外的训练时间和模型权重，导致计算成本较高，同时产生冗余的参数。此外，这些单独的模型未能应用于其它任务。于是本文基于一个主旨：这些任务都是使用指代（语言或标注的 masks）作为引导从而进行特定目标的像素分割。这就需要一个统一的模型在同一套参数下执行不同的任务。

目前存在的问题：不同领域内的主流方法差异很大，RIS 方法主要关注视觉语言信息的深度跨模态融合，而 FSS 主要在基于关联的方法上，用于稠密的语义关联。VOS 方法主要是空间-时间记忆网络用于像素匹配。最近的 RVOS 方法则极度依赖于基于 query 的方法；图像水平的方法不能简单拓展到视频领域。图像任务仅需要分割单张图像内的目标，而视频任务则有可能会出现目标遮挡、快速运动、消失再重新出现的情况，这就需要网络利用空间-时序信息来追踪整个视频上的目标。于是图像上的情况很难应用在视频上；视频任务（VOS 和 RVOS）当前以两种不同的算法来解决——之前的 RVOS 拿整个视频作为输入，一步到位，对所有帧产生预测，而 VOS 方法则以在线的方式将冗余的历史信息投影到下一帧。

因此本文提出一种统一的模型 UniRef++ ，用于基于指代的目标分割任务。核心思想将四个任务塑造为实例水平的分割问题，而指代的信息则可以通过基于注意力的融合过程注入到网络中。
如上图所示，UniRef++ 接收当前的帧信息，然后利用相应的指代信息去执行融合过程，名为多方式-融合。具体来说，用于指代图像的标注 mask 用作 FSS 和 VOS 的指代，而源于语言描述的指代则用作 RIS 的指代。对于 RVOS，所有的语言和 mask 指代都被使用。这一设计不仅以在线的方式解决 RVOS 问题，同时也能利用 mask 的历史信息来确保时序的一致性。

本文贡献总结如下：

提出 UniRef++，一种统一的模型在一套权重下执行 4 个基于指代的目标分割任务（RIS、FSS、RVOS、VOS）。
引入 UniFusion 模块，将指代信息注入到网络中而不管模态结构。利用语言和 masks 作为指代，为 RVOS 建立一种新的在线方法。
实验表明本文提出的模型在 RIS、RVOS、FSS、VOS 上达到了 SOAT 的性能。

三、相关工作

3.1 统一的模型

有很多工作致力于在视觉或视觉-语言任务上实现统一的交互。例如 Unified-IO 在大量的图像水平的任务上，例如图像分类、图像字幕、VQA 上，以一种 sequence-to-sequence 生成的方式统一。另外一些工作旨在采用一种统一的架构用于密切关联的任务：GLIP 将所有的目标检测和短语定位任务视为句子-区域对齐问题。OneFormer 则采用一个 Transformer 网络统一了图像分割任务。Unicorn 提出先验任务的设计用于解决四个跟踪任务。然而这些方法仅仅关注图像域或者视觉任务。本文旨在建立一种统一的模型用于基于指代的目标分割任务。

3.2 特定任务的目标分割

指代图像分割

RIS 的定义，先前的研究主要关注于多模态特征交互技术，要么利用 CNN 中的注意力机制，要么使用多模态 Transformer。还有一些工作旨在建立统一的框架用于指代表达式理解 REC 和 RIS 任务。

Few-shot 分割

FSS 任务的定义，早期的方法主要通过给定集合的 masks 平均池化来计算类别的原始 masks，然后利用给定集合的信息细化 query 的图像特征。由于此类方法中的池化操作会造成明显的信息丢失，于是基于关联的方法，提出建模 query 和给定图像间的像素联系。

指代视频目标分割

RVOS 是 RIS 在视频领域的拓展。之前的一些方法独立的处理视频帧，或是简单采用 3D CNNs 来提取时序特征。最近一些基于 query 的 Transformer 方法以在线处理的方式实现了 SOTA。然而这种方式不适用于长视频或者不间断视频。与这些工作相比，本文提出的在线处理方法 UniRef++ 利用了 mask 投影过程中的历史信息，确保了目标的时序一致性。

视频目标分割

之前的方法大致分为两类：基于模板的方法，将标注帧视为模板，从而将模板信息融合到当前帧内；基于记忆的方法，STM 利用一个记忆网络将过去帧的预测记住，从而学习空间-时间像素水平的关联。后续的工作主要关注于如何提高记忆的 embedding，例如设计新颖的记忆网络或者合适的记忆读取策略。这些工作将 VOS 任务视为像素水平的二分类任务，缺乏了对目标的理解，而本文将 VOS 视为实例分割任务。

四、方法

4.1 总览

UniRef++ 整体结构如上图所示，其框架由一个视觉编码器，两个指代编码器（分别用于文本和 mask），一个提出的 UniFusion 模块和一个基于 Transformer的检测器组成。给定图像 $\bold I\in \mathbb{R}^{H\times W\times3}$ 和相应的指代，首先使用视觉编码器 $\mathbf{Enc}_V$ 提取当前图像的多尺度特征 $\mathcal{F}=\{F_{\ell}\}_{\ell=1}^4$ ，其中 $l$ 表示级联的视觉特征的索引，其空间尺度从 4 到 32。然后指代编码器用于编码指代的信息，后面跟着 UniFusion 模块，将指代信息注入到视觉特征中。最后，通过一个统一的基于 Transformer 的网络，为指代目标生成一个二值 mask $m\in\mathbb{R}^{H\times W}$ 。

4.2 指代编码

这一部分，将介绍如何编码指代的信息用于四个基于指代的任务。

Few-shot Segmentation and Video Object Segmentation

对于 FSS 和 VOS 任务。提供的指代图像 mask 标注作为指代。与 STCN 中对比两帧图像的相似度类似，采用统一视觉编码器 $\mathbf{Enc}_V$ 来提取指代帧 $I_{\text {ref}}$ 的级联的视觉特征 $\mathcal{F}_{V}^\mathrm{f}=\left\{F_{V,\ell}^\mathrm{f}\right\}$ 。然后采用一个轻量化的 mask 编码器，利用 ResNet18 来接受指代帧 $I_{\text {ref}}$ 。目标 mask 标注 $m_0$ 以及编码的帧特征 $\mathcal{F}_{V}$ 用于生成指代帧目标的多尺度 mask 特征 $\mathcal{F}_{V}^\mathrm{f}=\left\{F_{V,\ell}^\mathrm{f}\right\}$ 。这里 $F_{V,\ell}^\mathrm{f}$ ， $F_{V,\ell}^\mathrm{m}$ 中， $\mathcal l=2,3,4$ 。用公式表示如下：
$\begin{gathered}\mathcal{F}_V^f=\operatorname{Enc}_V(I_{\mathrm{ref}})\\\mathcal{F}_V^m=\operatorname{Enc}_M(I_{\mathrm{ref}},m_o,\mathcal{F}_V^f)\end{gathered}$

Referring Image Segmentation

RIS 任务的指代是语言描述 $T$ 。为编码语言信息，应用一个离线的文本编码器（例如 BERT，或 RoBERTa）提取语言特征 $F_T\in\mathbb{R}^{L\times C}$ ，其中 $L$ 为句子的长度， $C$ 为通道维度： $F_{T}=\mathbf{Enc}_{T}(T)$ 。

Referring Video Object Segmentation

RVOS 需要模型不仅理解语言描述，而且要跟踪整个视频中的指代目标。于是在此任务中同时编码语言和视觉信息。类似的，提取语言特征，然后应用编码器进一步编码特征。需要注意的是 mask 标注仅在训练中可用，而在前一帧中使用预测的 mask 作为推理中的视觉指代。

4.3 多尺度 UniFusion 模块

在指代信息编码完成后，有一个问题自然产生了：如何注入指代信息到网络中？接下来引入提出的多尺度 UniFusion 模块用于指代信息的注入。

首先以级联的方式融合视觉特征 $\mathcal F$ 和指代特征。以第 $\ell$ 层（ $\ell=2,3,4$ ）视觉水平特征为例：当前图像第 $\ell$ 层的视觉特征 $F_{\ell}$ 和源于指代特征的相应的 key、value embedding（ $F_{r}^{\mathrm{k}}$ 和 $F_{r}^{\mathrm{v}}$ ）。对于 mask 指代： $F_{r}^{\mathrm{k}}=\mathcal{F}_{V}^{f}$ ， $F_{r}^{\mathrm{v}}=\mathcal{F}_{V}^{m}$ 。对于语言指代： $F_{r}^{\mathrm{k}}=F_{r}^{\mathrm{v}}={F_{T}}$ 。这些输入首先通过线性投影转化为三个向量： $Q_{\ell}$ 、 $K_{\ell}$ 和 $V_{\ell}$ 。首先在这些向量间执行多头跨注意力操作，然后指代特征 $F_{r}^{\mathrm{k}}$ 通过池化和回归分别获得尺度、偏移量和门参数： $\gamma$ 、 $\beta$ 、 $\alpha$ ，应用在注意力块中。最终输出的特征通过残差连接注入到原始的视觉特征中。UniFusion 处理过程表示如下：
$\begin{gathered} O_{\ell}=\mathrm{Attention}(Q_{\ell},K_{\ell},V_{\ell}) \\ \gamma,\beta,\alpha=\mathrm{Linear}(\mathrm{Pooling}(F_{r}^{\mathrm{k}})) \\ \begin{aligned}F_{\ell}'=F_{\ell}+\alpha(O_{\ell}(1+\gamma)+\beta)\end{aligned} \end{gathered}$ 其中 $O_{\ell}$ 为注意力操作的中间结果， $F_{\ell}'$ 为 UniFusion 的最终输出。在所有视觉尺度上，UniFusion 模块贡献相同的参数。UniFusion 与其他方法的区别在于：使用 FlashAttention 执行跨注意力操作，当计算稠密的特征图时效率更高且内存消耗更小；受 adaLN-zero 块的启发，偏移和门的参数都是 zero-initialized 的。这使得网络逐渐地学到指代的知识，使得 UniFusion 更容易插入到预训练的目标分割模型中。

4.4 统一的架构

多尺度视觉特征 $\mathcal{F}^{\prime}=\left\{\boldsymbol{F}_{\ell}^{\prime}\right\}_{\ell=2}^{4}$ 通过特定的目标指代后，有着明显的表示。

Transformer

采用两阶段的 Deformable-DETR 作为目标检测器。其接收融合的级联视觉特征 $F_{\ell}'$ 作为输入，在编码器中执行多尺度可变形 self-attention 操作。而在解码器内， $N$ 个目标 queries 经过堆叠的解码器层进行提炼，最终转化为 query 表示 $Q_{\mathrm{obj}}\in\mathbb{R}^{{N}\times C}$ 。三个预测头（类别头、box head、mask head）建立在解码器的顶部来预测目标得分 $S\in\mathbb{R}^{N\times{1}}$ ，boxes $B\in\mathbb{R}^{N\times{4}}$ 以及 mask 的动态卷积核参数 $\mathcal{G}=\{{g_{i}}\}_{i=1}^{N}$ 。

Mask 解码器

将 Transformer 编码器的输出特征（步长从 8 到 32）以类似 FPN 的方式进行级联融合。步长为 $4$ 的特征图 $F_1$ 也添加上。于是，得到高分辨率的 mask 特征 $F_{\mathrm{seg}}\in{\mathbb{R}}^{\frac{H}{4}\times\frac{\bar{W}}{4}\times C}$ 。最终，指代目标的 masks 通过执行 $F_{\mathrm{seg}}$ 和 $\mathcal{G}$ 间的动态卷积实现：
$m_i=\text{Upsample}(\text{DynamicConv}(F_{\mathrm{seg}},g_i)),i=1,...,N$
在推理过程中，选择最高得分的 mask 作为指代目标的最终结果 $m$ 。尽管一个目标 query 对于基于指代的任务来说已经足够，但是实验发现更多的目标 queries 有助于更好的性能。

4.5 训练和推理

训练

网络预测 $N$ 个目标得分和分割 masks，其中目标得分表示目标是否在当前帧中可见。在训练过程中，应用集合预测损失。仅有一个 GT 对应基于指代的目标分割任务。根据最优转移方法（见原文引用文献），通过选择 top-k 个预测达到最小损失。匹配损失构建如下：
$\mathcal{C}=\lambda_{cls}\cdot\mathcal{C}_{cls}+\lambda_{L1}\cdot\mathcal{C}_{L1}+\lambda_{giou}\cdot\mathcal{C}_{giou}$ 其中 $\mathcal{C}_{cls}$ 为 focal loss，box 损失包含广泛使用的 $\ell_1$ 损失和 GIoU 损失，最小损失的 top-k 个预测被赋值为正样本，其它则为负样本。UniRef++ 通过最小化下列损失函数进行优化：
$\mathcal{L}=\lambda_{cls}\cdot\mathcal{L}_{cls}+\lambda_{L1}\cdot\mathcal{L}_{L1}+\lambda_{giou}\cdot\mathcal{L}_{giou}+\lambda_{mask}\cdot\mathcal{L}_{mask}+\lambda_{dice}\cdot\mathcal{L}_{dice}$ 其中类别损失和 boxes 损失与前面一个式子相同，与 mask 相关的损失包含 mask 二值交叉熵损失和 DICE 损失。

推理

对于 RIS 和 FSS，直接输出的 query 预测中最高得分的 mask，而对于 RVOS 和 VOS，则无需后处理，以在线帧到帧方式推理视频。具体来说，对于当前帧，网络使用相应的指代信息来生成特定目标的 masks。若目标得分高于预定义的阈值 $\sigma$ ，则 mask 即为输出，反之输出的 mask 所有值均设为 0。为解决视频中包含多个目标的问题，采用之前工作中广泛使用的 soft-aggregation 方法。

五、实验

5.1 实验设置

数据集

RIS：RefCOCO、RefCOCO+、RefCOCOg(UMD)
FSS：FSS-1000
RVOS：Ref-Youtube-VOS、Ref-DAVIS17
VOS：Youtube-VOS、LVOS、MOSE

实施细节

两种 Backbone，ResNet50 + Swin Transformer-Large；文本编码器 BERT-base。句子最大长度 77。Transformer 架构有 6 层编码器，6 层解码器，通道维度 256。目标 query 的数量设为 300。损失系数 $\lambda_{cls}=2.0,\lambda_{cls}=2.0,\lambda_{L1}=5.0,\lambda_{mask}=2.0,\lambda_{dice}=5.0$ 。

整体训练过程包含三个序列阶段，其中来源于前一阶段的预训练权重将用于下一阶段的训练。(1) Objects365 预训练，应用 BoxInst 损失来监督 mask 的生成。这一阶段旨在训练目标检测器；（2）图像水平的训练，首先结合 RefCOCO/+/g 的训练集来训练整体网络，然后在 RIS 和 FSS 任务上进行训练；（3）视频级别的训练，随机从视频中采样两帧，第一帧作为指代帧。为避免 RIS 的知识泄露，从 RefCOCO/+/g 中生成伪标签。网络共同训练在所有数据集上，包含 RefCOCO/+/g、Ref-YoutubeVOS、Ref-DAVIS17、COCO、Youtube-VOS19、OVIS、LVOS。

使用 Pytorch toolkit 来进行所有实验，NVIDIA A100 GPUs。使用 $4\times8$ 块 A100 用于 Object365 的预训练， $2\times8$ 块 GPUs 训练接下来的图像和视频。AdamW 优化器。每块 GPU batch 2。（有钱的大佬啊，一般的实验室就甭想了~~）

5.2 定量分析

ResNet-50 和 Swin Transformer-Large 作为视觉 Backbone 用于实验，表示为 UniRef+±R50 和 UniRef+±L。

指代图像分割 RIS

Few-shot Segmentation

Referring Video Object Segmentation

Video Object Segmentation

5.3 消融研究

Task-specific Training
Parameter-sharing for UniFusion Module
Query Number
Does Mask Reference Help RVOS?

5.4 定性结果

六、将 UniFusion 插入到 SAM

七、结论

本文提出 UniRef++，一个统一的模型用于四个基于指代的目标分割任务（RIS, FSS,
RVOS and VOS），通过引入 UniFusion 模块整合不同类型的指代信息，模型能够弹性地执行多任务。实验表明 UniRef 效果很好，也能做到即插即入，可用于后续微调（例如 SAM）。

写在后面

这篇文章工作量是真的大，附录还有 4 页，这里就不多介绍了。咋说，这篇文章绝对会中的，立意也是够新颖，实验充分，写作水平也是极为简洁，不拖沓。是篇好文章，值得好评！

机器学习——分类、回归、聚类、LASSO回归、Ridge回归（自用）代码的建筑师模型学习模型训练机器学习机器学习分类回归正则化项 LASSO Ridge 朴素
纠正自己的误区：机器学习是一个大范围，并不是一个小的方向，比如：线性回归预测、卷积神经网络和强化学都是机器学习算法在不同场景的应用。机器学习最为关键的是要有数据，也就是数据集名词解释：数据集中的一行叫一条样本或者实例，列名称为特征或者属性。样本的数量称为数据量，特征的数量称为特征维度机器学习常用库：Numpy和sklearn朴素的意思是特征的各条件都是相互独立的机器学习（模型、策略、算法）损失函数
《AI医疗系统开发实战录》第6期——智能导诊系统实战骆驼_代码狂魔程序员的法宝人工智能 django python neo4j 知识图谱
关注我，后期文章全部免费开放，一起推进AI医疗的发展核心主题：如何构建95%准确率的智能导诊系统？技术突破：结合BERT+知识图谱的混合模型设计一、智能导诊架构设计python基于BERT的意图识别模型（PyTorch）fromtransformersimportBertTokenizer,BertForSequenceClassificationimporttorchclassTriageMod
量化交易系统中如何处理机器学习模型的训练和部署？ openwin_top 量化交易系统开发机器学习人工智能量化交易
microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位量化交易系统中，机器学习模型的训练和部署需要遵循一套严密的流程，以确保模型的可靠性、性能和安全性。以下是详细描述以及相关的示例：1.数据收集和预处理数据收集在量化交易中，数据是最重要的资产。收集的数
异步编程中的并发编程优化 AI天才研究院架构师必知必会系列自然语言处理人工智能语言模型编程实践开发语言架构设计
文章目录1.简介2.基本概念术语说明什么是异步编程？为什么要异步编程？浅谈异步编程模型基于事件驱动的模型基于消息队列的模型基于协程的模型为什么要进行并发优化？3.基本算法原理和具体操作步骤1.串行执行2.并行执行3.任务分片4.超时重试5.异步回调6.消息队列7.缓存8.异步框架9.模型选择4.具体代码实例和解释说明模块划分1.串行执行2.并行执行3.任务分片4.超时重试5.异步回调6.消息队列7
深入了解 ArangoDB 的图数据库应用与 Python 实践 eahba 数据库 python 开发语言
在当前数据驱动的时代，对连接数据的高效处理和分析需求日益增长。ArangoDB作为一个可扩展的图数据库系统，能够加速从连接数据中获取价值。本文将介绍如何使用Python连接和操作ArangoDB，并展示如何结合图问答链来获取数据洞察。技术背景介绍ArangoDB是一个多模型数据库，支持文档、图和键值类型的数据存储。其强大的图形存储和查询能力使其成为处理复杂数据关系的理想选择。通过JSON支持和单一
不懂英语可以学编程吗?,不懂英文可以学编程吗 P5688346 人工智能
大家好，给大家分享一下英语不好能学python编程吗，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！Sourcecodedownload:本文相关源码提到人工智能，就不得不提Python编程语言，大多数人觉得编程语言肯定会涉及到很多代码，满屏的英文字母，想想就头疼，觉得自己不会英语，肯定学不好Python，但是不会英语到底能不能够学习Python呢，下面小编给大家分析分析。其实各位想要
众多主播都在用的超有趣桌面小宠物！开开心心_Every 宠物 virtualenv eclipse python django pygame java
BongocatMver是一款主播直播必备萌系插件，是一款开源软件。软件由国外一个高中生kuroni开发出来，让手鼓猫中的手臂可以跟随鼠标，按键的操作而发生动作。萌系的猫咪造型以及键盘映射的交互动画，十分适合游戏主播、绘画主播、音游主播在直播时使用的虚拟造型插件，可以给你的直播间或视频带来无限的元气。软件采用Live2d模型来实现自定义形状，用户可以根据自己的设定来更换不同形状的猫。精准的面部捕捉
sqlmap笔记君如尘网络安全-渗透笔记笔记
1.运行环境sqlmap是用Python编写的，因此首先需要确保你的系统上安装了Python。sqlmap支持Python2.6、2.7和Python3.4及以上版本。2.常用命令通用格式：bythonsqlmap.py-r注入点地址--参数-rpost请求-uget请求--level=测试等级--risk=测试风险-v显示详细信息级别-p针对某个注入点注入-threads更改线程数，加速--ba
鸿蒙特效教程06-可拖拽网格苏杰豪鸿蒙特效教程 HarmonyOS Next harmonyos 鸿蒙华为
鸿蒙特效教程06-可拖拽网格实现教程本教程适合HarmonyOSNext初学者，通过简单到复杂的步骤，一步步实现类似桌面APP中的可拖拽编辑效果。效果预览我们要实现的效果是一个Grid网格布局，用户可以通过长按并拖动来调整应用图标的位置顺序。拖拽完成后，底部会显示当前的排序结果。实现步骤步骤一：创建基本结构和数据模型首先，我们需要创建一个基本的页面结构和数据模型。我们将定义一个应用名称数组和一个对
LangChain组件Tools/Toolkits详解（5）——返回产出artifact 龙焰智能 langchain artifact ToolCall BaseTool 工具产物 ToolMessages
LangChain组件Tools/Toolkits详解（5）——返回产出artifact本篇摘要14.LangChain组件Tools/Toolkits详解14.5返回产出artifact14.5.1定义工具14.5.2使用ToolCall调用工具14.5.3与模型一起使用14.5.4从子例化BaseTool返回参考文献本章目录如下：《LangChain组件Tools/Toolkits详解（1）—
计算机网络课程内容详解-ChatGPT4o作答部分分式计算机网络
计算机网络课程是一门系统讲解网络体系结构、通信协议、网络技术和应用的专业课程，旨在帮助学生理解计算机网络的工作原理、设计思想和实际应用。以下是计算机网络课程内容的详细介绍，涵盖知识结构、主要内容及应用方向。一、课程目标掌握计算机网络的基本概念、结构及运行原理。理解计算机网络分层模型（如OSI七层模型和TCP/IP四层模型）。掌握常见的通信协议及其功能（如HTTP、FTP、DNS等）。学会网络设备（
JS基础-事件模型(事件&事件流&自定义事件&事件冒泡/代理) LYFlied html&浏览器 javascript 事件模型事件流前端面试
文章目录一、事件与事件流二、事件模型1.DOM0级模型2.IE事件模型3.DOM2级模型4.DOM3级事件处理方式三、事件对象四、事件绑定与解除1.事件绑定1.1对象.on事件名字=事件处理函数1.2.对象.addEventListener("没有on的事件名字",事件处理函数,false)3.对象.attachEvent("有on的事件名字",事件处理函数);2.解除绑定五、EventWrapp
笔记：代码随想录算法训练营day60：并查集理论基础、寻找存在的路径 jingjingjing1111 笔记
本文为学习并查集理论基础|代码随想录、代码随想录过程中的思考find是找的顶头上司，而不是当前上司，最后怎么也得找到一个顶头上司的上司是自己，要不然这个结构也不成立使用issame替换会使被操作者为当前节点，而非根节点。join(u,v)的功能为将v的根节点挂到u的根节点下模拟过程可以看出，join中的find中的路径压缩要在长度大于2（路径大于1）的时候才会体现出来107.寻找存在的路径卡码网题
vLLM - 查看模型是否支持云客Coder 人工智能
支持的模型：https://docs.vllm.ai/en/latest/models/supported_models.html要确定是否支持给定模型，您可以检查HF存储库中的config.json文件。如果"architectures"字段包含下面列出的模型架构，那么理论上应该支持它。查看模型架构查看模型的config.json中的architecturescat~/.cache/huggin
计算机基础：编码04，认识反码和补码水饺编程 MFC学习笔记 Win32学习笔记 windows c++mfc c语言
专栏导航本节文章分别属于《Win32学习笔记》和《MFC学习笔记》两个专栏，故划分为两个专栏导航。读者可以自行选择前往哪个专栏。（一）WIn32专栏导航上一篇：计算机基础：编码03，根据十进制数，求其原码回到目录下一篇：无（二）MFC专栏导航上一篇：计算机基础：编码03，根据十进制数，求其原码回到目录下一篇：无本节前言在前两节，我讲解了关于原码的知识。本节，我来讲解反码和补码。在学习本节之前，你需
Android Jetpack 应用架构指南小李子学编程 Android 开发文档指南 android android jetpack 学习
AndroidJetpack应用架构指南本指南涵盖Android应用开发的最佳实践和推荐架构，助力开发者构建健壮高效的应用程序。。前置要求本文假设您已具备Android框架基础知识。若需系统学习Android开发，建议先完成《Android基础知识》目录新架构设计背景移动应用交互特性核心架构原则分离关注点数据模型驱动界面单一数据源单向数据流分层架构设计界面层数据层领域层依赖管理方案工程实践指南参考
Python爬虫笔记一（来自MOOC） Requests库入门小灰不停前进 #Python python pycharm 爬虫
Python爬虫笔记一通用代码框架：importrequestsdefgetHTMLText(url):try:r=requests.get(url,timeput=30)r.raise_for_status()#如果状态不是200，引发HTTPError异常r.encoding=r.apparemt_encodingreturnr.textexcept:return"产生异常"if__name_
回答我！！！如何用“快递分拣”讲明白OSI五层模型？茫忙然计算机网络网络
刚开始学习计算机网络时，会比较难理解计算机网络的五层协议，毕竟确实挺抽象的，接下来我用寄快递的过程来类比计算机网络的五层协议（物理层、数据链路层、网络层、传输层、应用层），帮助大家理解每一层的功能和作用。1.物理层（PhysicalLayer）——交通工具和道路快递中的比喻：卡车、飞机、轮船等运输工具，以及高速公路、铁路、航线等物理路径。功能：负责将包裹（数据）从一个地点物理传输到另一个地点，不关
stability ai推出的 AI模型2D图像转3D视频微丽宝 AI工具人工智能 3d 音视频
StableVirtualCamera是StabilityAl推出的A|模型，能将2D图像转换为具有真实深度和透视感的3D视频。用户可以通过指定相机轨迹和多种动态路径(如螺旋、推拉变焦、平移等)来生成视频。模型支持从1到32张输入图像生成不同宽高比(如1:1、9:16、16:9)的视频，最长可达1000帧。无需复杂的重建或优化，可生成高质量的3D视频，同时保持3D一致性和时间平滑性。StableV
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
《当人工智能遇上广域网：跨越地理距离的通信变革》程序猿阿伟人工智能
在数字化时代，广域网作为连接全球信息的纽带，让数据能够在不同地区的网络之间流动。然而，地理距离给广域网数据传输带来诸多挑战，如高延迟、低带宽、信号衰减和不稳定等问题。幸运的是，飞速发展的人工智能技术为解决这些难题提供了新的方向，开启了广域网传输的新篇章。广域网传输面临的地理挑战广域网覆盖范围极为广泛，可连接不同城市、国家甚至跨越洲际，这使得数据传输要跨越漫长的地理距离。以跨国公司的广域网为例，其总
不神话大模型，不做技术乌托邦，用"传统IT+AI积木"实现企业智能转型人工智能
一、开篇：AI革命的务实辩证法在技术狂热与落地鸿沟并存的AI时代，灵燕智能体开发平台提出"三轮驱动法则"：•不颠覆的智慧：MySQL、知识图谱库、MQ等传统中间件构成数字地基•不空想的创新：大模型仅承担"认知苦力"，在人类设计的思考链中定向发力•不取巧的工程：通过D2R映射、低代码工具、元数据治理实现可落地的智能装配二、核心价值：智能开发的工业流水线技术要素原子化拆解将复杂需求分解为可执行的"技术
186.HarmonyOS NEXT系列教程之列表切换案例数据管理详解 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT系列教程之列表切换案例数据管理详解效果演示1.数据模型设计1.1ListInfo类@ObservedexportclassListInfo{//列表项数据结构icon:ResourceStr='';//图标资源name:Resource
【论文阅读】Persistent Homology Captures the Generalization of Neural Networks Without A Validation Set 开心星人论文阅读论文阅读
将神经网络表征为加权的无环图，直接根据模型的权重矩阵构造PD。计算相邻batch的权重矩阵PD之间的距离。比较同调收敛性与神经网络的验证精度变化趋势摘要机器学习从业者通常通过监控模型的某些指标来估计其泛化误差，并在训练数值收敛之前停止训练，以防止过拟合。通常，这种误差度量或任务相关的指标是通过一个验证集（holdoutset）来计算的。因为这些数据没有直接用于更新模型参数，通常假设模型在验证集上的
【论文阅读】实时全能分割模型万里守约论文阅读论文阅读图像分割图像处理计算机视觉
文章目录导言1、论文简介2、论文主要方法3、论文针对的问题4、论文创新点总结导言在最近的计算机视觉领域，针对实时多任务分割的需求日益增长，特别是在交互式分割、全景分割和视频实例分割等多种应用场景中。为了解决这些挑战，本文介绍了一种新方法——RMP-SAM（Real-TimeMulti-PurposeSegmentAnything），旨在实现实时的多功能分割。RMP-SAM结合了动态卷积与高效的模型
Windows10本地部署Dify+Xinference 橘长长长 AI相关 ai dify xinference glm4
目录前言一、安装必要项1.安装Docker和AnaConda2.安装Xinference3.通过Xinference部署本地glm4-chat-1m4.验证glm4-chat-1m是否部署完成5.安装Dify三、Dify中配置大模型1.浏览器输入http://localhost:80启动Dify页面2.随便注册账户登录3.配置Xinference四、运行Dify1.设置系统推理模型2.对话窗口验证
论文阅读：2023 arxiv Multiscale Positive-Unlabeled Detection of AI-Generated Texts CSPhD-winston-杨帆论文阅读论文阅读人工智能
总目录大模型安全相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328MultiscalePositive-UnlabeledDetectionofAI-GeneratedTextshttps://arxiv.org/abs/2305.18149https://www.doubao.com/chat/211427064915225
论文阅读笔记——MAGICDRIVE: STREET VIEW GENERATION WITH DIVERSE 3D GEOMETRY CONTROL 寻丶幽风论文阅读笔记论文阅读笔记 3d 人工智能自动驾驶
MagicDrive论文MagicDrive通过对3D数据和文本数据的多模态条件融合和隐式视角转换，实现了高质量、多视角一致的3D场景生成。几何条件编码Cross-attention：针对顺序数据，适合处理文本标记和边界框等可变长度输入。Additiveencoderbranch：对于地图等网络状规则数据，能够有效保留空间结构。对于文本按照模版构建：“Adrivingsceneat{locatio
【笔记】扩散模型（五）：Classifier-Free Guidance 理论推导与代码实现 LittleNyima Diffusion Models 笔记机器学习深度学习
论文链接：Classifier-FreeDiffusionGuidance上一篇文章我们学习了ClassifierGuidance，这种方法通过引入一个额外的分类器，使用梯度引导的方式成功地实现了条件生成。虽然ClassifierGuidance可以直接复用训练好的diffusionmodels，不过这种方法的问题是很明显的，首先需要额外训练一个分类器，而且这个分类器不仅仅分类一般的图像，还需要分
【论文阅读】Availability Attacks Create Shortcuts 开心星人论文阅读论文阅读
还得重复读这一篇论文，有些地方理解不够透彻可用性攻击通过在训练数据中添加难以察觉的扰动，使数据无法被机器学习算法利用，从而防止数据被未经授权地使用。例如，一家私人公司未经用户同意就收集了超过30亿张人脸图像，用于构建商业人脸识别模型。为解决这些担忧，许多数据投毒攻击被提出，以防止数据被未经授权的深度模型学习。它们通过在训练数据中添加难以察觉的扰动，使模型无法从数据中学习太多信息，从而导致模型在未见
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR

Ref 系列 UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces 论文阅读笔记

Ref 系列 UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces 论文阅读笔记

一、Abstract

二、引言

三、相关工作

3.1 统一的模型

3.2 特定任务的目标分割

指代图像分割

Few-shot 分割

指代视频目标分割

视频目标分割

四、方法

4.1 总览

4.2 指代编码

Few-shot Segmentation and Video Object Segmentation

Referring Image Segmentation

Referring Video Object Segmentation

4.3 多尺度 UniFusion 模块

4.4 统一的架构

Transformer

Mask 解码器

4.5 训练和推理

训练

推理

五、实验

5.1 实验设置

数据集

实施细节

5.2 定量分析

指代图像分割 RIS

Few-shot Segmentation

Referring Video Object Segmentation

Video Object Segmentation

5.3 消融研究

5.4 定性结果

六、将 UniFusion 插入到 SAM

七、结论

你可能感兴趣的:(新东西,RIS_REC,论文阅读,笔记,人工智能,Transformer,大一统模型)