乄洛尘

REC系列：Rethinking and Improving Feature Pyramids for One-Stage Referring Expression Comprehension论文笔记

一、Abstract
二、引言
三、相关工作
- A、参考表达式理解
- B、特征金字塔
四、初步的模型
- A、编码器模块
- - 1、语言编码器
  - 2、图像编码器
- B、融合模块
- - 1、融合策略1️⃣
  - 2、融合策略2️⃣
  - 2、融合策略3️⃣
- C、Neck
- D、检测头
- E、初步分析及结论
- - 1、单尺度 vs. 多尺度
  - 2、平均 vs. FPN
  - 3、FPN 可视化分析
五、提出的方法
- A、整体结构
- B、语言门
- C、统一门
六、实验
- A、实验设置
- - 1、数据集
  - 2、实施细节
- B、与不同 Backbones 的 SOTA 模型比较。
- C、消融实验
- - 1、融合策略
  - 2、检测头
  - 3、不同的细节
  - 4、激活函数
  - 5、不同的深度
七、定性结果
- A、定性样本
- B、可视化
八、结论

写在前面

2023 flag：每周一篇博文，本周加更一篇博文，目前还差4篇未补，冲冲冲~

这篇论文与三大顶会对比，新颖性不算特别高，重在启发模型的设计细节与研究思路
论文地址：Rethinking and Improving Feature Pyramids for One-Stage Referring Expression Comprehension
代码地址：论文原文未提供
收录于：IEEE TIP 2022

一、Abstract

首先点出参考表达式理解 Referring Expression Comprehension (REC) 的重要性，目前单阶段的方法通常将这一任务视为基于语言条件的目标检测任务，并设计多种融合策略、阶段以及检测头。然而这些方法大多忽略了多尺度特征的整合甚至仅采用单尺度的特征来定位目标。本文重新思考并优化了单阶段框架中的特征金字塔模型。实验表明：尽管多尺度融合有效，目标检测中的 neck（FPN、BFN、HRFPN）对性能有一定的限制，可视化 FPN 的输出之后发现主要是粗糙-细粒度的 FPN 融合策略存在语言混乱问题。于是本文提出一组语言引导的 FPN 方法：Language-Guided FPN (LG-FPN)，通过堆叠语言门 language-gate 和联合门 union-gate 能够动态地分类并选择细粒度的信息。实验表明 LG-FPN 有效且能够应用于不同的视觉 backbone 网络、融合策略及检测头。

二、引言

REC 的定义、意义、难点。早期的两阶段方法将其视为区域检索问题，缺点：对于第一阶段中生成的 proposal 质量敏感；proposal-and-rank 框架计算成本大。最近的单阶段方法直接定位目标，创新之处一般在于设计融合策略、阶段以及检测头。如下图所示：

本文关注单阶段的方法，其被视为一种基于语言的目标检测任务，相应的模型划分为三个部分：backbone，neck，detection head。其中 Neck 一般都是各种各样的 FPN，然而大量的工作通常采用平均策略来融合多尺度特征或仅采用单尺度的特征来定位目标。有文献表明 FPN 或者多头机制会损害性能。于是问题来了：对于 REC 而言，多尺度的特征整合是否有益？目标检测领域的离线 neck 能否更合适？
本文首先尝试回答第一个问题，实验发现多尺度融合比单尺度特征好，但效果有限。于是引用 Grad-CAM 来可视化 FPN 的输出，结果表明简单地使用粗糙-细粒度的 FPN 方法会导致语义混乱。
为充分利用特征金字塔以及减轻语义混乱问题，本文重新思考了 REC 多尺度特征中的语言，因为其包含低层和高层语义，这能选择有效的信息并避免混淆相似的目标。于是提出语言引导的 FPN：LG-FPN，能够动态地基于多模态输入选择网格层次的特征。具体来说，首先使用语言注意力操作和非线性门控函数来计算 VL 特征的关联性并给每一个网格赋值。之后，通过一个数据独立的联合门，提炼整合到的多尺度特征。在深度通道上堆叠这些门控单元，可以自适应地聚合多尺度语义特征。实验表明 LG-FPN 有效且可靠。贡献如下：

对多尺度特征进行系统化分析，得出一系列结论；
提出一种语言引导的 FPN 框架，在语言的引导下通过执行跨尺度的信息融合来提升定位性能；
大量实验表明 LG-FPN 效果很好。

三、相关工作

A、参考表达式理解

两阶段方法和单阶段方法介绍。本文主要关注跨模态任务中多尺度特征的融合以及 neck 的作用。

B、特征金字塔

一般的 FPN 构建思路，典型例子：BFP、NAS-FPN。本文引入一种跨模态 FPN 结构，通过语言的引导自适应地整合高低水平的多模态特征。

四、初步的模型

这一部分主要用实验回答上面提出的两个问题：对于 REC 而言，多尺度的特征整合是否有益？目标检测领域的离线 neck 是否合适？
于是构建一个单阶段模型，组成：编码器模块、融合模块、Neck、检测头。

A、编码器模块

图像 $I\in R^{W\times H\times3}$ ，参考句子 $S\in\{s_t\}^T_{t=1}$ ，其中 $s_t$ 为第 $t$ 个单词， ${W\times H\times3}$ 为图像尺寸，baseline 模型旨在找到图像 $I$ 中的一个区域 $I_S$ ，从而对应 $S$ 中的语义信息。

1、语言编码器

采用未级联的 BERT 作为语言编码器：首先将句子映射到相应的词 embedding 向量，之后和位置索引一起送入语言编码器，然后通过单层全连接层将每个句子维度变为 $d = 256$ ，得到词水平特征 $E\in\{e_t\}^T_{t=1}$ ，其中 $e_t\in R^d$ ， $T = 20$ 。

2、图像编码器

采用 ResNet-101 作为 Backbone 提取视觉特征，输入图像尺寸 $3\times640\times640$ ，输出 Stage-3,4,5 的特征，分别为 $\hat V_3 [H_3*W_3*512]$ 、 $\hat V_2 [H_2*W_2*1024]$ 、 $\hat V_1 [H_1*W_1*2048]$ 。之后采用单层全连接层将其映射到维度 $d = 256$ ，从而得到视觉特征 $V=\{V_i\}^3_{i=1}$

B、融合模块

三种融合策略：FiLM、Transformer，前两者的联合。

1、融合策略1️⃣

FiLM 是一种通用的跨模态融合方法，采用逐特征的仿射变换来自适应地影响网络的输出，在 REC 中应用广泛。首先，FiLM 通过平均策略获取 $E\in\{e_t\}^T_{t=1}$ 的整体表达式特征 $E_F=\frac{1}{T}\sum_{t=1}^T e_t$ ，之后采用下列操作：
$\begin{array}{l}\gamma_i=T a n h(W_i^\gamma E_F+b_i^\gamma)\\ \beta_i=T an h(W_i^\beta E_F+b_j^\beta)\\ F_f^i=Re LU(Conv(ReLU(\gamma_i\odot V_i\oplus\beta_i)))\end{array}$ 其中 $W_i^\gamma$ 、 $W_i^\beta$ 、 $b_i^\gamma$ 、 $b_j^\beta$ 为两个单层 MLP 的权重和偏执， $T anh$ 为激活函数， $\odot$ 、 $\oplus$ 表示逐元素的乘法和加法。最后，采用一个标准的 $3\times3$ 卷积和 $R e LU$ 操作产生多尺度的融合特征 $F_f=\{F_f^i\}^3_{i=1}$ ， $F_f^i\in R^{d\times H_i\times W_i}$

2、融合策略2️⃣

仅采用 Vision-Guide-Language (VGL) 视觉引导语言模块来融合跨模态特征。具体来说，首先展平 $V_i$ 为 $Z_i=\{Z_s\}^{N_i\times d}_{s=1}$ ， $N_i=H_i\times W_i$ 为视觉 tokens 的数量。之后通过注意力机制计算 $E$ 和 $Z_i$ ：
$A_i=\operatorname{softmax}(\dfrac{QK^\text{T}}{d'})V\\ Q=W_i^QZ_i,K=W_i^KE,V=W_i^VE$ 其中 $W_i^Q$ 、 $W_i^K$ 、 $W_i^V$ 为 embedding 矩阵， $d'=\sqrt{d/m}$ ， $m$ 为注意力头的数量。最终， $A_i$ 送入两个带有残差连接的 FFN。简单起见，每层视觉特征用一个 Transformer block 来进行融合，输出为 $F_t=\{F_t^i\}^3_{i=1}$ ， $F_t^i\in R^{d\times H_i\times W_i}$ 。

2、融合策略3️⃣

策略1️⃣和策略2️⃣的联合。具体来说，首先在维度通道上拼接 $F_f$ 和 $F_t$ 得到 $\hat{F_{ft}}$ ，之后采用三个 $1\times1$ 卷积层将 $\hat{F_{ft}}$ 的维度映射到 $d$ ，最后得到联合的特征 $F_{ft}=\{F_{ft}^i\}^3_{i=1}$ ， $F_{ft}^i\in R^{d\times H_i\times W_i}$ 。

C、Neck

现有的目标检测方法表明多尺度的特征融合有益于增强检测性能，但是在 REC 中性能有限。在 baseline 中，采用最简单的平均策略来建立跨尺度的交互。具体来说，给定多尺度的特征 $F^i$ ，即 $F_f^i$ 、 $F_t^i$ 、 $F^i_{ft}$ ，平均特征 $F_{AVG}$ 计算如下：
$F_{AVG}=\dfrac{1}{3}(upsampling(F^1)+F^2+downsampling(F^3))$ 其中 $u p s am pl in g$ 、 $d o w n s am pl in g$ 为双线性插值以及最大池化操作，将 $F^1$ 、 $F^3$ 的分辨率调整为 $F^2$ ， $F_{AVG}\in R^{d\times H_2\times W_2}$ 。

D、检测头

首先采用 $1\times1$ 卷积在 $F_{AVG}$ 上将特征图尺度变换为 $w\times h\times5$ ，其中 $5$ 表示 5 个预测值 $\{t_x,t_y,t_w,t_h,\hat t\}$ ， $t_x,t_y$ 表示中心点的坐标， $t_w,t_h$ 为归一化的宽度和高度， $\hat t$ 为置信度，表示目标的一个中心点是否在该位置的概率。最后采用 cross-entropy 损失 $L_{cls}$ 对中心点 $\hat t$ ， Mean Square Error (MSE) 损失 $L_{off}$ 对中心点的补偿 & 宽度和高度。同时采用 $G I o U$ 作为辅助损失，整体损失函数如下：
$Loss=L_{cls}+\lambda_{off}L_{off}+L_{giu}$ 其中 $\lambda_{off}=5$ 。在推理时，选择最高得分的中心点来产生 bounding box。Intersection-over-Union (IoU) 作为评估指标，[email protected] 来衡量预测精度。

E、初步分析及结论

数据集：ReferItGame、ReferCOCO、RefCOCO+、RefCOCOg。

1、单尺度 vs. 多尺度

对比上表，结论：多尺度特征图融合有益于 REC 的性能。

2、平均 vs. FPN

融合策略采用 FiLM+Transformer。
结论：之前的一些 FPN 结构不适合现在的 REC。

3、FPN 可视化分析

结论：目标检测需要获得高的召回率，而 REC 只需要定位到表达式对应的目标，FPN 结构会导致语义混乱。

五、提出的方法

由于语言中的语义能够隐含地揭示目标的颜色、形状、关系，于是设计模型无关的语言引导的 FPN 结构 language-guided FPN (LG-FPN)。主要是通过语言门和统一门动态地分配和选择细粒度的信息。编码器模块和融合模块与 baseline 相同，选取融合策略3️⃣得到多尺度特征 $F=\{F^i\}^3_{i=1}$ 。

A、整体结构

建立深度为 $K$ 的路径空间（级联结构），相邻阶段的尺度缩放因子为 $2$ 。输入由两部分组成：多尺度特征图和基于注意力机制的语言向量。之后在每个尺度上通过语言门选择难样本的网格信息。同时建立一个数据无关的统一门单元，进一步根据聚合的信息提炼网格。

B、语言门

图 3{c}：每一个路径节点 $l$ 接收两类型的输入：多尺度特征图和语言向量。具体来说，对于语言编码器输出的语言 tokens $E\in\{e_t\}^T_{t=1}$ ， $e_t\in R^d$ ，计算如下：
$\begin{aligned}a^k=softmax(EW_k)\\ e_a^k=\sum_{i=1}^T a_i^ke_i\end{aligned}$ 其中 $W_k\in R^{d\times 1}$ 为可学习的权重， $k$ 表示深度，语言门 $e_a^k$ 在每个尺度和网格中共享。对于输入的多尺度图像特征 $F^{i,k}=\{x_s^{i,k}\}^{N}_{s=1}$ ，其中 $i$ 为第 $i$ 个尺度， $k$ 为第 $k$ 层， $N=(H_i\times W_i)$ 。之后通过 $e_a^k$ 动态选择网格特征 $F^{i,k}$ ：
$G^{i,k}=\sigma(e_a^k*F^{i,k})\\ Y^{i,k}=G^{i,k}\cdot conv_1(F^{i,k})$ 其中 $*$ 、 $\cdot$ 表示卷积和 Hadamard 乘积。 $conv_1(\cdot)$ 表示一个 $3\times 3$ 卷积， $\sigma(\cdot)$ 为激活函数。采用 $tahn(\cdot)))$ 作为门控转换器。输入为负，输出为 $0$ 。

C、统一门

对于语言门的输出 $Y^{i,k}$ ，通过上、下采样统一到同一分辨率下。用 $Y_A^k$ 表示语言门在节点 $l$ 上聚合的特征。接下来通过数据独立门来精炼 $Y_A^k$ ：
$G_l^k=\sigma(conv_2(Y_A^k))\\ Y_l^k=G_s^{i,k}\cdot Y_A^k$ 其中 $conv_2(\cdot)$ 为 $1\times 1$ 卷积，将输出维度映射到单通道上。最后，在深度上堆叠来产生相应的 Bounding box。

六、实验

A、实验设置

1、数据集

ReferItGame、ReferCOCO、RefCOCO+、RefCOCOg。

2、实施细节

图像尺寸 $640\times640$ ，采用像素平均值填充，于是得到三个尺度的特征图 $20 * 20 * 2048$ ， $40 * 40 * 1024$ ， $80 * 80 * 512$ ，语言编码器为基础的 BERT，embedding 维度 $768$ ，总体维度 $256$ ，Adam 优化器，batch 8，head：8。单块 3090，20 epoch，初始学习率 $1 e - 4$ ，每 10 个 epochs 衰减一半，视觉、语言编码器的学习率为整体学习率的 $1/10$ 。

B、与不同 Backbones 的 SOTA 模型比较。

C、消融实验

在 ReferItGame 和 RefCOCOg 上进行。

1、融合策略

表 Ⅳ 1-4。

2、检测头

表 Ⅳ 5-9。
收敛曲线：

3、不同的细节

表 Ⅳ 10-12。

4、激活函数

表 Ⅳ 13-14。

5、不同的深度

七、定性结果

A、定性样本

B、可视化

八、结论

本文关注 REC 中的多尺度融合问题，现有的方法对 REC 任务的性能增强有限，于是提出一种模型无关的、语言引导的多尺度融合策略 LG-FPN，自适应地从低层和高层特征中选择关键的网格，并通过动态路径建立起跨尺度信息间的联系。实验效果很好。

写在后面

这篇文章创新点在于重新审视了 REC 中的多尺度融合机制，一针见血，实验充分，文笔也通俗，是篇好文章，缺点就是创新点还是没能够得上三大顶会的高度。

智慧交通是什么，可以帮助我们解决什么问题? Guheyunyi 运维大数据人工智能信息可视化前端
智慧交通是什么？智慧交通（SmartTransportation）是指利用物联网（IoT）、大数据、人工智能（AI）、云计算、5G通信等先进技术，对交通系统进行智能化管理和优化，以提高交通效率、减少拥堵、降低事故率、提升出行体验，并实现交通资源的合理配置和可持续发展。智慧交通的核心是通过数据采集、分析和应用，实现交通系统的智能化、自动化和协同化，从而构建一个高效、安全、绿色、便捷的交通生态系统。智
在线视频创作平台（Vidnami） deepdata_cn 视频生成视频剪辑视频创作
Vidnami是一款功能强大的在线视频创作平台，前身为ContentSamurai，于2015年推出，2020年更名为Vidnami。它运用人工智能技术，能够分析输入的文本，自动从大量素材中选取合适的图像和视频片段，将文字快速转化为具有专业外观的视频，无需用户具备视频编辑经验。该平台提供多种视频模板、全主题定制功能以及内置的免版权媒体库，包括3000万张图片和3万首音乐，还支持自动配音，用户可以录
OpenCV第1课OpenCV 介绍及其树莓派下环境的搭建嵌入式老牛树莓派之OpenCV opencv 人工智能计算机视觉
1.机器是如何“看”的我们人类可以通过眼睛看到五颜六色的世界，是因为人眼的视觉细胞中存在分别对红、绿、蓝敏感的3种细胞。其中的光感色素根据光线的不同进行不同比例的分解，从而让我们识别到各种颜色。对人工智能而言，学会“看”也是非常关键的一步。那么机器人是如何看到这个世界的呢？这就涉及到人工智能方向重要的分支--机器视觉。机器视觉即用机器人代替人眼来做测量和判断，通过机器视觉产品（即图像摄取装置，分C
Opencv计算机视觉编程攻略-第一节图像读取与基本处理 weixin_44242403 深度学习 opencv 计算机视觉
1.图像读取导入依赖项的h文件#include#include#include#include项目Valuecore.hpp基础数据结构和操作（图像存储、矩阵运算、文件I/O）highgui.hpp图像显示、窗口管理、用户交互（图像/视频显示、用户输入处理、结果保存）imgproc.hpp图像处理算法（图像滤波、几何变换、边缘检测、形态学操作）二读取图片Matimage;//图像矩阵std::co
Linux安装Anaconda和Jupyter 硬水果糖人工智能 Linux linux jupyter 运维
一、了解Anaconda和Jupyter引言：Anaconda是一个流行的开源数据科学平台，广泛用于数据分析、机器学习、人工智能等领域。它是一个集成了大量科学计算和数据科学工具的Python和R编程语言环境。Anaconda的主要目标是简化数据科学和机器学习的开发流程，提供一个易于安装和管理的环境。而预装了大量常用的Python和R库，这些库涵盖了数据科学的各个方面，包括：数据分析：Pandas、
DeepSeek 大模型落地成都高新区：科技赋能警务的创新变革 AGI大模型学习科技人工智能 DeepSeek 大模型 chatgpt 大模型应用 AI大模型
在科技飞速发展的当下，人工智能正以前所未有的速度融入各个领域，深刻改变着人们的生活与工作方式。公安领域也不例外，积极拥抱科技创新，成为提升警务效能、维护社会稳定的关键路径。全国第一例警用DeepSeek大模型落地成都高新区，这一突破性举措在警务智能化发展进程中具有里程碑意义，为公安工作带来了全方位的革新。一、警用DeepSeek大模型落地的时代背景近年来，国产AI蓬勃发展，不断涌现出令人瞩目的成果
大数据和人工智能概念全面解析就犯得上方法
一、大数据和人工智能大数据是伴随着信息数据爆炸式增长和网络计算技术迅速发展而兴起的一个新型概念。根据麦肯锡全球研究所的定义，大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据能够帮助各行各业的企业从原本毫无价值的海量数据中挖掘出用户的需求，使数据能够从量变到质变，真正产生价值
DeepSeek爆火，背后模型竟藏着这些秘密！ qq_23519469 ai
DeepSeek是什么来头最近，AI圈可是被一个名字刷爆了屏，那就是DeepSeek！它就像一颗横空出世的超级新星，在全球范围掀起了一阵狂热的追捧潮，这热度，简直了！大家都在疯狂讨论它，各种测评、对比层出不穷。它到底有啥过人之处，能让这么多人都为之疯狂？今天咱就来好好唠唠。DeepSeek，全称杭州深度求索人工智能基础技术研究有限公司，是一家专注于开发先进大语言模型（LLM）和相关技术的企业。它成
AI人工智能代理工作流AI Agent WorkFlow：设计智能任务处理流程 AI天才研究院计算 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能代理工作流AIAgentWorkFlow：设计智能任务处理流程作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在当今的数字化时代，随着数据量的爆炸式增长和复杂性的提升，传统的手动任务处理方式已经无法满足高效、准确的需求。人工智能技术的发展为自动化任务处理提供了新的可能性。AI人工智能代理（AIAgent）作为一
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
Halcon 和 opencv比有什么区别与优劣 yuanpan opencv 人工智能计算机视觉
Halcon和OpenCV都是机器视觉领域的重要工具，但它们的设计目标、功能特点和适用场景有所不同。以下是两者的详细对比：1.定位与目标用户Halcon：定位：商业机器视觉软件，专注于工业应用。目标用户：工业自动化、质量控制、机器人引导等领域的专业开发者。OpenCV：定位：开源计算机视觉库，适用于通用图像处理和计算机视觉任务。目标用户：学术研究、教育、初创公司以及需要低成本解决方案的开发者。2.
EmbodiedSAM：在线实时3D实例分割,利用视觉基础模型实现高效场景理解数据猎手小k 3D 实例分割在线实时感知视觉基础模型（VFM）应用
2025-02-12，由清华大学和南洋理工大学的研究团队开发一种名为EmbodiedSAM（ESAM）的在线3D实例分割框架。该框架利用2D视觉基础模型辅助实时3D场景理解，解决了高质量3D数据稀缺的难题，为机器人导航、操作等任务提供了高效、准确的视觉感知能力。一、研究背景随着机器人技术和人工智能的发展，机器人在复杂环境中执行任务（如导航、操作和交互）的能力越来越依赖于对三维（3D）场景的实时、准
国产信创AI IDE：开启智能编程新时代 InsCode AI IDE
国产信创AIIDE：开启智能编程新时代随着信息技术的迅猛发展，软件开发工具也在不断演进。近年来，人工智能（AI）技术的应用为编程工具带来了革命性的变化。其中，国产信创AIIDE——InsCodeAIIDE，作为一款由CSDN、GitCode和华为云CodeArtsIDE联合开发的新一代集成开发环境（IDE），以其智能化、高效化的特点，正在引领智能编程的新时代。最新接入DeepSeek-V3模型，点
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
人工智能（AI）系统化学习路线 xiaoyu❅ python 人工智能学习
一、为什么需要系统化学习AI？人工智能技术正在重塑各行各业，但许多初学者容易陷入误区：❌盲目跟风：直接学习TensorFlow/PyTorch，忽视数学与算法基础。❌纸上谈兵：只看理论不写代码，无法解决实际问题。❌方向模糊：对CV/NLP/RL等细分领域缺乏认知，难以针对性提升。正确的学习姿势：“金字塔式”分层学习（理论→算法→框架→应用→工程化），逐步构建完整的AI知识体系。二、人工智能学习路线
使用TensorFlow、OpenCV和Pygame实现图像处理与游戏开发 UwoiGit tensorflow opencv pygame
在本篇文章中，我们将介绍如何结合使用TensorFlow、OpenCV和Pygame来进行图像处理和游戏开发。这三个工具在机器学习、计算机视觉和游戏开发领域都非常流行，并且它们的结合可以提供强大的功能和无限的创造力。我们将逐步介绍如何安装和配置这些工具，并提供相关的源代码示例。安装TensorFlowTensorFlow是一个基于数据流图的开源机器学习框架，提供了丰富的工具和库来构建和训练各种深度
MMScan数据集：首个最大的多模态3D场景数据集，包含层次化的语言标注数据集
2024-10-24，由上海人工智能实验室联合多所高校创建了MMScan，这是迄今为止最大的多模态3D场景数据集，包含了层次化的语言标注。数据集的建立，不仅推动了3D场景理解的研究进展，还为训练和评估多模态3D感知模型提供了宝贵的资源。一、研究背景：随着大型语言模型（LLMs）的兴起和与其他数据模态的融合，多模态3D感知因其与物理世界的连接而受到越来越多的关注，并取得了快速进展。然而，现有的数据集
【AI大模型】RAG如何让生成AI更智能？最新方法与优劣深度解析健忘的派大星人工智能语言模型 ai AI大模型 agi RAG 程序员
前言近年来，人工智能技术突飞猛进，尤其是生成式AI，简直像是开了挂一样，各种惊艳的表现让人直呼“未来已来”。根据IDC的研究，生成式AI的市场规模在2022年已经达到了107亿美元，而到2026年，这个数字预计会飙升至326亿美元！不过，尽管生成式AI很强大，但它也并非完美无缺——比如生成内容的质量、准确性和可靠性，依然有提升的空间。这时候，检索增强生成（RAG）技术登场了！RAG的核心思路很简单
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算【超级详细版】 AI筑梦师计算机视觉算法深度学习人工智能机器学习计算机视觉 python
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算1.引言1.1研究背景在计算机视觉、模式识别、医学影像分析和自动驾驶等领域，形状匹配是核心任务之一。然而，现实世界的形状往往存在可变性（Variability），主要体现在以下几个方面：形变（Deformation）：物体可能由于柔性材料、外力作用或生物运动发生非刚性形变。尺度变化（ScaleVariation）：目标形状在不同场景下可能大
A Survey of Large Language Models大模型综述论文章节总结 WhyteHighmore 论文语言模型人工智能自然语言处理论文笔记
ASurveyofLLM人大译ASurveyofLargeLanguageModels这篇论文全面回顾了大型语言模型(LLM)的最新进展，重点关注其发展背景、关键发现和主流技术。文章主要围绕LLM的四个主要方面展开：1引言自从1950年图灵测试被提出以来，人类一直在探索机器掌握语言智能的方法。语言本质上是一种受语法规则支配的复杂、精细的人类表达系统，这使得开发能够理解和掌握语言的强大人工智能(AI
AI：对比ChatGPT这类聊天机器人，人形机器人对人类有哪些不一样的影响？ InnoLink_1024 AGI 人工智能机器学习 chatgpt 人工智能机器人
人形机器人与像ChatGPT这样的聊天机器人相比，虽然都属于人工智能技术的应用，但由于其具备的物理形态和与环境的互动能力，它们对人类的影响会有很大的不同。下面从多个角度进行对比，阐述它们各自对人类的不同影响：1.物理交互与虚拟交互人形机器人：具有物理形态，能够在物理世界中与人类进行直接交互。例如，搬运物品、进行日常家务、提供身体上的帮助（如扶持老人、帮助走路等），以及进行非语言的沟通（如手势、面部
基于PyTorch和ResNet18的花卉识别实战（附完整代码）意.远 pytorch 人工智能 python 深度学习
一、项目背景与效果花卉分类是计算机视觉的经典任务。本文使用PyTorch框架，基于ResNet18模型实现了102种花卉的分类任务。完整代码可直接复制运行，最终验证集准确率达8.2%，文中同步分析性能瓶颈与优化方案。二、环境配置与数据准备1.环境要求#主要依赖库importtorchfromtorchimportnn,optimfromtorchvisionimporttransforms,dat
DeepSeek从入门到精通「清华团队」 YuKeeHgg DeepSeek 人工智能 ai
由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余梦珑博士后及其团队撰写文档的核心内容围绕DeepSeek的技术特点、应用场景、使用方法以及如何通过提示语设计提升AI使用效率等方面展开，帮助用户从入门到精通DeepSeek的使用。「文末附下载方式」第一部分：DeepSeek基础概念1.1DeepSeek简介定义：专注通用人工智能（AGI）的中国科技公司，主攻大模型研发与应用。核心产品：开源
人工智能的未来：从基础到前沿的探索与展望小二爱编程· 人工智能 ai AI编程 AI写作 AI作画
1.人工智能简介内容概述：人工智能（AI）是指模拟和执行人类智能任务的技术。随着计算能力和数据量的增加，AI在各个领域取得了显著进展，从自动化的基本任务到解决复杂的实际问题，人工智能正渗透到我们生活的各个方面。2.人工智能的种类与发展内容概述：AI的种类可以按智能的复杂度分为三大类：弱人工智能（NarrowAI）：目前大多数应用都属于弱AI，如语音助手、自动驾驶等。它们专注于特定任务，并且无法扩展
【论文精读】PatchTST-基于分块及通道独立机制的Transformer模型打酱油的葫芦娃时序预测算法时序预测 PatchTST Transformer 预训练微调表征学习
《ATIMESERIESISWORTH64WORDS:LONG-TERMFORECASTINGWITHTRANSFORMERS》的作者团队来自PrincetonUniversity和IBMResearch，发表在ICLR2023会议上。动机Transformer模型因其自注意力机制在处理序列数据方面的优势，在自然语言处理（NLP）、计算机视觉（CV）、语音等多个领域取得了巨大成功。这种机制使得模型
SciER：首个大规模科学文档中的实体和关系抽取数据集数据集
2024-10-28，为科学文档中的实体和关系抽取领域带来了突破，提供了一个包含106篇完整科学出版物、超过24,000个实体和12,000个关系的大规模数据集，这对于构建科学知识图谱和促进科学信息抽取技术的发展具有重要意义。数据集地址：SciER|科学信息提取数据集|人工智能数据集一、研究背景：在科学文档中，实体（如数据集、方法、任务）和它们之间的关系对于理解科学发现和推动研究进展至关重要。然而
元戎启行最新战略RoadAGI：所有移动智能体都将被AI驱动量子位
2025年3月18日（北京时间），元戎启行作为国内人工智能企业代表，出席由NVIDIA主办的GTC大会。会上，公司CEO周光发表了技术主题演讲，展示了公司的最新战略布局RoadAGI，并发布道路通用人工智能平台——AISpark（以下简称”Spark平台”）。RoadAGI是元戎启行实现物理世界通用人工智能的关键一步，旨在让包括智能驾驶汽车在内的移动智能体，都具有在道路上自主行驶、与物理世界深度交
【财经信息差】2024年12月27日最新财经资讯一览每日财经热点一网打尽代码简单说 AI观财经:财经信息差 AI观财经财经信息差今日财经资讯财经热点今日资讯
大家好，欢迎来到财经信息差！每天，我们将带你直击全球财经动态，精选最新的市场变化、政策动向与产业趋势，让你在最短的时间内，轻松掌握最关键的财经资讯。随着人工智能技术的迅猛发展，我们将用AI的视角为你解析财经热点、企业动向及全球经济变化，让复杂的信息变得简单易懂，帮助你做出更明智的投资决策。财经领域股票市场美股三大指数集体低开，大型科技股多数下跌，纳斯达克金龙指数跌1.07%。小鹏汽车跌3.32%，
探索AI知识库的无限潜力：定义、应用与未来展望知识库知识库管理知识库软件
一、AI知识库的定义AI知识库，作为人工智能技术与传统知识库概念的融合，是指利用人工智能算法和技术构建、管理和维护的信息存储系统。它不仅包含了大量的结构化、半结构化和非结构化数据，还具备智能检索、推理分析、自我学习和优化等高级功能。AI知识库通过模拟人类的认知过程，实现了对知识的有效组织和高效利用，为各种应用场景提供了强大的支持。二、AI知识库的应用1.客户服务与支持在电子商务领域，AI知识库的应
低代码平台未来发展趋势有哪些？低代码
低代码平台的未来发展趋势呈现出多维度的创新与深化，以下结合JNPF快速开发平台的特性，为您分析其未来的发展方向：1.智能化与AI深度融合低代码平台将与人工智能技术深度融合，实现开发流程的智能化升级。例如，JNPF平台有望通过自然语言处理技术，让开发者仅需用自然语言描述需求，平台即可自动生成初步的应用架构和代码逻辑。此外，AI技术还将用于智能推荐、代码自动生成、流程自动化等功能，进一步提升开发效率。
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出

REC系列：Rethinking and Improving Feature Pyramids for One-Stage Referring Expression Comprehension论文笔记