乄洛尘

胶囊网络之 Found a Reason for me? Weakly-supervised Grounded Visual Question Answering using Capsules论文笔记

一、Abstract
二、引言
三、相关工作
- 3.1 VQA 和视觉定位
- 3.2 VQA 和 CLEVR 下的视觉推理
- 3.3 胶囊网络
四、方法
- 4.1 问题构成
- 4.2 输入的 Embedding
- - 4.2.1 问题 embedding
  - 4.2.2 图像 embedding
- 4.3 问题查询生成器
- 4.4 带有 soft masking 的胶囊
- - 4.4.1 视觉胶囊
  - 4.4.2 Soft masking
- 4.5 输出模块
五、实施细节
- 5.1 MAC 网络的胶囊
- 5.2 SNMN 网络的胶囊
- 5.3 注意力图的产生
六、数据集
七、实验结果
- 评估指标
- 7.1 与 baseline 模型的比较
- 7.2 消融分析
- - 7.2.1 卷积层 vs. 胶囊层
  - 7.2.2 硬 masking vs. 软 masking
  - 7.2.3 共享 masking vs. 稀疏 masking
  - 7.2.4 胶囊数量对性能的影响
- 7.3 可视化结果
八、结论
补充材料
- A、补充的明细清单
- B、序列查询生成器的结构
- C、基于序列查询的胶囊 soft masking
- D、可解释性的注意力图可视化
- E、定性的结构分析
- F、进一步的结果和分析

写在前面

这是一篇其他文章里面的参考文献，感觉比较有新意。然后一搜，果然，CSDN 也有一篇博文，但可惜是翻译后的文章，未能满足我的要求，最重要的是没有核心算法框架图与 LaTeX 公式，因此特地再开一篇博文。

论文链接：Found a Reason for me? Weakly-supervised Grounded Visual Question Answering using Capsules；
代码链接：Github，顺便提一嘴，代码采用 Tensorflow 框架；
收录于：CVPR 2021。
更新一：2021年4月15日，跑了一下源码，对本文EM算法和矩阵形状进行补充，高亮显示。

一、Abstract

目前有很多采用基于预训练的目标检测器来解决 VQA 中的视觉定位问题，但需要 Bounding boxes 级别的标注。本文利用 VQA 任务来进行一种弱监督的视觉定位。具体来说，提出了一种基于查询的视觉胶囊模块，该模块选择出特定的胶囊特征，使得模型能够关注于与问题相关的区域。将本文提出的胶囊模块整合到用于 VQA 的 SNMN 和 MAC 网络中，在 CLEVR-Answer(自制的) 和 GQA 数据集上表现很好，同时在 VQA 任务上也表现优秀。

二、引言

首先指出 VQA 的应用很多，但是不知道这些答案是否真的基于正确的视觉线索来回答问题，于是产生了视觉定位任务。如下图所示，模型不仅要给出文本化的答案，而且要指出依赖的哪些区域来给出答案的。通用的方法是采用与问题相关的注意力图来判断定位的区域。

大多数的工作利用预训练的目标检测模型或者与问题相关的 bounding boxes 标注来解决视觉定位任务，本文关注的是基于 VQA 任务的弱监督视觉定位问题，VQA 任务和视觉定位任务都可以单独根据 VQA 的设定来监督。
想要正确的定位，需要解决两个主要问题：找到与问题相关的视觉实例；建模这些实例之间的关系。因此，本文提出采用胶囊网络来拓展当前的 VQA 框架，解决该任务。因为胶囊网络层可以通过路径协议学习部分-整体之间关系，而这种学习能力可以解决 VQA 中弱监督视觉定位的问题。
目前基于胶囊的方法一般都是在卷积特征之上添加额外的胶囊层，这些层可以利用目标类别监督( mask 掉除 GT 类别之外的胶囊)。但是在 VQA 中，并没有类别标注或者基于目标的监督信息提供，因此本文提出一种 “soft-mask” 机制选择那些与问题相关的胶囊。一旦无关的胶囊被 mask 掉，那么与问题相关的胶囊就可以传递给推理步骤，从而完成 VQA 任务。
本文考虑两种视觉定位数据集，GQA 和自制的 CLEVR-Answers 数据集。注意，在训练过程中并不使用 GT boxes 训练，而只在评估时使用。所采用的 VQA 模型为 MAC 和堆叠的 NMN (都是比较老的模型了)。

三、相关工作

3.1 VQA 和视觉定位

目前的 VQA 模型依赖于目标特征来提高模型的精度，一些基于网格的特征也能够作为目标特征来训练 VQA 模型，但是这些方法并未评估其答案的定位是否准确。
因此，一些少量的数据集，GQA、VCR、VQS、CLEVRER、TVQA+ 给出了所有目标的位置标注或者与问题相关的所有目标标注。这里面，GQA 特别关注于评估那些有/无目标检测下算法(如 MAC 和 BottomUP )的定位能力。因此，本文采用 GQA 数据集评估弱监督定位的胶囊增强型系统，评估指标是正确回答时的重叠面积与 IOU。

3.2 VQA 和 CLEVR 下的视觉推理

CLEVR 数据集采用合成式的问题，是一种诊断类型的数据集，用来测试模型的推理能力，但很多工作在这个数据集上已经实现了近乎完美的精度，所以现在没多少人用了。取而代之的是本文为所有问题都提供 bounding boxes 的 CLEVR-Answers，能够无限制地评估模型的定位能力。

3.3 胶囊网络

首先介绍下胶囊网络的引进，以及现有的改进：胶囊网络可以应用到分类和分割任务中。由于本文采用弱监督方式，因此需要对其修改：胶囊作为层结构插入到模型中，通过弱监督的 VQA 来学习。介于没有分类标签的监督，因此本文提出一种新颖的 “soft-masking” 操作，有选择性的学习与输入问题相关的胶囊并 mask 掉无关的胶囊。

四、方法

4.1 问题构成

输入为图像 $I$ 和问题 $Q$ ，输出为答案 $a\in A$ ，其中 $A$ 为答案词汇， $B$ 表示答案对应的 Bounding box。

4.2 输入的 Embedding

4.2.1 问题 embedding

由 $l$ 个单词组成的问题 ${\{}{w_{1},w_{2},\dots,w_{l}}{\}}\in Q$ ， $V$ 表示训练集中问题词的单词表，对应一个查找 embedding 矩阵 $E\in\mathbb{R}^{|V|\times{d}_{e}}$ ，即问题中的每一个词 $w_{l}$ 都采用一个 $d_{e}$ 维度的初始 embedding 向量来表示。 $\phi(Q,[w_{1},w_{2},\dots,w_{l}])$ 为句子编码器， $\phi$ 设为 BiLSTM，输出句子(问题 $Q$ )级别的 embedding $f_{s}\in\mathbb{R}^{{d}_{q}}$ 和词( $w_{l}$ )级别特征 $f_{w}\in\mathbb{R}^{{d}_{q}},{{d}_{q}}=2\times d$ ， $d$ 是句子编码器的维度。词向量维度：300。

4.2.2 图像 embedding

对于一幅图像 $I$ ，计算其特征图 $X=\phi(I)$ ，其中 $\phi$ 为预训练的图像编码器， $X\in\mathbb R^{H{\times}W{\times}d_{f}}$ 表示从 $I$ 中提取到的特征， $d_{f}$ 为特征维度。这里并未训练一个图像编码器，查看源码提供的特征，估计也是Faster R-CNN直接抽取数据集的7x7x2048维度特征。

4.3 问题查询生成器

VQA 系统通常会迭代的选择那些有助于回答问题的词汇，这种将问题划分为子序列查询的方式称之为多跳或循环推理。每一个推理步骤产生的子序列查询会收集与答案相关的图像信息。用 $\rho$ 表示子序列生成器，输入为句子 embedding $f_{s}$ 和词 embedding $f_{w}$ 。每一个时间步 $t\left(t=1,2,\dots,T\right)$ 上的输出子序列查询 $q_{t}$ 为：
$q_{t}=\rho\left(f_{s}, f_{w}\right), \forall t \in\{1,2, \ldots, T\}$

4.4 带有 soft masking 的胶囊

每一个胶囊是一个实体或者一个整体的部分特征表示，本文利用一组逻辑单元(称之为激活层)和一组 $4\times4$ 的位姿矩阵(称之为位姿 pose )组成矩阵胶囊(在胶囊网络中，这就是基本概念)，其中激活层旨在判断特定实体是否存在，位姿表示实体的属性信息。一个胶囊层有很多个胶囊，每一个胶囊都采用一种路径协议( routing-by-agreement )的算法在接下来的层中给相应的胶囊投票，从而建模部分-整体的信息。针对胶囊路径的排列，矩阵胶囊采用 $E M - R o u t i n g$ 算法。
$E M - R o u t i n g$ ，循环3次：

参考：一、如何看待Capsule的第二篇论文Matrix Capsules with EM Routing？
二、揭开迷雾，来一顿美味的Capsule盛宴
三、再来一顿贺岁宴：从K-Means到Capsule
四、三味Capsule：矩阵Capsule与EM路由

4.4.1 视觉胶囊

对图像的 embedding 特征 $X$ ，采用一组线性卷积来获得主胶囊，主胶囊为 $C_{1}$ 类型的胶囊，每一种都有 $4\times4$ 的位姿矩阵(维度 $\mathbb{R}^{H\times{W}\times{C}_{1}\times{4}\times{4}}$ ，源码 $C_1=32$ )和每个空间位置的激活层(维度 $\mathbb{R}^{H\times{W}\times{C}_{1}\times{1}}$ )。之后通过 $E M - r o u t i n g$ 算法在主胶囊的基础上获得每一个空间位置的更高维度的胶囊表示 $C_{2}$ ，每一种都有 $4\times4$ 的位姿矩阵(维度 $\mathbb{R}^{H\times{W}\times{C}_{2}\times{4}\times{4}}$ ，源码 $C_2=32$ )和每个空间位置的激活层(维度 $\mathbb{R}^{H\times{W}\times{C}_{2}\times{1}}$ )。

4.4.2 Soft masking

原则上可以将激活层( $\mathbb{R}^{H\times{W}\times{C}_{2}\times{1}}$ ) 和位姿矩阵( $\mathbb{R}^{H\times{W}\times{C}_{2}\times{4}\times{4}}$ )用一个 shape 的张量 ( $\mathbb{R}^{H\times{W}\times{C}_{2}\times\left({4}\times{4}+1\right)}$ )来表示，即标准卷积下的特征图，但由于此方式将胶囊姿态中的每个维度视作独立的特征，忽略了胶囊姿态中的所有维度都代表单个对象或实体的事实(割裂了部分-整体之间的联系)。
本文并未采用上述做法，而是基于问题来选择相应的胶囊。具体来说，对于每一步的推理，将一系列的 $C_2$ 送入一个全连接层得到与所给子序列查询相关的 logits，表示为胶囊类型的相关度 $m_{t_{\text {logits }}}=\eta\left(q_{t}\right)$ ，其中 $\text {logits }$ 是推理步 $t$ 的问题查询， $\eta$ 是全连接层。之后利用 $m_{t_{\text {logits }}}$ 产生 one-hot mask $m_{t}\in\mathbb{R}^{{C}_2}$ （ $m_i=1$ ，当且仅当 $i=argmax\left(m_{t_{\text {logits }}}\right)$ 时）。得出的 $m_{t}$ 用于 mask 视觉胶囊 $V_{m c_{t}}$ ：
$V_{m c_{t}}=\operatorname{softmax}\left(\eta\left(q_{t}\right)\right) \odot Y_{c_{2}}$
之后 $V_{m c_{t}}$ 用于推理操作，而这些操作由选择的模型( MAC 和 SNMN )所定义。

4.5 输出模块

所有推理步骤聚合后的特征即为推理模块的输出特征，喂给输出模块，也就是输出答案分数的分类器。对于预测视觉目标的位置，本文采用推理模块产生的空间注意力图和后处理步骤得到目标的位置。

五、实施细节

将胶囊整合到两个 VQA 模型中：SNMN、MAC。

5.1 MAC 网络的胶囊

首先是 MAC 网络的介绍，MAC 是具有 $T$ 个推理步骤的循环推理框架，每一推理步骤都会产生一个基于问题的控制信号(问题序列查询)，使用这个信号可以读取图像特征(使用注意力)和写入记忆。经过 $T$ 步之后最终的输出联合问题一起送入答案分类器。至于为啥用 MAC，是因为能够产生具有解释性的注意力图。
为将胶囊整合到 MAC 中，做出下列改变：读模块负责关注空间图像特征和检索与序列查询相关的图像特征，读模块输入为之前的输出和当前的控制信号(在时间步 $\text{t}$ 上基于问题的特征)；在读模块内部，使用一个线性层将控制信号映射到特征维度 $C_2\times\left(4\times{4}+1\right)$ ，此特征向量之后用于产生 soft mask 来获得仅与序列查询相关的胶囊。MAC 中所有的 mask 层共享权重。

5.2 SNMN 网络的胶囊

SNMN 是一种基于注意力的 VQA 模型，有着 MAC 类似的推理步骤，同时产生可解释性的注意力图。首先，SNMN 在预训练的图像特征上训练卷积层，这些卷积层的输出之后送入推理模块并使用问题查询来执行推理操作，最终输出注意力图。为整合胶囊到 SNMN 中，将胶囊模块添加到图像特征的上层来获取 $C_2$ 视觉胶囊。与之前标准的 SNMN 步骤不同的是，推理模块现在在胶囊上进行推理。对基于序列查询的 soft masking，采用全连接层，输入为问题查询 $q_t\in\mathbb{R}^{d}$ ，输出维度是 $C_2\times\left(4\times{4}+1\right)$ 的特征向量。然后该特征向量用于产生尺寸为 $C_2$ 的胶囊 mask。SNMN 中的每一个推理模块均含有自己的 mask 层，除了 $S c e n e, A n d, O r$ ，因为这些推理模块没有使用上下文序列查询的参数。

5.3 注意力图的产生

为了给更高注意力的区域赋予更大的权重，在背景区域引入一个不透明度参数 $\alpha$ ，而不透明度可以根据 $\alpha$ 来放缩。本文将其设为 $0.5$ 来获得更高注意力区域的双分类 mask，其内的每一个值表示检测物体存在与否。

六、数据集

GQA 和 CLEVR. GQA 。

GQA：
不同于 VQA 2.0 的 GQA 覆盖了更多的关系、空间和组合式问题。GQA 同时提供了与问题和答案相关的目标定位标签。使用的是作者提供的平衡版本；
基于视觉定位的 CLEVR-Answers：
作者将 CLEVR 数据集拓展到 CLEVR-Answers 上用于答案的视觉定位。901,000 个 bounding boxes，大约 700,000 对问题-答案对用于训练；193,000 个 bounding boxes，大约 150,000 对问题-答案对用于测试。注意：并未在训练中使用 bounding boxes，而是作为将来的研究；在训练集中分离出 1,000 个样本大概 10,000 个问题-答案对作做验证集。

七、实验结果

评估指标

评估答案定位能力：精确度、召回率、F1 得分—— 重叠范围和 IOU。如果预测的 bounding box 和 GT 大于 0.5，即认为预测到的区域是正样本(用于精确度和召回率的计算)。由于两个 VQA 模型会在每一个推理步上产生注意力图，因此一些中间的注意力图上可能就会出现正确答案，而非最后一个推理步。这里计算 F1 得分是根据最佳的注意力图来的，换句话说，最后的注意力不一定就很好。

7.1 与 baseline 模型的比较

视觉胶囊模块中 $C_1=C_2=C$ ，即 $C_1$ 和 $C_2$ 层的胶囊个数相等。

CLEVR-Answers数据集：
采用的图像特征是 ResNet-101 在 ImageNet 数据集上预训练的权重提取的 Conv4 层的 $14\times{14}\times{1024}$ 维的特征图。之后送入 MAC 或者 SNMN 模型的卷积层产生 $14\times{14}\times{512}$ 维的特征。训练 25 个 epoch，原始的 MAC 采用 $T = 12$ ，本文推荐 MAC-Caps 使用 $T = 4, 6, 12$ ，下表是结果。

GQA数据集：

7.2 消融分析

7.2.1 卷积层 vs. 胶囊层

7.2.2 硬 masking vs. 软 masking

同上表。

7.2.3 共享 masking vs. 稀疏 masking

同上表。

7.2.4 胶囊数量对性能的影响

同上表。

7.3 可视化结果

八、结论

本文提出一种利用 VQA 任务进行弱监督视觉定位的方法，能够整合到现有的 VQA 模型中。为了提高胶囊模型的联合效率，提出了一种 soft masking 机制进一步提高性能。

补充材料

A、补充的明细清单

B、序列查询生成器的结构

序列查询生成器是 MAC 提出的循环模块，同样也在 SNMN 中使用。
$u=W_{2}\left(\left[W_{1}^{t}\left(f_{s}\right)+b_{1} ; q_{t-1}\right]\right)+b_{2}$
其中， $q_{t-1}$ 为 $t - 1$ 步的输出， $f_s$ 为问题特征的 embedding， $W_{1}^{t}$ 的维度 $d\times{d}$ ， $W_{2}$ 的维度 $d\times{2d}$ ，之后在问题词 embedding $f_w$ 上产生注意力权重：
$a_{w}=\operatorname{softmax}\left(W_{3}\left(u \odot f_{w}\right)+b_{3}\right)$
其中 $W_{3}$ 的维度 $2d\times{d}$ ， $a_{w}$ 表示在所有问题词上的注意力得分。 $q_{t}$ 是 $l$ 长度问题的 $a_{w}$ 加权求和：
$q_{t}=\sum_{w=1}^{l} a_{w} \cdot f_{w}$

C、基于序列查询的胶囊 soft masking

D、可解释性的注意力图可视化

E、定性的结构分析

GQA 数据集：

CLEVR-Answers 数据集：

F、进一步的结果和分析

最好的推理 vs 最后一步的推理：

关于问题类型的对比：

与推理类型有关的比较：

参数减少的影响：

与定位有关的不透明度参数 $\alpha$ 的影响

胶囊能够建模背景：

写在后面
忙活了一天，终于码完了，找个时间把代码跑一下。顺便提一下，Github 源码链接里面如果有文件下载不下来，可以在评论区留言，给出阿里网盘链接 ~

2023-05-09 论文小天才
2023年社会科学、人文艺术与文化国际会议（SSHAC2023)大会简介2023年社会科学、人文、艺术和文化国际会议（SSHAC2023）将在四川省成都市举行。会议旨在为从事“社会科学”和“人文艺术”研究的专家学者提供一个平台，分享科研成果和前沿技术，了解学术发展趋势，拓宽研究思路，加强学术研究和讨论，促进学术成果产业化合作。大会邀请了来自国内外高校和研究机构的专家、学者、企业家等相关人员。热忱欢
家庭服务具身智能机器人体系架构
硬件方面：差速移动机器人+六轴协作机械臂，软件方面选择ROS系统：底盘控制move_group，机械臂操纵MoveIt，大模型方面采用VLM+LLM：（1）视觉语言模型（VLM），用来实现环境理解与指令解析，候选模型为LLaVA和Qwen-VL。微调VLM需要2~4周，工作量主要是准备环境数据和标注期望输出。（2）大语言模型（LLM），用来实现任务分解与技能调用，候选工具有LangChain（任务
刘萍萍老师《基于新课标的情境活动与学习任务群设计策略》学习青箬笠0
刘萍萍新乡市基础教育教学研究室“让学生直接思考真实问题有助于激发和唤醒学生的理解。”（「美]格兰特·威金斯·「美」杰伊·麦克泰格《追求理解的教学设计》P44）所以要设计情境活动。一、情境活动与学习任务群概念从何而来“考试命题应以情境为载体，依据学生在真实情境下解决问题的过程和结果评定其素养水平。日常生活情境指向真实具体的社会生活，关注学生在生活场景中的语言实践，凸显语言交际活动的对象、目的和表述方
免费小说全本阅读昨日迷途(夏崇光贺诗妍)_昨日迷途夏崇光贺诗妍小说推荐完本狂战书楼
《昨日迷途》主角：夏崇光贺诗妍简介：结婚六周年纪念日，老婆说要为我准备个惊喜。我在山顶苦等三个多小时，直到大雨滂沱都没能等到她的出现。老婆的小竹马却发了一条定位在半山酒店的动态。“小别胜新婚。”照片里，两人躺在撒满玫瑰花瓣的床上十指相扣。女人的无名指上空空如也。半裸的酥胸上，却有几道红红的抓痕和浅浅的牙印。我一阵恶心，在底下评论道：“被狗咬了，记得打破伤风。”关注微信公众号【无极推文】去回复个书号
179.我们的情绪为何总被他人左右韩峰财商觉醒
《我的情绪为何总被他人左右》作者阿尔伯特埃利斯是20世纪美国著名的心理学家理性情绪行为疗法之父。他在美国心理学界的十大应用心理学家排行榜上排名第二，超过了弗洛伊德，他在心理学方面的研究成果被小布什、克林顿、希拉里等一些美国政要倍为推崇。这些内容能帮助我们解决生活中、工作中的心理和情绪问题，能够帮助很多人走出那种情绪困扰。财务自由之路的主题里为什么讲开心理学的内容呢？实际上很多人在追求财务自由的路上
机器学习之——认识机器学习 -睡到自然醒~ golang 重构开发语言
首先，什么是机器学习？参照百度百科的讲解，“机器学习是一门多领域交叉学科，设计概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习能力，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。”什么意思呢？也就是说，机器学习是一门跨领域的学科，是一种能够让机器模仿人类学习能力的一种学科。在Andrew的课程中，提到了几个机器学习的定义：1，A
大模型训练中的“训练阶段”（如Pre-training、SFT、RLHF等）与“微调技术” 老兵发新帖人工智能深度学习机器学习
大模型训练中的“训练阶段”（如Pre-training、SFT、RLHF等）与“微调技术”（如Full-tuning、Freeze-tuning、LoRA、QLoRA）是两类不同维度的概念，二者共同构成模型优化的完整流程。以下是二者的关系解析及技术对照：一、训练阶段的核心流程与目标预训练（Pre-training）目标：在无标注通用数据（如互联网文本）上训练模型，学习语言、视觉等通用特征。微调技术
Epoch 老兵发新帖人工智能
在深度学习和机器学习中，Epoch（轮次或周期）是一个核心训练概念，指模型在整个训练数据集上完成一次完整遍历的过程。以下是关于Epoch的详细解析：一、核心定义基本含义Epoch表示模型将所有训练数据完整学习一次的过程。例如：若训练集有10,000个样本，则1个Epoch即模型用这10,000个样本训练一轮。与相关概念的关系Batch（批次）：数据集被分割成的小组（如每批32个样本）。Iterat
Python --- day 10 Opencv模块的使用 AnAn__kang python opencv 开发语言
系列文章目录前言今天博主带大家进入Opencv的学习，这是一个专门针对处理图像和视频的一个模块，大家以理解为主，增强自己的编程思维，再后续我们训练模型时会大批量的处理图片时会经常用到这个模块。1OpenCV介绍OpenCV（开放源代码计算机视觉库）是一个开源的计算机视觉和机器学习软件库。由一系列C++类和函数构成，用于图像处理、计算机视觉领域的算法实现。1.1OpenCV优势**开源免费：**完全
深度学习图像分类数据集—百种病虫害分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：百种病虫害识别分类，训练集45095张，验证集7508张，测试集22619张具体类别为以下：insect_classes=["rice_leaf_roller","rice_leaf_caterpillar
2023-09-15 3874c7d085f5
邵杰工作日志9.15兴趣是最好的老师。要让学生积极、主动地学习，最有效的方法就是让学生对所学内容产生浓厚的兴趣。心理学研究表明，学生在上课的前五分钟注意力往往不在课堂，尤其是低年级学生，特定的年龄阶段、心理特点决定了他们在上伊始不能迅速地、自觉地将注意力集中到所学内容上来。这就需要教师通过精心设计的导语，引导学生迅速将注意力集中到学习内容上来，使学生对所学内容产生浓厚的学习兴趣，并充满期待。
使用CrewAI创建一个研究团队 AI量化投资 php 开发语言多智能体智能体人工智能
本指导文档将带你一步步完成使用CrewAI框架创建你的第一个AI代理团队的过程。通过这个简单的示例，你将学习如何构建一个研究团队，用于研究和分析指定主题，并生成一份综合报告。本教程基于CrewAI官方文档，适合初学者快速上手。前提条件在开始之前，请确保你已完成以下准备工作：安装Python：确保你的系统安装了Python版本在3.10到3.13之间。你可以通过以下命令检查Python版本：pyth
基于小样本学习的图像分类综述 cdyyyyyyy 学习分类机器学习
目录引言基本概念小样本学习方法分类1、数据增强2、迁移学习3、元学习小样本学习主流方法1、基于度量的小样本学习2、基于Pretraining+FineTuning的方法3、基于元学习的小样本学习总结引言因为课程设计要求，所以进行了关于小样本学习的调研。目前小样本学习还是一个比较热门的研究，很多关于小样本学习的论文也陆续发表。本文只是一个概述，具体方法研究还有待深入。基本概念小样本学习（FSL：Fe
如何区分Bug是前端问题还是后端问题？海姐软件测试缺陷管理 bug 前端
在软件测试中，精准定位Bug的归属（前端or后端）是高效协作的关键。以下是系统化的排查方法，结合技术细节和实战技巧：1.核心判断逻辑「数据vs展示」二分法：后端问题：数据本身错误（API返回错误数据/逻辑错误/数据库问题）前端问题：数据正确但展示异常（UI渲染错误/交互逻辑问题）2.四步定位法第一步：抓包分析（必做）工具：ChromeDevTools>Network/Fiddler/Charles
车辆云端威胁情报共享系统的多维解析与发展路径百态老人大数据人工智能
第一部分：内容本质提取原始内容描述了一个闭环网络安全体系：“车辆实时上传异常行为日志至安全运营中心（VSOC），云端通过机器学习分析攻击模式并下发全局防御策略”。其核心架构包含：数据采集层：车辆端持续收集异常行为日志数据，包含CAN总线通信模式、网络流量特征及驾驶行为数据传输层：通过V2X通信协议和OTA更新通道实现车云双向通信分析层：安全运营中心(VSOC)采用CNN-BiSRU等深度学习模型进
第六届研究所操盘群老姜（姜新宁）算力3.0云端算个靠谱吗？别再被洗脑了赶紧止损！昌龙律法
这年头，你不理财，财不理你。理财方式有很多，不能投资的只有一种：骗人的。近期，我们接到多起网络投资理财被骗的案情，而每一宗案情都有相似之处，那就是：事主都是加入了某个理财投资微信群，然后通过群里的“投资理财专家”的“指点”，到某个投资平台进行投资理财，随后再用技术手段让所有的投资的钱有去无回。商小信第六届研究所操盘群老姜（姜新宁）算力3.0，第六届【研究所】圆梦反击战（分仓方案）数字经济算力大赛骗
《10倍速目标达成法》孙正义的稻草战略明远说
你好，我是明远，今天给你分享《10倍速目标达成法》昨天讲了1根稻草换了一栋房子，今天讲一个知名故事。日本孙正义，初期做好了定位，进军无人涉足的ADSL，ADSL领域就是稻草，一个不赚钱又费劲的行业。进军后却获得500万用户，普通公司是2-3万用户，所以他以绝对压倒性优势成为细分领域冠军。然后用这根稻草先后收购日本电信和沃达丰，收购沃达丰创造日本历史上的最高记录17500亿日元。数据显示：2001年
基于深度学习的语音识别：从音频信号到文本转录 Blossom.118 机器学习与人工智能深度学习语音识别音视频人工智能机器学习线性代数计算机视觉
前言语音识别（AutomaticSpeechRecognition,ASR）是人工智能领域中一个极具挑战性和应用前景的研究方向。它通过将语音信号转换为文本，为人们提供了更加自然和便捷的人机交互方式。近年来，深度学习技术在语音识别领域取得了显著进展，极大地提高了语音识别的准确率和鲁棒性。本文将详细介绍如何使用深度学习技术构建一个语音识别系统，从音频信号的预处理到模型的训练与部署。一、语音识别的基本概
iOS WebView 调试实战 localStorage 与 sessionStorage 同步问题全流程排查 2501_91591841 ios 小程序 uni-app iphone android webview https
在混合开发项目中，localStorage和sessionStorage常被前端用来临时存储用户状态、页面标记等数据。但这些Web存储在iOSWebView中并不总是如预期稳定，有时会出现数据“存了又丢”、“刷新后状态消失”、甚至“另一个标签页取不到值”等异常，调试难度极高。本文以真实案例为基础，分享如何通过实际流程和工具协作，最终定位存储问题根因并制定稳定方案。一、典型用户反馈：刷新页面后状态消
2022-01-25 《怪诞行为学》- 经济学家的角度看世界钟罗敏
生活中我们常有莫名其妙的举动。你真的会失控？一时冲动就是没道理可言？杜克大学行为经济学家丹·艾瑞里的这本新作──《怪诞行为学》（PredictablyIrrational）一语道破，用轻松幽默的方式告诉我们这是为什么，又该如何改变。他比别的所有经济学家都更好地揭示、解释了我们不可思议的行为背后的原因。在书中，作者将心理学引经济学的研究中，用实验的方法彻底颠覆了主流经济学的“经济人”观，告诉我们非理
什么是GPT-4T？亿只小灿灿人工智能 GPT-4T
1.引言：GPT-4T概述GPT-4T是OpenAI开发的新一代多模态大型语言模型，在GPT-4的基础上增强了对表格数据、数学表达式和代码的处理能力。其核心创新在于Transformer架构的优化，使模型能够更高效地处理结构化数据与文本的融合任务。本文将深入探讨GPT-4T的技术原理、应用场景及代码实现。2.GPT-4T核心技术解析2.1多模态输入处理GPT-4T支持三种主要输入模态：自然语言文本
政务云,私有云,还有移动云的区别到底是什么？
1.政务云（GovernmentCloud）定位：面向政府机构（如委办局、事业单位）提供的专属云平台。核心特点：强合规性与安全性：必须符合国家信息安全等级保护（如等保三级）、数据本地化要求，并通过严格的安全审计（如《网络安全法》《数据安全法》）。独立资源池：物理或逻辑隔离的计算/存储资源，确保政府数据与其他行业数据分离。专属服务目录：提供适配政府业务的标准化服务（如电子政务、协同办公、数据共享交换
医疗AI应用中的幻觉缓解：案例与经验 AI天才研究院计算 AI人工智能与大数据 Agentic AI 实战人工智能 ai
医疗AI的“说谎”问题：如何让AI不再“信口开河”？——幻觉缓解的案例与经验关键词：医疗AI、幻觉现象、大语言模型、知识Grounding、多模态验证、临床安全、可解释性摘要：医疗AI（如大语言模型、辅助诊断系统）在提升医疗效率的同时，“幻觉”（生成不符合事实的医疗建议）成为其临床应用的致命隐患——比如告诉糖尿病患者“吃蜂蜜能降血糖”、编造不存在的药物副作用。本文用“小朋友乱说话”的类比拆解幻觉的
数字人系统：AI界的超级巨星，你准备好了吗？优秘智能UMI 数字人人工智能深度学习计算机视觉机器学习自然语言处理语言模型图像处理
在这个日新月异的科技时代，每一个创新的火花都可能点燃一场变革的燎原之火。今天，我们要聊的，正是那颗在AI领域熠熠生辉的璀璨新星——优秘数字人系统。它不仅仅是技术的飞跃，更是对未来生活方式的深刻重塑，一场关于人机交互、智能共生的美好预演。技术原理：深度解析与智能构建的奥秘1.深度学习：智能的基石数字人系统的核心技术之一在于深度学习。深度学习是一种模仿人脑神经网络结构和功能的机器学习技术，通过构建多层
Python爬虫教程：抓取地方政府网站的公开文件与政策信息 Python爬虫项目 python 爬虫开发语言数据分析 mysql
1.引言在信息化时代，政府网站已成为信息公开的重要渠道。各级地方政府网站上发布的政策、公告和公开文件，通常包含了政府决策、法律法规等关键信息。爬取这些公开数据，可以为研究人员、政策分析师、企业决策者等提供有价值的数据支持。本文将通过Python爬虫技术，展示如何抓取地方政府网站上的公开文件、政策等信息。我们将使用最新的爬虫技术，如requests、BeautifulSoup、Selenium等工具
AES加密算法简要介绍 ° 安如少年初如梦662 Java学习记录后端前端
前言项目中需要在接口中添加加密，简单了解关于AES的有关知识，低质低创见谅。什么是AESAES（AdvancedEncryptionStandard，高级加密标准）是一种对称加密算法，被广泛应用于数据加密领域。它是由美国国家标准与技术研究院（NIST）于2001年发布，作为一种公开标准，用于保护电子数据的安全。值得一提的是微信小程序的加密传输就是用这个加密算法基本原理和加解密过程由于站内有很详细，
59、代码漂移与突变：技术与社会的交织 potato 代码漂移：数字时代的批判性思考代码漂移代码突变技术变革
代码漂移与突变：技术与社会的交织1.引言在当今快速发展的数字时代，技术的进步不仅改变了我们的生活方式，还深刻影响了社会结构和文化形态。代码漂移（CodeDrift）作为一种技术和社会现象，揭示了数字世界中随机性和不可预测的变化。本文将探讨代码漂移与突变之间的关系，分析其对技术和社会的影响，并通过具体案例研究，展示代码突变如何在实际应用中产生重大变化。2.代码漂移的定义代码漂移是指在软件开发和数字文
聚焦基础研究突破，北电数智联合复旦大学等团队提出“AI安全”DDPA方法入选ICML CSDN资讯人工智能安全数据要素大数据
近日，由北电数智首席科学家窦德景教授牵头，联合复旦大学和美国奥本大学等科研团队共同研发，提出一种DDPA（DynamicDelayedPoisoningAttack）新型对抗性攻击方法，为机器学习领域的安全研究提供新视角与工具，相关论文已被国际机器学习大会（ICML2025）收录。ICML由国际机器学习学会（IMLS）主办，聚焦深度学习、强化学习、自然语言处理等机器学习前沿方向，是机器学习与人工智
贝美康健康读书会（第五期）之《吃的营养科学观》贝美康读书会吴老师
第一天--序言+第1课：营养学--一个令人着迷的话题一、缺失一种营养，就意味着其他营养的不足，如果身体的某个组织受到损害，那么其他的组织也必然会受到损害。二、营养学是研究食物如何构建人体健康的科学。三，依照我的观点，选择任何食物都必须符合两个标准：美味，且有益于健康。四、营养学被忽视的原因：1、我们所获得的许多有关食物的信息都来源于广告；2、社会上有太多的“不应该”规范；3、人都是容易受骗的；4、
格灵深瞳视觉算法面试30问全景精解机＿长算法面试职场和发展
格灵深瞳视觉算法面试30问全景精解——AI感知×智能安防×场景创新：格灵深瞳视觉算法面试核心考点全览前言格灵深瞳（GREATVISION）作为国内领先的人工智能与计算机视觉企业，专注于智慧安防、智能交通、智慧零售等领域，推动视觉算法在大规模城市级场景的落地。格灵深瞳视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在复杂场景下的创新能力与工程实践。本文精选30个高质量面试问题，涵盖基
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen

胶囊网络之 Found a Reason for me? Weakly-supervised Grounded Visual Question Answering using Capsules论文笔记