乄洛尘

NICE: Improving Panoptic Narrative Detection and Segmentation with Cascading Collaborative Learning

全局叙事定位 NICE: Improving Panoptic Narrative Detection and Segmentation with Cascading Collaborative Learning 论文阅读笔记

一、Abstract
二、引言
三、相关工作
- 3.1 Referring Expression Comprehension and Segmentation
- 3.2 Panoptic Narrative Detection and Segmentation
- 3.3 多任务学习
四、A Unified Cascading Framework for PND and PNS
- 4.1 特征提取
- - 4.1.1 视觉编码器
  - 4.1.2 文本编码器
- 4.2 坐标引导聚合 Coordinate Guided Aggregation
- 4.3 重心驱动定位 Barycenter Driven Localization
- 4.4 训练损失
- - 4.4.1 分割损失
  - 4.2.2 检测损失
五、实验
- 5.1 数据集
- 5.2 实施细节
- - 5.2.1 实验设置
  - 5.2.2 指标
- 5.3 与 SOTA 方法的比较
- 5.4 消融实验
- - 单任务 vs. 多任务
  - With vs. without CGA 模块
  - 重心的选择
  - 融合尺度 vs. 单尺度
  - With vs. without stuff
  - 用于 bounding boxes 的不同方法
- 5.5 拓展 NICE 的边界
- - 5.5.1 仅采用 bounding boxes 训练 NICE
  - 5.5.2 RES 和 REC 的 Zero-shot 研究
- 5.6 定量分析
- - 5.6.1 可视化
  - 5.6.2 预测冲突
  - 5.6.3 指代能力
六、结论

写在前面

又是一周的结束，时间过得很快呀，继续凎论文吧。这是上一篇博文的后续，相当于 v2 版本呀，作者团队很厉害。

论文地址：https://arxiv.org/abs/2310.10975
代码地址：https://github.com/Mr-Neko/NICE
预计提交于：某个顶会
Ps：2023 年每周一篇博文阅读笔记，主页更多干货，欢迎关注呀，期待 6 千粉丝有你的参与呦~

一、Abstract

全景叙事检测及分割 Panoptic Narrative Detection (PND) and Segmentation (PNS) 旨在识别和定位图像中的多个用长自然语言描述的目标。本文提出一种联合的框架 NICE，来共同学习这两种任务。现有的视觉定位任务通常使用两分支的思路，但由于多对多的对齐问题可能会造成识别冲突。于是本文基于 mask 的重心引入两种级联的模型，称之为坐标引导聚合 Coordinate Guided Aggregation (CGA) 和重心驱动定位 Driven Localization (BDL)，分别用于分割和检测。具体来说，CGA 提供重心用于检测，减少了 BDL 对大量候选 boxes 的依赖；而 BDL 则利用其自身属性区分不同的实例。大量的实验表明 NICE 很有效。

二、引言

全景叙事检测及分割 Panoptic Narrative Detection (PND) and Segmentation (PNS) 是两个相对于指代表达式理解/分割的新颖任务。PND 和 PNS 需要定位到一段自然语言描述中的所有目标。

如上图所示，自然语言和视觉信息间存在多对多的对齐，于是任务则更难一些。最近的一些方法将 PND 和 PNS 视为两种任务。一方面在 PND 中，使用多步骤处理，将图像中的区域特征和语言描述视为一个区域-句子匹配问题；另一方面，最近的 PNS 采用端到端的方法，直接使用像素 masks 匹配名词短语。虽然定位方法略有不同，PND 和 PNS 还是两个密切相关的任务，在视觉场景上还能互补。于是有一些方法设计一种统一的多模态框架来实现这两个任务，但并未考虑计算成本以及多对多的属性冲突。

如上图所示，(a) 类方法需要复用视觉特征多次，才能分割大量的名词短语，因而计算和存储成本大。(b) 类方法改进了特征融合，但受限于 box anchor，且未能利用上 PND 和 PNS 的协同潜力。从 PNS 中观察到，每个 PNS 上的点都能提供精确的位置，于是在检测头后面加上一个分割策略，使得 PND 能够有效消除大量 anchors 和协同作用的害处。

如图 1(C 所示，本文提出一个统一的级联框架 uNIfied Cascading framEwork (NICE) 用于共同学习 PNG 和 PND，利用一个序列策略进行先检测后分割。其核心在于为每个名词短语建立一个可学习的 kernel，来预测 mask 和 bounding box。

为解决预测冲突的问题，引入两个级联的模块：坐标引导聚合 Coordinate Guided Aggregation (CGA)、重心驱动定位 Barycenter Driven Localization (BDL)，旨在解决分割和检测的同时实现跨模态对齐。将分割 mask 的重心作为参考点来确保这两个任务对齐。此外，mask 的位置信息驱动着 BDL 生成精确的 bouding boxes，通过 masks 提供的位置信息来取得 bounding box 的重心 offset，从而得到检测结果。本文贡献总结如下：

提出一种多模态框架用于 PND 和 PNS，以一种序列、级联的方式执行分割和检测；
引入两种级联模块，CGA 和 BDL，分别用于分割和检测，解决了预测冲突以及促进合作推理。
实验表明提出的 NICE 框架效果很好。

三、相关工作

3.1 Referring Expression Comprehension and Segmentation

Referring Expression Segmentation (RES) 和 Referring Expression Comprehension (REC) 旨在基于相对短的文本定位到图像中的相关目标。对于 REC 而言，早期的目标先通过检测模型得到大量的候选区域，然后与文本相比较，从中选出一个最合适的。最近的一些方法通过执行多模态特征融合来执行端到端的训练和检测。对于 RES，之前的方法类似 REC，最近一些方法通过采用单阶段的网络来优化分割 masks，性能提升较明显。

3.2 Panoptic Narrative Detection and Segmentation

全景叙述检测和分割 Panoptic Narrative Detection (PND) 、Panoptic Narrative Segmentation (PNS) 旨在基于输入的文本描述定位和分割多个全景目标。不同于 REC 和 RES 任务，仅需定位单个目标，多任务处理是 PND 和 PNS 的核心。

3.3 多任务学习

分割和检测任务的本质在于语义信息的理解，因此多任务学习上场了。早期的方法首先通过检测获得 Boxes，然后在 boxes 内分割。这些方法太依赖于检测的性能。最近，一些双分支的端到端方法提出共同学习 REC 和 RES 任务，但还是需要复杂的处理过程，于是本文采用动态核的方式来建立一个统一的框架，从而避免复杂的过程，同时减少 anchors 的数量。

四、A Unified Cascading Framework for PND and PNS

首先采用单独的视觉和文本编码器处理图像和文本描述，之后 CGA 模块来促进图-文间交互，使得预测头能够输出 masks。最后，BDL 模块在 masks 的引导下生成 boxes。

4.1 特征提取

4.1.1 视觉编码器

给定图像 $\mathbf{I}\in\mathbb{R}^{H^0\times W^0\times3}$ ，应用 FPN 和 ResNet-101 Backbone 提取多尺度视觉特征， $\mathbf{F_V}^p\in\mathbb{R}^{H^p\times W^p\times C},p\in\{2,3,4,5\}$ ，其中 $H^p=\frac{H^0}{2^p}$ ， $W^p=\frac{W^0}{2^p}$ 。考虑到位置信息的重要性，单独给 $F_v^5$ 加上位置编码。之后采用语义 FPN 块聚合这些特征，从而得到最后的 $\mathbf{F_V}\in \mathbb{R}^{H^p\times W^p\times C}$ ，其中 $H^p=\frac{H^0}{8}$ ， $W^p=\frac{W^0}{8}$ 。

4.1.2 文本编码器

给定一个句子 $\mathbf{S}$ ，采用预训练的 BERT 模型来提取 token embeddings $\mathbf{F_s} = \{s_{t}\}_{t=0}^{|S|}$ ，其中 $s_{t}$ 表示第 $t$ 个 token 的 embedding。接下来基于标注信息来筛选出名词短语，然后在每个名词短语的 token embeddings 上采用平均池化来构建短语特征。这些短语特征之后通过一个线性层投影到视觉特征相同的维度，最后得到短语 embedding $\mathbf{F}_\mathbf{P}=\{f_n\}_{n=0}^N\in\mathbb{R}^{N\times C}$ ，其中 $f_n$ 表示第 $n$ 个名词短语的特征， $N$ 为名词的数量。

接下来所有的视觉特征和短语特征送入 $L$ 层独立层，每一层由一个 Guided Aggregation (CGA) 和 Barycenter Driven Localization (BDL) 组成。

4.2 坐标引导聚合 Coordinate Guided Aggregation

利用短语表示和视觉特征的注意力交互图为每个短语生成一个一对一的 mask，因此去除了匹配或者后处理的需求。尽管很方便，但是很难区分共享相同类别的目标。于是引入坐标引导聚合 Coordinate Guided Aggregation 模块，在 bounding boxes 坐标信息的引导下，来限制分割模块。

更确切来说，为进一步增强文本驱动的内核表达能力，首先是其与视觉特征交互，然后聚合更多的视觉线索，之后采用 cross-attention 来实现。采用 kernel 作为 query，用于视觉特征的注意力权重计算如下：
$\mathcal{M}^{\ell-1}=\begin{cases}0,&\text{where}\quad\mathbf{M}^{\ell-1}\geq\tau\\-\infty,&\text{where}\quad\mathbf{M}^{\ell-1}<\tau&\end{cases}$
$\mathbf{A}^j=\text{Softmax}{ \left ( \frac { ( \mathbf{K}^{\ell-1}\mathbf{W}_Q^j)(\mathbf{F}_v\mathbf{W}_K^j)^T}{\sqrt{d_k}}+\mathcal{M}^{\ell-1}\right)}$ 其中 $\tau$ 为控制 $\mathcal{M}^{\ell-1}$ 的阈值， $\mathcal{M}^{\ell-1}\in[0,1]^{N\times H\times W}$ 表示第 $(\ell-1)$ 层的 masks。 $\mathrm{W}_Q^j\in\mathbb{R}^{C\times\frac Ch}$ 和 $\mathbf{W}_K^j\in\mathbb{R}^{C\times\frac Ch}$ 为投影矩阵的权重， $d_k$ 为尺度因子，下标 $j$ 表示第 $j$ 个头，头的数量 $h$ 设为 8。

特别的， $\mathrm{K}^{0}$ 在初始化短语 embedding $\mathrm{F}^{p}$ 后获得，而 $\mathrm{M}^{0}$ 则通过下式得到：
$\mathbf{M}^{0}=\mathrm{Sigmoid}\left(\mathbf{K}^{0}*\mathbf{F}_{\mathbf{v}}\right)$ 其中 $\mathcal{M}^{\ell-1}$ 限制了核与视觉特征的交互，因此去除了不相关语义的信息。基于这些注意力权重，从语义上聚合头 $j$ 的相关视觉特征，并进行拼接得到更新后的核：
$\mathrm{Head}^j=\mathbf{A}^j(\mathbf{K}^{\ell-1}\mathbf{W}_V^j)$
$\mathbf{K}^{\ell}=\mathrm{FFN}\left(\mathrm{LN}\left(\left[\mathrm{Head}^{1},\cdots,\mathrm{Head}^{h}\right]\mathrm{W}_{O}\right)+\mathbf{K}^{\ell-1}\right)$ 其中 $\mathrm{W}_V^j\in\mathbb{R}^{C\times\frac Ch}$ ， $\mathrm{W}_O\in\mathbb{R}^{C\times C}$ 为投影矩阵。 $\mathrm{LN}(\cdot)$ 表示 layer Normlization。之后应用捷径分支和一个前项传播网络 $\mathrm{FFN}(\cdot)$ 。

最后，这些文本驱动的动态核将用于驱动视觉特征得到最终的 masks：
$\mathbf{M}^{\ell}=\mathrm{Sigmoid}\left(\mathbf{K}^{\ell}*\mathbf{F}_{\mathbf{v}}\right)$
此外，在检测到的 boxes 的辅助下，进一步来限制分割边界，从而区分不同的实例。其中最直接的方式是找到 mask 的最小外接矩形，使得 mask 尽量在 Box 内部，于是可以实现一步检测和分割。然而这种限制过于严格，导致检测性能非常依赖于分割的整体边界。于是使用 soft 限制，即 mask 的中心来连接两个模块。

4.3 重心驱动定位 Barycenter Driven Localization

通过 CGA 模块生成的 mask 可以粗糙地标定目标位置，这可以作为 PND 的线索，因此提出 BDL，建立在 CGA 之上，使得 BDL 能够充分利用 CGA 提供的位置信息。

本文观察到，一旦目标的位置确定下来后，就可以将其视为一个点，于是接下来直接确定其尺寸即可。于是使用视觉特征 $\mathrm{F_v}$ 预测每个与重心相关联的 offset：
$\mathbf{O}=\text{Sigmoid}\left(\text{BottleNeck}\left(\mathbf{F_v}\right)\right)$ 其中 $\text{BottleNeck}$ 为级联的卷积网络， $\mathbf{O}\in{[0,1]^{H\times W\times 4}}$ 为 offset 矩阵。在这一情况下，只使用一次视觉特征来一次预测出所有的 boxes。

通常情况下，目标中心与 mask 的中心是相同的。因此首先找到 mask 的重心：基于第 $\ell$ 层 CGA 的输出 masks $\mathbf{M}^{\ell}$ ，重心计算如下：
$\begin{gathered} \mathrm{D}_{\mathbf{x}}\ell,n =\frac{\iint_{M^{\ell}}x^{n}\mathbf{M}^{\ell}\left(x^{n},y^{n}\right)dxdy}{\sum_{x^{n},y^{n}}^{W,H}\mathbf{M}^{\ell}\left(x^{n},y^{n}\right)}\\ \mathbf{D_{y}}^{\ell,n} =\frac{\iint_{M^{\ell}}y^{n}\mathbf{M}^{\ell}\left(x^{n},y^{n}\right)dxdy}{\sum_{x^{n},y^{n}}^{W,H}\mathbf{M}^{\ell}\left(x^{n},y^{n}\right)} \end{gathered}$ 其中 $n$ 表示第 $n$ 个名词短语， $\mathrm{D}^{\ell}\in\mathbb{R}^{N\times 2}$ 为 mask 重心的二维坐标。

最后，通过组合重心坐标以及相应的 offset ，为所有的名词短语预测 bounding boxes：
$\begin{cases}x^1=\mathbf{D_x}^{\ell,n}-l\\y^1=\mathbf{D_y}^{\ell,n}-t\\x^2=\mathbf{D_x}^{\ell,n}+r\\y^2=\mathbf{D_y}^{\ell,n}+b\end{cases}$ 其中 $l$ 、 $t$ 、 $r$ 、 $b$ 源于 $\mathbf{O}_{x,y}$ ，表示重心到指代 Bounding boxes 的边缘距离。 $\mathbf{D_x}^{\ell,n}$ 和 $\mathbf{D_y}^{\ell,n}$ 表示重心的坐标， $x_1$ 、 $y_1$ 、 $x_2$ 、 $y_2$ 则表示 bounding boxes 的左上角和右下角点的坐标。

4.4 训练损失

4.4.1 分割损失

给定 GT mask $\mathbf{Y}\in\mathbb{R}^{N\times H\times W}$ 和预测 $\mathbf{M}\in\mathbb{R}^{N\times H\times W}$ ，利用 BCE 损失 $\mathcal{L}_{bce}$ 和 Dice 损失来优化分割：
$\begin{aligned}\overline{\mathcal{L}}_{bce}&=-\frac{1}{H\times W}\sum_{i=0}^{H\times W}\frac{1}{N}\sum_{n=0}^{N}\mathcal{L}_{bce}\left(\mathbf{M}^{n,i},\mathbf{Y}^{n,i}\right)\end{aligned}$
$\overline{\mathcal{L}}_{dice}=\frac{1}{N}\sum_{n=0}^{N}1-\frac{2|\mathbf{M}^{n}\bigcap\mathbf{Y}^{n}|}{|\mathbf{M}^{n}|+|\mathbf{Y}^{n}|}$

4.2.2 检测损失

使用 Smooth L1 损失和 gIoU 损失来限制预测的 boxes：
$\mathcal{L}_s\left(\mathbf{B}^{n,i},\mathbf{G}^{n,i}\right)=\begin{cases}0.5\left(\mathbf{B}^{n,i}-\mathbf{G}^{n,i}\right)^2,&|x|<\xi\\|\mathbf{B}^{n,i}-\mathbf{G}^{n,i}|-0.5,&otherwise\end{cases}$ 其中 $x=\mathbf{B}^{n,i}-\mathbf{G}^{n,i}$ ， $\mathbf{B}^{n}\in\mathbb{R}^{4}$ 表示第 $n$ 个短语预测的 box， $\mathbf{G}^{n}$ 为相应的 GT， $i\in \{x,y,w,h\}$ 。在训练时设置 $\xi$ 为 0.5。对于所有的短语，其总损失为：
$\overline{\mathcal{L}}_{smooth}=\frac{1}{4N}\sum_{n=0}^{N}\sum_{i}\mathcal{L}_{s}\left(\mathbf{B}^{n,i},\mathbf{G}^{n,i}\right)$ 由于 Smooth L1 损失的优化不等同于优化 IoU，于是添加 gIoU 损失：
$\overline{\mathcal{L}}_{gIoU}=\frac{1}{N}\sum_{n=0}^{N}1-\frac{\mathbf{B}^{n}\bigcap\mathbf{G}^{n}}{\mathbf{B}^{n}\bigcup\mathbf{G}^{n}}+\frac{A_{c}^{n}-\mathbf{B}^{n}\bigcup\mathbf{G}^{n}}{A_{c}^{n}}$ 其中 $A_{c}^{n}$ 为 $\mathbf{B}^{n}$ 和 $\mathbf{G}^{n}$ 的最小闭合区域。

于是总体训练损失为：
$L=\lambda_{1}\overline{\mathcal L}_{bce}+\lambda_{2}\overline{\mathcal L}_{dice}+\lambda_{3}\overline{\mathcal L}_{smooth}+\lambda_{4}\overline{\mathcal L}_{gIoU}$

五、实验

5.1 数据集

Panoptic Narrative Grounding (PNG)，133103 张训练图像和 8380 张测试图像组成，整体包含 875083 个 masks 和 box 标注。

5.2 实施细节

5.2.1 实验设置

ResNet-101 作为 Backbone，预训练在 COCO 数据集上，对于文本 Backbone，采用 BERT 模型。在训练阶段，冻结视觉 Backbone，输入的图像分辨率 $640\times640$ ，输出特征图分辨率 $80\times80\times 256$ 。文本特征维度 768，8 头，隐藏层维度 2048。模型总体三层。最后平衡损失的超参数 $\lambda_1=1$ 、 $\lambda_2=1$ 、 $\lambda_3=1$ 、 $\lambda_4=1$ 。从所有的层中选择 masks 和最后一层的 boxes 用于训练。初始学习率 $\eta=1e^{-4}$ ，在 5 个 epoches 后降低 $50\%$ ，在第 10 个 epoch 时，固定为 $\eta=5e^{-7}$ 。Batch_size 48，4 块 3090，大概 20 小时。Adam 优化器。

5.2.2 指标

Average Recall、IoU。

5.3 与 SOTA 方法的比较

5.4 消融实验

单任务 vs. 多任务

With vs. without CGA 模块

重心的选择

融合尺度 vs. 单尺度

With vs. without stuff

用于 bounding boxes 的不同方法

同表 1。

5.5 拓展 NICE 的边界

5.5.1 仅采用 bounding boxes 训练 NICE

5.5.2 RES 和 REC 的 Zero-shot 研究

5.6 定量分析

5.6.1 可视化

5.6.2 预测冲突

5.6.3 指代能力

六、结论

本文提出一个统一的级联框架 NICE，用于全景叙事检测和分割。基于分割 mask 的重心提出了坐标引导聚合 Coordinate Guided Aggregation (CGA) 和重心驱动定位 Barycenter Driven Localization (BDL)。实验表明 NICE 效果很好。

写在后面

总算是一拖再拖把这篇博客写完了，期间电脑显示器还凉了，一波三折折又折。负重前行，继续加油吧

10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
509. 斐波那契数(每日一题) lzyprime
lzyprime博客(github)创建时间：2021.01.04qq及邮箱：2383518170leetcode笔记题目描述斐波那契数，通常用F(n)表示，形成的序列称为斐波那契数列。该数列由0和1开始，后面的每一项数字都是前面两项数字的和。也就是：F(0)=0，F(1)=1F(n)=F(n-1)+F(n-2)，其中n>1给你n，请计算F(n)。示例1：输入：2输出：1解释：F(2)=F(1)+
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
Day17笔记-高阶函数 ~在杰难逃~ Python 笔记 python 开发语言 pycharm 数据分析
高阶函数【重点掌握】函数的本质：函数是一个变量，函数名是一个变量名，一个函数可以作为另一个函数的参数或返回值使用如果A函数作为B函数的参数，B函数调用完成之后，会得到一个结果，则B函数被称为高阶函数常用的高阶函数：map(),reduce(),filter(),sorted()1.map()map(func,iterable)，返回值是一个iterator【容器，迭代器】func:函数iterab
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
【Git】常见命令(仅笔记) 好想有猫猫 Git Linux学习笔记 git 笔记 elasticsearch linux c++
文章目录创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用`.gitigore`文件让git不追踪一些文件标签创建/初始化本地仓库gitinit添加本地仓库配置项gitconfig-l#以列表形式显示配置项gitconfiguser.name"ljh"#配置user.namegitconfiguser.email"[email protected]
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
为什么你总是对下属不满意? ZhaoWu1050
【ZhaoWu的听课笔记】大多数公司，都存在两种问题。我创业四年，更是体会深切。这两种问题就是：老板经常不满意下属的表现；下属总是不知道老板想要什么；虽然这两种问题普遍存在，其实解决方法并不复杂。这节课，我们再聊聊第一个问题：为什么老板经常不满意下属表现?其实，这背后也是一条管理常识。管理学家德鲁克先生早就说过：管理者的任务，不是去改变人。*来自《卓有成效的管理者》只是大多数老板和我一样，都是一边
母亲节如何做小红书营销美橙传媒
小红书的一举一动引起了外界的高度关注。通过爆款笔记和流行话题，我们可以看到“干货”类型的内容在小红书中偏向实用的生活经验共享和生活指南非常受欢迎。根据运营社的分析，这种现象是由小红书用户心智和内容社区背后机制共同决定的。首先，小红书将使用“强搜索”逻辑为用户提供特定的“搜索场景”。在“我必须这样生活”中，大量使用了满足小红书站用户喜好和需求的内容。内容社区自制的高质量内容也吸引了寻找营销新途径的品
读书笔记|《遇见孩子，遇见更好的自己》5 抹茶社长
为人父母意味着放弃自己的过去，不要对以往没有实现的心愿耿耿于怀，只有这样，孩子们才能做回自己。985909803.jpg孩子在与父母保持亲密的同时更需要独立，唯有这样，孩子才会成为孩子，父母才会成其为父母。有耐心的人生往往更幸福，给孩子留点余地。认识到养儿育女是对耐心的考验。为失败做好心理准备，教会孩子控制情绪。了解自己的底线，说到底线，有一点很重要，父母之所以发脾气，真正的原因往往在于他们自己，
基于Python给出的PDF文档转Markdown文档的方法程序媛了了 python pdf 开发语言
注：网上有很多将Markdown文档转为PDF文档的方法，但是却很少有将PDF文档转为Markdown文档的方法。就算有，比如某些网站声称可以将PDF文档转为Markdown文档，尝试过，不太符合自己的要求，而且无法保证文档没有泄露风险。于是本人为了解决这个问题，借助GPT（能使用GPT镜像或者有条件直接使用GPT的，反正能调用GPT接口就行）生成Python代码来完成这个功能。笔记、代码难免存在
语文主题教学学习笔记之87 东哥杂谈
“语文主题教学”学习笔记之八十七（0125）今天继续学习小学语文主题教学的实践样态。板块三：教学中体现“书艺”味道。作为四大名著之一的《水浒传》，堪称我国文学宝库之经典。对从《水浒传》中摘选的单元，教师就要了解其原生态，即评书体特点。这也要求教师要了解一些常用的评书行话术语，然后在教学时适时地加入一些，让学生体味其文本中原有的特色。学生也要尽可能地通过朗读的方式，而不单是分析讲解的方式进行学习。细
Armv8.3 体系结构扩展--原文版代码改变世界ctw ARM-TEE-Android armv8 嵌入式 arm架构安全架构芯片 Trustzone Secureboot
快速链接:.ARMv8/ARMv9架构入门到精通-[目录]付费专栏-付费课程【购买须知】:个人博客笔记导读目录(全部)TheArmv8.3architectureextensionTheArmv8.3architectureextensionisanextensiontoArmv8.2.Itaddsmandatoryandoptionalarchitecturalfeatures.Somefeat
springboot+vue项目实战一-创建SpringBoot简单项目苹果酱0567 面试题汇总与解析 spring boot 后端 java 中间件开发语言
这段时间抽空给女朋友搭建一个个人博客，想着记录一下建站的过程，就当做笔记吧。虽然复制zjblog只要一个小时就可以搞定一个网站，或者用cms系统，三四个小时就可以做出一个前后台都有的网站，而且想做成啥样也都行。但是就是要从新做，自己做的意义不一样，更何况，俺就是专门干这个的，嘿嘿嘿要做一个网站，而且从零开始，首先呢就是技术选型了，经过一番思量决定选择-SpringBoot做后端，前端使用Vue做一
阅读《认知觉醒》读书笔记就看看书
本周阅读了周岭的《认知觉醒开启自我改变的原动力》，启发较多，故做读书笔记一则，留待学习。全书共八章，讲述了大脑、潜意识、元认知、专注力、学习力、行动力、情绪力及成本最低的成长之道。具体描述了大脑、焦虑、耐心、模糊、感性、元认知、自控力、专注力、情绪专注、学习专注、匹配、深度、关联、体系、打卡、反馈、休息、清晰、傻瓜、行动、心智宽带、单一视角、游戏心态、早起、冥想、阅读、写作、运动等相关知识点。大脑
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
Python实现下载当前年份的谷歌影像 sand&wich python 开发语言
在GIS项目和地图应用中，获取最新的地理影像数据是非常重要的。本文将介绍如何使用Python代码从Google地图自动下载当前年份的影像数据，并将其保存为高分辨率的TIFF格式文件。这个过程涉及地理坐标转换、多线程下载和图像处理。关键功能该脚本的核心功能包括：坐标转换：支持WGS-84与WebMercator投影之间转换，以及处理中国GCJ-02偏移。自动化下载：多线程下载地图瓦片，提高效率。图像
阅读笔记：阅读方法中的逻辑和转念施吉涛
聊聊一些阅读的方法论吧，别人家的读书方法刚开始想写，然后就不知道写什么了，因为作者写的非常的“精致”我有一种乡巴佬进城的感觉，看到精美的摆盘，精致的食材不知道该如何下口也就是《阅读的方法》，我们姑且来试一下强劲的大脑篇，第一节：逻辑通俗的来讲，也就是表达的排列和顺序，再进一步就是因果关系和关联实际上书已经看了大概一遍，但直到打算写一下笔记的时候，才发现作者讲的推理更多的是阅读的对象中呈现出的逻辑也
Python实现TIFF 文件转换为 PNG 和 JPG 格式 sand&wich python 开发语言
在日常的图像处理工作中，可能会遇到需要将TIFF格式的图像转换为其他格式的情况，例如PNG和JPG。下面，本文将介绍如何使用Python和GDAL库实现这一功能。准备工作在开始之前，请确保已经安装了必要的库：GDAL（GeospatialDataAbstractionLibrary）可以使用以下命令安装GDAL：pipinstallgdal代码实现以下是一个将TIFF文件转换为PNG文件的示例代码
《转介绍方法论》学习笔记小可乐的妈妈
一、高效转介绍的流程：价值观---执行----方案一）转介绍发生的背景：1、对象：谁向谁转介绍？全员营销，人人参与。①员工的激励政策、客户的转介绍诱因制作客户画像：a信任；支付能力；意愿度；便利度（根据家长具备四个特征的个数分为四类）B性格分类C职业分类D年龄性别②执行：套路，策略，方法，流程2、诱因：为什么要转介绍？认同信任；多方共赢；传递美好；零风险承诺打动人心，超越期待。选择做教育，就是选择
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分