中杯可乐多加冰

Text to image论文精读 NAAF:基于负感知注意力的图像-文本匹配框架 Negative-Aware Attention Framework for Image-Text Matching

NAAF：Negative-Aware Attention Framework for Image-Text Matching是基于负感知注意力的图文匹配，其利用匹配片段的积极影响和不匹配片段的消极影响来共同推断图像-文本的相似性，文章由中国科学技术大学和北京邮电大学学者在2022CVPR上发表。

论文地址：https://ieeexplore.ieee.org/document/9879764
代码地址：https://github.com/CrossmodalGroup/NAAF.
作者博客地址：https://www.cnblogs.com/lemonzhang/p/16456403.html

注意：这篇论文主要讨论的是图像和文本的匹配，即语义一致性的方法。不是专用于做文本生成图像的系列论文，本篇文章是阅读这篇论文的精读笔记。

一、原文摘要

图文匹配作为一项基本任务，弥合了视觉和语言之间的鸿沟。这项任务的关键是准确测量这两种模式之间的相似性。先前的工作主要基于匹配的片段（即，具有高相关性的单词/区域）来测量这种相似性，同时低估甚至忽略了不匹配的片段的影响（即，低相关性的单词或区域），例如，通过典型的LeaklyReLU或ReLU操作，该操作迫使负分数接近或精确到零。这项工作认为，不匹配的文本片段（包含丰富的不匹配线索）对图像文本匹配也至关重要。

因此，我们提出了一种新的消极意识注意框架（NAAF），该框架明确地利用匹配片段的积极影响和不匹配片段的消极影响来共同推断图像-文本的相似性。NAAF（1）精心设计了一种迭代优化方法，以最大限度地挖掘不匹配的片段，促进更具辨别力和鲁棒性的负面影响，（2）设计了双分支匹配机制，以精确计算具有不同掩码的匹配/不匹配片段的相似性/不相似性程度。在两个基准数据集（即Flickr30K和MSCOCO）上进行的大量实验证明了我们的NAAF的卓越性能，达到了最先进的性能。

二、图像-文本匹配

图像文本匹配任务定义：也称为跨模态图像文本检索，即通过某一种模态实例，在另一模态中检索语义相关的实例。例如，给定一张图像，查询与之语义对应的文本，反之亦然。具体而言，对于任意输入的文本-图像对（Image-Text Pair），图文匹配的目的是衡量图像和文本之间的语义相似程度（这也是文本生成图像中很重要的一个点）。

图片和文字由于模态的异构，存在极大的语义鸿沟。图文匹配的关键挑战在于准确学习图片和文本之间的语义对应关系，并度量它们的相似性。在现有的图像文本匹配方法中有两种范式：

第一种方法倾向于执行全局级匹配，即找到文本和整个图像之间的语义对应。他们通常将整体图像和文本投射到一个共同的潜在空间，然后匹配这两种模式。（CLIP可以被分为此类，其将图像和文本同时投影到一个计算矩阵中，计算其相似度）。
第二种范式侧重于检查局部级匹配，即图像中的显著区域和文本中的单词之间的匹配。局部级别匹配考虑了图像和文本之间的细粒度语义对应。AttnGAN的DAMSM就是基于这个原理，其将句子的图像和单词的子区域映射到一个公共语义空间，从而在单词级别测量图像-文本相似度，以计算图像生成的细粒度损失。

在局部级匹配的领域，基于注意力的匹配框架最近迅速成为主流，其关键思想是通过注意力关注来自另一模态的每个查询片段的相关片段来发现所有单词-图像区域对齐。

三、为什么提出NAAF？

显然匹配的片段（即，具有高相关性分数的单词区域对）将对最终的图像-文本相似性做出很大贡献，而不匹配片段（即具有低相关性分数的词区域对）的影响将被削弱甚至消除，例如，通过在注意力过程中迫使负分数接近或精确为零的典型LeakyReLU或ReLU。

现有的很多方法主要寻找匹配的片段，而低估或忽略了不匹配片段的影响，完全忽略了不匹配的文本片段在证明图像文本不匹配中的关键作用，将不可避免地容易产生假阳性匹配：

假阳性匹配：
包含许多匹配片段但有一些不匹配的文本片段的图像-文本对（直接表明图像-文本不匹配）仍然可以获得高相似度，并且可以正确地排在最前面，这肯定不是一个令人满意的结果，比如说下例两个男孩在一些树旁的路上踢足球：现有的方法主要寻找匹配的片段，例如“男孩”、“树”，以计算图像-文本（I-T）相似性，而不匹配的片段（例如“足球”）的影响被典型的LeaklyReLU或ReLU削弱或忽略，显然这并不是一个很优秀的匹配，但是由于他在大部分关键词上匹配得分高，其匹配结果会非常靠前，这就属于假阳性。

其主要集中于最大化匹配（即对齐）片段的效果，而低估或忽略了不匹配片段的线索作用。而合理的匹配框架应该同时考虑两个方面，即图像文本对的总体匹配分数不仅由匹配片段的积极影响决定，而且由不匹配片段的消极影响决定。可以充分的挖掘非对齐片段的负面作用，使原本检索在Top位置的错误匹配降低相似分值，对图像匹配度进行减分，如下图所示，就可以很容易消除假阳性。

因此，作者提出了一种新的负感知注意力框架，该框架首次明确考虑了正匹配和负不匹配的片段，以联合测量图像-文本的相似性。与片面关注匹配片段的传统匹配机制不同，该注意力框架可以有效地挖掘不匹配的文本片段，以进一步利用这两种类型的线索进行联合相似性推断。并使用它们准确地反映两种模式之间的差异。消极感知注意框架NAAF由两个模块组成：

设计了一种双分支匹配来解决不匹配片段的利用率不足的问题，它包含了不同掩码下的消极和积极注意，一种用于精确计算不匹配片段之间的相似度，另一种用于计算匹配片段之间相似度。分别测量精确的相似度/相异度，以联合推断整体图像-文本相似度。
提出了一种新的迭代优化方法来显式地建模和挖掘不匹配的片段。

四、NAAF

NAAF的总体框架如图所示，可以看到，首先Feature Extraction提取图像特征和文本特征（这里不再展开），然后Negative-aware Attntion使用负效应和正效应进行负意识注意以测量图像和文本的相似性，其包括两个主要模块，用于显式地利用负不匹配和正匹配的文本片段来联合推断图像-文本相似性。1.不匹配挖掘模块使失配线索产生更稳健的负面影响。2.正负双分支匹配模块精确计算两种类型片段的正面和负面影响，从而测量总体相似性。

4.1、特征提取

视觉表征：给定图像V，利用Visual Genome 预训练的FasterRCNN检测显著对象和其他区域。然后，通过预训练的ResNet-101过平均池卷积特征提取检测区域。采用全连接层将每个区域映射到1024维特征。
文本表征：给定由m个单词组成的文本U，我们将每个单词热编码为1024维向量，并嵌入预先训练的GloVe向量中，然后，向量被馈送到双向门控循环单元（BiGRU）中，以整合前向和后向上下文信息。最终的单词表示 $u_i$ 是双向隐藏状态的平均值。

4.2、Negative-aware Attntion

给定一个图像-文本对，它可能包含丰富的匹配和不匹配片段。本模块的目标就是充分利用这两类线索，以实现更准确的匹配性能。在NAAF框架中主要有两个模块：

不匹配挖掘模块：旨在通过最小化训练过程中匹配和不匹配相似性分布之间错误重叠的惩罚概率，明确建模和最大限度地挖掘不匹配片段。
正负双分支匹配模块：旨在通过设计的两个分支匹配，即负和正注意分支，精确计算负失配和正匹配的影响，以共同推断相似性。

1️⃣：不匹配挖掘模块

不匹配挖掘模块期望显式地和自适应地建模失配和匹配片段的相似性分布，旨在最大限度地分离它们，以实现有效的不匹配片段挖掘。

为此，在训练过程中，对于不匹配和匹配的单词区域片段对，首先对它们的相似度进行采样：

$\begin{aligned} S_{k}^{-} &=\left[s_{1}^{-}, s_{2}^{-}, s_{3}^{-}, \ldots, s_{i}^{-}, \ldots\right] \\ S_{k}^{+} &=\left[s_{1}^{+}, s_{2}^{+}, s_{3}^{+}, \ldots, s_{i}^{+}, \ldots\right] \end{aligned}$
其中S-表示不匹配区域-单词的相似度分数，S+表示匹配区域-单词的相似度分数。

基于构造出的两个集合，可以分别建立匹配片段和不匹配片段的相似度分数s的概率分布模型：

分布模型公式表示为： $f_{k}^{-}(s)=\frac{1}{\sigma_{k}^{-} \sqrt{2 \pi}} e^{\left[-\frac{\left(s-\mu_{k}^{-}\right)^{2}}{2\left(\sigma_{k}^{-}\right)^{2}}\right]}, f_{k}^{+}(s)=\frac{1}{\sigma_{k}^{+} \sqrt{2 \pi}} e^{\left[-\frac{\left(s-\mu_{k}^{+}\right)^{2}}{2\left(\sigma_{k}^{+}\right)^{2}}\right]}$
其中（µ−k，σ−k）和（µ+k，σ+k）分别是两种分布的平均值和标准差:

分别得到两个相似度分布建模后，可以用一个显式的边界t在匹配片段和不匹配片段之间进行区分，如图所示，相似度分数大于 $t_k$ 的区域-单词对被视为匹配片段，反之则为不匹配片段,但是不可避免的就会出现两种误判：将实际上不匹配的片段区分为匹配的和将实际上匹配的片段误认为是不匹配的。而此模块的目的是最大限度的挖掘出不匹配片段，找出一个最优的边界t，使得区分错误的概率最低，保证识别的准确性，即解决如下优化问题：

$\begin{array}{ll} \min _{t} & \alpha \int_{t}^{+\infty} f_{k}^{-}(s) d s+\int_{-\infty}^{t} f_{k}^{+}(s) d s, \\ \text { s.t. } & t \geq 0 \end{array}$
其中t是该问题的决策变量，α是惩罚参数。

对于该问题的最优解求解，我们首先搜索它的一阶导数的零点，并根据可行域的约束条件在(t ≥ 0)处截断，得到最优解为：
$\begin{array}{c} t_{k}=\left[\left(\left(\beta_{2}^{k^{2}}-4 \beta_{1}^{k} \beta_{3}^{k}\right)^{\frac{1}{2}}-\beta_{2}^{k}\right) /\left(2 \beta_{1}^{k}\right)\right]_{+} \\ \text {其中} \beta_{1}^{k}=\left(\sigma_{k}^{+}\right)^{2}-\left(\sigma_{k}^{-}\right)^{2}, \beta_{2}^{k}=2\left(\mu_{k}^{+} \sigma_{k}^{-2}-\mu_{k}^{-} \sigma_{k}^{+2}\right), \text { } \beta_{3}^{k}=\left(\sigma_{k}^{+} \mu_{k}^{-}\right)^{2}-\left(\sigma_{k}^{-} \mu_{k}^{+}\right)^{2}+2\left(\sigma_{k}^{+} \sigma_{k}^{-}\right)^{2} \ln \frac{\sigma_{k}^{-}}{\alpha \sigma_{k}^{+}} . \end{array}$

2️⃣:正负双分支匹配模块

双分支框架可以同时关注图像-文本对中不匹配和匹配的片段，方法是使用不同的注意力掩码分别精确测量它们在负注意力和正注意力中的影响。

具体地说，首先计算所有单词和区域之间的语义相关性得分为:

$s_{i j}=\frac{u_{i} v_{j}^{\mathrm{T}}}{\left\|u_{i}\right\|\left\|v_{j}\right\|}, i \in[1, m], j \in[1, n]$ ，这里原理与AttnGAN中的DAMSM类似。

然后使用不同的注意力掩码双线计算：

负注意力分支：这一模块的目标是准确有效地利用不匹配的片段，使它们有价值地降低不匹配图像-文本对的整体相似性。分支依然从文本的角度出发，计算一个文本单词和一个图像所有区域的相似度与区分边界 $t_k$ 的差,其中的最大值体现了这个片段是匹配还是不匹配的程度: $s_{i}=\max _{j}\left(\left\{s_{i j}-t_{k}\right\}_{j=1}^{n}\right)$ ,由此，可以衡量出一个图像文本对中第个单词所带来的负面作用为： $s_{i}^{\text {neg }}=s_{i} \odot \operatorname{Mask}_{\text {neg }}\left(s_{i}\right)$ ,其中 $Mask_{neg}(⋅)$ 为掩码函数，当输入为负数时输出为1，否则为0。同时，考虑到单词在文本内的语义内关系，使语义相似的单词获得相同的匹配关系，在推理过程中，对每个单词的匹配程度进行一次模态内传播： $\hat{s}_{i}=\sum_{l=1}^{m} w_{i l}^{i n t r a} s_{l} \text {, s.t. } w_{i l}^{i n t r a}=\operatorname{softmax}_{\lambda}\left(\left\{\frac{u_{i} u_{l}^{\mathrm{T}}}{\left\|u_{i}\right\|\left\|u_{l}\right\|}\right\}_{l=1}^{m}\right)$ ,其中 $w^{intra}_{il}$ 表示第i个和第l个单词之间的语义关系，λ是比例因子。
正注意力分支：该分支旨在测量图像-文本对的相似程度，首先关注跨模态的共享语义，第i个单词在图像中相关的共享语义可以被聚合为： $w_{i j}^{i n t e r}=\operatorname{softmax}_{\lambda}\left(\left\{\operatorname{Mask}_{\text {pos }}\left(s_{i j}-t_{k}\right)\right\}_{j=1}^{n}\right)$ ,其中 $Mask_{pos}(⋅)$ 为掩码函数，当输入为正数时输出与输入相等，否则输出 $- \infty$ ，这样使得不相关的图像区域的注意力权重被削减至0，由此，片段的相似度分数为 $s_{i}^{f}=u_{i} \hat{v}_{i}^{\mathrm{T}} /\left(\left\|u_{i}\right\|\left\|\hat{v}_{i}\right\|\right)$ ，另外，区域与单词间的相关度分数也反应了图文间的相似程度，故作者还根据单词的相应相关性得分计算加权相似度： $s_{i}^{r}=\sum_{j=1}^{n} w_{i j}^{r e l e v} s_{i j}$ 其中, $w_{i j}^{r e l e v}=\operatorname{softmax}_{\lambda}\left(\left\{\bar{s}_{i j}\right\}_{j=1}^{n}\right), \bar{s}_{i j}=\left[s_{i j}\right]+/ \sqrt{\sum_{i=1}^{m}\left[s_{i j}\right]_{+}^{2}}$ ,因此，一个图像文本对中第个单词所带来的正面作用为： $s_{i}^{\text {pos }}=s_{i}^{f}+s_{i}^{r}$ 。

最终，图像文本对 (U,V)的相似度由正面作用和负面作用共同决定： $V)=\frac{1}{m} \sum_{i=1}^{m}\left(s_{i}^{\text {neg }}+s_{i}^{\text {pos }}\right)$

4.3、采样和更新策略

对于对齐的单词，在正确的图像中至少有一个匹配区域。因此对单词 $u_i$ ，图像区域{ $v^+_j$ } $^n_{j＝1}$ 之间的最大相似性进行采样： $s_{i}^{+}=\max _{j}\left(\left\{v_{j}^{+} u_{i}^{\mathrm{T}} /\left(\left\|v_{j}^{+}\right\|\left\|u_{i}\right\|\right)\right\}_{j=1}^{n}\right)$ 。
对于未对齐的单词，不正确图像中的所有区域都与其不匹配。因此对单词 $u_i$ ，图像区域{ $v^+_j$ } $^n_{j＝1}$ ，对其采样为： $s_{i}^{-}=\max _{j}\left(\left\{v_{j}^{-} u_{i}^{\mathrm{T}} /\left(\left\|v_{j}^{-}\right\|\left\|u_{i}\right\|\right)\right\}_{j=1}^{n}\right),$

此外，为了对精确的伪词区域相似性标签进行采样，作者基于计算的相似度排名的正确性设计来决定是否更新 $s^+_i$ 和 $s^−_i$ 。

4.4、损失函数

本文中用于端到端训练的目标函数是双向三元组排序损失,损失函数如下：

$L=\sum_{(U, V)}\left[\gamma-S(U, V)+S\left(U, V^{\prime}\right)\right]_{+}+\left[\gamma-S(U, V)+S\left(U^{\prime}, V\right)\right]_{+}$

其中： (U, V )表示成功匹配的图像和匹配的文本，(U, V′)和(U′, V )表示未成功匹配的图像和文本。

五、实验

5.1、实验设置

1️⃣数据集：Flickr30K总共有31000张图片和155000个句子，其被分成1000张测试图像、1000张验证图像和29000张训练图像。MS-COCO包含123287张图像和616435个句子，将其分为5000张测试图像、5000张验证图像和113287张训练图像。

2️⃣评估指标：Recall(R@K，K＝1，5，10）和rSum。R@K表示检索到的前K个列表中的地面真相的百分比。rSum是所有R@K在图像到文本和文本到图像中，反映了整体匹配性能。

3️⃣实现细节：显卡为RTX 3090Ti GPU，优化器为Adam，初始学习率为0.0005，每10个周期衰减10%。Flickr30K和MSCOCO的最小批量大小分别设置为128和256，两个数据集上都有20个epoches，特征尺寸d被设置为1024。λ设置为20，α设置为2.0，γ设置0.2。

5.2、实验结果

定量指标：

可视化最优阈值学习过程：

不匹配线索挖掘对比（蓝色为不匹配）：

六、总结

这项工作的主要贡献总结如下。

1）提出了一种新颖的双分支匹配模块，该模块联合利用不匹配和匹配的文本片段进行精确的图像文本匹配。与传统的关注不同，该方法可以同时关注失配和匹配片段，以明确地利用它们的负面和正面影响。双分支匹配机制能够分别测量精确的相似度/相异度，以联合推断整体图像-文本相似度。

2）我们提出了一种新的具有负挖掘策略的迭代优化方法，该方法可以以最大限度地挖掘负面失配片段，明确地驱动不匹配片段的更多负面影响，并从理论上保证挖掘的准确性，产生更全面和可解释的图像-文本相似性度量。

3）在Flickr30K和MS-COCO两个基准上进行的大量实验表明，NAAF的表现优于比较方法。分析也充分证明了我们方法的优越性和合理性。

最后

我们已经建立了T2I研学社群，如果你对本文还有其他疑问或者对文本生成图像/文本生成3D方向很感兴趣，可以点击下方链接或者私信我加入社群。

加入社群抱团学习：中杯可乐多加冰-采苓AI研习社

限时免费订阅：文本生成图像T2I专栏

支持我：点赞+收藏⭐️+留言

【Grafana】Prometheus指标可视化Grafana，手把手教你如何自定义图形景天科技苑 grafana prometheus prometheus可视化 grafana自定义图形手撕grafana 自定义监控图形
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，前后端开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，云原生k8s，Prometheu
Lightroom Classic 教程，如何在 Lightroom 中增强照片的孤立区域？ Mac123123
欢迎观看LightroomClassic中文版教程，小编带大家学习LightroomClassic的基本工具和使用技巧，了解如何在Lightroom中增强照片的孤立区域，对照片的一部分进行处理以完善它。打开LightroomClassic，在「图库」模块中选择照片。除了可以对整张照片进行更改外，还可以使用Lightroom的「局部调整」工具轻松增强图像中的选定区域。选择「修改照片」模块，降低「曝光
ABP VNext + Kubernetes & Istio：微服务网格实战指南
ABPVNext+Kubernetes&Istio：微服务网格实战指南目录ABPVNext+Kubernetes&Istio：微服务网格实战指南一、引言二、环境与依赖️三、项目与基础部署3.1生成Kubernetes资源3.2构建Docker镜像3.3HelmChart目录结构与参数注入四、安装Istio&定义入口五、Mermaid全链路流程概览六、将服务注入IstioMesh七、流量管理与金丝雀
渗透攻击红队百科全书绝不原创的飞龙渗透
据说原始扫描件有病毒，我就解析Xref提取图片然后重新生成了一份。我也拿不到纸质书，根据网上流传的版本加工了一下，不清楚是肯定的。其他的不说了，懂的都懂。目录第一章信息搜集1.1主机发现1.2关联信息生成1.3开放漏洞情报1.4开源情报信息搜集(OSINT)1.5GithubHacking1.6GoogleHacking1.7Gitlcret1.8Mailsniper.psl获取Outlook所有
SpringBoot单元测试全攻略：MockMVC+Testcontainers+覆盖率分析 fanxbl957 Web spring boot 单元测试后端
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot单元测试全攻略：
给画作加层 “隐身衣”：Glaze 如何让 AI 图生图模仿术失效？我再也不搞抽象了信息隐藏与数字水印人工智能机器学习深度学习
你可能听说过这样的新闻：AI生成的画作赢了艺术大奖，AI模仿某位插画师的风格批量“创作”，甚至有平台直接提供“一键模仿艺术家风格”的服务。但对职业艺术家来说，这不是科幻故事，而是生存危机。芝加哥大学的研究显示，97%的艺术家认为AI风格模仿会降低他们的职业安全感，88%认为这会劝退艺术新生，70%担忧创造力会被削弱。更扎心的是，77%的艺术家承认，AI模仿自己风格的作品“成功率高得惊人”——这些模
AI作画：AI人工智能激发艺术创作灵感 AGI大模型与大数据研究院 AI作画人工智能 ai
AI作画：AI人工智能激发艺术创作灵感关键词：AI作画、生成艺术、深度学习、神经网络、艺术创作、人工智能、创意工具摘要：本文深入探讨AI作画技术如何激发艺术创作灵感。我们将从基础概念出发，解释AI如何"学习"艺术风格并生成新作品，分析核心技术原理，提供实际应用案例，并展望这一领域的未来发展趋势。通过通俗易懂的讲解和实际代码示例，帮助读者理解这项融合科技与艺术的创新技术。背景介绍目的和范围本文旨在向
从0到1解析微信推客小程序源码与实现指南开发加微信：hedian116 微信小程序架构
一、什么是微信推客小程序微信推客小程序是一种基于微信生态系统的社交电商工具，它允许用户通过分享商品链接或小程序页面来推广商品，并在交易成功后获得相应佣金。这类小程序通常包含商品展示、分享功能、订单跟踪和佣金结算等核心模块。二、推客小程序的核心功能模块用户系统：微信授权登录用户身份识别（普通用户/推客）个人信息管理商品展示模块：商品分类浏览商品详情页搜索功能推广功能：生成专属推广链接分享到微信好友/
Rust 开发环境搭建与插件 pumpkin84514 rust rust 开发语言后端
生成完整文章用户请求写一篇完整的CSDN文章，要求根据之前的建议生成。文章要包含结构清晰、标题、代码示例、常见提示、跨平台Rust工具链安装差异等内容。文章需准确，包括插件和使用提示，CLI程序示例等。主要内容包括：介绍、Rust工具链安装（Windows/macOS/Linux差异）、VSCode安装与扩展列表、扩展细节与使用、开发者常见提示（如rust-analyzer功能、crate使用等）
网页源码保护助手海洋网页在线加密：HTML 源码防复制篡改，密文安全如铜墙铁壁小瑞软件库开源软件软件构建电脑
各位网页开发的大神们！今天给你们介绍个超厉害的东西——海洋网页在线加密，软件下载地址安装包它就是专门给咱网页开发者量身打造的代码保护神器啊！它的核心功能就是给HTML源码加密，能防止别人在咱没同意的情况下复制或者篡改代码内容。咱用户呢，直接把网页源代码复制到软件界面就行，然后它通过自动化加密流程，就能生成一堆谁也看不懂的密文。而且啊，它还支持把密文保存成TXT文件，或者直接嵌入到新网页里。这软件还
《调色师手册：电影和视频调色专业技法（第2版）》——布置调色工作间
本节书摘来自异步社区《调色师手册：电影和视频调色专业技法（第2版）》一书中的第2章，布置调色工作间，作者【美】AlexisVanHurkman（阿列克谢·凡·赫克曼），译者高铭，陈华，更多章节内容可以访问云栖社区“异步社区”公众号查看。布置调色工作间观众观看节目所处的观影环境对于图像视觉效果的影响几乎与监视器质量带来的影响一样大。另一方面，你所使用的监视器种类也决定了你需要怎样布置房间。如果你在对
从文本到语音：使用 ElevenLabs 和 FFmpeg 实现语音合成与播放曦紫沐语音模型 ffmpeg ElevenLabs 语音合成
摘要在当今的人工智能时代，语音合成技术正变得越来越普及。ElevenLabs是一个强大的语音合成平台，能够生成高质量的语音音频。本文将详细介绍如何结合Python、ElevenLabsAPI和FFmpeg工具集，实现从文本到语音的转换，并通过ffplay播放生成的音频文件。同时，我们将解决常见的问题，如ffplay未找到或音频无法播放等。1.引言随着人工智能技术的发展，语音合成（Text-to-S
开源模型应用落地-全能音频新纪元-Kimi-Audio-7B-Instruct-重塑多模态交互边界开源技术探险家开源模型-实际应用落地开源音视频 AIGC agi
一、前言在AI技术持续突破的2025年，音频交互正从单一任务处理迈向全场景融合的新阶段。4月27日，月之暗面（MoonshotAI）开源的Kimi-Audio-7B-Instruct，以“全能音频通才”之姿，为这一进程树立了里程碑式标杆。这款基于70亿参数架构的模型，首次在单一框架内整合语音识别（ASR）、情感分析（SER）、跨语言对话、语音生成（TTS）等十余项任务，并通过12.5Hz混合标记器
DK遇见未来：机器人祖爸
人工智能、AI、机械设计、BigData……这些听起来就很高端的专业究竟是什么？这些前沿学科相遇又会碰撞出什么？机器人，将这些前沿领域结合在一起越来越多的融入到我们的工作与生活中可问题来了机器人究竟是什么呢？又该如何给孩子讲机器人呢？这本《DK遇见未来：机器人》完美解决您的烦恼最新数据、系统知识、精美插图可以说这是一本儿童机器人大百科让孩子在这里遇见未来在讲读版视频中与您共同思考未来社会中机器人与
ORACLE 11g 使用ROWNUM完美解决ORA-00600 内部错误代码有点智慧
分享一下我老师大神的人工智能教程！零基础，通俗易懂！http://blog.csdn.net/jiangjunshow也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！1，ORA-00600：内部错误代码Oracle从11.2.0.1升级到11.2.0.4，开发人员报告说一个job运行失败，调试有报错信息，ORA-00600:内部错误代码，参数：[rwoirw:checkret
Kimi-Audio：最佳音LLM, 如何免费使用 Kimi-Audio AI 模型？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 kimi
简介继DeepSeek之后，字节跳动（现名MoonShotAI，又名Kimi）也在生成式人工智能领域加速发展，并发布了自己的音频模型Kimi-Audio，据说是迄今为止最好的音频模型。推荐文章《NvidiaGPU入门教程之02ubuntu安装A100显卡驱动(含8步快速浓缩教程)》权重2，安装A100显卡驱动《本地大模型知识库OpenWebUI系列之如何解决知识库上传文件故障Extractedco
Python就业薪资好不好，学Python工作机会多吗？ Python小辰
Python就业薪资好不好？学Python工作机会多吗？人工智能时代的来临让Python崭露头角，各大企业纷纷加大对相关人才的招聘力度吸引了很多人入行学习Python。近年来Python开发发展迅猛，吸引了很多科技公司入驻，且看小编的分析。Python薪资好不好?数据是最有力的答案。职友集统计数据显示，全国Python工程师的平均月资达19160，其中20-30K的工程师数量超过了四成。来自智联招
前端——HTML 哪里不会点哪里. 前端 html 前端
目录HTML简介HTML基本框架JavaScript内嵌JavaScript外引JavaScriptCSS内部样式外部样式HTML简介HTML的全称为超文本标记语言，是一种标记语言。它包括一系列标签，通过这些标签可以将网络上的文档格式统一，使分散的Internet资源连接为一个逻辑整体。HTML文本是由HTML命令组成的描述性文本，HTML命令可以说明文字，图形、动画、声音、表格、链接等。超文本是
Jetson平台编译Tengine space01 AIoT Jetson 人工智能深度学习计算机视觉
1.Tengine简介Tengine于2017年在GitHub（https://github.com/OAID/Tengine）开源，是OPENAILAB（开放智能）推出的自主知识产权的边缘AI计算框架，致力于解决AIoT产业链碎片化问题，加速AI产业化落地。Tengine兼容多种操作系统和深度学习算法框架，简化和加速面向场景的AI算法在嵌入式边缘设备上快速迁移，以及实际应用部署落地，可以十倍提升
函数对象 tal0n
函数对象是STL库提供的除了迭代器，迭代器配接器以外的另外一种概念。简单来说：函数对象提供了一种方法，将要调用的函数与准备传递给这个函数的隐藏参数捆绑在一起。即：该对象实现了operator()的同时还提供了部分执行时的上下文环境。下面我们通过例子来详细看下函数对象。例子STL中有一个find_if的算法实现，他的参数包括：一组表示范围的迭代器，一个用于生成bool类型值的判断式。例如我们需要在一
spring中spring-boot-configuration-processor的使用七七&556 面试学习路线阿里巴巴 spring java 后端
spring-boot-configuration-processor是SpringBoot提供的注解处理器，用于在编译阶段生成配置元数据文件（spring-configuration-metadata.json），从而优化开发体验。以下是其核心功能和使用指南：一、核心功能IDE智能提示为自定义的配置类（使用@ConfigurationProperties）生成元数据，使得在application
机器人-组成结构-感知 - 决策 - 执行具身智能-查布嘎具身智能机器人人工智能
目录一、感知系统内部传感器：外部传感器：二、智能决策系统机器学习家族1.1机器学习2.1深度学习2.2深度学习模型(主要属于监督/强化学习范畴，但结构通用)：3.1监督学习3.2监督学习模型4.1半监督学习4.2无/半监督学习模型：5.1无监督学习5.2生成模型(可属于监督/无监督)：6.1强化学习7.1其他学习三、控制系统（运控）①对应小脑和脊柱一、感知系统①对应人体的五官。由具有不同功能的各种
深度学习篇---矩阵 Atticus-Orion 嵌入式知识篇上位机知识篇嵌入式硬件篇深度学习矩阵人工智能
在机械臂解算、深度学习网络等硬件和软件领域中，矩阵运算作为核心数学工具，承担着数据表示、变换、映射和优化的关键作用。以下从具体领域出发，详细总结涉及的矩阵运算及对应的核心知识：一、机械臂解算领域机械臂解算（运动学、动力学分析）的核心是描述“关节空间”与“操作空间”的映射关系，矩阵运算用于精准刻画坐标系转换、运动传递和力/力矩分析。1.运动学解算（正/逆运动学）核心目标：通过矩阵描述关节角度与末端执
飞算JavaAI：力臻开发之本真，破 AI 代码之繁琐，传统项目一键生成微学AI 人工智能 java javaAI
飞算JavaAI：力臻开发之本真，破AI代码之繁琐，传统项目一键生成文章目录飞算JavaAI：力臻开发之本真，破AI代码之繁琐，传统项目一键生成一、前言二、飞算JavaAI是什么？2.1背景与实力2.2飞算JavaAI的“独门绝技”三、飞算JavaAI实战体验3.1IDEA插件安装配置3.2Main中写一个简单的梯度下降算法3.3main函数搭建一个卷积神经网络网络3.4飞算JavaAI：需求分析
OCR 识别：综合信息采集仪的 “核心引擎” EkihzniY ocr
综合信息采集仪作为多场景信息收集的重要设备，需处理身份证、营业执照、票据等多种载体的信息。传统采集依赖人工录入，面对海量且格式多样的资料，不仅效率低下，还易因人为失误导致信息偏差。OCR识别技术让综合信息采集仪实现质的飞跃。它能快速精准提取各类证件、票据上的文字信息，自动转化为结构化数据存入系统，几秒内完成单份资料的信息采集，效率较人工提升数十倍。无论是模糊的扫描件、复杂的多语种文本，还是不规则的
.NET CORE 分布式事务(四) CAP实现最终一致性精神小伙就是猛 .netcore 分布式架构微服务
目录引言：1.0最终一致性介绍2.0CAP2.0架构预览3.0.NETCORE结合CAP实现最终一致性分布式事务3.1准备工作(数据库，本文使用的是MySql)3.1.1数据模型3.1.2DbContext3.1.3数据库最终生成3.2Nuget引入3.3appsettings.json3.4docker启动一个RabbitMQ3.5Program.cs3.6用户1API控制器3.7用户2API控
AI驱动的电路仿真革命：从物理模型到智能学习的范式转移
AI驱动的电路仿真革命：从物理模型到智能学习的范式转移人工智能正颠覆传统电路仿真方法，本文将深入解析AI在电路建模、优化与故障诊断中的前沿应用，揭示智能仿真如何提升10倍效率并突破物理限制。一、AI电路仿真的数学基础1.1图神经网络建模电路拓扑电路可抽象为图结构G=(V,E)G=(V,E)G=(V,E)：VVV：节点（电子元件）EEE：边（连接关系）图卷积网络(GCN)更新公式：H(l+1)=σ(
MCP协议技术解析：AI时代的通信基础设施革命
MCP协议技术解析：AI时代的通信基础设施革命在AI从工具演变为协作伙伴的进程中，MCP协议正在成为连接智能体与现实世界的“数字神经系统”。当前人工智能技术正经历从孤立模型向生态系统协作的关键转型，而通信协议作为AI能力的“连接器”，其设计直接决定了智能系统的边界与效率。MCP协议（ModelContextProtocol）作为新一代AI通信基础设施，正在开发者社区引发一场静默革命。本文将从技术原
GENERALIST REWARD MODELS: FOUND INSIDE LARGELANGUAGE MODELS 樱花的浪漫大模型与智能体对抗生成网络与动作识别强化学习语言模型人工智能自然语言处理深度学习机器学习计算机视觉
GeneralistRewardModels:FoundInsideLargeLanguageModelshttps://arxiv.org/pdf/2506.232351.概述将大型语言模型（LLMs）与复杂的人类价值观（如乐于助人和诚实）对齐，仍然是人工智能发展中的一个核心挑战。这项任务的主要范式是来自人类反馈的强化学习（RLHF）[Christianoetal.,2017;Baietal.,
Python正则表达式
正则表达式是文本处理的强大工具，本文将系统全面地介绍正则表达式的所有知识点，结合Python的re模块，帮助读者从零开始掌握正则表达式的使用。1.正则表达式基础概念1.1什么是正则表达式？正则表达式（RegularExpression，简称regex或RE）是一种用于描述字符串匹配规则的表达式，它并不是Python特有的，而是计算机科学中的一个通用概念。核心功能：验证：检查字符串是否符合特定格式（
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默