安静到无声

图像描述文献阅读（1）Comprehending and Ordering Semantics for Image Captioning

1. 摘要

理解图像中丰富的语义并按语言顺序排序，对于为图像标题编写一个有视觉基础的、语言上连贯的描述至关重要。现代技术通常利用预先训练好的物体检测器/分类器来挖掘图像中的语义，而对语义的内在语言排序却没有充分开发。在本文中，作者基于Transformer提出了一种新方法COS-Net，将语义理解和排序过程统一到新的框架内。首先利用一个跨模态的检索模型搜索每个图像相关的句子，并将搜索到的句子中的所用单词作为主要语义线索。接下来，我们设计了一个新的语义编译器来过滤掉主要语义线索中的不相关的语义词，同时推断出图像中缺少的相关语义词的视觉基础。然后，我们将所有筛选和丰富的语义词输入到一个语义排名器中，该排名器学习像人类一样按照语言顺序分配所有语义词。这种有序的语义词序列与图像的视觉标记进一步整合，从而触发句子生成。这种有序的语义词序列与图像的视觉标记进一步整合，从而触发句子生成。

2. 概述

文章主要出发点是将语义理解和词汇排列统一到一个框架内，使其能够被共同优化，以更好地对句子进行解码，其主要过程如下：

首先将现成的CLIP作为跨模式检索模型，为输入图像检索语义相似的句子，如上图b的情况所示。
其次，基于CLIP中图像编码器输出网格特征，利用视觉编码器通过自注意机制将每个网格特征上下文编码为视觉标记。
语义理解器（semantic comprehender）以初级语义线索和视觉表征为输入，过滤掉初级语义线索中不相关的语义词（例如过滤掉Woman,walking），同时通过交叉注意机制重建缺失的相关语义词（如lot cow等）
语义排序器（semantic ranker）通过更新每个语义词的编码，使其在语言学上的位置得到估计，从而学会将所有精炼的语义词分配到合适的顺序。
最后，视觉标记和有序语义词都通过注意力机制动态地整合起来，从而对输出句子进行逐字解码（encode）。

总结来讲，COS-Net利用transformer风格构造了大多数模块（如visual encoder, sentence decoder, and semantic comprehender），所以可以认为是基于transformer的编码器-解码器方案。

3. 方法细节

总体来讲，该方法主要有视觉内容编码；语义理解；语义排序和句子解码四部分组成。实现如图1所示：

3.1 视觉内容编码

作者利用多个堆叠的Transformer，将是视觉内容编码为中间视觉标记。输入图像为 $I$ ，作者利用CLIP提取图像的网格特 $\mathcal{V}_I=\left.\mathbf{v}_i\right|_{i=1} ^{N_I}$ ，其中 $N_I$ 是网格数，并结合全局的特征 $v_c$ ，然后我们将全局特征和网格特征转化为新的嵌入空间（ embedding space），然后级联得到 $\mathcal{V}_I^{(0)}=\left[\mathbf{v}_c^{(0)},\left.\mathbf{v}_i^{(0)}\right|_{i=1} ^{N_I}\right]$ ，然后利用视觉编码器对得到的全局和网格特征 $\mathcal{V}_I^{(0)}$ 进行上下文的编码，从而得到丰富的视觉标记 $\mathcal{V}_I^{\left(N_v\right)}=\left[\mathbf{v}_c^{\left(N_v\right)},\left.\mathbf{v}_i^{\left(N_v\right)}\right|_{i=1} ^{N_I}\right]$ ，具体说作者是通过多个 $N_v$ Transformer blocks和多头注意力机制形成的。以第 $i$ 个Transformer block为例，操作过程如下（公式1）：
$\begin{aligned} &\mathcal{V}_I^{(i+1)}=\mathcal{F}\left(\operatorname{norm}\left(\mathcal{V}_I^{(i)}+\operatorname{MultiHead}\left(\mathcal{V}_I^{(i)}, \mathcal{V}_I^{(i)}, \mathcal{V}_I^{(i)}\right)\right)\right) \\ &\text { MultiHead }_I(\mathbf{Q}, \mathbf{K}, \mathbf{V})=\operatorname{Concat}\left(h e a d_1, \ldots, \text { head }{ }_h\right) W^O \\ &\text { head }_i=\operatorname{Attention}\left(\mathbf{Q} W_i^Q, \mathbf{K} W_i^K, \mathbf{V} W_i^V\right) \\ &\text { Attention }(\mathbf{Q}, \mathbf{K}, \mathbf{V})=\operatorname{softmax}\left(\frac{\mathbf{Q} \mathbf{K}^T}{\sqrt{d}}\right) \mathbf{V} \end{aligned}$ 其中 $\mathcal{F}$ 代表前向传播层， $\operatorname{norm}$ 代表了层归一化， $W_i^Q, W_i^K, W_i^V, W^O$ 是权重标准， $d$ 为缩放因子。同时，为了使层间全局特性交互，我们额外连接了来自所有Transformer块的输出全局特性，这些输出全局特性进一步转换为整体全局特性:
$\tilde{\mathbf{v}}_c=W_c\left[\mathbf{v}_c^{(0)}, \mathbf{v}_c^{(1)}, \ldots, \mathbf{v}_c^{\left(N_v\right)}\right]$ $W_c$ 是权重矩阵，最后将视觉编码器编码的网格特征与全局特征 $\tilde{\mathbf{v}}$ 相结合，我们获得了最终的输出视觉标记 $\tilde{\mathcal{V}}_I=\left[\tilde{\mathbf{v}}_c,\left.\mathbf{v}_i^{\left(N_v\right)}\right|_{i=1} ^{N_I}\right]$

3.2 语义理解

为了解当前图像生成字幕，主要依赖于预定义的语义/类别标签的限制，这使得难以自适应地调整对象检测器/分类器来更好地强调输出句子中值得提及的显著语义。本研究，作者提出利用不同和大规模数据训练的现成CLIP作为一种强大的跨模态检索模型，它直接积累更多的语义候选词，这些词往往在视觉上相似的图像中被提及。本文基于跨模态检索挖掘到的主要语义线索，设计了一种新的语义理解器，它可以筛选出不相关的语义词，同时推断缺失的相关语义词，实现全面、准确的语义理解。

作者利用跨模态检索模型(CLIP)为每个输入图像在训练句子池中搜索语义相关的句子。 $v_c$ 和 $s_c$ 是CLIP在输入图像 $I$ 和句子 $S$ 时图像编码器(image encoder)和文本编码器(image encoder)输出的视觉特征和文本特征。作者通过输入图像 $I$ 进行搜索查询，并在检索到K个最相关的句子 $\mathcal{S}_{r}=\left\{\mathcal{S}_{r_1}, \mathcal{S}_{r_2}, \ldots, \mathcal{S}_{r_K}\right\}$ ，公式实现如下：
$\operatorname{Similarity}\left(I, \mathcal{S}_{r_k}\right)=\frac{\mathbf{v}_c \cdot \mathbf{s}_{r_k}^c}{\left\|\mathbf{v}_c\right\|\left\|\mathbf{s}_{r_k}^c\right\|}$ 其中，其中 $\mathbf{s}_{r_k}^c$ 是标题 $\mathbf{s}_{r_k}$ 的文本特征。在获得k个标题之后，去掉停止词，将其分解 $\mathcal{V}_s=\left.\mathbf{s}_i\right|_{i=1} ^{N_r}$ 个语义单词。

文章将语义的筛选和丰富的过程公式化为一个集合预测的问题，该问题将主要语义线索 $\mathcal{V}_s=\left.\mathbf{s}_i\right|_{i=1} ^{N_r}$ 转化为以视觉标记 $\tilde{\mathcal{V}}_I$ 为条件的精炼语义预测。为了，能够重建缺失的关键词，作者用附加的参数语义查询(即一组 $\mathcal{O}=\left.\mathbf{o}_i^{(0)}\right|_{i=1} ^{N_o}$ )来增加主要语义线索 $\tilde{\mathcal{V}}_I$ 的输入，其目的是为了丰富语义词的集合预测。这里作者堆叠了 $N_s$ 个 Transformer blocks。每个block自注意机制对输入的每一个语义词(即语义标记)进行上下文编码，并通过利用它们与 $\tilde{\mathcal{V}}_I$ 之间的交互来进一步增强语义标记，其流程表述如下：
$\begin{aligned} \mathcal{V}_s^{(i+1)} &=\mathcal{F}\left(\operatorname{norm}\left(\mathcal{V}_s^{\prime}+\operatorname{MultiHead}\left(\mathcal{V}_s^{\prime}, \tilde{\mathcal{V}}_I, \tilde{\mathcal{V}}_I\right)\right)\right) \\ \mathcal{V}_s^{\prime} &=\operatorname{norm}\left(\mathcal{V}_s^{(i)}+\operatorname{MultiHead}\left(\mathcal{V}_s^{(i)}, \mathcal{V}_s^{(i)}, \mathcal{V}_s^{(i)}\right)\right) \end{aligned}$
其中 $\mathcal{V}_s^{(i+1)}$ 表示第 $i$ 个Transformer block的输出增强语义标记。因此，最终输出语义理解器的语义标记记为 $\mathcal{V}_s^{\left(N_s\right)}=\left[\left.\mathbf{O}_i^{\left(N_s\right)}\right|_{i=1} ^{N_o},\left.\mathbf{s}_i^{\left(N_s\right)}\right|_{i=1} ^{N_r}\right]$ ，用于预测精炼和重构的语义单词。

在训练时，作者引入了一个代理目标，主要是过滤掉主要语义词中不相关的语义词并重建缺乏的相关语义词，进而优化语义理解器。作者将这个问题表述为单标签和多标签分类组合问题。以语义理解器 $\mathcal{V}_s^{\left(N_s\right)}=\left[\left.\mathbf{O}_i^{\left(N_s\right)}\right|_{i=1} ^{N_o},\left.\mathbf{s}_i^{\left(N_s\right)}\right|_{i=1} ^{N_r}\right]$ 的输出语义标记为条件，利用预测层来估计每个语义标记在整个语义词汇上的概率分布，从而产生语义预测 $\mathcal{P}_s=\left[\left.P_{o_i}\right|_{i=1}^{N_o},\left.P_{s_i}\right|_{i=1} ^{N_r}\right]$ 。需要说明的是语义词汇是由训练集 $N_c$ 个语义词，加上一个表示表示无关语义词的特殊标记构成的。所以，用于预测主要语义线索中第 $i$ 个语义标记 $P_{s_i}$ 的ground-truth标签记为 $y_i \in \mathbb{R}^{N_c+1}$ 。这样，基于 $\left.P_{s_i}\right|_{i=1} ^{N_r}$ ，我们将过滤主要语义线索中无关语义词的过程作为单标签分类任务，其目标用交叉熵损失来衡量:
$\mathcal{L}_x=-\frac{1}{N_r} \sum_{i=1}^{N_r} \sum_{c=1}^{N_c+1}y_i^c \log P_{s_i}^c$ 其中 $y_i^c$ 和 $P_{s_i}^c$ 分别表示 $y_i$ 和 $P_{s_i}$ 的第 $c$ 个元素。同时，将缺失相关语义词的推断过程视为多标签分类的任务。具体而言，在用 $s i g m o i d$ 激活对参数语义查询的预测 $\left.P_{o_i}\right|_{i=1} ^{N_o}$ 进行归一化之后，对它们执行最大池化以实现语义词汇上的整体概率分布 $\tilde{P}_o$ ，因此，多标签分类的目标是用非对称损失计算的:
$\mathcal{L}_m=\operatorname{asym}\left(\tilde{P}_o, \mathbf{y}_m\right)$
其中， $\operatorname{asym}$ 表示不对称损失， $\mathbf{y}_m$ 是所有缺失的相关语义词的基本事实标签。最终这两个损失加起来联合优化：
$\mathcal{L}_s=\mathcal{L}_x+\mathcal{L}_m$

3.3 语义排序

在从语义理解器获得经过筛选和丰富的语义之后，最典型的生成描述的方式是将它们直接送入基于RNN/Transformer 的句子解码器进行句子建模。但是作者认为，这种方式过度依赖语言的先验，可能会由于对象幻觉现象而导致语义词的不存在。为了解决这个问题，他们引入了一个新的语义排序器模块(Semantic Ordering)，它可以学习估计每个语义词的语言位置，从而按照人类的语言顺序分配所有语义词。通过这种方式，有序语义词的输出序列作为额外的视觉基础语言先验，鼓励生成相关且连贯的描述。

作者提出了Semantic Ordering是利用注意力机制来动态地推断每个语义词的语言位置。形式上，我们首先初始化一组 $D$ 维位置编码 $\mathcal{V}_p \in \mathbb{R}^{N_p \times D}$ ，描绘出序列中的所有语言顺序，其中 $N_p$ 是语义词序列的最大长度。接下来，对于每个语义词(例如， $\mathcal{V}_s^{\left(N_s\right)}$ 中的第 $i$ 个语义token $\tilde{v}_{s_i}$ )，我们测量它在所有位置编码 $\mathcal{V}_p$ 上的注意力分布，然后通过聚集所有带有注意力的位置编码计算它的参与位置编码:
$p_i=\operatorname{soft} \max \left(\tilde{v}_{s_i} \mathcal{V}_p^T\right) \mathcal{V}_p$
这里，所关注的位置编码 $p_i$ 可以被解释为对语义单词序列中的每个语义标记 $\tilde{v}_{s_i}$ 的语言顺序的“软”估计。此后，我们用估计的语言顺序更新每个语义标记，从而得到位置感知语义标记:
$\tilde{v}_{s_i}^p=\tilde{v}_{s_i}+p_i$

因此，语义排序器产生一组位置感知语义标记 $\tilde{\mathcal{V}}_s=\left\{\tilde{v}_{s_1}^p, \tilde{v}_{s_2}^p, \ldots, \tilde{v}_{s_{N_o+N_r}}^p\right\}$ 表示有序语义词的序列。

3.4 句子解码

使用来自视觉编码器的丰富的视觉标记 $\tilde{\mathcal{V}_{i}}$ 和来自语义排序器的位置感知语义标记 $\tilde{\mathcal{V}_{s}}$ ，然后我们讨论如何将它们集成到基于transformer的解码器中以生成句子。形式化地，设 $\mathcal{S}=\left\{w_0, w_1, \ldots, w_{T-1}\right\}$ 表示描述输入图像 $I$ 的文本句子( $T$ 为单词数目)。每个单词被表示为“one-hot”向量，通过权重矩阵被进一步转化为 $D$ 维的文本特征 $H_{0: T-1}^{(0)}=\left\{h_0^{(0)}, h_1^{(0)}, \ldots, h_{T-1}^{(0)}\right\}$ ，一般来说，句子解码器将每个单词作为输入，并根据丰富的视觉标记 $\tilde{\mathcal{V}_{i}}$ 和位置感知语义标记 $\tilde{\mathcal{V}_{s}}$ ，自回归预测下一个单词。作者采用 $N_d$ 个Transformer block实现解码，每个Transformer block由一个屏蔽多头注意层和一个交叉多头注意层组成，前者用于建模先前生成的单词的整体文本上下文，后者集成了视觉和语义标记以触发句子生成。具体来说，在第 $t$ 个解码时间步，第 $i$ 个块中的屏蔽多头意层对先前输出隐藏状态 $h_t^{(i)}$ 的查询，对先前生成的单词进行自我关注，从而得到整体文本上下文 $h_t^{\prime(i)}$ :
$h_t^{\prime(i)}=\operatorname{MultiHead}\left(h_t^{(i)}, H_{0: t}^{(i)}, H_{0: t}^{(i)}\right)$
之后，使用交叉多头注意层对依赖于同一查询(即 $h_t^{(i)}$ )的视觉标记 $\tilde{\mathcal{V}_{i}}$ 和语义标记 $\tilde{\mathcal{V}_{s}}$ 分别进行交叉注意，产生整体视觉上下文 $h_t^{v(i)}$ :
$h_t^{v(i)}=\operatorname{MultiHead}\left(h_t^{(i)}, \tilde{\mathcal{V}}_I, \tilde{\mathcal{V}}_I\right)+\operatorname{MultiHead}\left(h_t^{(i)}, \tilde{\mathcal{V}}_s, \tilde{\mathcal{V}}_s\right)$
接下来，使用 $s i g m o i d$ 门函数融合整体文本上下 $h_t^{\prime(i)}$ 和视觉上下文 $h_t^{v(i)}$ ，将学习到的隐藏状态 $h_t^{(i+1)}$ 作为第 $i$ 个块的输出:
$\begin{aligned} &h_t^{(i+1)}=\mathcal{F}\left(\operatorname{norm}\left(h_t^{(i)}+\left(g * h_t^{\prime(i)}+(1-g) * h_t^{v(i)}\right)\right)\right) \\ &g=\operatorname{Sigmoid}\left(W_g\left[h_t^{v(i)}, h_t^{\prime(i)}\right]\right) \end{aligned}$

最后，利用最后一个块 $h_t^{\left(N_d\right)}$ 的输出隐藏状态，通过softmax预测下一个单词 $w_{t+1}$ 。

3.5 总体目标

文章的优化损失主要包括，前文的用于语义理解的损失 $L_s$ 和典型的交叉熵损失 $L_{X E}$ ，所以最终优化的总体目标为 $\mathcal{L}=\mathcal{L}_s+\mathcal{L}_{X E}$ 。

4. 实验部分

作者首先进行了消融实验证明设计模块的有效性。

与其他sota方法的对比



参考论文：Comprehending and Ordering Semantics for Image Captioning

声明：论文为京东探索研究院发表于2022CVPR会议，代码已经公开，此文是论文阅读的自我总结，用于自我提升，版权归原作所有。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
vue3中el-table中点击图片放大时，被表格覆盖叫我小鹏呀 vue.js javascript 前端
问题：vue3中el-table中点击图片放大时，被表格覆盖。解决方法：el-image添加preview-teleported
python tif转png Python与遥感 python 开发语言
importosfromosgeoimportgdalimportnumpyasnpfromPILimportImage#提取432三波段fromspectralimport*#输入文件夹路径defget_img(dataset_img):width=dataset_img.RasterXSize#获取行列数height=dataset_img.RasterYSizebands=dataset_i
python怎么将png转为tif_png转tif weixin_39977276
发国外的文章要求图片是tif，cmyk色彩空间的。大小尺寸还有要求。比如网上大神多，找到了一段代码，感谢！https://www.jianshu.com/p/ec2af4311f56https://github.com/KevinZc007/image2Tifimportjava.awt.image.BufferedImage;importjava.io.File;importjava.io.Fi
详解：如何设计出健壮的秒杀系统？夜空_2cd3
作者：Yrion博客园：cnblogs.com/wyq178/p/11261711.html前言：秒杀系统相信很多人见过，比如京东或者淘宝的秒杀，小米手机的秒杀。那么秒杀系统的后台是如何实现的呢？我们如何设计一个秒杀系统呢？对于秒杀系统应该考虑哪些问题？如何设计出健壮的秒杀系统？本期我们就来探讨一下这个问题：image目录一：****秒杀系统应该考虑的问题二：****秒杀系统的设计和技术方案三：*
2020年学习什么知识比较好？互联网行业依然是发展较佳编程仔
2019年余额已不足，不少职场人心里也在盘点这一年的工作得失，琢磨新一年的奋斗策略，是继续冲刺还是换个跑道？今年跳槽更难吗？image互联网行业一直以相对较丰厚的薪酬和广阔的发展前景吸引着各界人才。但最近，互联网行业寒冬、互联网企业裁员等话题再次引起热议。正在从前些年的高速发展期转向发展调整期的互联网行业真的步入了“寒冬”？该行业依旧具有吸引力吗？什么职位又最热门呢？image互联网行业仍保持较高
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
uniapp使用内置地图选择插件，实现地址选择并在地图上标点神夜大侠 Uniapp vue.js uniapp
uniapp使用内置地图选择插件，实现地址选择并在地图上标点代码如下：page{background:#F4F5F6;}::-webkit-scrollbar{width:0;height:0;color:transparent;}page{height:100%;width:100%;font-size:24rpx;}image,view,input,textarea,label,text,na
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
idea使用自定义checkstyle.xml配置文件 Gemkey
1.下载插件image.png2.插件安装完后,找到设置中的checkstyle,点击"+",新增自定义规则image.png3.输入描述信息,点击Browse找到对应的文件image.pngimage.png4.可以把active勾上,则使用默认校验规则,点击OK,则可以开始使用自定义规则检测单个文件了image.png
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
使用input[type=file]遇上的一些问题刘圣凯
项目遇到一个需要，如下image.png功能大致就是添加图片，展示出来，然后在用户点击提交的时候把图片传给后台，在和后台交涉之后，决定在用户选择图片之后转成formdata传给后台，后台返回一个url，提交的时候将url返回给后台/**转formdata*/varformdata=newFormData();formdata.append("file1",$("#pic")[0].files[0]
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc