TycoonL

[CVPR2022|跨模态检索]ViSTA: Vision and Scene Text Aggregation for Cross-Modal Retrieval

文章地址： http://arxiv.org/pdf/2203.16778

个人阅读见解，欢迎大家交流讨论指正~

一、研究背景

视觉外观被认为是跨模态检索中理解图像的最重要线索，而有时图像中出现的场景文本(Scene text)可以为理解视觉语义提供有价值的信息。现有的跨模态检索方法大多忽略了场景文本信息的使用，并且若直接添加这些信息可能会导致无场景文本场景中的性能下降。

作为最重要的多模态理解任务之一，跨模态检索因其在新闻搜索和产品检索等领域的重要应用而备受关注。跨模态text-to-image检索旨在根据查询的文本内容与图像视觉外观之间的相关性，返回最相关的候选对象。

二、相关工作

跨模态检索：旨在返回给定文本或图像查询的相关图像或文本描述。

大多数方法学习联合跨模态嵌入空间(joint cross-modal embedding space)为语义相关的image-text对生成更相近的表示。
自深度学习时代以来，跨模态检索的视觉表示一直在改进，从grid-based CNN改进为预训练的对象检测器。
与此同时，人们开发了更精细的image-text对齐方法，例如注意机制、迭代匹配以及基于图形的图像特征和文本嵌入之间的关系推理。

这些方法大多依赖从Visual Genome (VG)数据集上预训练的Faster-RCNN检测器中提取的RoI（感兴趣区域）特征，这限制了在域外视觉概念(out-of-domain vision concepts)上的性能。（这个“域外视觉概念”我不李姐T_T’，如果“域”代表RoI的话那应该用out-of-region呀，那我感觉就不能理解为RoI了）

相比之下，ViSTA直接将image patches作为输入，并基于最新的对比图像文本预训练范式，该范式能够以更快的推理速度通过端到端训练获得更好的性能。

视觉语言预训练：已经成为多模态理解的主流范式，它可以显著提高各种视觉和语言任务的性能，例如跨模态检索和视觉问答（VQA）等。这些方法大多采用基于transformer体系结构，可分为single-encoder and dual-encoder pre-training。

single-encoder将图像和文本与多模态transformer进行融合，以进行交互，在各种下游任务中表现出了高准确度。为了加快推理阶段并适应更多的视觉类别，使用基于网格的图像特征和新提出的patch-based的图像嵌入方法进行端到端训练，直接将图像像素或patch和text embedding作为输入。然而，对于大规模的跨模态检索任务来说，这些方法的计算代价仍然巨大且不切实际。
相反，dual-encoder分别对图像和文本进行编码，从而可以以线性时间复杂度计算image-text对的相似性。尽管百万尺度image-text对比预训练大大提高了跨模态检索任务的性能，但是学习特定的细粒度视觉概念，例如，从图像中学习场景文本语义，仍然是困难且无效的。

相比之下，ViSTA将视觉和场景文本整合到基于full transformer的dual-encoder体系结构中，将图像patch、场景文本和查询文本作为联合跨模态检索的输入。

Scene text in vision and language：作为text-based图像字幕和Text-VQA等应用的扩展。所有方法都利用OCR（光学字符识别）形成scene text embedding，遵循RoI区域特征的single-stream的典型架构。场景文本检索任务的其他工作旨在返回包含查询词的图像，基于CNN的融合方法集成了场景文本和视觉外观，以提高特定场景中细粒度图像分类的性能。最近，StacMR引入了场景文本感知(scene text aware)跨模态检索，将场景文本视为一种附加模式，利用GCN（图卷积网络）获得图像和场景文本的上下文表示，以进行最终融合。

与所有这些方法不同的是，ViSTA利用full transformer blocks对图像patch和场景文本进行mid-level融合编码，可以适应场景文本感知和无场景文本场景。

注：场景文本感知（scene text aware）可以理解为图片中存在场景文本的情况

三、ViSTA

ViSTA是一个用视觉和场景文本聚合进行跨模态检索的full transformer架构。具体来说，ViSTA利用transformer block直接对图像块进行编码，并融合场景文本嵌入，学习用于跨模态检索的聚合视觉表示。

为了解决场景文本的模态缺失问题，提出了一种基于融合标记(fusion token)的transformer聚合方法，只通过融合标记交换必要的场景文本信息，并专注于每个模态中最重要的特征。

为了进一步增强视觉模态，开发了双重对比学习损失(dual contrastive learning losses)，将image-text对和融合文本对嵌入到一个共同的跨模态空间中。

与现有方法相比，ViSTA能够将相关的场景文本语义与视觉外观聚合在一起，从而在无场景文本和场景文本感知(scene text aware)的情况下改进结果。

3.1视觉和场景文本编码器

ViSTA分别用多头注意力Transformer encoder提取特征(Vision encoder, Scene text encoder, Text transformer)。

Transformer encoder由若干个连续的Transformer组成，每个Transformer由Multi-headed Self-Attention (MHSA), Layer Normalization (LN), and Multilayer Perceptron (MLP) blocks组成。Transformer 原理和公式不做赘述。

Scene Text 由谷歌OCR API进行识别得到结果 $\mathcal{O}=\left\{\mathbf{o}_{j}^{\text {word }}, \mathbf{o}_{j}^{\text {bbox }}\right\}_{j=1}^{N_{o}}$ ，结果由文字识别结果及文字位置框构成；

OCR结果与模态类型 $S^{type}$ 和位置嵌入 $S^{token\_id}$ 组合为:
$token_id \mathbf{S}_{\text {init }}=\operatorname{Embedding}\left(\mathbf{o}^{\text {word }}\right)+\mathbf{S}^{\text {type }}+\mathbf{S}^{\text {token\_id }}$

按照Text-VQA中的方法，由BERT编码的场景文本嵌入可以使用规范化的边界框坐标 $\mathbf{o}^{\text {bbox }}$ 与OCR tokens的4维位置信息进一步结合，并可以表示为:
$\mathbf{S}_{0}=\mathbf{B E R T}\left(\mathbf{S}_{\text {init }}\right)+\mathbf{F}_{\text {linear }}\left(\mathbf{o}^{\text {bbox }}\right)$

3.2视觉和场景文本聚合

为了处理场景文本感知和无场景文本的跨模态检索任务，作者使用不同的标记（图像标记或融合标记）来区分不同的场景，标记根据OCR是否有识别结果作为判断依据。

在无场景文本场景中，视觉塔（vision tower）退化为纯视觉编码器模型，并输出[IMG]标记的图像特征作为最终特征。
在场景文本感知场景中，使用场景文本编码器来学习场景文本的语义特征。视觉塔简单地添加了视觉的 $L_f$ 层( $f$ 在论文中未指定)和场景文本聚合层，以在图像模态中进行中级融合，并从额外的融合标记[FUS]输出融合特征作为最终特征。

如图3的详细结构所示，视觉场景文本聚合层由来自两个编码器组成。为了交换视觉和场景文本的相关信息，这两层添加了一个新的共享特殊融合标记[FUS]。用 $V_l$ 和 $S_l$ 表示聚合阶段中第 $l$ 个视觉编码器和场景文本编码器的输入图像标记和场景文本标记。第 $l$ 个视觉和场景文本聚合的输入融合标记用 $F_l$ 表示。

聚合阶段中的视觉transformer层的工作流公式更新为：
$\begin{aligned} &\mathbf{Y}_{l} \leftarrow \operatorname{MHSA}\left(\mathrm{LN}\left(\left[\mathbf{V}_{l} ; \mathbf{F}_{l}\right]\right)\right)+\left[\mathbf{V}_{l} ; \mathbf{F}_{l}\right] \\ &{\left[\mathbf{V}_{l+1} ; \mathbf{V}_{\mathrm{FUS}}\right] \leftarrow \operatorname{MLP}\left(\mathrm{LN}\left(\mathbf{Y}_{l}\right)\right)+\mathbf{Y}_{l}} \end{aligned} ,其中\mathbf{V}_{\mathrm{FUS}}是与融合标记相对应的输出图像特征。$
同样的，场景文本transformer层的工作流公式更新为：
$\begin{aligned} &\mathbf{Y}_{l} \leftarrow \operatorname{MHSA}\left(\operatorname{LN}\left(\left[\mathbf{S}_{l} ; \mathbf{F}_{l}\right]\right)\right)+\left[\mathbf{S}_{l} ; \mathbf{F}_{l}\right] \\ &{\left[\mathbf{S}_{l+1} ; \mathbf{S}_{\mathrm{FUS}}\right] \leftarrow \operatorname{MLP}\left(\operatorname{LN}\left(\mathbf{Y}_{l}\right)\right)+\mathbf{Y}_{l}} \end{aligned}$
最后将 $V_{FUS}$ 和 $S_{FUS}$ 元素求和 $F_{l+1}$ 后embedding（下面的 $F^{init}$ 应该就是 $F_{l+1}$ ）：

$token_id , F 0 是视觉和场景文本聚合层的第一个输入融合特征。 \mathbf{F}_{0}=\mathbf{F}^{\text {init }}+\mathbf{F}^{\text {type }}+\mathbf{F}^{\text {token\_id }},F_0是视觉和场景文本聚合层的第一个输入融合特征。$

特殊的融合标记[FUS]在两个编码器中共享，扮演着两个编码器之间的桥梁角色。 按照论文的表述，融合标记应该是只选取transformer其中一层进行计算。

3.3跨模态对比学习

总损失： $\mathcal{L}_{\text {total }}=\alpha \mathcal{L}_{i t c}+(1-\alpha) \mathcal{L}_{f t c}$ ，其中， $\mathcal{L}_{i t c}$ 是图像-文本对比损失， $\mathcal{L}_{f t c}$ 是融合-文本对比损失；如果提取的OCR结果为无，则 $\mathcal{L}_{f t c}$ 不会添加到总损失中；

将N个图像和文本对作为一个batch，融合-文本对比损失的目的是最大化N个正确匹配对之间的相似性，最小化 $N^2-N$ 个错误匹配对之间的相似性： $\mathcal{L}_{f t c}=\frac{1}{2}\left(\mathcal{L}_{f 2 t}+\mathcal{L}_{t 2 f}\right)$ ；

融合文本对比学习的目标是最小化融合标记和文本[CLS]之间的对比损失:
$\begin{aligned} \mathcal{L}_{f 2 t} &=-\frac{1}{N} \sum_{i=1}^{N} \log \frac{\exp \left(f_{i}^{\top} t_{i} / \sigma\right)}{\sum_{j=1}^{N} \exp \left(f_{i}^{\top} t_{j} / \sigma\right)} \\ \mathcal{L}_{t 2 f} &=-\frac{1}{N} \sum_{i=1}^{N} \log \frac{\exp \left(t_{i}^{\top} f_{i} / \sigma\right)}{\sum_{j=1}^{N} \exp \left(t_{i}^{\top} f_{j} / \sigma\right)} \end{aligned}$

图像-文本对比损失和融合-文本对比损失公式类似，只是将 $f_i$ 换成了 $v_i$ 。

四、实验

4.1实验设置

不同任务的所有预训练、微调和测试设置如下：

数据集：场景文本感知跨模式检索任务在COCO文本字幕（CTC）数据集上进行评估，传统跨模式检索实验在Flickr30K和MSCOCO上进行，包括图像到文本和文本到图像检索任务

评估指标：实验都是根据最高return中包含匹配对的百分比进行评估的，即：R@1, R@5和R@10

ViSTA-S在场景文本感知图像文本检索任务R@1 CTC-1k 上的性能分别提高了8.4%和5.4%。与STARNet相比，STARNet使用GCN获得场景文本的表示以进行融合，作者使用BERT对其进行细化。视觉编码器上的自注意力学习图像中的长期依赖性，并帮助ViSTA模型学习patches之间的关系。视觉和场景文本聚合层学习视觉和场景文本模式的联合分布，并优化了表示空间。

4.3基于无场景文本的跨模态检索实验结果

当场景文本的模态丢失时，ViSTA在这些数据集中不受影响，并且由于基于融合标记的视觉和场景文本聚合，在下游任务中仍然表现良好。

4.4消融实验结果

定性比较：为了进行视觉比较，作者例举了两个例子。如图4所示，基于“网球”、“1970”和“1971”的查询，ViSTA模型匹配正确的图像，而没有场景文本嵌入的ViTSA检索到令人困惑的结果。在第二个例子中，“粘性热狗”被完美地捕捉。对于文本检索任务，如图5所示，从图像中提取的场景文本具有语义信息，并包含在使用ViSTA检索的结果中，而如果没有场景文本嵌入，则效果不佳。

五、结论和讨论

作者提出了一种有效的视觉和场景文本聚合transformer，用于跨模态学习场景文本增强的视觉表示，将传统和场景文本感知的跨模态检索任务统一在一个框架中。为了处理没有场景文本的图像，作者提出了一种基于融合标记的聚合方法（只通过融合标记共享相关信息），以及一种双重对比学习方法来增强视觉特征。实验结果表明，ViSTA在场景文本感知检索和无场景文本检索方法上都具有良好的性能，证明了该框架的有效性。

当场景文本作为一种附加模态是必要的时，所提出的方法也可以应用于其他视觉和语言任务。场景文本聚合的作用和贡献还取决于包含相关场景文本语义的图像的百分比，以及特定任务中视觉外观和场景文本之间的相关性。

更广泛的影响——由于所提出的方法可以使用从网络上收集的大量图像和文本对进行训练，因此在生产过程中应进行进一步的数据分析、平衡和清理，以减轻分布偏差和错误标记数据造成的负面社会影响。

自动驾驶---Perception之大模型应用智能汽车人自动驾驶人工智能机器学习
1背景自动驾驶感知（Perception）模块在自动驾驶系统中扮演着至关重要的角色，它负责收集、处理并理解车辆周围的环境信息。随着深度学习技术的快速发展，大模型也逐渐在自动驾驶感知模块中得到了广泛应用。本篇博客主要介绍大模型在感知模块的应用。前面也介绍过如下几篇Perception相关的文章，有兴趣的读者可以了解相关内容：《自动驾驶---Perception之IPM图和BEV图》《自动驾驶---P
基于Python深度学习的【害虫识别】系统~卷积神经网络+TensorFlow+图像识别+人工智能图像识别人工智能深度学习
一、介绍害虫识别系统，本系统使用Python作为主要开发语言，基于TensorFlow搭建卷积神经网络算法，并收集了12种常见的害虫种类数据集【"蚂蚁（ants）","蜜蜂（bees）","甲虫（beetle）","毛虫（catterpillar）","蚯蚓（earthworms）","蜚蠊（earwig）","蚱蜢（grasshopper）","飞蛾（moth）","鼻涕虫（slug）","蜗牛
2025全球机器学习技术大会即将召开：汇聚全球AI顶尖专家，共话未来技术趋势量子位
由CSDN与Boolan联合主办的「2025全球机器学习技术大会」（MLSummit2025）将于4月18日至19日在上海虹桥西郊庄园丽笙大酒店隆重举行。本次大会汇聚全球AI领域的顶级学者、行业领袖和技术专家，共同探讨大模型技术演进、智能体、代码大模型、多模态技术等前沿话题，为参会者提供全方位的技术解读与行业洞察。大会亮点：顶级嘉宾阵容，前沿议题聚焦本次大会的主会环节将邀请多位全球AI领域的重量级
详解：Grok中文版 _Grok 3 国内中文版本在线使用人工智能
GrokAI是由XAI公司推出的一款尖端人工智能系统。作为该公司核心技术之一，GrokAI专注于推动人工智能在各行各业的实际应用，尤其在数据分析、自然语言处理（NLP）、自动化决策、机器学习等领域表现出色。Grok的最大亮点在于其强大的数据处理能力。它能够高效地从大量复杂数据中提取有价值的信息，并做出精准预测。借助深度学习与强化学习等先进技术，GrokAI具备自我学习的能力，可以通过不断的训练来优
【好书推荐7】《机器学习平台架构实战》是Yu欸粉丝福利机器学习架构人工智能 aws k8s docker
【好书推荐7】《机器学习平台架构实战》写在最前面《机器学习平台架构实战》编辑推荐内容简介作者简介目录前言本书读者内容介绍充分利用本书下载示例代码文件下载彩色图像本书约定你好呀！我是是Yu欸2024每日百字篆刻时光，感谢你的陪伴与支持~欢迎一起踏上探险之旅，挖掘无限可能，共同成长！写在最前面感谢大家的陪伴和支持，2024年争取每周二开展粉丝福利送书活动，欢迎关注~第7波福利感谢清华出版社的大力支持本
基于OpenCV的Java人脸识别系统设计与实现小呀白呀兔 java spring boot
基于OpenCV的Java人脸识别系统设计与实现1.引言随着计算机视觉技术的发展，人脸识别在安全监控、身份验证等领域得到了广泛应用。本文将详细介绍如何使用OpenCV库和Java语言构建一个简单的人脸识别系统。该系统能够从图像中检测人脸，并通过深度学习模型提取特征进行比对，最终输出相似度评分及置信度等级。2.环境搭建为了确保项目顺利运行，请按照以下步骤配置开发环境：安装JDK：确保已安装JavaD
Python 机器学习基础之模型评估与改进【评估指标与评分】的简单说明仙魁XAN Python 机器学习基础+实战案例 python 机器学习模型评估与改进评估指标与评分召回率
Python机器学习基础之模型评估与改进【评估指标与评分】的简单说明目录Python机器学习基础之模型评估与改进【评估指标与评分】的简单说明一、简单介绍二、评估指标与评分1、牢记最终目标2、二分类指标1）错误类型2）不平衡数据集3）混淆矩阵4）考虑不确定性5）准确率-召回率曲线6）受试者工作特征（ROC）与AUC3、多分类指标4、回归指标5、在模型选择中使用评估指标附录一、参考文献一、简单介绍Py
智能教育：DeepSeek在个性化学习中的创新应用与代码实现 Evaporator Core #DeepSeek快速入门 DeepSeek进阶开发与应用 #深度学习学习
教育是塑造未来的基石，而个性化学习则是现代教育的重要趋势。随着人工智能技术的飞速发展，教育领域正迎来一场深刻的变革。DeepSeek作为人工智能领域的领军者，正在通过其强大的技术能力，推动个性化学习的创新应用。本文将结合代码实现，深入探讨DeepSeek在个性化学习中的应用。一、个性化学习路径：从数据到洞察个性化学习的核心在于根据学生的学习数据，生成定制化的学习路径。DeepSeek通过深度学习算
大白话聊聊“深度学习”和“大模型” 程序员鬼鬼深度学习人工智能 AI编程 AIGC chatgpt ai
1950年图灵发表论文《计算机器与智能》（ComputingMachineryandIntelligence），提出了“机器智能”（MachineIntelligent）的概念，并且提出了著名的“图灵测试”的方法来判断机器是否有智能。1956年，达特茅斯会议，“人工智能”（ArtificialIntelligent）概念被首次提出，人工智能作为一个学科开始被研究。科学家梦想着未来可以用复杂物理结构
基于hive的电信离线用户的行为分析系统赵谨言论文经验分享毕业设计
标题:基于hive的电信离线用户的行为分析系统内容:1.摘要随着电信行业的快速发展，用户行为数据呈现出海量、复杂的特点。为了深入了解用户行为模式，提升电信服务质量和精准营销能力，本研究旨在构建基于Hive的电信离线用户行为分析系统。通过收集电信用户的通话记录、上网行为、短信使用等多源数据，利用Hive数据仓库工具进行数据存储和处理，采用数据挖掘和机器学习算法对用户行为进行分析。实验结果表明，该系统
OpenCV实现在图像中绘制汉字海上的风浪 opencv 人工智能计算机视觉编程
在本文中，我将向您展示如何使用OpenCV库在图像中绘制汉字。OpenCV是一个广泛使用的计算机视觉库，它提供了许多强大的功能，包括图像处理和绘图。首先，我们需要安装OpenCV库。您可以通过在终端或命令提示符中运行以下命令来安装它：pipinstallopencv-python接下来，我们将使用Python编写代码来实现在图像中绘制汉字。请确保您已经安装了Python和OpenCV库。impor
【精华推荐】AI大模型学习必逛的十大顶级网站大模型入门学习人工智能学习大模型入门 llama 大模型教程大模型学习大模型
随着人工智能技术的快速发展，AI大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。对于希望深入学习AI大模型的开发者和研究者来说，找到合适的学习资源至关重要。本文将为大家推荐十大必备网站，帮助你更好地理解和应用AI大模型。1.CourseraCoursera是一个在线学习平台，提供各类AI和机器学习课程，包括斯坦福大学的机器学习课程和深度学习专项课程。通过视频讲解
【大模型学习】第八章深入理解机器学习技术细节好多渔鱼好多 AI大模型机器学习 AI 大模型人工智能
目录引言一、监督学习（SupervisedLearning）1.定义与工作原理2.常见任务3.应用场景示例：房价预测二、无监督学习（UnsupervisedLearning）1.定义与工作原理2.常见任务3.应用场景示例：客户细分三、强化学习（ReinforcementLearning）1.定义与工作原理2.常见应用场景3.应用场景示例：游戏AI四、集成学习（EnsembleLearning）1.
深度学习分类回归（衣帽数据集）何仙鸟深度学习分类回归
一、步骤1加载数据集fashion_minst2搭建classNeuralNetwork模型3设置损失函数，优化器4编写评估函数5编写训练函数6开始训练7绘制损失，准确率曲线二、代码导包，打印版本号：importmatplotlibasmplimportmatplotlib.pyplotasplt%matplotlibinlineimportnumpyasnpimportsklearnimport
Milvus 数据批量导入实战：Python代码解析修破立生 Milvus milvus python 人工智能
1引言在处理大规模数据的存储和检索时，向量数据库逐渐成为一种热门的解决方案。Milvus作为一款高性能的向量数据库，在人工智能、机器学习等领域有着广泛的应用。本文将介绍如何使用Python代码将数据批量导入到Milvus数据库中，通过实际的代码示例来帮助大家理解导入过程和相关的技术要点。2代码功能概述我们的代码主要实现了从本地文件读取数据，并将其批量导入到Milvus数据库的功能。代码涉及到命令行
L1与L2正则化：防止过拟合的双刃剑 XianxinMao 人工智能人工智能机器学习算法
标题：L1与L2正则化：防止过拟合的双刃剑文章信息摘要：L1和L2正则化是防止机器学习模型过拟合的两种关键技术。L1正则化（Lasso）通过将不重要的特征权重归零来实现特征选择，适用于稀疏模型和高维数据集，但可能导致欠拟合。L2正则化（Ridge）则通过减少权重的大小来防止过拟合，适用于处理高度相关特征和噪声数据，提高模型稳定性。两者各有优势，选择哪种正则化技术取决于数据集特性和模型需求。有时，结
手写数字识别项目：从原理到实践北屿升：微信新浪微博 facebook 微信公众平台百度
在当今数字化时代，手写数字识别作为模式识别和人工智能领域的重要应用，有着广泛的用途，如邮政信封上的邮编识别、银行支票上的数字处理等。本文将详细介绍手写数字识别项目的相关内容，包括原理、数据集、实现步骤和应用前景。一、手写数字识别原理手写数字识别主要依赖于模式识别和机器学习技术。其基本原理是将手写数字的图像转换为计算机能够处理的数字信号，然后通过特征提取和分类算法来判断该数字的具体值。常用的特征提取
BP神经网络计算过程：从数学原理到实践优化 Acd_713 BP神经网络神经网络人工智能深度学习
引言：神经网络的时代意义与BP算法地位在深度学习重构人工智能边界的今天（Goodfellowetal.,2016），误差反向传播（Backpropagation，BP）算法作为神经网络训练的基石，其数学优雅性和工程实用性完美统一。本文将深入剖析BP神经网络的计算本质，揭示其如何在非线性空间中构建认知通道。第1章神经网络拓扑结构的数学建模1.1生物神经元到M-P模型的抽象跃迁McCulloch-Pi
成为LLM大师的必读书籍：这几本大模型书籍，详细到让你一篇文章就收藏足够 AGI大模型老王产品经理大模型教程学习大模型人工智能 LLM 大模型书籍
以下是几本关于大模型和人工智能领域的经典书籍，它们各自具有独特的特点和适用人群：《深度学习》（DeepLearning）作者：伊恩·古德费洛（IanGoodfellow）、约书亚·本吉奥（YoshuaBengio）、亚伦·库维尔（AaronCourville）简介：《深度学习》是深度学习领域的经典之作，全面介绍了深度学习的基础知识、主要模型及其应用。书中详细讲解了神经网络、卷积神经网络、循环神经网
深度学习模型未来可能会在这些领域取得突破性进展 xinxiyinhe 人工智能深度学习人工智能深度学习模型深度学习
深度学习模型作为人工智能的核心技术之一，未来有望在多个领域取得突破性进展。以下是一些可能的方向：1.通用人工智能（AGI）目标：开发具有通用智能的模型，能够像人类一样处理多种任务。潜在突破：更强的推理和抽象能力，解决复杂问题。结合多模态数据（文本、图像、声音等）实现更全面的理解。自我学习和适应能力，减少对大量标注数据的依赖。2.医疗与生命科学目标：提升疾病诊断、药物研发和个性化治疗的水平。潜在突破
深度学习进阶：TensorFlow实战指南 ELSON麦香包
本文还有配套的精品资源，点击获取简介：《TensorFlow实战Google深度学习框架》详细指导读者学习TensorFlow，涵盖基础概念、数据流图、API使用、张量和变量操作，深度学习基础如CNN和RNN，以及自定义层和优化算法。书中还提供使用TensorFlow构建和训练深度学习模型的实例，包括AlexNet、VGG、ResNet以及LSTM和GRU，并通过图像分类和文本情感分析等实战案例，
Python深度学习之路：TensorFlow与PyTorch对比步入烟尘 Python超入门指南全册 python 深度学习 tensorflow
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以
深度学习实战：TensorFlow 开源项目指南劳治亮
深度学习实战：TensorFlow开源项目指南Deep-Learning-TensorFlow项目地址:https://gitcode.com/gh_mirrors/dee/Deep-Learning-TensorFlow项目介绍本项目基于GitHub仓库https://github.com/blackecho/Deep-Learning-TensorFlow.git，旨在提供一个全面的学习与开发
深度学习实战：用TensorFlow构建高效CNN的完整指南芯作者 DD：日记深度学习
一、为什么每个开发者都要掌握CNN？在自动驾驶汽车识别路标的0.1秒里，在医疗AI诊断肺部CT片的精准分析中，甚至在手机相册自动分类宠物的日常场景里，卷积神经网络（CNN）正悄然改变着我们的世界。本文将以工业级实践标准，带您从零构建一个在CIFAR-10数据集上达到90%+准确率的CNN模型，深入解析TensorFlow2.x的最新特性，并揭秘模型优化的七大核心策略。[外链图片转存失败,源站可能有
Python从0到100（十八）：面向对象编程应用是Dream呀 python 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
智能云图库项目实战（4）---空间模块 rain雨雨编程项目实战权限管理锁机制事务云图库 Spring
‍♂️个人主页：@rain雨雨编程微信公众号：rain雨雨编程✍作者简介：持续分享机器学习，爬虫，数据分析希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录本节重点一、需求分析二、方案设计空间的必要性空间库表设计1.空间表2、图片表公共图库和空间的关系三、后端开发空间管理1、数据模型2、基础服务开发3、接口开发用户创建私有空间1、创建空间流程2、创建空间服务扩展知
【西瓜书《机器学习》七八九章内容通俗理解】游戏乐趣人工智能机器学习人工智能
第七章：贝叶斯分类器7.1贝叶斯决策论基础核心概念：贝叶斯分类器是基于概率来做分类决策的。简单来说，就是根据已知的一些条件，去计算每个类别出现的概率，然后选择概率最大的那个类别作为分类结果。就好比你在猜一个盒子里装的是红球还是蓝球，你可以根据之前从这个盒子里摸球的一些经验（比如摸出红球的次数多），来判断这次盒子里更有可能是红球还是蓝球。例子：假如你要判断一幅图片是猫还是狗。你知道在所有的图片数据里
机器学习笔记有涯小学生赵卫东机器学习笔记机器学习人工智能
1概述1.1简介机器学习（MachineLearning）是计算机科学的子领域，也是人工智能的一个分支和实现方式。“对于某类任务T和性能度量P，如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善，那么就称这个计算机程序在从经验E学习。”（汤姆·米切尔（TomMitchell），1997，MachineLearning）1.2机器学习、人工智能、数据挖掘从本质上看，数据科学的目标是通过处理各
大模型技术在网络安全领域的应用与发展蓝色的香菇 web安全安全大模型
一、概述大模型技术，尤其是深度学习和自然语言处理领域的大型预训练模型，近年来在网络安全领域得到了广泛应用。这些模型通过其强大的数据处理能力和泛化能力，为网络安全带来了新的机遇和挑战。本文将对大模型技术在网络安全领域的应用进行全面分析，识别关键应用进展，并探讨其对网络安全领域的潜在影响。二、大模型技术在网络安全领域的应用安全运营网络日志分析：大模型可以通过分析大量网络日志，自动识别异常行为和潜在威胁
YOLOv8改进主干RTMDet论文系列：高效涨点的单阶段目标检测器主干 IdfdFsharp YOLO 计算机视觉
近年来，目标检测技术在计算机视觉领域取得了显著的进展。为了提高目标检测器的性能和降低延时，研究人员不断提出新的方法和架构。本文介绍了一篇名为"YOLOv8改进主干RTMDet"的论文系列，该系列通过结合最新的RTMDet论文和采用CSPNeXt主干结构，实现了高性能、低延时的单阶段目标检测器主干。在本论文系列中，作者着重研究了目标检测器主干的改进方法。主干网络在目标检测中扮演着重要的角色，它负责提
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1