BQW_

【自然语言处理】【多模态】Product1M：基于跨模态预训练的弱监督实例级产品检索

Product1M：基于跨模态预训练的弱监督实例级产品检索 《Product1M：Towards Weakly Supervised Instance-Level Product Retrieval via Cross-Modal Pretraining》

论文地址：https://arxiv.org/pdf/2107.14572.pdf

相关博客：
【自然语言处理】【多模态】多模态综述：视觉语言预训练模型
【自然语言处理】【多模态】CLIP：从自然语言监督中学习可迁移视觉模型
【自然语言处理】【多模态】ViT-BERT：在非图像文本对数据上预训练统一基础模型
【自然语言处理】【多模态】BLIP：面向统一视觉语言理解和生成的自举语言图像预训练
【自然语言处理】【多模态】FLAVA：一个基础语言和视觉对齐模型
【自然语言处理】【多模态】SIMVLM：基于弱监督的简单视觉语言模型预训练
【自然语言处理】【多模态】UniT：基于统一Transformer的多模态多任务学习
【自然语言处理】【多模态】Product1M：基于跨模态预训练的弱监督实例级产品检索
【自然语言处理】【多模态】ALBEF：基于动量蒸馏的视觉语言表示学习
【自然语言处理】【多模态】VinVL：回顾视觉语言模型中的视觉表示
【自然语言处理】【多模态】OFA：通过简单的sequence-to-sequence学习框架统一架构、任务和模态
【自然语言处理】【多模态】Zero&R2D2：大规模中文跨模态基准和视觉语言框架

一、简介

在过去的二十年里，见证了电子商务中商品种类的极大丰富和线上客户需求多样化。一方面，网上商品的种类越来越多样，并且其中的大部分被作为产品组合进行展示，即在一个图像中有多个不同产品的实例。另一方面，线上的客户或者商家可能需要从商品组合中检索单个产品，方便价格比较和在线商品推荐。此外，多媒体产生的异构数据在不断的加速积累，一个算法如何处理大规模且弱标注数据来执行多模态检索仍然是个问题。

在本文中，作者探索了一个现实问题：给定大规模弱标注多模态数据，如何执行实例级细粒度产品检索？ 作者在上图中比较了不同的范式。可以看出，图像级的检索倾向于返回简单的结果，因为其不能区分不同的实例，而多模态实例级检索更加有利于检索多模态数据中的各类检索。尽管一个问题具有普遍性和实用价值，但是由于缺乏真实世界数据集和清晰的问题定义，该问题没有被很好的研究。在产品检索的文献中，单模态和跨模态检索将单模态信息作为输入，例如一个图像或者一个文本片段。不幸的是，在query和target中都包含多模态信息的场景中，这样的检索方案极大的限制了使用。更为重要的是，先前的工作专注在相对检索的例子上，即单产品图像的图像级检索，并且检索的实例级本质没有被探索。

为了填补这一空白并推进相关的研究，作者收集了大规模数据集 $\text{Product1M}$ ，用于进行多模态实例级检索。 $\text{Product1M}$ 包含一百万个image-caption对并且由两种类型的样本组成，即单产品样本和多产品样本。每个单产品都属于细粒度类别，并且类别间差异非常微小。多产品样本非常的多样，这将导致复杂的合并以及模糊的对应关系，这很好的模拟了现实世界的场景。 $\text{Product1M}$ 是最大的多模态数据集之一，并且是第一个专门为真实世界多模态实例级检索场景定制的数据集。

除了构造数据集，我们也提出了一个新颖的自监督训练框架来从大规模弱监督标注数据集上抽取实例级特征表示。具体来说，作者通过一个简单有效的数据增强方法获得的伪标签训练一个多产品检测器。然后，提出的模型 $\text{CAPTRUE}$ 通过几个预训练任务来捕获图像和文本的潜在协同关系。作者发现，由于网络结构设计的缺陷或者不恰当的预训练任务，一些流行的跨模态预训练方法可能在多实例场景中存在着缺陷。相反， $\text{CAPTURE}$ 利用混合流架构来分别编码不同模态的数据并以统一的方式融合它们，并且通过实验证明了这种方式对提出任务的有效性。此外，作者还提出了跨模态对比损失来强制 $\text{CAPTURE}$ 完成图像和文本的对齐，避免了不合适预训练任务的错误匹配问题。

至关重要的是， $\text{CAPTURE}$ 在所有主要指标上都大幅度的超越了跨模特 $\text{SOTA}$ 基准模型。此外，大量的消融实验证明了 $\text{CAPTURE}$ 的泛化能力，并探索了提出任务的几个重要因子。希望提出的 $\text{Product1M}$ 和 $\text{CAPTURE}$ 以及基线能够促进线上场景检索的研究。

二、 $\text{Product1M}$ 中的实例级检索

1. 任务定义

一个产品样本 $(I, C)$ 是一个imgae-text对，其中 $I$ 是产品图像， $C$ 是产品的caption。给定一个单产品(single-product)样本集合 $\mathcal{S}=\{\mathcal{S}_i|\mathcal{S}_i=(I_S^i,C_S^i)\}$ 和多产品(multi-product)样本集合 $\mathcal{P}=\{\mathcal{P}_i|\mathcal{P}_i=(I_{\mathcal{P}}^i,C_{\mathcal{P}}^i)\}$ ，任务是检索和排序在query样本 $\mathcal{P}_i$ 中出现的单个产品，即预测一个列表
$RET\;R^i=[id_1^i,id_2^i,\dots,id_k^i,\dots,id_N^i]\;\forall\mathcal{P}_i\in\mathcal{P}$
其中， $id_k^i$ 对应 $\mathcal{S}$ 中的具体单个产品。

2. 数据集统计

作者从电子商务网站上收集了49个品牌的产品样本。根据产品信息将这些image-text样本人工划分为单产品组和多产品组。 $\text{Product1M}$ 被划分为训练集、验证集、测试集和gallery集。训练集包含1132830个样本，这些样本包含单产品样本和多产品样本，而验证集和测试集仅包含多产品样本，分别包含2673和6547个样本。gallery集中包含458个类别的40033个单产品样本，验证集和测试集中包含了392个类别，其余的作为干扰项验证检索算法的鲁棒性。gallery集、验证集和测试集中的样本会使用类别标签进行标注用于评估，即它们不参与训练过程，训练集中的样本没有标注。 $\text{Product1M}$ 的统计信息如上表和上图所示。

3. 数据集特点

多产品的性质和复杂的组合

多产品图像在电商网站中无处不在，并且作为实例级产品检索的查询图像。如上图 $\text{(1a)}$ 描述，产品可以以丰富的形式和布局来进行组织，并实例的数量非常大。细粒度单产品样本的数量大、种类多，导致了不同组合图像的复杂性。
弱监督和模糊对应关系

这里考虑使用图像和文本两种常见的模态进行检索。不同于其他具有干净类别标签的数据集，来自商品captions的监督信号比较弱且信息量少。上图 $(1 b)$ 展示了具有挑战的不同类型样本。一些样本在其captions中包含几个产品的缩写。然而，像eight-piece set这样的缩写并没有包含任何产品的相关信息。第二种类型的样本会携带不相关的信息，在标题中描述的商品可能在图像中并没有出现，反之亦然。模糊对应关系在图片和标题间广泛存在，这使得实例级检索更具挑战。
与现实场景的一致性

在上图 $(1 c)$ 中展示了一些有挑战的样本。他们复杂背景中具有不相关的物体，这些水印或者噪音覆盖了产品的信息。有些不同类型的产品几乎相同，除了包装上的文字略有不同，例如：day cream和night cream。上图中 $(2 a, 2 b)$ 展示了 $\text{Product1M}$ 中的长尾分布，非常符号现实场景。

三、方法

1. 训练 $\text{RPN}$ 来进行多产品检测

基于图像级特征进行检索将会导致检索结果被图像中主导的产品所控制。因此，从多产品图像中区分不同的产品并抽取相关特征至关重要。虽然有许多预训练的检测器可用，但是由于数据集分布的区别，导致其无法直接应用在多产品检测中。因此，作者利用了一个简单有效的数据增强方案来训练一个 $\text{RPN(Region Proposal Network)}$ 模型，其主要是基于上图 $(a)$ 中的单产品图像。这里首先会使用 $\text{GrabCut}$ 来获得单产品的前景蒙版。对于来自 $\text{Places365}$ 中的背景图像，通过复制粘贴增强来应用前景蒙版和背景图像来生成合成图像。通过这种方法能够训练一个性能良好的多产品检测器。给定 $\text{RPN}$ 的检测区域，我们利用 $\text{RoIAlign}$ 来获取实例级特征，其会被输入至 $\text{CAPTURE}$ 中进行多模态学习。

2. $\text{CAPTURE}$ 的架构设计

在训练完 $\text{RPN}$ 后，能够为同一个图像中的不同产品生成高质量的特征。不同于目前流行的single-steam或者two-stream的 $\text{Transformer}$ 架构，作者提出了 $\text{CAPTURE}$ ，该模型通过堆叠三种不同类型的层将两种架构进行统一，用于语义对齐和多模态联合学习。细节如上图 $(b)$ 。具体来说，文本/视觉 $\text{Transformer}$ 会将文本或者图像的嵌入向量作为输入，并负责模态内的特征学习。文本/视觉交叉 $\text{Transformer}$ 则是捕获和建模文本和图像模态间的关系，通过多头注意力机制中交互键值对。随后，文本和图像特征会被拼接，并作为query,key,value输入至 $\text{Co-Transformer}$ 进行多模态联合学习。三种类型的 $\text{Transformer}$ 被堆叠 $L$ , $K$ 和 $H$ 次。

3. 遮蔽多模态学习

对于多模态特征学习，采用两个遮蔽多模态建模任务，即 $\text{MLM(Masked Language Modeling)}$ 和 $\text{MRP(Masked Region Prediction)}$ ，这两个任务分别来自于 $\text{BERT}$ 和 $\text{VisualBERT}$ 。具体来说，对于 $\text{MLM}$ 和 $\text{MRP}$ ，15%的输入被遮蔽并使用其余的输入来重构遮蔽的信息。 $\text{MLM}$ 的处理同 $\text{BERT}$ 。对于 $\text{MRP}$ ，模型直接对遮蔽的特征进行回归，其是通过用 $\text{RPN}$ 抽取的特征进行监督的。对于跨模态关系建模， $\text{Image-Text}$ 匹配任务 $\text{ITM}$ 在先前任务中广泛采用。通常，模型需要预测文本是否为图像的描述，其能被形式化为二分类任务。对于生成负样本，图像或者caption被随机替换。作者认为 $\text{ITM}$ 在实例级别的image-text样本上的细粒度理解存在问题。作者假设这种退化来自于替换后图像和文本的不匹配，其导致检测区域和文本不匹配。

4. 跨模态对比损失函数

除了模态内的特征学习， $\text{CAPTURE}$ 期望能够为多模态输入生成连贯的表示，并且学习他们之间的通信。为了这个目标，作者使用跨模态对比学习来达到图像和文本对齐。对于 $N$ 个image-text样本的minibatch，总共有 $2 N$ 个数据点。将对应的image-text对作为 $N$ 个正样本，其他 $\text{2(N-1)}$ 不匹配的样本作为负样本对。正式来说，给定一个图像文本对 $x_i,x_j)$ 并且他们的编码特征为 $(\tilde{x}_i,\tilde{x}_j)$ ，对于这些正样本对的跨模态对比损失为：
$\mathcal{L}(x_i,x_j)=-\text{log}\;\frac{\text{exp(sim}(\tilde{x}_i,\tilde{x}_j)/\tau)}{\sum_{k=1}^{2N}\mathbb{1}_{[k\neq i]}\text{exp(sim}(\tilde{x}_i,\tilde{x}_k)/\tau)} \tag{1}$
其中， $\text{sim}(\textbf{u},\textbf{v})=\textbf{u}^\top\textbf{v}/\parallel\textbf{u}\parallel\parallel\textbf{v}\parallel$ 用于计算 $(\textbf{u},\textbf{v})$ 的cosine相似度； $\tau$ 表示temperature参数； $\mathbb{1}_{[k\neq i]}$ 是一个指示函数，如果 $k\neq i$ 则返回1。这个形式的对比损失函数鼓励不同模型正样本对的编码特征相似，并使负样本对不相似。作者发现在文本/图像 $\text{Transformer}$ 中注入这种特征是有益的。

5. 实例级检索推理

对于单产品样本和多产品样本，从预训练 $\text{RPN}$ 中抽取的特征和captions被用于作为 $\text{CAPTURE}$ 的输入。在推断的过程中， $\text{Co-Transformer}$ 层输出 $H_{IMG}$ 和 $H_{TXT}$ 作为视觉和语言输入的整体表示。两个向量相乘得到实例的联合表示。此外，由于文本/图像 $\text{Transformer}$ 具有交叉模态对比损失函数的监督，作者发现将这一层的特征拼接起来进行检索是有益的。最终的特征会作为检索算法的输入。在计算一个实例与gallery集中样本的cosine相似矩阵后，可以通过每个query的最高相似度来检索对应的单产品样本。

四、实验

略

C++正则表达式语法 Coding小公仔 c/c++c++正则表达式开发语言
在C++中，正则表达式是处理文本模式匹配和字符串操作的强大工具。C++11及以后的标准库提供了头文件，支持正则表达式的使用。下面是C++正则表达式的核心语法规则和用法：一、基本正则表达式语法1.普通字符直接匹配自身，例如：a匹配字符a。2.元字符（需转义）具有特殊含义的字符，需用反斜杠\转义（在C++字符串中需用双反斜杠\\）。.：匹配除换行符外的任意字符。^：匹配字符串的开头。$：匹配字符串的结
高通 QCS8550 大模型性能深度解析：从算力基准到场景实测的全维度 Benchmark 伊利丹~怒风 Qualcomm 人工智能 AI编程 python arm 自然语言处理
前言在人工智能技术狂飙突进的时代，大模型正以前所未有的速度重塑各行业生态，从智能客服到多模态交互，从边缘推理到端侧部署，其应用场景不断拓展。而这一切革新的背后，离不开底层硬件的强力支撑。高通QCS8550作为面向下一代智能设备的旗舰级计算平台，凭借高达48TOPS的AI算力与先进的第七代高通AI引擎，在大模型性能表现上极具竞争力。其异构多核架构不仅能高效处理复杂的神经网络计算，还通过软硬件协同优化
【LlamaIndex核心组件指南 | 模型篇】一文通晓 LlamaIndex 模型层：LLM、Embedding 及多模态应用全景解析
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
高斯混合模型（Gaussian Mixture Model, GMM）不想秃头的程序神经网络语音识别人工智能深度学习网络
高斯混合模型（GaussianMixtureModel,GMM）是一种概率模型，用于表示数据点由多个高斯分布（GaussianDistribution）混合生成的过程。它广泛应用于聚类分析、密度估计、图像分割、语音识别等领域，尤其适合处理非球形簇或多模态数据。以下是GMM的详细介绍：一、核心思想GMM假设数据是由多个高斯分布混合生成的，每个高斯分布代表一个簇（Cluster），并引入隐变量（Lat
卷积神经网络（Convolutional Neural Network, CNN）不想秃头的程序神经网络语音识别人工智能深度学习网络卷积神经网络
卷积神经网络（ConvolutionalNeuralNetwork,CNN）是一种专门用于处理图像、视频等网格数据的深度学习模型。它通过卷积层自动提取数据的特征，并利用空间共享权重和池化层减少参数量和计算复杂度，成为计算机视觉领域的核心技术。以下是CNN的详细介绍：一、核心思想CNN的核心目标是从图像中自动学习层次化特征，并通过空间共享权重和平移不变性减少参数量和计算成本。其关键组件包括：卷积层（
ResNet（Residual Network）不想秃头的程序神经网络语音识别人工智能深度学习网络残差网络神经网络
ResNet（ResidualNetwork）是深度学习中一种经典的卷积神经网络（CNN）架构，由微软研究院的KaimingHe等人在2015年提出。它通过引入残差连接（SkipConnection）解决了深度神经网络中的梯度消失问题，使得网络可以训练极深的模型（如上百层），并在图像分类、目标检测、语义分割等任务中取得了突破性成果。以下是ResNet的详细介绍：一、核心思想ResNet的核心创新是
P25：LSTM实现糖尿病探索与预测 ?Agony lstm 人工智能 rnn
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊一、相关技术1.LSTM基本概念LSTM（长短期记忆网络）是RNN（循环神经网络）的一种变体，它通过引入特殊的结构来解决传统RNN中的梯度消失和梯度爆炸问题，特别适合处理序列数据。结构组成：遗忘门：决定丢弃哪些信息，通过sigmoid函数输出0-1之间的值，表示保留或遗忘的程度。输入门：决定更新哪些信息，同样通过sigmoid函数控制更新
Python训练营打卡——DAY16（2025.5.5） cosine2025 Python训练营打卡 python 开发语言机器学习
目录一、NumPy数组基础笔记1.理解数组的维度(Dimensions)2.NumPy数组与深度学习Tensor的关系3.一维数组(1DArray)4.二维数组(2DArray)5.数组的创建5.1数组的简单创建5.2数组的随机化创建5.3数组的遍历5.4数组的运算6.数组的索引6.1一维数组索引6.2二维数组索引6.3三维数组索引二、SHAP值的深入理解三、总结1.NumPy数组基础总结2.SH
【重构推荐系统】国产大模型驱动的电商个性化推荐完整实战：架构设计、推理优化与在线部署闭环观熵国产大模型部署实战全流程指南重构人工智能 Agent 智能体落地方案
个人简介作者简介：全栈研发，具备端到端系统落地能力，专注大模型的压缩部署、多模态理解与Agent架构设计。热爱“结构”与“秩序”，相信复杂系统背后总有简洁可控的可能。我叫观熵。不是在控熵，就是在观测熵的流动个人主页：观熵个人邮箱：[email protected]座右铭：愿科技之光，不止照亮智能，也照亮人心！专栏导航观熵系列专栏导航：AI前沿探索：从大模型进化、多模态交互、AIGC内容生成，到
FB-OCC: 3D Occupancy Prediction based on Forward-BackwardView Transformation justtoomuchforyou 智驾
NVidia，CVPR20233DOccupancyPredictionChallengeworkshoppaper：https://arxiv.org/pdf/2307.1492code：https://github.com/NVlabs/FB-BEV大参数量imagebackboneInternImage-H，1B外部数据集预训练：object365nuscenes：有点云label，强化网络
代码随想录算法训练营第52天 | 101.孤岛的总面积、102.沉没孤岛、103.水流问题、104.建造最大岛屿 Amor_Fati_Yu 算法 java 数据结构
101.孤岛的总面积importjava.util.*;publicclassMain{privatestaticintcount=0;privatestaticfinalint[][]dir={{0,1},{1,0},{-1,0},{0,-1}};//四个方向privatestaticvoidbfs(int[][]grid,intx,inty){Queueque=newLinkedList=gr
代码随想录算法训练营第52天| 101. 孤岛的总面积、102. 沉没孤岛、103. 水流问题、104.建造最大岛屿扛过今天777 算法深度优先
101.孤岛的总面积卡码题目链接：101.孤岛的总面积学习链接：代码随想录题解：法一：count=0defdfs(grid,x,y):globalcountgrid[x][y]=0count+=1directions=[[1,0],[0,1],[-1,0],[0,-1]]fori,jindirections:next_x=x+inext_y=y+jifnext_x=len(grid)ornext_
川翔云电脑全新上线：三维行业高效云端算力新选择渲染101专业云渲染电脑 houdini maya blender 3d 云计算
一、核心定位与优势云端虚拟工作站服务依托云端高性能CPU/GPU集群，提供远程桌面服务，支持普通设备运行专业软件。按需付费模式：无需采购高端硬件，大幅降低成本投入。生态协同优势：与渲染101同属母公司，可在云电脑中完成创作后一键提交至渲染101平台进行分布式渲染。二、硬件配置与性能参数CPU机型（侧重计算能力）GPU机型（图形渲染/AI训练）性能亮点支持最高8卡并联，显存叠加提升复杂场景处理能力。
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
VB.NET,C#字典对象来保存用户数据,支持大小写专注VB编程开发20年 java 开发语言
用这个保存的,登录时大小写不一样会不会无法识别根据你提供的SaveUsersToJson方法，我注意到你使用了JSON序列化来保存用户数据，但没有显式指定字典的比较器。这意味着在反序列化时，默认会使用区分大小写的比较器，导致大小写不同的用户名无法正确匹配。问题分析当你保存用户数据时：PrivateSubSaveUsersToJson(usersAsDictionary(OfString,UserI
Nginx服务部署与配置月堂 nginx 运维
目录HTTPS访问配置（又称自签名）1、SSL简介2、HTTPS工作流程（重要）3、自留签名证书location配置作用匹配规则匹配优先级rewrite配置HTTPS访问配置（又称自签名）1、SSL简介SSL(SecureSocketsLayer）安全套接层。是由Netscape（网景）公司于1990年开发，用于保障WordWideWeb（WWW）通讯的安全。主要任务是提供私密性，信息完整性和身份
Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
图扑软件智慧云展厅，开启数字化展馆新模式智慧园区可视化 5g 人工智能大数据安全云计算
随着疫情的影响以及新兴技术的不断发展，展会的发展形式也逐渐从线下转向线上。通过“云”上启动、云端互动、双线共频的形式开展。通过应用大数据、人工智能、沉浸式交互等多重技术手段，构建数据共享、信息互通、精准匹配的高精度“云展厅”，突破时空壁垒限制。图扑软件运用HT强大的渲染功能，数字孪生“云展位”，1:1复现实际展厅内部独特的结构造型和建筑特色。也可以第一人称视角漫游，模拟用户在展厅内的参观场景，在保
Solidity/Rust 实战 —— Web3 开发者免费训练营（第23期） moonshotcommons 共学营 rust web3 开发语言
HackQuest第23期Solidity/Rust共学营即将开营！Solidity/Rust共学营信息清单8月13日-8月22日免费（成功结营的小伙伴还将获得专属周边）全程线上(会议具体时间入营后通知)️头部公链官方签发的学习证书主办社区:HackQuestHackQuest是一个充满活力的Web3开发者教育社区，我们的目标是培养下一代Web3开发者。目前，HackQuest组织的共学营已达22
Solidity/Rust 实战 —— Web3 开发者免费训练营（第16期） moonshotcommons 共学营 rust web3 开发语言
HackQuest第16期Solidity/Rust共学营即将开营！Solidity/Rust共学营信息清单6月11日-6月20日免费（成功结营的小伙伴还将获得专属周边）全程线上(会议具体时间入营后通知)️头部公链官方签发的学习证书关于HackQuestHackQuest是一个充满活力的Web3开发者教育社区，我们的目标是培养下一代Web3开发者。目前我们的产品仍处于内测阶段，我们计划招募小伙伴们
基于机器学习的智能文本分类技术研究与应用
在当今数字化时代，文本数据的爆炸式增长给信息管理和知识发现带来了巨大的挑战。从新闻文章、社交媒体帖子到企业文档和学术论文，海量的文本数据需要高效地分类和管理，以便用户能够快速找到所需信息。传统的文本分类方法主要依赖于人工规则和关键词匹配，这些方法不仅效率低下，而且难以应对复杂多变的文本内容。近年来，机器学习技术的快速发展为文本分类提供了一种高效、自动化的解决方案。一、机器学习在文本分类中的应用概述
Transformer底层原理解析及基于pytorch的代码实现 LiRuiJie 人工智能 transformer pytorch 深度学习
1.Transformer底层原理解析1.1核心架构突破Transformer是自然语言处理领域的革命性架构，其核心设计思想完全摒弃了循环结构，通过自注意力机制实现全局依赖建模。整体架构图如下：以下是其核心组件：1）自注意力机制（Self-Attention）-输入序列的每个位置都能直接关注所有位置-数学公式（缩放点积注意力）：-Q：查询矩阵（当前关注点）-K：键矩阵（被比较项）-V：值矩阵（实际
误差的回响：反向传播算法与神经网络的惊天逆转田园Coder 人工智能科普人工智能科普
当专家系统在20世纪80年代初期大放异彩，成为人工智能实用化的耀眼明星时，另一股曾经被宣判“死刑”的力量——连接主义（神经网络）——正在寒冬的冻土下悄然涌动，孕育着一场惊天动地的复苏。马文·明斯基和西摩·帕尔特在1969年《感知机》专著中那精准而冷酷的理论批判，如同沉重的封印，将多层神经网络的研究禁锢了近二十年。他们指出的核心死结——缺乏有效算法来训练具有隐藏层的网络——仿佛一道无法逾越的天堑。单
C#WPF的XAML命名空间和命名空间映射详解未来无限 C#WPF程序设计 c#wpf 命名空间命名空间映射 XAML
本文详解C#WPF的XAML命名空间和命名空间映射。目录XAML命名空间定义实例演示命名空间说明XAML命名空间定义XAML命名空间实际上是XML命名空间概念的扩展。指定XAML命名空间的方法依赖于XML命名空间语法、将URI用作命名空间标识符以及使用前缀提供从相同标记源引用多个命名空间等约定。XML命名空间的XAML定义增添的主要概念是，XAML命名空间表示标记用法唯一性范围，还影响标记实体可如
PS系统教程06-图片裁剪-详细版有点。 ps photoshop
图片裁剪-详细版首先勾选图层-单机裁剪工具-删除裁剪像素背景颜色是和左边工作区颜色保持一致的。确定选择单机两下工作区中的√按下回车键缩小裁剪当你缩小裁剪之后再想扩大，那么扩大的部分就是背景颜色不勾选删除裁剪像素效果（裁剪完单机一下）这种情况是你进行裁剪单机一下的效果，说明就是还没有完全确定的状态。总结：只要不勾选删除裁剪像素就是会对裁剪过的部分进行预保留。内容识别不勾选勾选后
Spring AI入门教学：从零搭建智能应用（2025最新实践）程序员子固 spring 人工智能 java ai
目录引言：为什么选择SpringAI？一、环境搭建（附避坑指南）1.开发环境要求2.依赖配置二、实战：智能客服接入（代码级详解）1.配置模型参数2.实现流式对话接口三、高级功能：多模态AI开发1.图像描述生成2.智能文档处理四、开发者工具箱1.调试技巧2.性能优化五、学习路径建议引言：为什么选择SpringAI？随着生成式AI技术的爆发式发展（如OpenAI的GPT-4.5新动态24），Java开
Python打卡训练营day31 weixin_70153780 Python打卡训练营 python 开发语言
规范的文件命名目标：将文件夹中的文件按规则重命名（如添加前缀、序号等）。#示例importos#定义文件夹路径folder_path=r'C:\Users\Name\Documents\Project\Files'#遍历文件夹中的文件forindex,filenameinenumerate(os.listdir(folder_path)):#拆分文件名和后缀file_ext=os.path.spl
Python打卡训练营Day26 宸汐Fish_Heart Python打卡训练 python java 数据库
@浙大疏锦行DAY26函数专题1知识点回顾：1.函数的定义2.变量作用域：局部变量和全局变量3.函数的参数类型：位置参数、默认参数、不定参数4.传递参数的手段：关键词参数5.传递参数的顺序：同时出现三种参数类型时作业：题目1：计算圆的面积●任务：编写一个名为calculate_circle_area的函数，该函数接收圆的半径radius作为参数，并返回圆的面积。圆的面积=π*radius²(可以使
Python打卡训练营Day27 宸汐Fish_Heart Python打卡训练 python 算法开发语言
@浙大疏锦行DAY27函数专题2：装饰器ps：第一期day27对应5月16日知识点回顾：1.装饰器的思想：进一步复用2.函数的装饰器写法3.注意内部函数的返回值作业：编写一个装饰器logger，在函数执行前后打印日志信息（如函数名、参数、返回值）昨天我们接触到了函数大部分的功能，然后在你日常ctrl点进某个复杂的项目，发现函数上方有一个@xxx,它就是装饰器装饰器本质上是一个Python函数，它可
《多设备协同训练：HarmonyOS联邦学习驱动Unity游戏AI进化》爱学习的小齐哥哥 HarmonyOS 5 Unity 游戏 HarmonyOS5 unity 游戏引擎 Unity 游戏
随着游戏产业的智能化升级，游戏AI正从传统的规则驱动向数据驱动的“自进化”模式转型。然而，传统游戏AI训练面临数据孤岛、计算资源受限、隐私安全风险三大核心挑战：单设备训练难以处理复杂场景的海量数据，集中式训练需上传用户行为数据（侵犯隐私），且高性能计算依赖云端或专用硬件（成本高、延迟大）。在此背景下，HarmonyOS联邦学习与多设备协同训练的融合，为Unity游戏AI的智能化进化提供了突破性解决
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比