TechBeat人工智能社区

斯坦福联合Meta提出多模态模型RA-CM3，检索增强机制或成文本图像领域新制胜法宝

原文链接：https://www.techbeat.net/article-info?id=4403
作者：seven_

论文链接：
https://arxiv.org/abs/2211.12561

相信目前很多AI大模型研究者都会遇到一个非常困难的问题，那就是很难控制的模型参数和容量，由于参与模型训练的数据量非常庞大，如果模型参数太少会导致过拟合，参数量过大又会影响实用性。最近比较热门的很多多模态模型，例如DALL-E和CM3等文本图像生成模型，都有类似的问题，这些模型将从海量数据中学习到的知识（往往是物体的外观信息）存储在模型参数中，这无疑都增加了模型后期的扩展和部署成本。除此之外，目前AI生成领域另一个非常棘手的问题是，当模型在面对一个非常具体、但是在训练阶段从未见到过的文本提示时，生成效果可能不够精确，例如给定模型一段文字“French flag waving on the moon’s surface（法国国旗在月球表面飘扬）”，使用CM3和Stable Diffusion生成的效果如下：

很滑稽，模型居然把硬生生的把法国国旗换成了美国国旗，这是一个非常典型的zero-shot生成错误现象。为了解决这些问题，来自斯坦福大学，Meta AI和华盛顿大学的研究者们提出了一个非常巧妙的方案。他们提出了一种基于检索增强的（Retrieval-Augmented）多模态模型RA-CM3，其包含了一个信息检索框架来从外部存储库中获取知识，具体来说，作者首先使用预训练的CLIP模型来实现一个检索器（retriever），然后使用CM3 Transformer架构来构成一个生成器（generator），其中检索器用来辅助模型从外部存储库中搜索有关于当前提示文本中的精确信息，然后将该信息连同文本送入到生成器中进行图像合成，这样设计的模型就不会出现上面这种非常低级的错误了，下面展示了使用本文提出的RA-CM3生成的效果：

除了展示最终的生成效果之外，作者还将RA-CM3检索到的法国国旗信息一并展示。作者经过一系列的实验证明，RA-CM3在图像和文本生成任务上明显优于目前其他先进的多模态模型，如DALL-E和CM3，（在MSCOCO上提高了12FID和17CIDEr），同时其所需的训练计算量和计算代价也有大幅度降低（小于DALL-E的30%）。

一、引言

作者首先调研了其他图像文本合成方面的多模态模型，例如DALL-E[1]和Parti[2]，这些模型的训练往往需要超大规模的训练数据量（1-10B图像）和可学习参数量（10-80B）来涵盖更丰富的知识。但这其实也是这些大模型目前所遇到的一个性能瓶颈，如果希望这些模型能够随着训练的不断进行而达到一种终生学习的效果，那考虑在模型中加入访问外部存储库应该是目前一个比较明智的做法。并且这种做法对于涉及独特实体知识的任务时会更有用，例如上面所列举的“法国国旗在月球表面飘扬”的例子，参考外部知识库可以帮助模型提高生成的准确性和可解释性。

此外，本文作者在设计模型时还加入了检索增强技术，该技术其实在自然语言理解领域已有应用，例如给定一段输入文本，模型可以使用一个检索器，从外部知识库中检索相关文件，并让生成器使用检索到的文件来进行更好的预测。然而，这些检索增强的方法主要是针对文本研究的，将它们扩展到多模态环境仍然是一个具有挑战性的开放性问题。作者调研了一些在多模态领域研究数据检索增强的方法，但是这些工作的生成器都局限于单一的模式，要么是文本生成，要么是图像生成，如下表所示：

在本文中，作者提出了目前第一个利用检索增强技术的多模态模型RA-CM3，它可以同时检索和生成文本和图像。RA-CM3的输入数据和外部存储器由一组多模态文件组成，其中包含图像和文本的混合数据。为了应对这些输入数据，作者使用预训练的CLIP作为多模态编码器，然后基于CM3架构[3]设计了检索增强的生成器，其本质上是一个能够同时生成文本和图像的Transformer序列模型。在模型的具体操作中，作者将检索到的文件作为主输入文件的上下文信息，并通过联合优化主文件和检索到的文件的token预测损失来训练生成器。

二、本文方法

RA-CM3模型主要由三个核心模块构成：检索器（retriever），外部存储（memory）和生成器（generator）。整体框架图如下图所示。RA-CM3是一种可以同时检索和生成文本和图像混合模态的新架构。给定模型一个输入的多模态文件，RA-CM3先使用检索器从外部存储器中检索相关的多模态文件，送入生成器中来对输入文件进行预测。作者将多模态检索器设计成一个密集的、具有混合模态编码特性的检索器，可以对文本和图像的混合文件进行编码。随后基于CM3 Transformer架构构建了一个检索增强的生成器用来合成准确的图像。下面我们将详细介绍这些模块的主要技术细节。

2.1 预定义

RA-CM3框架由检索器模块 $R$ 和生成器模块 $G$ 组成。其中检索模块 $R$ 将输入序列 $x$ 和外部存储器中的文档 $M$ 作为输入，并返回检索目标文档列表 $\subseteq M$ 。随后生成器 $G$ 将输入序列 $x$ 和检索到的文档 $M=\left(m_{1}, \ldots, m_{K}\right)$ 合并作为输入，并返回生成目标 $y$ ，其中 $y$ 是传统语言建模任务中单独文本生成 $x$ 的延续。

2.2 多模态检索

上文提到，RA-CM3的检索器设计为密集编码型检索器，在实际操作时，检索器 $r$ 首先从外部存储 $M$ 中获取查询 $q$ （例如，输入序列 x）和相关文档 $m$ ，并返回相关性分数 $r (q, m)$ ，操作过程可以形式化表示如下：

其中，查询编码器 $E_{Q}$ 和存储编码器 $E_{M}$ 分别为查询和存储文件产生密集向量（如下图所示）。由于这里的输入和存储数据均为多模态文件，因此 $E_{Q}$ 和 $E_{M}$ 必须是混合模态编码器，才可以对文本和图像同时进行混合编码。作者通过实验表明，这里直接采用CLIP作为混合编码器可以获得非常好的效果。

具体来说，给定一个多模态文档，首先将其分成文本部分和图像部分，用预训练的CLIP文本和图像编码器分别对这两部分进行编码，然后对这两部分进行融合并执行规范化，作为文档的向量表示。随后在存储模块中执行最大内积搜索并按照相关性得分对候选文档列表进行排序，最终从这个列表中选取 $K$ 个最接近的检索文档。此外作者还发现保证检索文档的多样性对最终的生成效果至关重要。如果简单地根据相关性得分从文档列表中抽样或取前 $K$ 个文件可能会得到重复或高度相似的图像或文本，从而导致生成器性能不佳。因此在获取文档时还需要将其与已检索到的文档计算相似性来排除冗余的文件。

2.3 多模态生成

RA-CM3的生成器遵循CM3 Transformer架构，为了将检索到的文档 $M=\left(m_{1}, \ldots, m_{K}\right)$ 合理的送入到生成器中，作者将它们添加到主输入序列 $x$ 之前，得到一个整体输入序列 $\left(m_{1}, \ldots, m_{K}, x\right)$ ，我们可以将其理解为：检索到的文档 $M=\left(m_{1}, \ldots, m_{K}\right)$ 是主输入序列 $x$ 的上下文示例，如下图所示：

为了训练生成器，作者迭代优化下面的目标函数：

其中 $L_{\text {main }}$ 和 $L_{\text{retr}}$ 分别是主输入序列 $x$ 和检索到的文档 $\left(m_{1}, \ldots, m_{K}\right)$ 的CM3 token预测损失。相比之前方法只优化主序列 $L_{\text {main }}$ ，这里作者同时优化主序列和检索序列的token，有效提高了模型的训练效率。

三、实验结果

为了验证本文提出的RA-CM3模型，作者先在LAION多模态数据集上训练模型，随后在MS-COCO上进行图像文本合成任务评估，评估任务主要包括文本到图像生成（Caption-to-image）、图像到文本生成（Image-to-caption）和图像填充和编辑（Image infilling and editing）。

3.1 文本到图像生成

下表显示了RA-CM3在文本到图像生成任务上的性能对比。评价指标选用FID，一般来说，FID越低图像生成质量越好。本文的RA-CM3在没有微调的情况下获得了16的FID分数，显着优于无检索机制的基线CM3模型（FID 29）和其他模型，例如参数规模比RA-CM3大3倍的DALL-E（FID 28）。这表明检索增强机制可以有效提升模型在图像生成方面的性能。

为了同时考虑训练效率，作者在下图中可视化了RA-CM3模型与其他基线模型的图像生成训练性能对比，其中y轴表示图像合成质量的FID分数，x轴表示模型训练中使用的计算量。可以发现，RA-CM3明显位于其他模型关系线的下方，这表明，RA-CM3可以使用更少的训练计算量来获得更好的FID分数，其拥有更好的训练效率。

3.2 图像到文本生成

下表显示了RA-CM3在没有微调的情况下在图像到文本生成任务上的性能对比。评价指标选用CIDEr分数，该分数越高表示生成效果越好。RA-CM3的CIDEr得分为89，显着优于无检索机制的基线CM3模型（CIDEr 72）。此外，RA-CM3还明显优于其他参数量更庞大的对比模型。这些结果证实RA-CM3可以很好地执行图像到文本生成任务，可以完成较为统一的多模态生成任务。

3.3 图像填充和编辑

因为RA-CM3模型建立在CM3之上，因此其天然可以执行图像填充和编辑任务，下图显示了RA-CM3的图像填充效果，因为填充图像需要高层次语义的目标知识。例如，要恢复下图中图像mask块，模型就需要了解滑雪的知识。借助检索增强机制，RA-CM3可以准确获得滑雪板的外观信息，因而可以较为准确地恢复图中运动员的腿和滑雪板。

此外，RA-CM3还可以通过手动指定上下文来进行图像编辑。例如在下图中，我们可以设置上下文指示图片，其中有一个穿红色夹克的人，RA-CM3可以将原始图像中运动员的黑色夹克编辑为红色。

四、总结

在这项工作中，作者直面目前文本图像合成领域中的痛点问题，提出了一个更加智能的AI大模型RA-CM3。RA-CM3在原有预训练大模型的基础上引入了检索增强机制，以便于模型从外部存储库中检索和引用新知识参与到新图像的合成中。这种设计赋予了模型可以同时对图像和文本混合数据进行编码的能力，同时也大大降低了模型的训练成本和参数容量。此外，RA-CM3在一些精确度要求较高的图像合成场景中会有更好的可信度和可解释性。从另一个角度来看，RA-CM3的提出为社区提供了一种全新通用的、模块化的检索增强多模态框架，相信其能够为这一领域开辟更多有趣的研究途径。

参考

[1] Ramesh, A., Pavlov, M., Goh, G., Gray, S., Voss, C., Radford, A., Chen, M., and Sutskever, I. Zero-shot text to-image generation. In International Conference on Machine Learning (ICML), 2021.
[2] Yu, J., Xu, Y., Koh, J. Y., Luong, T., Baid, G., Wang, Z., Vasudevan, V., Ku, A., Yang, Y., Ayan, B. K., et al. Scaling autoregressive models for content-rich text-to-image generation. arXiv preprint arXiv:2206.10789, 2022.
[3] Aghajanyan, A., Huang, B., Ross, C., Karpukhin, V., Xu, H., Goyal, N., Okhonko, D., Joshi, M., Ghosh, G., Lewis, M., and Zettlemoyer, L. CM3: A causal masked multimodal model of the internet. arXiv preprint arXiv:2201.07520, 2022.

Illustration by Ira Design from IconScout

-The End-

关于我“门”
▼

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构，旗下涵盖将门创新服务、将门-TechBeat技术社区以及将门创投基金。
将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”：
[email protected]

DeepSeek：全栈开发者视角下的AI革命者大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 人工智能
DeepSeek：全栈开发者视角下的AI革命者写在前面随着人工智能（AI）技术的不断进步，AI已经成为各行各业创新的核心动力。从自动驾驶到智能制造，再到自然语言处理和图像识别，AI正在逐渐渗透并改变着我们的生活和工作方式。DeepSeek，作为AI领域的新兴技术，凭借其独特的技术架构和颠覆性的创新理念，成为了全栈开发者关注的焦点。本文将从全栈开发者的角度出发，详细解析DeepSeek的诞生、技术架
Assembly语言的自然语言处理花韵婷包罗万象 golang 开发语言后端
Assembly语言在自然语言处理中的应用引言自然语言处理（NaturalLanguageProcessing,NLP）作为人工智能的一个重要分支，致力于实现计算机与人类语言之间的互动。随着计算能力的提升以及大数据的蓬勃发展，NLP在各个领域的应用如火如荼。从语音识别、机器翻译到情感分析等，NLP正在改变我们与信息之间的互动方式。不过，当前主流的NLP研究通常是用高级编程语言（如Python、Ja
大模型的webui Zain Lau 人工智能 python 昇腾 Ascend 天数
exportXXX_LLM_C=~/xcore-llm/build/ReleaseexportCUDA_VISIBLE_DEVICES=2,3exportCUDACXX=/usr/local/cuda-12.3/bin/nvccnohup/usr/bin/python3/home/src/api_server/api_server.py--modelLLama2:7b-chat-hf_A800--
大模型+智能代理：自动化测试的终极组合？测试者家园软件测试质量效能人工智能人工智能软件测试质量效能职场和发展 AI赋能智能体 LLM
用ChatGPT做软件测试在软件测试领域，自动化测试的目标一直是提高测试效率、减少人工干预、提升缺陷发现率。然而，传统自动化测试仍然面临诸多挑战，例如脚本维护成本高、难以应对动态UI变化、测试数据生成受限，以及难以覆盖复杂业务逻辑。近年来，大模型（LLM,LargeLanguageModel）+智能代理（Agent）的结合，为自动化测试带来了新的可能性。这种“智能测试代理”能够利用大模型的自然语言
【PCDN】2020架构: 提高穿透和分享、BGP协议等风来不如迎风去传输探索实践架构服务器运维
小溪流科技自研海外PCDN系统技术架构与演进转载自腾讯云文/张道远整理/核心组网我们自己的P2P组网模型。我们采用了树形组网，但是我们规避优化了传统树形模型的缺点。为防止延时过高，我们在调度时会严格控制树形高度。为弥补父节点掉线造成孤儿状态的不足，我们使系统中每个节点都首先从CDN拉流。如果出现父节点掉线的情况，它立即向服务器补片，同时触发新的组网。对于纯粹的消费者模型，我们目前有两种方案，其中一
大语言模型原理与工程实践：大语言模型强化对齐 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：大语言模型强化对齐作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的迅猛发展，大语言模型（LargeLanguageModels，LLMs）如GPT-3、LaMDA等，在自然语言处理（NLP）领域取得了显著的突破。这些模型在问答、翻译、文本生成等方面展现出惊人的能力，但同时也引发了
LLM对齐方法作用：主要解决大型语言模型（LLMs）输出与人类价值观、需求和安全规范不一致的问题 ZhangJiQun&MXP 2021 AI python 2024大模型以及算力 2021数字交易数字资产语言模型安全人工智能机器学习自然语言处理算法
LLM对齐方法作用：主要解决大型语言模型（LLMs）输出与人类价值观、需求和安全规范不一致的问题对齐方法（AlignmentMethods）主要解决大型语言模型（LLMs）输出与人类价值观、需求和安全规范不一致的问题。其核心目标是让模型生成的内容更符合人类预期，同时确保伦理合规性和实用性。以下是对齐方法解决的具体问题及典型场景：1.安全性与伦理问题问题：基础LLMs可能生成有害内容（如暴力、歧视、
Redis 常用数据类型 27xixi java技术栈 redis 数据库缓存
Redis常用数据类型的详细介绍及其典型应用场景：String（字符串）描述：最基本的数据类型，可存储文本、数字或二进制数据（最大512MB）。常用命令：SETkeyvalue：设置值GETkey：获取值INCRkey：将值自增1（原子性操作）EXPIREkeyseconds：设置过期时间应用场景：缓存简单键值对（如用户会话、配置项）。计数器（如文章阅读量、库存扣减）。分布式锁（结合SETNX命令
【AI热点】Manus技术细致洞察报告（篇2）碣石潇湘无限路人工智能
针对大家对Manus产品褒贬不一的现象，基于近期对Manus的多方实测、公开信息与开源竞品的比对分析而撰写，旨在为从业者、技术爱好者以及潜在用户提供一个较为系统、专业的视角。报告将围绕Manus的核心原理、功能特点、技术亮点、常见应用场景与不足，以及与其他Agent产品和开源方案的对比进行深入探讨。1.引言与背景1.1产品崛起与「全自主通用Agent」的概念自2023年底至2024年初，大模型及其
鸿蒙HarmonyOS开发系列：WebSocket消息发送应用示例太空人_喜之郎 HarmonyOS 鸿蒙 OpenHarmony harmonyos 华为前端 linux 鸿蒙移动开发程序员
1.WebSocket简介WebSocket协议最初于2011年通过RFC6455完成了标准定义，后来又通过RFC7936、RFC8307、RFC8441等标准对协议进行了完善。WebSocket位于网络分层模型的应用层，是建立在TCP之上的双向通讯协议，可以在一个TCP连接上进行全双工通信；和HTTP不同的是，WebSocket通讯需要服务端和客户端先通过握手连接，连接成功后才能相互通信。2.W
数据处理和分析之数据降维：t-SNE：使用t-SNE进行数据可视化实践 kkchenkx 数据挖掘信息可视化算法聚类均值算法数据挖掘机器学习
数据处理和分析之数据降维：t-SNE：使用t-SNE进行数据可视化实践数据降维简介降维技术的重要性在数据科学和机器学习领域，数据降维是一种关键的技术，用于减少数据集的维度，同时保留数据的结构和重要信息。降维不仅可以帮助我们更有效地存储和处理数据，还能在高维数据中发现潜在的模式和结构，这对于数据可视化和模型训练尤为重要。高维数据往往难以直观理解，通过降维，我们可以将其转换为二维或三维空间，便于可视化
第20篇：从零开始构建NLP项目之电商用户评论分析：模型训练阶段 Gemini技术窝自然语言处理人工智能深度学习 AIGC 机器学习 nlp langchain
大家好，今天我们继续探讨如何从零开始构建一个NLP项目，特别是电商用户评论分析中的模型训练阶段。模型训练是NLP项目的核心环节，通过合理的调参和优化，可以显著提升模型性能。本文将详细介绍模型训练的步骤，并展示如何使用LangChain库进行模型训练、调参和优化。文章目录项目的背景和目标模型训练的详细步骤安装依赖包流程图1.准备数据2.定义模型3.训练模型4.评估模型5.调参与优化常见错误和注意事项
MyBatis注解开发之一对多查询我心向阳iu #Mybatis Java面试知识点精讲 mybatis java mysql
文章目录0.MyBatis的注解实现复杂映射开发1.一对多查询1.1一对多查询的模型1.2一对多查询的语句1.3创建StudentMapper接口1.4使用注解配置Mapper1.5测试类1.6一对多配置总结0.MyBatis的注解实现复杂映射开发实现复杂关系映射之前我们可以在映射文件中通过配置来实现，使用注解开发后，我们可以使用@Results注解，@Result注解，@One注解，@Many注
79.HarmonyOS NEXT 手势操作模型详解：移动、缩放与旋转的实现原理 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT手势操作模型详解：移动、缩放与旋转的实现原理1.模型概述这组模型类主要用于处理手势交互中的各种变换操作，包括：位置控制（PositionModel）偏移计算（OffsetModel）旋转处理（RotateModel）缩放控制（Scale
NLP-二分类的应用-区分外卖评论好评/差评左岸Jason 算法 python kafka flink elasticsearch
目录一、概念二、二分类实战-划分好评/差评1.处理步骤2.实战代码一、概念文本分类一般可以分为二分类、多分类、多标签分类三种情况。二分类是指将一组文本分成两个类(0或1),比较常见的应用如垃圾邮件分类、电商网站的用户评价数据的正负面分类等,多分类是指将文本分成若干个类中的某一个类,比如说门户网站新闻可以归属到不同的栏目中(如政治、体育、社会、科技、金融等栏目)去。多标签分类指的是可以将文本分成若干
Python 爬虫实战：电影评论数据抓取与自然语言处理西攻城狮北 python 爬虫开发语言
引言作为一名对电影数据和自然语言处理感兴趣的内容创作者，我决定利用Python爬虫技术抓取IMDb上的电影评论数据，并进行自然语言处理分析。这不仅可以帮助我们了解观众对电影的反馈，还能为电影制作方提供有价值的参考。一、项目背景IMDb（互联网电影数据库）是全球最大的电影数据库，用户可以在上面查看电影信息和用户评论。本项目旨在爬取IMDb上的电影评论，并对评论进行自然语言处理（NLP），以提取情感、
使用yolo训练自己的模型数据遇到的问题次次皮 YOLO 深度学习人工智能
1、报错：NolabelsfoundinD:\xxx\valid\labels.cache查找网上的文章大多都是说文件目录没按规定创建，但我检查了我的目录没问题，后来发现是labels文件夹里的txt文件和images文件夹的图片没有一一对应，对应好之后问题解决2、解决完上个问题之后还是不报上面的错了但还是FatalPythonerror:Aborted；Restartingkernel...检查
中国首款AI原生IDE：字节跳动Trae国内版深度解析与实践指南代码的建筑师学习记录模型学习笔记 AI IDE Trae 字节跳动 AI代码编辑器
一、Trae国内版重磅发布：中国AI编程新标杆2025年3月3日，字节跳动正式推出国内首个AI原生集成开发环境（AIIDE）——Trae国内版。作为对标Cursor的国产工具，Trae以动态智能协作为核心，重新定义开发者与AI的协同模式。其核心目标是通过深度集成AI能力，帮助开发者从“工具使用者”向“AI协同创新者”转型，显著提升全流程开发效率。关键发布亮点：模型支持：搭载字节自研的Doubao-
大模型火爆 2025：LLaMA、Qwen、DeepSeek 核心原理+就业秘籍，快速入门 AI 工程师 weixin_40941102 llama 人工智能
1.大模型核心原理：从零开始理解AI模型这些是大型语言模型（LLMs）的核心技术，适合初学者逐步深入学习。以下是详细拆解，让小白也能掌握：LLaMA系列模型核心原理详解：什么是LLaMA？：LLaMA是一个基于人工智能的语言模型，像一个超级聪明的聊天机器人，能理解和生成人类语言。它由Meta公司开发，类似ChatGPT，但更开源、灵活。核心原理：Transformer架构：想象一个工厂流水线，LL
【AI热点】MCP协议深度洞察报告碣石潇湘无限路人工智能 php 开发语言
摘要人工智能技术飞速发展，大型语言模型（LLM）如何高效、安全地利用外部数据和工具成为关键问题。模型上下文协议（ModelContextProtocol，简称MCP）是一种由Anthropic于2024年底提出的开放标准协议。它通过统一的客户端-服务器架构，为AI应用与文件系统、数据库、第三方API等外部资源之间提供标准化、安全的双向通信接口。本文将深入解析MCP协议的基本概念和背景、架构设计（通
【AI】Transformer布道：让AI学会“左顾右盼”的超级大脑！（扫盲帖）碣石潇湘无限路人工智能 transformer 深度学习
在LLM爆火的时代，如果还不了解Transformer就太落伍了，下面我第一次尝试用一种更日常、更口语化的方式，把Transformer这个模型讲个大概。你可以想象我们是从“什么是注意力”开始，一步步搭积木，直到把整个Transformer这台“机器”组装起来，然后再看看它能干什么、怎么训练、为什么厉害。主要目的就是帮助更多的非AI专业的人群入门和了解实现AGI的底层架构。1.为什么要有Trans
【奇点时刻】通义千问开源QwQ-32B技术洞察报告（扫盲帖）碣石潇湘无限路开源人工智能
以下报告将基于今天各大社区对Qwen/QwQ-32B（下文简称「QwQ-32B」）模型的讨论、测评与实测体验进行综合性分析与洞察。本报告将从模型背景与定位、核心技术、性能表现与对比、部署与使用方式，以及未来潜力与可能的影响五个维度，帮助读者更好地了解这一新兴且备受瞩目的开源推理模型。一、模型背景与定位1.发布方与家族概览QwQ-32B模型由阿里巴巴（Alibaba）旗下的Qwen团队推出，属于Qw
#PyCharm 2024.1新增功能 Dingdangr pycharm ide python
PyCharm2024.1作为JetBrains专为Python开发者设计的集成开发环境（IDE）的最新版本，带来了众多令人兴奋的新增功能，旨在提升开发者的编程效率和体验。以下是对这些新增功能的详细解析：一、智能编码辅助HuggingFace模型和数据集文档预览PyCharm2024.1引入了HuggingFace模型和数据集的快速文档预览功能。开发者可以直接在PyCharm内部快速获取Huggi
正则表达式全解析 + Java常用示例我真的不想做程序员算法 java java 后端开发语言算法正则表达式
目录一、正则表达式基础（一）元字符（二）字符集（三）量词二、正则表达式常用示例（一）验证邮箱格式（二）验证电话号码格式（三）提取网页中的链接（四）验证日期格式（五）验证URL格式三、正则表达式在Java中的应用（一）匹配操作（二）替换操作（三）分割操作四、总结一、正则表达式基础正则表达式是一种用于匹配字符串的强大工具。它使用特定的语法来定义匹配模式，可以在文本处理、表单验证、数据提取等场景中发挥重
TensorRT-LLM保姆级教程-快速入门大模型八哥笔记 agi ai 大模型 ai大模型 LLM Transformer
随着大模型的爆火，投入到生产环境的模型参数量规模也变得越来越大（从数十亿参数到千亿参数规模），从而导致大模型的推理成本急剧增加。因此，市面上也出现了很多的推理框架，用于降低模型推理延迟以及提升模型吞吐量。本系列将针对TensorRT-LLM推理进行讲解。本文为该系列第一篇，将简要概述TensorRT-LLM的基本特性。另外，我撰写的大模型相关的博客及配套代码均整理放置在Github，有需要的朋友自
使用agent搭建一个简易的ai论文写作程序喂喂喂喂位 langChain手搓AI Agent记录人工智能 langchain 深度学习 python AIGC
本程序能够自动化完成从规划、研究、撰写到修改的整个论文创作流程。基于LangGraph和LangChain框架构建，利用大型语言模型和搜索工具协同工作，形成了一个完整的论文写作流水线。核心功能分析计划生成功能(plan_node)这个node将接收状态，然后创建一个消息列表。其中一个将是PLAN_PROMPT，那将是SystemMessage。然后创建HumanMessage，传入我们要做的tas
DeepSeek：技术创作者的内容革命，从代码到爆文的AI全栈攻略不想加班的码小牛人工智能 ai chatgpt
一、为什么技术创作者需要关注DeepSeek？作为CSDN的资深用户，你是否经历过这些痛点？选题焦虑：技术热点日新月异，如何抓住「大模型优化」或「量子计算落地」等前沿方向？写作卡顿：明明代码跑通了，却在技术原理描述环节反复修改效率瓶颈：既要写技术文档又要运营专栏，时间永远不够用DeepSeek的多模态理解能力（支持代码+自然语言混合输入）和领域自适应特性（自动识别技术文档/教程/测评等文体），让它
SDN架构解密：控制面如何“指挥”万亿级网络？ ——基于“大脑-四肢”模型的三层架构深度解析不想加班的码小牛网络架构人工智能 ai
摘要本文以“大脑-四肢”类比SDN三层架构，揭示控制器如何通过全局视图管理、南向接口标准化（如OpenFlow）与北向API开放能力，实现对万亿级网络的集中化控制。文中包含OpenFlow协议代码示例、网络拓扑公式及架构图，力求呈现技术细节与实战价值。一、SDN架构的“大脑-四肢”隐喻SDN通过控制平面-数据平面-应用平面的三层架构，构建了网络控制的“中枢神经系统”：控制层（大脑）：集中式控制器掌
NPU的应用场景：从云端到边缘绿算技术 NPU架构介绍缓存人工智能科技深度学习
NPU的应用场景非常广泛，主要包括以下几个方面：1.云计算与数据中心AI推理服务：在云端提供高效的AI推理服务，例如图像识别、语音识别。模型训练加速：在大规模训练任务中，NPU可以作为加速单元，提升训练效率。2.边缘计算智能摄像头：在安防监控中，NPU可以实时处理视频流，实现目标检测和跟踪。智能音箱：在语音助手中，NPU可以加速语音识别和自然语言处理任务。3.自动驾驶实时感知：NPU可以加速自动驾
NPU的工作原理：神经网络计算的流水线绿算技术 NPU架构介绍神经网络人工智能深度学习
NPU的工作原理可以概括为以下几个步骤：1.模型加载·将训练好的神经网络模型加载到NPU的内存中。2.数据输入·输入数据（如图像、语音）通过接口传输到NPU。3.计算执行·NPU根据模型结构，依次执行卷积、池化、全连接等计算任务。·矩阵乘法单元和卷积加速器并行工作，高效完成计算。4.结果输出·计算完成后，输出结果（如分类标签、检测框）返回给主机或其他处理器。5.任务调度·在多任务场景下，NPU的任
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI PHP android linux
╔-----------------------------------╗┆
各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。 bozch .net .net mvc
在.net mvc5中，在执行某一操作的时候，出现了如下错误：各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。经查询当前的操作与错误内容无关，经过对错误信息的排查发现，事故出现在数据库迁移上。回想过去：在迁移之前已经对数据库进行了添加字段操作，再次进行迁移插入XXX字段的时候，就会提示如上错误。 &
Java 对象大小的计算 e200702084 java
Java对象的大小如何计算一个对象的大小呢？
Mybatis Spring 171815164 mybatis
ApplicationContext ac = new ClassPathXmlApplicationContext("applicationContext.xml"); CustomerService userService = (CustomerService) ac.getBean("customerService"); Customer cust
JVM 不稳定参数 g21121 jvm
-XX 参数被称为不稳定参数，之所以这么叫是因为此类参数的设置很容易引起JVM 性能上的差异，使JVM 存在极大的不稳定性。当然这是在非合理设置的前提下，如果此类参数设置合理讲大大提高JVM 的性能及稳定性。可以说“不稳定参数”
用户自动登录网站永夜-极光用户
1.目标:实现用户登录后,再次登录就自动登录,无需用户名和密码 2.思路:将用户的信息保存为cookie 每次用户访问网站,通过filter拦截所有请求,在filter中读取所有的cookie,如果找到了保存登录信息的cookie,那么在cookie中读取登录信息,然后直接
centos7 安装后失去win7的引导记录程序员是怎么炼成的操作系统
1.使用root身份(必须)打开 /boot/grub2/grub.cfg 2.找到 ### BEGIN /etc/grub.d/30_os-prober ### 在后面添加 menuentry "Windows 7 (loader) (on /dev/sda1)" {
Oracle 10g 官方中文安装帮助文档以及Oracle官方中文教程文档下载 aijuans oracle
Oracle 10g 官方中文安装帮助文档下载：http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Oracle 10g 官方中文教程
JavaEE开源快速开发平台G4Studio_V3.2发布了無為子 AOP oracle mysql javaee G4Studio
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V3.2版本已经正式发布。大家可以通过如下地址下载。访问G4Studio网站 http://www.g4it.org G4Studio_V3.2版本变更日志功能新增 (1).新增了系统右下角滑出提示窗口功能。 (2).新增了文件资源的Zip压缩和解压缩
Oracle常用的单行函数应用技巧总结百合不是茶日期函数转换函数(核心)数字函数通用函数(核心)字符函数
单行函数; 字符函数,数字函数,日期函数,转换函数(核心),通用函数(核心) 一:字符函数: .UPPER(字符串) 将字符串转为大写 .LOWER (字符串) 将字符串转为小写 .INITCAP(字符串) 将首字母大写 .LENGTH (字符串) 字符串的长度 .REPLACE(字符串,'A','_') 将字符串字符A转换成_
Mockito异常测试实例 bijian1013 java 单元测试 mockito
Mockito异常测试实例： package com.bijian.study; import static org.mockito.Mockito.mock; import static org.mockito.Mockito.when; import org.junit.Assert; import org.junit.Test; import org.mockito.
GA与量子恒道统计 Bill_chen JavaScript 浏览器百度 Google 防火墙
前一阵子，统计**网址时，Google Analytics（GA）和量子恒道统计（也称量子统计），数据有较大的偏差，仔细找相关资料研究了下，总结如下：为何GA和量子网站统计（量子统计前身为雅虎统计）结果不同？首先：没有一种网站统计工具能保证百分之百的准确出现该问题可能有以下几个原因：（1）不同的统计分析系统的算法机制不同；（2）统计代码放置的位置和前后
【Linux命令三】Top命令 bit1129 linux命令
Linux的Top命令类似于Windows的任务管理器，可以查看当前系统的运行情况，包括CPU、内存的使用情况等。如下是一个Top命令的执行结果： top - 21:22:04 up 1 day, 23:49, 1 user, load average: 1.10, 1.66, 1.99 Tasks: 202 total, 4 running, 198 sl
spring四种依赖注入方式白糖_ spring
平常的java开发中，程序员在某个类中需要依赖其它类的方法，则通常是new一个依赖类再调用类实例的方法，这种开发存在的问题是new的类实例不好统一管理，spring提出了依赖注入的思想，即依赖类不由程序员实例化，而是通过spring容器帮我们new指定实例并且将实例注入到需要该对象的类中。依赖注入的另一种说法是“控制反转”，通俗的理解是：平常我们new一个实例，这个实例的控制权是我
angular.injector boyitech AngularJS AngularJS API
angular.injector 描述: 创建一个injector对象, 调用injector对象的方法可以获得angular的service, 或者用来做依赖注入. 使用方法: angular.injector(modules, [strictDi]) 参数详解: Param Type Details mod
java-同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待 bylijinnan Integer
public class PC { /** * 题目：生产者-消费者。 * 同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待。 */ private static final Integer[] val=new Integer[10]; private static
使用Struts2.2.1配置 Chen.H apache spring Web xml struts
Struts2.2.1 需要如下 jar包: commons-fileupload-1.2.1.jar commons-io-1.3.2.jar commons-logging-1.0.4.jar freemarker-2.3.16.jar javassist-3.7.ga.jar ognl-3.0.jar spring.jar struts2-core-2.2.1.jar struts2-sp
[职业与教育]青春之歌 comsci 教育
每个人都有自己的青春之歌............但是我要说的却不是青春... 大家如果在自己的职业生涯没有给自己以后创业留一点点机会,仅仅凭学历和人脉关系,是难以在竞争激烈的市场中生存下去的.... &nbs
oracle连接(join)中使用using关键字 daizj JOIN oracle sql using
在oracle连接(join)中使用using关键字 34. View the Exhibit and examine the structure of the ORDERS and ORDER_ITEMS tables. Evaluate the following SQL statement: SELECT oi.order_id, product_id, order_date FRO
NIO示例 daysinsun nio
NIO服务端代码： public class NIOServer { private Selector selector; public void startServer(int port) throws IOException { ServerSocketChannel serverChannel = ServerSocketChannel.open(
C语言学习homework1 dcj3sjt126com c homework
0、课堂练习做完 1、使用sizeof计算出你所知道的所有的类型占用的空间。 int x; sizeof(x); sizeof(int); # include <stdio.h> int main(void) { int x1; char x2; double x3; float x4; printf(&quo
select in order by , mysql排序 dcj3sjt126com mysql
If i select like this: SELECT id FROM users WHERE id IN(3,4,8,1); This by default will select users in this order 1,3,4,8, I would like to select them in the same order that i put IN() values so:
页面校验-新建项目 fanxiaolong 页面校验
$(document).ready( function() { var flag = true; $('#changeform').submit(function() { var projectScValNull = true; var s =""; var parent_id = $("#parent_id").v
Ehcache（02）——ehcache.xml简介 234390216 ehcache ehcache.xml 简介
ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的，更准确的来说它是定义CacheManager的配置信息的。根据之前我们在《Ehcache简介》一文中对CacheManager的介绍我们知道一切Ehcache的应用都是从CacheManager开始的。在不指定配置信
junit 4.11中三个新功能 jackyrong java
junit 4.11中两个新增的功能，首先是注解中可以参数化，比如 import static org.junit.Assert.assertEquals; import java.util.Arrays; import org.junit.Test; import org.junit.runner.RunWith; import org.junit.runn
国外程序员爱用苹果Mac电脑的10大理由 php教程分享 windows PHP unix Microsoft perl
Mac 在国外很受欢迎，尤其是在设计/web开发/IT 人员圈子里。普通用户喜欢 Mac 可以理解，毕竟 Mac 设计美观，简单好用，没有病毒。那么为什么专业人士也对 Mac 情有独钟呢？从个人使用经验来看我想有下面几个原因： 1、Mac OS X 是基于 Unix 的这一点太重要了，尤其是对开发人员，至少对于我来说很重要，这意味着Unix 下一堆好用的工具都可以随手捡到。如果你是个 wi
位运算、异或的实际应用 wenjinglian 位运算
一．位操作基础，用一张表描述位操作符的应用规则并详细解释。二．常用位操作小技巧，有判断奇偶、交换两数、变换符号、求绝对值。三．位操作与空间压缩，针对筛素数进行空间压缩。 &n
weblogic部署项目出现的一些问题（持续补充中……） Everyday都不同 weblogic部署失败
好吧，weblogic的问题确实…… 问题一： org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate component class: URL [zip:E:/weblogic/user_projects/domains/base_domain/serve
tomcat7性能调优（01） toknowme tomcat7
Tomcat优化： 1、最大连接数最大线程等设置 <Connector port="8082" protocol="HTTP/1.1" useBodyEncodingForURI="t
PO VO DAO DTO BO TO概念与区别 xp9802 java DAO 设计模式 bean 领域模型
O/R Mapping 是 Object Relational Mapping（对象关系映射）的缩写。通俗点讲，就是将对象与关系数据库绑定，用对象来表示关系数据。在O/R Mapping的世界里，有两个基本的也是重要的东东需要了解，即VO，PO。它们的关系应该是相互独立的，一个VO可以只是PO的部分，也可以是多个PO构成，同样也可以等同于一个PO（指的是他们的属性）。这样，PO独立出来，数据持