qwen

论文阅读：2025 arxiv Qwen3 Technical Report

https://arxiv.org/pdf/2505.09388https://www.doubao.com/chat/9918384373236738文章目录论文翻译Qwen3技术报告摘要1引言论文翻译

·2025-06-29 00:59

使用vllm部署 Nanonets-OCR-s

使用vLLM部署Nanonets-OCR-s模型的完整指南Nanonets-OCR-s作为基于Qwen2.5-VL-3B的多模态OCR模型，结合vLLM的高效推理引擎可显著提升部署性能。

没刮胡子·2025-06-28 23:20

LLMs之Embedding：Qwen3 Embedding的简介、安装和使用方法、案例应用之详细攻略

LLMs之Embedding：Qwen3Embedding的简介、安装和使用方法、案例应用之详细攻略目录Qwen3Embedding的简介1、特点2、模型列表3、评测结果MTEB(Multilingual

一个处女座的程序猿·2025-06-27 03:51

qwen3 + qwen agent

前不久阿里发布了qwen3开源模型，据说性能比deepeek还要强，之前体验过qwen2.5当时感觉还不错，据说现在的qwen38b就相当于qwen2.5的14b性能，不过我也不是专业人员，也不知道到底是有多强

t梧桐树t·2025-06-26 14:20

Are Multimodal Large Language Models Pragmatically Competent Listeners in Simple Reference

具体内容如下：1.研究目的考察LLaVA-NeXT、Qwen2-VL和JanusPro等MLLMs在“导演-匹配者”式参考游戏中，对颜色和空间布局的语境化语用推理能力，验证其是否能像人类一样根据视觉上下文解析指称表达

UnknownBody·2025-06-26 13:46

群核科技空间理解模型SpatialLM技术报告发布，3D空间识别精度达全球领先水平

据悉，该模型于今年3月正式开源，并在开源后迅速与DeepSeek-V3、Qwen2.5-Omni一起登上全球最大的开源社区HuggingFace全球趋势榜前三。

CSDN资讯·2025-06-24 16:18

Qwen LLM（通义千问大模型）的词编码原理：字节级别字节对编码（BBPE，Byte - level Byte Pair Encoding）

QwenLLM（通义千问大模型）的词编码原理：字节级别字节对编码（BBPE，Byte-levelBytePairEncoding）QwenLLM（通义千问大模型）的词编码基于字节级别字节对编码（BBPE，Byte-levelBytePairEncoding），以下从原理、方法、举例展开说明：一、核心原理BBPE本质是子词分词+编码的混合逻辑，核心目标是让文本高效转化为模型可理解的token（令牌）

ZhangJiQun&MXP·2025-06-24 07:49

VLM 系列——Qwen2 VL——论文解读

一、概述1、是什么是一系列多模态大型语言模型（MLLM），其中包括2B、7B、72B三个版本，整体采用视觉编码器（标准VIT输出后面接patchmerger）+LLM形式。比较创新的是统一视觉处理方式（3DCNN统一视频、图片）+图像缩放方式（自适应缩放）+3DLLM位置编码。能够处理包括文本、图像在内的多种数据类型，具备图片描述、单图文问答、多图问对话、视频理解对话、json格式、多语言、age

TigerZ*·2025-06-24 01:46

2025-微调 Qwen3 实战教程

一、概述unsloth微调Qwen3模型提供显著优势：训练速度提高2倍，VRAM使用减少70%，支持8倍长的上下文。Qwen3–30B-A3B仅需17.5GBVRAM即可运行。

·2025-06-23 12:17

DB-GPT_0.5.10安装__部署Qwen2-72b模型（Ubuntu）——报错记录

官网地址在这里——源码部署(yuque.com)，英文地址——SourceCodeDeployment|DB-GPT(dbgpt.site)官网给了三种部署方式：源码部署、Docker部署、Docker-Compose部署，这里我选择的部署方式是源码部署，Docker部署的教程我感觉比较简陋，还是使用源码部署更为稳妥些。不过经过自己的尝试发现，DB-GPT官网给的部署教程属实不太友好，关于配置文件

介甫遗风·2025-06-23 04:56

当AI成为“程序员”，我们真正的价值是什么？

从GitHubCopilot的惊艳亮相，到Cursor、ReplitAI等新神器的涌现，再到背后强大的GPT、Gemini、ERNIE、Deepseek、Qwen等通用大模型，AI正在从“辅助工具”向“

勤奋的知更鸟·2025-06-23 02:11

大模型学习路线：这会是你见过最全最新的大模型学习路线【2025最新】

大模型学习路线建议先从主流的Llama开始，然后选用中文的Qwen/Baichuan/ChatGLM，先快速上手体验prompt工程，然后再学习其架构，跑微调脚本如果要深入学习，建议再按以下步骤，从更基础的

大模型入门学习·2025-06-23 00:56

✨Qwen3-Embedding 向量维度选择与自定义输出终极指南（含实战 + 原理详解）

Qwen3-Embedding向量维度选择与自定义输出终极指南（含实战+原理详解）通义千问Qwen3-Embedding模型系列在多语言嵌入任务中表现亮眼，很多开发者都在问两个关键问题：向量维度该怎么选

杨靳言先·2025-06-22 01:01

深入解读Qwen3技术报告（三）：深入剖析Qwen3模型架构

通过深入的技术解析和实践经验分享，旨在帮助读者更好地理解和应用这些领域的最新进展3.深入剖析Qwen3模型架构大型语言模型的架构设计直接决定了其

小爷毛毛（卓寿杰）·2025-06-21 23:18

【AIGC半月报】AIGC大模型启元：2024.06（上）

大模型启元：2024.06（上）(1)ChatTTS（语音合成项目）(2)Mamba-2（大模型新架构Mamba升级）(3)GLM-49B（智谱开源LLM）(4)Seed-TTS（字节语音合成）(5)QWen2

LeeZhao@·2025-06-21 11:27

生成本地微调 +强化学习 qwen3-4b 研究搭建流程步骤

在本地微调并应用强化学习（RL）对Qwen-3-4B模型进行研究和搭建，是一个复杂但可行的过程。以下是一个详细的流程步骤，涵盖从环境准备、数据准备、模型微调到强化学习应用的各个阶段。

行云流水AI笔记·2025-06-21 11:54

【无标题】

在本地对Qwen-3-4B模型进行微调，并结合强化学习（RL）以提高其从自然语言（TXT）到结构化查询语言（SQL）的转换能力（即TXT2SQL），是一个复杂但非常有价值的任务。

行云流水AI笔记·2025-06-21 11:54

大模型和AI工具汇总（一）

官网：https://www.deepseek.com通义千问Qwen3模型介绍：阿里巴巴推出的新一代超大规模语言模型，支持32K上下文、多语言交互

大写-凌祁·2025-06-20 19:12

Milvus/ES 插入方案对比

python-c"fromsentence_transformersimportSentenceTransformer;model=SentenceTransformer('/root/.cache/modelscope/hub/models/Qwen

风筝超冷·2025-06-20 14:08

Spring AI Alibaba 集成使用指南

随着人工智能技术的不断发展，阿里巴巴推出了SpringAIAlibaba项目，旨在将大模型（如Qwen、通义千问等）与Spring生态无缝集成，让开发者可以更方便地在企业级应用中引入AI能力。

超级小忍·2025-06-20 12:51

全球AI推理新挑战者—Groq，全面提速语言模型！

Groq的创新突破：全面支持超大语言模型Groq宣布他们的系统现在支持阿里巴巴的Qwen332B语言模型。这

人工智能我来了·2025-06-20 08:19

词编码模型有哪些

词编码模型有哪些词编码模型在高维向量空间的关系解析与实例说明如Word2Vec、BERT、Qwen等一、高维向量空间的基础概念词编码模型（如Word2Vec、BERT、Qwen等）的核心是将自然语言符号映射为稠密的高维向量

ZhangJiQun&MXP·2025-06-20 05:04

大模型——用Qwen3+MCPs实现AI自动发布小红书笔记！支持图文和视频

大模型——用Qwen3+MCPs实现AI自动发布小红书笔记！

不二人生·2025-06-19 14:46

Qwen2.5：模型训练和推理核心参数介绍

详细介绍：https://mp.weixin.qq.com/s/0zLHA_VQkD3tf0BSzjd7Ag一、remove_columns删除选定的列作用：去掉原始数据集里面的字段以及对应的数据。原因：如果不去掉，在进行微调时，模型就会将数据集原始字段和新加的字段一起输入到模型，导致格式与期望的不一致。二、TrainingArguments核心参数2.1基础训练设置参数介绍output_dir(

艾墨舟启航·2025-06-18 04:51

Qwen3-Embedding-Reranker本地部署教程：8B 参数登顶 MTEB 多语言榜首，100 + 语言跨模态检索无压力！

一、简介Qwen3-Embedding与Qwen3-Reranker是阿里巴巴通义实验室于今年6月开源的双模型系列，专为文本表征、检索与排序任务设计。

算家计算·2025-06-17 23:14

为什么 Qwen3，让我看到了 AI 应用落地的重大利好

比如最近Qwen3、Gemini2.5、GPT-4.1和Grok-3等这么密集的有明显新进展的优秀模型发布，要是放到2年前，铁定是个炸裂的一个月。

大模型老炮·2025-06-17 17:05

WordToCard，一键将Markdown内容转换为精美知识卡片（使用Qwen3）

1、首先我们打开Qwen3让其帮我写一篇关于如何本地部署开源Qwen的文章内容如下为Markdown格式以下是本地部署开源Qwen3大模型的详细步骤，结合了多篇教程的核心内容，帮助你快速完成部署：一、准备工作硬件要求显卡

程序员猫爪·2025-06-16 22:59

在沉浸式翻译中使用SiliconCloud API：提升翻译体验

硅基流动的大模型优势硅基流动近期提供了GLM4、Qwen2、DeepSeekV2、Yi等系列大模型，这些模型在翻译速度和准确性上都有显著优势。以下是如何将这些模型应用于沉浸

淮橘√·2025-06-16 14:36

2025国内大模型API价格和核心性能：通义千问-Max对比腾讯混元

想了解比较报告的深度内容，点此查看完整报告通义千问-Max通义千问-Max，即Qwen2.5-Max，是阿里云通义千问旗舰版模型，于2025年1月29日正式发布。

·2025-06-16 10:50

2025年大模型学习路线图：史上最全、最新的大模型学习指南！非常详细收藏这一篇就够了！

大模型学习路线建议先从主流的Llama开始，然后选用中文的Qwen/Baichuan/ChatGLM，先快速上手体验prompt工程，然后再学习其架构，跑微调脚本前排提示，文末有大模型AGI-CSDN独家资料包哦

大模型教程·2025-06-15 16:42

2025-06-12【合成视频】

一个简单的视频合成任务，没有想到deepseek，豆包，qwen3.0等国内所谓顶级的模型居然搞了5个小时没有搞出来。实在没办法上梯子到GPT最普通的模型里输入同样的问题。

批量小王子·2025-06-15 15:05

用 LoRA 对 Qwen2.5-VL 模型进行SFT - qwen2_5vl_lora_sft.yaml

用LoRA对Qwen2.5-VL模型进行SFT-qwen2_5vl_lora_sft.yamlflyfishFORCE_TORCHRUN=1llamafactory-clitrainexamples/train_lora

二分掌柜的·2025-06-15 02:37

✨如何在 vLLM 中取消 Qwen3 的 Thinking 模式

如何在vLLM中取消Qwen3的Thinking模式在使用Qwen3模型与vLLM（VeryLargeLanguageModel）进行推理服务时，你可能会发现模型默认会输出类似“我正在思考……”的提示内容

杨靳言先·2025-06-14 00:15

Ubuntu24.04 onnx 模型转 rknn

前面的环境配置有点懒得写，教程也很多，可以自己找rknn-toolkit2gitee地址：pingli/rknn-toolkit2试了很多开源的代码，都没办法跑通，最后自己改了一版微调后的qwen2模型适用

一只名叫Me的猫·2025-06-12 19:16

开放创新，昇腾 CANN 再向深处

4月29日凌晨4点，Qwen3正式发布，并开源全部8款混合推理模型。发布仅2小时，Qwen3模型在GitHub上的Star数已近17k。

·2025-06-12 17:06

网络受限情况下，在Ollama中导入从Model Scope下载的safetensors提示错误Error: unsupported architecture “Qwen3ForCausalLM“

Ollama版本：0.80大模型：Qwen3-14B-FP8模型架构：Qwen3ForCausalLMOllama此版本暂不支持此架构，待后续版本添加。

stupidorclever·2025-06-12 12:30

硅基流动完成新一轮数亿元融资，打造开发者首选生成式 AI 开发平台

今年以来，随着阿里巴巴通义千问Qwen、DeepSeek等开源大模型崛起以及AI推理算力需求激增，公司业务迎来了爆发式增长。感谢多方投资机构

CSDN资讯·2025-06-11 14:24

【评测】Qwen3-Embedding模型初体验

回到目录Qwen3-Embedding的ollama部署方法可以参考【部署】dify+ollama部署Qwen3-Embedding-8B【评测】Qwen3-Embedding模型初体验模型的介绍页面0.6B

·2025-06-10 12:48

【大模型入门】2025年大模型学习路线图：史上最全、最新的学习指南，助你成为AI领域的佼佼者！

大模型学习路线建议先从主流的Llama开始，然后选用中文的Qwen/Baichuan/ChatGLM，先快速上手体验prompt工程，然后再学习其架构，跑微调脚本前排提示，文末有大模型AGI-CSDN独家资料包哦

·2025-06-10 12:15

基于 LoRA 和 GRPO 的 Qwen2.5-3B 数学推理模型微调示例

一、项目概述本项目基于Qwen2.5-3B-Instruct模型，结合LoRA（低秩自适应）和GRPO技术，针对数学推理任务（GSM8K数据集）进行微调，旨在训练一个能以XML格式输出链式思考和答案的数学助理模型

大鹏的NLP博客·2025-06-10 03:15

QwenLong-L1横空出世：强化学习让大模型“长记性”，长文档推理新王者？

你让ChatGPT、Claude、Qwen这帮大佬们聊个千八百字的短文，那是小菜一碟。但真要让它们啃下几万字的财报

许泽宇的技术分享·2025-06-09 14:47

深入解析 Qwen3-Embedding 和 Qwen3-Reranker：原理、应用与代码示例

深入解析Qwen3-Embedding和Qwen3-Reranker：原理、应用与代码示例在当今数字化信息爆炸的时代，高效的信息检索与处理技术成为了众多领域的关键需求。

从零开始学习人工智能·2025-06-09 06:16

【MLLM】字节BAGEL多模态理解和生成统一模型

官方说要比Qwen2.5-VL和InternVL-2.5表现好。

山顶夕景·2025-06-08 13:46

构建面向大模型训练与部署的一体化架构：从文档解析到智能调度

作者：汪玉珠｜算法架构师标签：大模型训练、数据集构建、GRPO、自监督聚类、指令调度系统、Qwen、LLaMA3背景与挑战随着Qwen、LLaMA3等开源大模型不断进化，行业逐渐从“能跑通”迈向“如何高效训练与部署

weixin_40941102·2025-06-08 10:56

qwen3使用VLLM启动：vllm docker运行命令

1.停止大模型dockerstopvllm-qwen3-32b&&dockerrmvllm-qwen3-32b2.启动大模型dockerrun-d--gpusall--restartunless-stopped

Ven%·2025-06-08 08:12

LLaMA-Factory 微调 Qwen2-VL 进行人脸情感识别（二）

在上一篇文章中，我们详细介绍了如何使用LLaMA-Factory框架对Qwen2-VL大模型进行微调，以实现人脸情感识别的功能。

anneCoder·2025-06-07 12:30

unsloth 微调 Qwen3 实战教程来了！

unsloth微调Qwen3模型提供显著优势：训练速度提高2倍，VRAM使用减少70%，支持8倍长的上下文。Qwen3–30B-A3B仅需17.5GBVRAM即可运行。

Python之栈·2025-06-06 22:23

基于 Qwen2 大模型微调技术详细教程（LoRA 参数高效微调和 SwanLab 可视化监控）

我之前曾把大模型比作成一位无所不能无所不知且不知疲惫的“大师”。我们在日常工作、学习中等一些通用知识方面的问题，通常情况下，我们均可通过Prompt提示词就能从“大师”那里得到期望的结果。但是，在某些垂直场景的特定任务（包括：个性化服务、内部私有数据等）中，这位“大师”可能就不一定能胜任了：数据隐私安全：保密项目、创业团体和企业内部数据是需要保证绝对安全的，“大师”的知识来自预训练的公开数据，在推

知世不是芝士·2025-06-06 22:20

unsloth微调Qwen3模型实战

韭菜盖饭·2025-06-06 22:19

DeepSeek-R1-0528-Qwen3-8B为底座微调领域大模型准备:制作领域专用数据集

前言想要微调领域大模型，数据的准备是必不可少的。然而微调大模型需要的数据极多，这样花费很多人力和准备。有没有方便又高效的方法？一下子就可以准备大量的领域专用数据集呢？制作领域专用数据集这里制作的数据集格式为使用的aphaca格式的1.启动vllm服务python-mvllm.entrypoints.openai.api_server\--modelyour-model-path\--served-

Ven%·2025-06-05 17:33

推荐频道