Qwen

大模型微调1——使用LoRA微调qwen模型优化推理效果

微调步骤1、数据集准备2、下载大模型3、加载tokenizer和model4、训练数据格式化5、配置LoRA的参数6、开启训练7、训练结束后，合并LoRA和原模型参数参考文献：任务使用LoRA微调技术微调qwen

IT修炼家·2025-04-17 18:02

[特殊字符] LoRA微调大模型实践：从MAC到Web的全流程指南

导出模型并部署→3.暴露API给web后端→4.前端展示️微调模型准备核心配置框架：LLama-Factory算法：LoRA(低秩适应)基座模型：deepseek-ai/DeepSeek-R1-Distill-Qwen

AI大模型顾潇·2025-04-17 18:00

Cogito v1 Preview：开源混合推理系列模型博客速读（微调自llama和qwen）

Cogitov1Preview文章讲解一、项目介绍Cogitov1Preview是一个关于人工智能（AI）的重要项目，旨在通过迭代改进的方法（IteratedDistillationandAmplification，简称IDA）来实现通用超级智能（generalsuperintelligence）。该项目由DeepCogito团队开发，团队位于旧金山，并得到了一些顶级风险投资公司的支持。二、背景知

Panesle·2025-04-16 17:15

智能革命浪潮：大模型重塑商业未来

全球AI大模型技术正以每年37%的算力增速推动智能革命，从OpenAI的通用智能突破到Qwen的中文语义壁垒，从开源生态的爆发到行业效率的质变，企业正站在重构商业版图的关键节点。

Ai时事评说·2025-04-16 15:34

嵌入模型：专注于中文能力的开源模型分析

目录关键要点嵌入模型：专注于中文能力的开源模型分析引言模型选择与对比性能与准确性语言支持成本分析嵌入维度速度与延迟定制化与微调使用建议具体应用案例与场景结论关键引用关键要点研究表明，Alibaba-NLP/gte-Qwen2

樽酒ﻬق·2025-04-15 07:33

基于Qwen2/Lllama3等大模型，部署团队私有化RAG知识库系统的详细教程（Docker+AnythingLLM）

自ChatGPT发布以来，大型语言模型（LargeLanguageModel，LLM，大模型）得到了飞速发展，它在处理复杂任务、增强自然语言理解和生成类人文本等方面的能力让人惊叹，几乎各行各业均可从中获益。然而，在一些垂直领域，这些开源或闭源的通用基础大模型也暴露了一些问题，主要体现在以下3个方面：知识的局限性：大模型的知识源于训练数据，目前主流大模型（如：通义千问、文心一言等）的训练数据基本来源

大耳朵爱学习·2025-04-14 19:11

常见LLM大模型概览与详解

Falcon180B、Mistral7B、OpenHermes、GPT-NeoX-20B、Pythia、OpenLLaMA、OlMA、GPT-4系列、Claude-3、GLM-4、文心一言、通义千问、Abad6、qwen

夏沫の梦·2025-04-14 05:41

单卡4090微调大模型 DeepSeek-R1-32B

之前文章同样的方法，也可以在24G显存的单卡4090上微调训练deepseek-ai/DeepSeek-R1-Distill-Qwen-32B；即使该模型的权重文件大小已经达到62G，这是因为unsloth

大模型与自然语言处理·2025-04-14 04:35

理解大模型论文中的名词部分

对DeepSeek、Qwen模型技术报告中的名词部分进行介绍1.预训练•目标：从海量无标注文本中学语言能力（通常一次性训练大模型）•特点：训练耗时、成本高，但是基础中的基础•是否自己做：一般使用开源预训练模型

要努力啊啊啊·2025-04-13 13:30

OpenBayes 一周速览｜Phi-2、Qwen-1.8B、IP-Adapter-FaceID 等多个模型上线公共资源

5个模型：*phi-2*Qwen-1.8B*Qwen-1.8B-Chat*Qwen-72B-Chat-Int8*IP

OpenBayes·2025-04-13 11:18

目前有哪些国产GPU支持DeepSeek？国产GPU支持的DeepSeek模型的性能如何？DeepSeek模型与其他模型相比有什么优势？没有CUDA的GPU可以部署Deepseek

有很多国产GPU支持DeepSeek，以下是一些典型代表：1.景嘉微JM系列：适配了DeepSeek-R1-Distill-Qwen-1.5B和DeepSeek-R1-Distill-Qwen-7B模型

gzgenius·2025-04-13 09:05

llama-factory微调qwen2.5-vl

前言目前大模型百花齐放，微调方法复杂多样，且教程复杂，工程端想要进行垂域模型适配困难重重，本篇博客详细介绍了qwen2.5-vl的全流程微调过程，包括环境配置、数据集制作、模型训练、模型导出、模型部署、

魔障阿Q·2025-04-13 08:25

LLaMA-Factory双卡4090微调DeepSeek-R1-Distill-Qwen-14B医学领域

unsloth单卡4090微调DeepSeek-R1-Distill-Qwen-14B医学领域后，跑通一下多卡微调。

openownworld·2025-04-13 08:54

从Hugging Face下载Qwen/Qwen2-Audio-7B-Instruct模型到本地运行，使用python实现一个音频转文字的助手

明明跟你说过：个人主页个人专栏：《深度探秘：AI界的007》行路有良友，便是天堂目录一、引言1、HuggingFace简介2、Qwen2-Audio-7B-Instruct模型简介二、下载模型1、注册HuggingFace2

明明跟你说过·2025-04-11 13:46

开源的7B参数OCR视觉大模型：RolmOCR

1.背景介绍早些时候，AllenInstituteforAI发布了olmOCR，这是一个基于Qwen2-VL-7B视觉语言模型（VLM）的开源工具，用于处理PDF和其他复杂文档的OCR（光学字符识别）。

Panesle·2025-04-11 13:11

为什么PDF文件更适合LLM大模型信息提取？

目前使用的大模型包括qwen2:7b和deepseek-r1:70b。然而，我们发现一个有趣的现象：在提取信息时，PDF文件的表现明显优于DOC和DOCX文件。

禾日木目心·2025-04-11 02:35

手机本地部署AI大模型：DeepSeek R1、Llama 3.3、Qwen2.5、Gemma 3等！支持iOS、安卓, 离线使用，完全免费开源！

支持模型包括：DeepSeekR1、Llama3.3、Qwen2.5和Gemma3等。这些模型不仅支持中文理解与生成，还能在iOS和安卓设备上流畅运行，实现真正的离线智能体验。

金风不疯·2025-04-10 23:18

LLM 系列——Qwen2——论文解读

一、概述1、是什么是单模态纯文本的大语言模型，论文全称《QWEN2TECHNICALREPORT》，开源了一整套基础和指令调优的语言模型，参数范围从5亿到720亿不等，包括密集模型和混合专家模型。

TigerZ*·2025-04-09 21:22

Qwen2技术报告解读

论文：https://arxiv.org/pdf/2407.10671摘要本报告介绍了最新的大型语言模型和多模态模型Qwen2系列。

何宜秋·2025-04-09 21:49

一文搞懂通义千问(Qwen)相关的核心概念

一、通义千问(Qwen)通义千问（英文：Qwen；读作：kùn）是由阿里巴巴通义千问团队开发的大规模语言和多模态系列模型。

大模型面试·2025-04-09 20:47

如何从零开始训练大模型？

跟规模相对接近的2b、7b模型比，得分比qwen2b高，和qwen7b比有的高有的低。这个是minicpm的详细技术文档。https://shengdi

知世不是芝士·2025-04-09 06:48

阿里云 AI 搜索开放平台新发布：增加 QwQ 模型

一、QwQ模型开源版：基于Qwen2.5-32B模型训练的QwQ推理模型，于2025年3月6日发布。通过强化学习大幅度提升了模型推理能力。

·2025-04-08 15:02

针对Qwen-Agent框架的源码阅读与解析：FnCallAgent与ReActChat篇

在《针对Qwen-Agent框架的FunctionCall及ReAct的源码阅读与解析：Agent基类篇》中，我们已经了解了Agent基类的大体实现。

羊城迷鹿·2025-04-07 15:09

如何配置在vscode的Cline插件中调用Ollama本地部署的DeepSeek R1/V3、千问2.5等大模型

Qwen系列：如Qwen2、Qwen2.5，由阿里巴巴开发，在中文环境下表现优异。Llama系列：如Llama3、Llama2，具备强大的语言理解和

代码简单说·2025-04-06 18:20

04-参数量差20倍！QwQ 32B性能竟超越DeepSeek 671B？性能对比实测

1.QwQ介绍QwQ是Qwen系列的推理模型。与传统的指令调优模型相比，具备思考和推理能力的QwQ在下游任务中，尤其是在处理难题时，能够显著提高性能。QwQ-32B是一个中等规模的推

anda0109·2025-04-06 07:09

文章目录（会持续更新）建议收藏

一、AI1.本地部署AIOllama：教程：暂无（看情况出）LMStudio：教程：LMStudio本地部署Deepseek-R1+Qwen2教程-CSDN博客评测（对比）：文章直链：Ollama还是LMStudio

Johnny-一个爱研究AI的学生·2025-04-05 18:43

RAG 系统构建闭环实战：数据清洗 × 嵌入策略 × 更新机制 × 多语言 × 权限控制

你可能已经成功部署了一个RAG系统：✅文档上传→向量化→大模型问答✅页面漂亮，支持ChatUI/API接入✅使用国产模型（Qwen/DeepSeek等）+私有部署但现实往往是：上传一次文档之后，内容就很久没人更新每次新增资料都要手动处理

AI筑梦师·2025-04-05 12:36

本地部署Qwen2大模型之五：vLLM与大语言模型的关系

本地部署Qwen2大模型之一：Ollama方式部署第一篇记录了通过Ollama方式在本地部署Qwen2大模型的过程，操作很顺利，看到大模型反应的那一刻很是激动，大大增强了我继续探索的信心。

康顺哥·2025-04-05 02:57

基于Transformer框架实现微调后Qwen/DeepSeek模型的非流式批量推理

在基于LLamaFactory微调完具备思维链的DeepSeek模型之后（详见《深入探究LLamaFactory推理DeepSeek蒸馏模型时无法展示＜think＞思考过程的问题》），接下来就需要针对微调好的模型或者是原始模型（注意需要有一个本地的模型文件，全量微调就是saves下面的文件夹，如果是LoRA，还需要进行一步导出模型的操作），实现快速高效的模型推理。本文将详细分享如何基于Transf

羊城迷鹿·2025-04-05 02:27

如何在本地部署魔搭上千问Qwen2.5-VL-32B-Instruct-AWQ模型在显卡1上面运行推理，并开启api服务

环境：云服务器UbuntuNVIDIAH2096GBQwen2.5-VL-32BQwen2.5-VL-72B问题描述：如何在本地部署魔搭上千问Qwen2.5-VL-32B-Instruct-AWQ模型在显卡

玩人工智能的辣条哥·2025-04-04 19:15

用LLama factory时报类似Process 2504721 got signal: 1的解决方法

之前用nohup来远程跑LLamafactory微调脚本，是没有问题的，但今天发现运行类似下面这个命令时，nohupllamafactory-clitrainexamples/train_qlora/qwen_lora.yaml

蛐蛐蛐·2025-04-04 04:28

在 Jetson 上部署 Qwen2.5：国产轻量大模型的边缘推理全流程实战

在Jetson上部署Qwen2.5：国产轻量大模型的边缘推理全流程第1章：为什么要在Jetson上部署国产大模型？

AI筑梦师·2025-04-03 21:44

RWKV-7 2.9B 模型正式发布，SOTA 架构，带来 SOTA 使用体验

英文和多语言测评RWKV-7-2.9B模型的英文和多语言能力，均显著超越所有同尺寸模型，包括Llama3.23B、Qwen2

RWKV元始智能·2025-04-03 07:15

【Python】基于 qwen_agent 构建 AI 绘画智能助手

基于qwen_agent构建AI绘画智能助手前言近年来，大模型技术迅猛发展，AI绘画也成为了热门应用之一。

林九生·2025-04-03 02:44

Qwen-2.5、DeepSeek-R1、DeepSeek-V3 核心区别

1.定位与核心能力Qwen-2.5（阿里云）：通用型大语言模型，擅长多模态处理（文本、图像、音频等）和超长上下文支持（最高支持100万token）。

瞬间动力·2025-04-02 18:45

学习计划暂停更新，一些有意思的分享

微调参考：从简单的自我认知修改开始学习，在微调库中基本都有identity.json，直接修改{（name）}数据用于微调即可Qwen模型还不错，1.5B很适合入门学习。

笙枫·2025-04-02 11:36

BERT与Transformer到底选哪个-上部

就像「包子」和「面食」的关系——BERT是「Transformer家族」的「明星成员」，而GPT、Qwen、DeepSeek这些大模型则是「Transformer家族」的「超级后辈」。

TGITCIC·2025-04-02 11:33

2025-04-01 AGI大模型学习路线，非常详细收藏我这一篇就够了

大模型学习路线建议先从主流的Llama开始，然后选用中文的Qwen/Baichuan/ChatGLM，先快速上手体验prompt工程，然后再学习其架构，跑微调脚本如果要深入学习，建议再按以下步骤，从更基础的

大模型入门学习·2025-04-01 18:25

大模型：国内主要大模型的对比及其特点总结

千亿参数，多任务统一学习框架特点：多模态能力突出（文本、图像、视频生成）中文理解强，支持古文、成语等复杂语义企业级工具链完善（ERNIESDK）应用场景：营销文案、设计辅助、企业知识库2.阿里云·通义千问（Qwen

meisongqing·2025-04-01 13:18

阿里这次放大招了：Qwen2.5-Omni-7B 是开源多模态的天花板？

解构通义全模态引擎：Qwen2.5-Omni-7B架构、机制与实测阿里巴巴在2025年3月正式发布并开源了通义千问系列的又一力作——Qwen2.5-Omni-7B，这是全球首个实现真实多模态统一建模、流式对话响应的

AI筑梦师·2025-04-01 12:43

阿里最新开源全模态大模型——Qwen2.5-Omni-7B，7B就能搞定“看听说写”，AI越来越像人了

3月27日凌晨，阿里通义千问团队发布Qwen模型家族中新一代端到端全模态大模型Qwen2.5-Omni，标志着AI“类人化”再进一步。

算家计算·2025-04-01 12:11

ollama运行qwen2.5-coder:7b

1.linux安装curl-fsSLhttps://ollama.com/install.sh|shollamaserve#启动ollamaollamacreate#从模型文件创建模型ollamashow#显示模型信息ollamarun#运行模型，会先自动下载模型ollamapull#从注册仓库中拉取模型ollamapush#将模型推送到注册仓库ollamalist#列出已下载模型ollamaps

苍墨穹天·2025-04-01 12:41

conda 清除 tarballs 减少磁盘占用、 conda rename 重命名环境、conda create -n qwen --clone 当前环境

版权:本文由【墨理学AI】原创首发、各位读者大大、敬请查阅、感谢三连声明:作为全网AI领域干货最多的博主之一，❤️不负光阴不负卿❤️文章目录condaclean--tarballscondarename重命名环境condacreate-nqwen--clone某个环境condaremove删除环境建立huggingface模型下载路径的软链接❤️欢迎和墨理一起学AIcondaclean--tarb

墨理学AI·2025-03-31 07:50

LiblibAI 接入阿里通义大模型，推出 10 秒 AI 视频生成功能

此外，LiblibAI基于qwen-turbo打造了提示词

自不量力的A同学·2025-03-31 07:49

手动调参 vs 自动化：大语言模型微调的终极对决！

然而，在实际操作中，许多团队如Qwen选择采用手动调参而非自动化调参工具，这一决策背后蕴含着多方面的考量。一、模型复杂性与计算资源限制大语言模型的复杂性不容小觑，其参数量往往达到数十亿甚至上百亿。

从零开始学习人工智能·2025-03-31 06:44

Qwen2.5-Omni 多模态旗舰模型深度解析：性能、部署与个人玩家上手指南

目录1.Qwen2.5-Omni核心技术创新（1）统一的多模态架构（2）超长上下文支持（1MTokens）（3）高效推理优化2.与主流竞品全方位对比性能Benchmark对比（MMLU、VQA等任务）3

张3蜂·2025-03-30 23:54

【大模型开发】将vocab解码

举个例子：词汇你好；在Qwen的词汇表中使用一个token表示的，按理来说，我们可以直接在vocab.json文件中直接表示为"你好":108

SUNX-T·2025-03-30 21:14

高性能部署实战：vLLM 安装配置 × tokens/s 提升 × 并发测试（适配国产模型）

高性能部署实战：vLLM安装配置×tokens/s提升×并发测试（适配国产模型）本文目标：带你完整掌握如何使用vLLM高性能推理引擎部署国产大模型（如Qwen/DeepSeek），包括环境准备、部署流程

AI筑梦师·2025-03-30 21:44

【大模型篇】阿里云 Qwen2.5-Max：超大规模 MoE 模型架构和性能评估

一、引言Qwen2.5-Max是阿里云通义千问团队研发的超大规模Mixture-of-Expert（MoE）模型，旨在通过超大规模的数据和模型规模扩展来提升模型的智能水平。

大F的智能小课·2025-03-30 03:05

Ollama入门指南：部署与实战最新模型（DeepSeek-V3、Qwen2.5、Llama3）

一、Ollama核心优势与适用场景Ollama通过简化模型部署流程，支持开发者快速调用DeepSeek-V3（开源MoE模型）、Qwen2.5-Max（阿里编程旗舰模型）、Llama3（Meta基础模型

AndrewHZ·2025-03-30 02:32

推荐频道