MOSS微调

LLM 词汇表

Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数

落难Coder·2024-09-16 10:22

使用Apify加载Twitter消息以进行微调的完整指南

#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。

nseejrukjhad·2024-09-16 09:50

向宜家学习

其实像宜家这样，不是靠通用技术，而是在生产、运输、销售、经营的各个环节，不断微调、削减成本，看起来毫不起眼，却简单实用。不是求新求变，恰恰是回到事情的本来面目。

Billy_0e81·2024-09-15 18:05

transformer架构(Transformer Architecture)原理与代码实战案例讲解

transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术

AI架构设计之禅·2024-09-14 16:47

多模态大模型微调Qwen-VL微调及日志

%pipinstallmodelscope-U%pipinstalltransformersacceleratetiktoken-U%pipinstalleinopstransformers_stream_generator-U%pipinstallpillow-U%pipinstalltorchvision%pipinstallmatplotlib-Ufrommodelscopeimport(s

Messi^·2024-09-14 15:10

开源模型应用落地-qwen2-7b-instruct-LoRA微调-unsloth（让微调起飞）-单机单卡-V100（十七）

一、前言本篇文章将在v100单卡服务器上，使用unsloth去高效微调QWen2系列模型，通过阅读本文，您将能够更好地掌握这些关键技术，理解其中的关键技术要点，并应用于自己的项目中。

开源技术探险家·2024-09-14 13:28

垂直领域大模型微调实践经验最全总结

瓦力算法学研所技术总结专栏作者：vivida本篇从基座模型选择、模型整体架构、数据设计、训练微调四个角度总结垂直领域大模型微调经验。

人工智能大模型讲师培训咨询叶梓·2024-09-14 12:16

一篇文章带你彻底弄懂大模型——掌握基本概念，领先别人一步！

本文从大模型的基本概念出发，对大模型领域容易混淆的相关概念进行区分，并就大模型的发展历程、特点和分类、泛化与微调进行了详细解读，供大家在了解大模型基本知识的过程中起到一定参考作用。

努力的光头强·2024-09-14 11:39

大模型微调 - 基于预训练大语言模型的对话生成任务训练代码

大模型微调-基于预训练大语言模型的对话生成任务训练代码flyfish模型扮演堂吉诃德这个角色，回答关于自我介绍的问题importtorchfromdatasetsimportDatasetfrommodelscopeimportAutoTokenizer

西笑生·2024-09-14 05:00

天下苦英伟达久矣！PyTorch官方免CUDA加速推理，Triton时代要来？

在做大语言模型（LLM）的训练、微调和推理时，使用英伟达的GPU和CUDA是常见的做法。在更大的机器学习编程与计算范畴，同样严重依赖CUDA，使用它加速的机器学习模型可以实现更大的性能提升。

诗者才子酒中仙·2024-09-14 04:56

大模型基础知识-LoRA与QLoRA

介绍LoRA与QLoRA1.LoRA(Low-RankAdaptation)LoRA是一种用于大规模语言模型(LLM)的参数高效微调技术，旨在减少微调大模型所需的计算资源和存储空间。

破壁者-燕·2024-09-13 03:12

ChatLONGYING：大语言模型在银行财富管理领域的应用研究

2023年2月，复旦大学发布了国内首个类ChatGPT大语言模型——MOSS，该模型可执行对话生成、编程、事实问答等一系列任务，打通了让生成式语言模型理解人类意图并具有对话能力的全部技术路径。

IT猫仔·2024-09-13 02:37

LLM系列(4)：通义千问7B在Swift/DeepSpeed上微调秘诀与实战陷阱避坑指南

LLM系列(4)：通义千问7B在Swift/DeepSpeed上微调秘诀与实战陷阱避坑指南阿里云于2023年8月3日开源通义千问70亿参数模型，包括通用模型Qwen-7B以及对话模型Qwen-7B-Chat

汀、人工智能·2024-09-12 00:21

基于Langchain的大模型RAG技术介绍（附示例代码）

为解决这一问题，出现了两种技术路线：一种是通过使用专业领域的数据集微调通用大模型

赵放-AI·2024-09-11 19:16

设置广告活动目标和数字广告关键绩效指标的3个步骤

在微调广告预算、优化广告、分析数字广告关键绩效指标（KPI）和个性化着陆页面的同时，有一件事是在启动广告活动之前必须做的：确定哪些因素能使广告活动有效。

科技评论AI·2024-09-11 18:39

深度学习速通系列:LoRA微调是什么

LoRA微调（Low-RankAdaptation）是一种用于大型预训练语言模型（LLM）的高效微调技术。

Ven%·2024-09-11 11:47

LLAMA Factory: 简洁高效的大语言模型训练平台

LLAMAFactory:简洁高效的大语言模型训练平台LLaMA-Factory易于使用的LLM微调框架（LLaMA,BLOOM,Mistral,百川，Qwen,ChatGLM）。

俞纬鉴Joshua·2024-09-11 08:57

Deepspeed 结合huggingface Trainer实现多机分布式训练

目前工作中只使用了单机多卡做微调训练，为了提升训练效率，特实验多机多卡分布式训练。

ningzhao·2024-09-10 17:38

大模型LLM面试常见算法题-包括Attention和Transformer常见面试题

介绍LoRA与QLoRARAG和微调的区别是什么？哪些因素会导致LLM的偏见？什么是思维链（CoT）提示？Tokenizer的实现方法及原理解释一下大模型的涌现能力？

剑圣土豆·2024-09-10 15:57

一口气了解大模型相关通识，基础笔记！

复杂度各不相同的A、B、C、D四项大模型(基座模型)，用于不同场景的应用;其中，A、B、C、D模型的全称分别是ada、babbage、curie(居里)和davinci（达芬奇），四个模型并不是GPT-3的微调模型

AI小白熊·2024-09-10 08:15

[Lora][微调] Qwen-VL/Qwen-VL-chat微调问题

@[Lora][微调]Qwen-VL/Qwen-VL-chat微调问题关于Qwen-VL在lora过程中出现的问题总结。

翔迅AI·2024-09-10 03:07

一文告诉你程序员该掌握和应用大模型

微调大模型：场景：垂直大模型人才需求：算法工程师门槛：高机会：高特点：专注于特定领域的大模型优化，适合有一定领域知识且希望在细分市场深耕的工程师。

大耳朵爱学习·2024-09-10 01:23

第二次

relativeabsolutefixed2偏移量：根据不同的定位方式实现元素位置的摆放topbottomleftright(属性)二.相对定位：相对于它原来位置偏移某个距离position：relative通过偏移属性来实现位置的微调使用场合

My丿飞·2024-09-09 20:55

如何从0开始搭建一个大语言模型并进一步训练微调?

生成式AI技术已成为产业升级的新晋引擎，加速推动数字经济高速发展，开发者则需要快速掌握生成式AI技能，并熟练掌握领先的工具平台，在竞争激烈的技术变革时代脱颖而出，实现“技术躺赢”。知识增强类大语言模型作为生成式AI技术的代表，也是最早进入我们工作和生活的落地场景，随着国内外各个大语言基础模型的快速更新迭代，我们生活中都或多或少在接触着大语言模型，如你手机的语音助手，或者国内热门生成式AI工具，都是

高校俱乐部·2024-09-09 18:26

LLM系列 | 36：Google最新开源大模型：Gemma 2介绍及其微调(下篇)

JasonLiu1919·2024-09-08 18:10

RAFT：Adapting Language Model to Domain Specific RAG

论文链接简单来说，就是你SFT微调的时候得考虑RAG的场景。RAG什么场景？

蒸土豆的技术细节·2024-09-07 21:17

特定领域 RAG 新突破：LlamaPack 实现 RAFT 论文方法

一、前言在上一篇文章《RAFT：让大型语言模型更擅长特定领域的RAG任务》中，我们介绍了RAFT训练方法，RAFT（检索增强微调）是一种训练方法，可以提高大型语言模型(LLM)在开卷、域内问答任务中的性能

技术狂潮AI·2024-09-07 20:43

字节&约翰斯·霍普金斯&上交提出iBOT框架，基于MIM进行自监督训练，在ImageNet-1K上达到86.3%的微调精度！...

关注公众号，发现CV技术之美▊写在前面语言Transformer的成功主要归功于maskedlanguagemodeling（MLM）的预训练任务，其中文本首先被标记为语义上有意义的片段。在这项工作中，作者研究了maskedimagemodeling（MIM），并指出了使用语义上有意义的视觉标记器（visualtokenizer）的优势和挑战。作者提出了一个自监督的框架iBOT，它可以通过在线标记

我爱计算机视觉·2024-09-06 07:00

《开源大模型食用指南》全网发布，轻松助你速通llm大模型！

前言《开源大模型食用指南》是一个围绕开源大模型、针对国内初学者、基于AutoDL平台的中国宝宝专属大模型教程，针对各类开源大模型提供包括环境配置、本地部署、高效微调等技能在内的全流程指导，简化开源大模型的部署

再不会AI就不礼貌了·2024-09-06 03:05

Gemma-2-9B 中文微调版

是第一个为中文和英文用户量身定制的Gemma-2模型，该模型在包括中文提示词下的角色扮演、functioncall、数学问题解答、写作和编码上表现非常好，官方甚至提供了弱智吧的一些问题，回答的也很有趣,你可以在这个Space免费尝试

三花AI·2024-09-06 02:32

LLM资料大全：文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等

LLM资料大全：文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等自ChatGPT为代表的大语言模型（LargeLanguageModel,LLM）出现以后，由于其惊人的类通用人工智能

汀、人工智能·2024-09-05 22:31

flux 文生图大模型自有数据集 lora微调训练案例

参考：https://github.com/ostris/ai-toolkit目前Flux出现了3个训练工具SimpleTunerhttps://github.com/bghira/SimpleTunerX-LABS的https://github.com/XLabs-AI/x-fluxai-toolkithttps://github.com/ostris/ai-toolkit待支持：https:/

loong_XL·2024-09-05 20:47

NL2SQL技术方案系列(2)：全系列技术选型完整版：从通用技术选型(向量、图数据库)、大模型选择、Prompt工程、前沿技术方案展示

前沿技术方案展示NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（SpidervsBIRD）全面对比优劣分析[Text2SQL、Text2DSL]NL2SQL基础系列(2)：主流大模型与微调方法精选集

汀、人工智能·2024-09-05 12:25

13个你需要了解的重要页面SEO因素

页面SEO是微调各种网站组件，以帮助搜索引擎抓取、理解和为相关查询排名页面。虽然页面外因素如反向链接和品牌信号至关重要，但优化页面元素为最大化搜索可见性奠定了基础。

量子位AI·2024-09-05 05:05

无人机详细操作方法：

，以云卓无人机为例，为你介绍其操作方法：1.打开机臂，安装护架、红外避障头，盖上后盖；2.打开飞机和遥控器，将两个油门的外八节进行校准；3.推动油门杠即可起飞，往上拉是上升，往下拉是下降；4.前后左右微调

云卓科技·2024-09-05 00:06

NL2SQL技术方案系列(4)：金融领域NL2SQL技术方案以及行业案例实战讲解2

技术方案以及行业案例实战讲解2NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（SpidervsBIRD）全面对比优劣分析[Text2SQL、Text2DSL]NL2SQL基础系列(2)：主流大模型与微调方法精选集

汀、人工智能·2024-09-04 09:30

NL2SQL进阶系列(4)：ConvAI、DIN-SQL、C3-浙大、DAIL-SQL-阿里等16个业界开源应用实践详解[Text2SQL]

Text2SQL]NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（SpidervsBIRD）全面对比优劣分析[Text2SQL、Text2DSL]NL2SQL基础系列(2)：主流大模型与微调方法精选集

汀、人工智能·2024-09-04 09:59

【深度学习 transformer】使用pytorch 训练transformer 模型,hugginface 来啦

它还提供了一个简单易用的API来加载这些模型，并进行微调以适应特定的下游任务。Datasets：这是一个用于加载和预处理NLP数据集的库，与Tran

东华果汁哥·2024-09-04 06:39

Bert系列：论文阅读Rethink Training of BERT Rerankers in Multi-Stage Retrieval Pipeline

基于丰富的上下文匹配信息，深度LM微调重新排序器从候选集合中找出更为关联的内容。同时，深度lm也可以用来提高搜索索引，构建更好的召回。当前的reranker方法并不能完全探索到检索结果的效果。

凝眸伏笔·2024-09-04 01:37

【大模型】Agent基础知识

2.1ReAct:SynergizingReasoningandActinginLanguageModels2.2Reflection2.3LATS:LanguageAgentsTreeSearch3.微调

idiotyi·2024-09-03 19:32

Qt自定义滑动条

先放效果图：在QSlider的基础上，改变了样式，绘制了刻度，增加了取整功能，只需要微调就能适应各种需求。头文件。

sensetime阿清·2024-09-02 13:32

整理了上百个开源中文大语言模型，涵盖模型、应用、数据集、微调、部署、评测_基于大语言模型的网络自动配置平台的设计与开发

尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的LLM开源之后，业界涌现了非常多基于LLM的二次微调或应用的案例。

AI大模型-搬运工·2024-09-02 07:20

【论文笔记】Training language models to follow instructions with human feedback B部分

TraininglanguagemodelstofollowinstructionswithhumanfeedbackB部分回顾一下第一代GPT-1：设计思路是“海量无标记文本进行无监督预训练+少量有标签文本有监督微调

Ctrl+Alt+L·2024-09-02 01:12

深度解析：大模型微调的原理、应用与实践

引言最近在公司落地AI产品的过程中，与团队小伙伴深入探讨和测试了大模型微调，同时也跟多个业内专家进行了交流和学习。相信很多人在实际落地大模型应用的时候都会有个疑问：到底要不要做微调模型？

longfei.li·2024-09-01 22:56

llama factory微调时出现x86_64-conda-linux-gnu/bin/ld: cannot find -lcurand: No such file or directory解决方案

本文主要介绍了llamafactory微调时出现x

爱编程的喵喵·2024-09-01 11:18

开发者终于可以定制自己的GPT-4o了！

当地时间8月20日，OpenAI推出了GPT-4o微调功能，截至9月23日，所有开发者都可以使用自定义的数据集对GPT-4o进行微调，满足特定用例的需求。

诗者才子酒中仙·2024-09-01 10:06

周报 | 24.8.19-24.8.25文章汇总

周报|24.8.12-24.8.18文章汇总-CSDN博客新智元|微调Flux席卷全网，外国小哥一人组一队漫威英雄！_flux怎么微调-CSDN博客新智元|百万在线，大圣归来！

双木的木·2024-09-01 08:26

Firefly多轮对话微调书生·浦语InternLM-7B实践

本篇文章主要介绍使用Firefly项目对书生·浦语InternLM-7B进行微调的工作。

u013250861·2024-09-01 00:09

NL2SQL实践系列(2)：2024最新模型实战效果(Chat2DB-GLM、书生·浦语2、InternLM2-SQL等)以及工业级案例教学

汀、人工智能·2024-09-01 00:39

大语言模型原理与工程实践：混合微调策略

大语言模型原理与工程实践：混合微调策略作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的迅猛发展，大语言模型（

AGI通用人工智能之禅·2024-08-31 15:13

推荐频道