LLM微调第3页

NL2SQL进阶系列(4)：ConvAI、DIN-SQL、C3-浙大、DAIL-SQL-阿里等16个业界开源应用实践详解[Text2SQL]

NL2SQL进阶系列(4)：ConvAI、DIN-SQL等16个业界开源应用实践详解[Text2SQL]NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（SpidervsBIRD

汀、人工智能·2024-09-04 09:59

【深度学习 transformer】使用pytorch 训练transformer 模型,hugginface 来啦

它还提供了一个简单易用的API来加载这些模型，并进行微调以适应特定的下游任务。Datasets：这是一个用于加载和预处理NLP数据集的库，与Tran

东华果汁哥·2024-09-04 06:39

LLM手撕

LayerNormimporttorchfromtorchimportnnclassLayerNorm(nn.Module):def__init__(self,hidden_size,eps=1e-6):super().__init__()self.hidden_size=hidden_size#隐藏状态的大小self.eps=eps#用于数值稳定性的一个小值#初始化可学习的缩放和平移参数self

比起村村长·2024-09-04 04:26

LLM大模型落地-从理论到实践

学习目标熟悉主流LLM（Llama,ChatGLM,Qwen）的技术架构和技术细节；有实际应用RAG、PEFT和SFT的项目经验较强的NLP基础，熟悉BERT、T5、Transformer和GPT的实现和差异

hhaiming_·2024-09-04 01:12

2024.8.14-算法学习（原创+转载）

大型语言模型（LLM）的推理通常需要使用自回归采样。它们的推理过程相当缓慢，需要逐个token地进行串行解码。生成每个标记都需要将所有参数从存储单元传输到计算单元，

蓝纹绿茶·2024-09-04 01:12

Bert系列：论文阅读Rethink Training of BERT Rerankers in Multi-Stage Retrieval Pipeline

基于丰富的上下文匹配信息，深度LM微调重新排序器从候选集合中找出更为关联的内容。同时，深度lm也可以用来提高搜索索引，构建更好的召回。当前的reranker方法并不能完全探索到检索结果的效果。

凝眸伏笔·2024-09-04 01:37

【大模型】Agent基础知识

2.1ReAct:SynergizingReasoningandActinginLanguageModels2.2Reflection2.3LATS:LanguageAgentsTreeSearch3.微调

idiotyi·2024-09-03 19:32

【LLM大模型】2024开源项目汇总

当大模型成本逐渐降低，可靠性提升后，这意味着越来越多的业务应用将会与LLM结合，为了让这种结合更加顺畅，需要有与现有基础设施相兼容的工具和框架来支撑LLM应用开发的快速开发通用大模型性能评测参见：github

人工智能小豪·2024-09-03 19:01

【面试经验】百度 ai产品经理实习

面试时间：25min，问题比较常规，现在ai产品不可避免都会问到LLM，所以要是懂一点技术会更好，面试之前建议多看看专业解释，多使用多比较1、自我介绍2、实习项目介绍3、产品服务的用户对象有哪些？

litterfinger·2024-09-03 15:36

一文讲清楚，AI、AGI、AIGC与AIGC、NLP、LLM，ChatGPT等概念

本文旨在深入解析人工智能（AI）、通用人工智能（AGI）、人工智能生成内容（AIGC）、自然语言处理（NLP）、大型语言模型（LLM）以及ChatGPT等关键概念，并探讨它们在现代科技发展中的重要性和实际应用

GPT-Hub·2024-09-03 10:07

[论文笔记] LLM模型剪枝

AttentionIsAllYouNeedButYouDon’tNeedAllOfItForInferenceofLargeLanguageModelsLLaMA2在剪枝时，跳过ffn和跳过fulllayer的效果差不多。相比跳过ffn/fulllayer，跳过attentionlayer的影响会更小。跳过attentionlayer：7B/13B从100%参数剪枝到66%，平均指标只下降1.7～

心心喵·2024-09-03 08:53

LLM期间自我规划

受朋友圈某post的指引，我认真地在疫情期间思考了自己的人生规划。不过被一个想法所困扰。对于自己的学历，是只会停留在硕士，还是再去读一个博士？皓哥告诉我考博啊，他也即将读5年的Phd。我一看，呵，这长度！是这样，法学/律博士在国内外有很多种类，在我的规划里，既然仍要做律师，就是继续读一个JD了。JD是3年。但是，考虑到经济、年纪、发展潜力，我想了半天，觉得目前真不适合我。JD读完，学历高了甚至在美

遐舟·2024-09-02 23:26

Qt自定义滑动条

先放效果图：在QSlider的基础上，改变了样式，绘制了刻度，增加了取整功能，只需要微调就能适应各种需求。头文件。

sensetime阿清·2024-09-02 13:32

LLM训练、精调与加速：大型语言模型的高效开发与应用策略

大家有技术交流指导、论文及技术文档写作指导、项目开发合作的需求可以私信联系我LLM（大型语言模型）的训练、精调和加速是当前人工智能研究和应用中的重要话题。下面将详细介绍这些概念及其关键技术。

知识学习分享交流·2024-09-02 12:22

利用LangChain构建MySQL数据库问答代理

引言随着自然语言处理技术的飞速发展，尤其是大型语言模型（LLM）的应用日益广泛，人们对于如何更高效地与这些模型交互产生了浓厚的兴趣。

Free_Gemini·2024-09-02 08:24

整理了上百个开源中文大语言模型，涵盖模型、应用、数据集、微调、部署、评测_基于大语言模型的网络自动配置平台的设计与开发

自ChatGPT为代表的大语言模型（LargeLanguageModel,LLM）出现以后，由于其惊人的类通用人工智能（AGI）的能力，掀起了新一轮自然语言处理领域的研究和应用的浪潮。

AI大模型-搬运工·2024-09-02 07:20

【论文笔记】Training language models to follow instructions with human feedback B部分

TraininglanguagemodelstofollowinstructionswithhumanfeedbackB部分回顾一下第一代GPT-1：设计思路是“海量无标记文本进行无监督预训练+少量有标签文本有监督微调

Ctrl+Alt+L·2024-09-02 01:12

深度解析：大模型微调的原理、应用与实践

引言最近在公司落地AI产品的过程中，与团队小伙伴深入探讨和测试了大模型微调，同时也跟多个业内专家进行了交流和学习。相信很多人在实际落地大模型应用的时候都会有个疑问：到底要不要做微调模型？

longfei.li·2024-09-01 22:56

Second-Order Information Matters: Revisiting Machine Unlearning for Large Language Models

本文是LLM系列文章，针对《Second-OrderInformationMatters:RevisitingMachineUnlearningforLargeLanguageModels》的翻译。

UnknownBody·2024-09-01 20:46

使用Petals和LangChain运行大型语言模型：入门指南

使用Petals和LangChain运行大型语言模型：入门指南引言在人工智能和自然语言处理领域，大型语言模型（LLM）的应用日益广泛。然而，运行这些模型通常需要强大的硬件资源。

qq_37836323·2024-09-01 20:40

llama factory微调时出现x86_64-conda-linux-gnu/bin/ld: cannot find -lcurand: No such file or directory解决方案

本文主要介绍了llamafactory微调时出现x

爱编程的喵喵·2024-09-01 11:18

大语言模型在金融领域的应用:进展、前景与挑战

在这些进步中,大语言模型(LLM)已成为一个强大的工具,在理解上下文、处理海量数据以及生成类人文本方面表现出色。将LLM应用于金融领域有望改变传统实践,推动创新,并在各种金融任务中开创新的机遇。

Python程序员罗宾·2024-09-01 11:15

开发者终于可以定制自己的GPT-4o了！

当地时间8月20日，OpenAI推出了GPT-4o微调功能，截至9月23日，所有开发者都可以使用自定义的数据集对GPT-4o进行微调，满足特定用例的需求。

诗者才子酒中仙·2024-09-01 10:06

周报 | 24.8.19-24.8.25文章汇总

周报|24.8.12-24.8.18文章汇总-CSDN博客新智元|微调Flux席卷全网，外国小哥一人组一队漫威英雄！_flux怎么微调-CSDN博客新智元|百万在线，大圣归来！

双木的木·2024-09-01 08:26

Firefly多轮对话微调书生·浦语InternLM-7B实践

本篇文章主要介绍使用Firefly项目对书生·浦语InternLM-7B进行微调的工作。

u013250861·2024-09-01 00:09

NL2SQL实践系列(2)：2024最新模型实战效果(Chat2DB-GLM、书生·浦语2、InternLM2-SQL等)以及工业级案例教学

汀、人工智能·2024-09-01 00:39

LLM-项目详解（一）：Chinese-LLaMA-Alpaca【transformers/models/llama/modeling_llama.py文件】

u013250861·2024-08-31 22:57

LLM - 从头实现 LLaMA3 网络与推理流程 (RMS | RoPE | GQA | SwiGLU)

欢迎关注我的CSDN：https://spike.blog.csdn.net/本文地址：https://spike.blog.csdn.net/article/details/141462669免责声明：本文来源于个人知识与公开资料，仅用于学术交流，欢迎讨论，不支持转载。LLaMA3是Meta的最新大语言模型，在整体网络设计进行多项升级，显著提升了模型的性能和效率，重要的改进，如下：词汇量增加至1

CarolineSpike·2024-08-31 22:56

大语言模型原理与工程实践：混合微调策略

大语言模型原理与工程实践：混合微调策略作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的迅猛发展，大语言模型（

AGI通用人工智能之禅·2024-08-31 15:13

开源模型应用落地-qwen2-7b-instruct-LoRA微调-ms-swift-单机单卡-V100（十二）

一、前言本篇文章将在v100单卡服务器上，使用ms-swift去高效微调QWen2系列模型，通过阅读本文，您将能够更好地掌握这些关键技术，理解其中的关键技术要点，并应用于自己的项目中。

开源技术探险家·2024-08-31 10:41

“全面解析！大模型面试宝典（含精选答案与策略）“

4.大模型LLM的架构介绍？大模型（LLMs）进阶面1.llama输入句子长度理论上可以无限长吗？1.什么是LLMs复读机问题？2.为什么会出现LLMs复读机问题？3.如何缓解LLMs复读机问题？

AGI-老冉·2024-08-31 10:07

graphRAG原理解析——基于微软graphRAG+Neo4j llm-graph-builder

知识图谱生成llm-graph-builder（以下简称LGB）也使用了最新的graph+RAG的思路，使用知识图谱来加持RAG，提供更加准确和丰富的知识问答。

赖皮猫·2024-08-31 05:32

第65期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。

云起无垠·2024-08-31 05:26

【ShuQiHere】微调与训练恢复：理解 `load_weights` 和 `save_model` 的实用方法

【ShuQiHere】在深度学习的世界中，训练一个模型不仅需要时间，还需要大量的计算资源。比如，你已经花了几天时间训练一个模型，但突然间，电脑崩溃了，你的所有进度都丢失了。这种情况就像是在一场马拉松比赛的最后一公里摔倒，让人沮丧至极。那么，有没有什么方法可以避免这种悲剧呢？今天，我们就来聊聊如何通过保存和加载模型的权重来应对这些挑战，确保你在深度学习的旅程中不会白费功夫。模型保存和加载的背景训练一

ShuQiHere·2024-08-31 02:37

LangChain + ChatGLM-6B / ChatGLM2-6B 新手踩坑指南！

langchain-ChatGLM2、项目原理：加载文件➝读取文本➝文本分割➝文本向量化➝问句向量化➝在文本向量中匹配出与问句向量最相似的topk个➝匹配出的文本作为上下文和问题一起添加到prompt中➝提交给LLM

海鸟智能·2024-08-30 22:16

Bert中文预训练模型（Bert-base-chinese）

Bert-base-chinese模型是一个在简体和繁体中文文本上训练得到的预训练模型，具有以下特点：12个隐层输出768维张量12个自注意力头110M参数量该模型的主要作用是获取每个汉字的向量表示，后续通过微调可应用于各种简体和繁体中文任务

好好学习Py·2024-08-30 22:14

您应该让 ChatGPT 控制您的浏览器吗？

本文：介绍授予大型语言模型(LLM)对Web浏览器的控制权的安全风险，重点关注提示注入漏洞。

红云谈安全·2024-08-30 22:40

【AI】到底什么才是最适合LLM大模型的应用场景？

笔者关注大模型有一段时间了，可以参考我之前的文章，做了非常多的体验，也经常去调戏大模型，这些文章有的还是很精彩，比如：——对比大模型特色的文章：群模乱舞，AI大模型盛开，国内大模型盘点_哈工大本草-CSDN博客——讨论大模型应用于诈骗的文章：AIGCand“AIGF”-CSDN博客——调戏大模型的文章，货拉拉到底拉不拉拉布拉多？【AIGC】用货拉拉拉不拉拉布拉多的梗调(ce)戏(shi)AI大模型

giszz·2024-08-30 19:24

LangChain 一个面向构建基于大语言模型（LLM）的应用程序的框架

LangChain是一个面向构建基于大语言模型（LLM）的应用程序的框架，它简化了与语言模型的交互，并将其功能扩展至更复杂的任务，如搜索、问答、推理和自动化工作流。

路人与大师·2024-08-30 16:02

xGen-MM (BLIP-3): A Family of Open Large Multimodal Models

本文是LLM系列文章，针对《xGen-MM(BLIP-3):AFamilyofOpenLargeMultimodalModels》的翻译。

UnknownBody·2024-08-30 13:47

SK Hynix明年将开发基于96/128 GB DDR5的CXL 2.0内存解决方案

SKHynix正致力于为人工智能领域开发基于DDR5的CXL2.0内存解决方案，尤其是针对"内存饥渴型"LLM。

吴脑的键客·2024-08-30 08:43

[LLM][Prompt Engineering]：思维链（CoT）

思维链思维链1.思维链提示方法和增强策略1.1简单的思维链提示1.2示例形式的思维链提示1.3思维链提示的后处理方案1.4拓展推理结构2.CoT的能力来源：为什么思维链提示能显著提升大语言模型在推理任务上的效果？强大的逻辑推理是大语言模型“智能涌现”出的核心能力之一。推理：一般指根据几个已知的前提推导得出新的结论的过程，区别于理解，推理一般是一个“多步骤”的过程，推理的过程可以形成非常必要的“中间

Way_X·2024-08-30 05:26

2025秋招大语言模型落地实践面试题

软件架构2.1拥有自己的大语言模型（LLM）是否必要？2.2何时使用微调与何时使用RAG？2.3在训练大语言模型时遇到的关键挑战是什么？数据资源3.1如何标注一个监督微调（SFT）数据集？3.2在众包

微凉的衣柜·2024-08-30 01:26

NL2SQL进阶系列(5)：论文解读业界前沿方案（DIN-SQL、C3-SQL、DAIL-SQL、SQL-PaLM）、新一代数据集BIRD-SQL解读

NL2SQL进阶系列(5)：论文解读业界前沿方案（DIN-SQL、C3-SQL、DAIL-SQL）、新一代数据集BIRD-SQL解读NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型

汀、人工智能·2024-08-30 01:25

AutoGPT理念与应用

而AutoGPT的目标就是基于GPT4将LLM的"思想"串联起来，

键盘侠PianistYu·2024-08-29 23:43

实现基于LLM的VSCode代码补全插件及网络搜索功能

文章目录前言一、代码补全代码实现实现效果:当前问题二、LLM+搜索引擎功能概述实现步骤代码实现结论前言本文将介绍如何利用VSCode插件开发环境结合大模型（LLM）来实现代码补全功能，并且介绍如何集成网络搜索功能以增强代码补全的能力

今天不熬夜！·2024-08-29 16:25

RAG增强检索

1.RAG技术主要解决了什么问题解决通用LLM针对一些小众领域没有涉猎的问题(私域)提升LLM回答的准确性、权威性、时效性提高LLM回答的可控性和可解释性，提高模型的可信度和安全性2.RAG流程-1文档加载

苍墨穹天·2024-08-29 13:34

A Survey on Benchmarks of Multimodal Large Language Models

本文是LLM系列文章，针对《ASurveyonBenchmarksofMultimodalLargeLanguageModels》的翻译。

UnknownBody·2024-08-29 11:20

[论文笔记] LLM数据集——LongData-Corpus

https://huggingface.co/datasets/yuyijiong/LongData-Corpus1、hf的数据在开发机上要设置sshkey，然后cat复制之后在设置在hf上2、中文小说数据在云盘上清华大学云盘下载：#!/bin/bash#BaseURLbase_url="https://cloud.tsinghua.edu.cn/d/0670fcb14d294c97b5cf/fi

心心喵·2024-08-29 10:17

推荐频道

LLM微调