LLM微调第4页

[从0开始AIGC][LLM]：Pre-Norm or Post-Norm？训练效率还是训练效果？

Pre-NormorPost-NormPre-NormorPost-Norm1.什么是Pre-Norm和Post-Norm2.为什么Pre-Norm比Post-Norm易于训练2.1Transformer：Attentionisallyourneed-PostNorm2.2Pre-Norm的提出：TransformerswithoutTears:ImprovingtheNormalizationo

Way_X·2024-08-29 05:42

【论文阅读】LLM4SGG: Large Language Models for Weakly Supervised Scene Graph Generation

【论文阅读】LLM4SGG:LargeLanguageModelsforWeaklySupervisedSceneGraphGenerationabstract由于全监督方法严重依赖昂贵标注，最近弱监督场景图生成

进击的乔洋·2024-08-28 19:03

GPT-SoVITS语音合成服务器部署，可远程访问（全部代码和详细部署步骤）

Zero-shotTTS可以让用户输入5秒钟的语音样本并立即体验转换后的语音，而Few-shotTTS则可以通过使用仅一分钟的训练数据进行模型微调，从而提高语音相似度和真实性。

学术菜鸟小晨·2024-08-28 19:31

初识LangChain的快速入门指南

它简化了与大语言模型（LLM）的交互过程，支持数据检索和将不同功能模块串联起来以完成复杂任务。

hai40587·2024-08-28 17:50

ETH：通过文本反馈提高LLM对齐能力

标题：TowardsAligningLanguageModelswithTextualFeedback来源：arXiv,2407.16970️文章简介研究问题：如何通过文本反馈来调整语言模型，使其生成更符合用户期望的行为。主要贡献：论文的提出了ALT，一种将语言模型与文本反馈对齐的方法，通过示例反馈来引导语言模型生成更符合用户偏好的内容。重点思路相关工作对齐：此前的研究已成功利用RLHF来增强LL

大模型任我行·2024-08-28 15:02

SGSH: Stimulate Large Language Models with Skeleton Heuristics for Knowledge Base Question

本文是LLM系列文章，针对《SGSH:StimulateLargeLanguageModelswithSkeletonHeuristicsforKnowledgeBaseQuestionGeneration

UnknownBody·2024-08-28 14:56

探索GGUF：利用llama.cpp高效运行大型语言模型

探索GGUF：利用llama.cpp高效运行大型语言模型在人工智能领域，大型语言模型（LLM）的应用越来越广泛，但运行这些模型常常需要大量计算资源和复杂的配置。

Chen_Chance·2024-08-28 05:27

LLM 代理，文本向量化，高级 SQL，以及我们最新作者的其他必读文章

如果你是《Variable》的常读者，你可能已经注意到，我们每周都会强调——TDS始终欢迎新作者的贡献。我们是认真的！有些人可能看过这个消息并想“太好了，我很想写一篇文章！”但是随后又开始思考什么样的帖子合适，我们的读者对哪些话题感兴趣，以及哪些类型的经验和技能是受欢迎的。本周的《Variable》版本重点介绍了我们最近的一些最佳文章，所以即使你没有成为TDS作者的意愿，也完全没问题！我们仍希望你

AI科技圈.·2024-08-27 22:16

Code Llama: Open Foundation Models for Code论文阅读

作者针对infilling(FIM)、长上下文、指令专门做了微调long-contextfine-tuning(LCFT).codellama细节CodeLlama模型家族初始化:所有CodeLla

yang_daxia·2024-08-27 18:46

OpenAI推出GPT-4o微调功能

AI新闻OpenAI推出GPT-4o微调功能摘要：OpenAI近日推出了一项新功能，允许企业客户使用自有数据对GPT-4o模型进行微调，以优化针对特定任务的表现。

go2coding·2024-08-27 17:46

智源研究院举办第一期数据与行业应用Workshop

来自智源研究院、中国信息通信研究院、航天信息技术有限公司、北京市科学技术研究院、北大法宝的专家学者们分享了行业数据集与医疗示范模型训练的探索实践，千万级指令微调数据集构建经验，面向大模型的数据工程以及大模型在财税

智源研究院官方账号·2024-08-27 16:06

[从0开始AIGC][LLM]：LLM中Encoder-Only or Decoder-Only？为什么主流LLM是Decoder-Only？

LLM中Encoder-OnlyorDecoder-Only&为什么主流LLM是Decoder-Only？

Way_X·2024-08-27 15:03

讲解如何使用RAG（检索增强生成）和LLM（大语言模型）来构建一个法律咨询网站。

一、准备工作1.注册OpenAIAPI首先，注册OpenAI并获取API密钥。2.环境配置安装必要的Python库：pipinstallopenaifaiss-cpusentence-transformersflask二、设计系统架构整个系统将包括以下几个部分：前端：用户输入问题和上传文件的界面。后端：处理用户请求，调用OpenAIAPI，返回答案。向量数据库：存储和检索文档向量。三、实现步骤步骤

winfredzhang·2024-08-27 12:44

用TensorRT-LLM跑通chatGLM3_6B模型

零、参考资料NVIDIA官网THUDM的GithubNVIDIA的Github一、构建TensorRT-LLM的docker镜像gitlfsinstallgitclonehttps://github.com

心瘾こころ·2024-08-27 11:33

基于华为昇腾910B和LLaMA Factory多卡微调的实战教程

大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委，编写微软OpenAI考试认证指导手册。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。授权多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。

herosunly·2024-08-27 10:57

【大模型从入门到精通42】LLM部署运维（LLM Ops）使用Kubeflow Pipelines掌握LLM工作流4

这里写目录标题在Kubeflow中自动化和编排监督调整管道重用现有管道提高效率准备数据和模型版本控制配置管道定义管道参数执行管道结论理论问题实践问题在Kubeflow中自动化和编排监督调整管道KubeflowPipelines的核心在于其编排复杂工作流的能力。在本例中，我们将探索如何使用KubeflowPipelines自动和编排监督调整管道，针对由Google提供的基础模型PaLM2进行参数高效

水木流年追梦·2024-08-27 09:19

AI大模型日报#0825：10行代码让大模型数学提升20%、文心日均调用超6亿

导读：AI大模型日报，爬虫+LLM自动生成，一文览尽每日AI大模型要点资讯！

常政·2024-08-27 03:17

大模型18：微调大模型方法PEFT(LoRA等) — 训练 “ChatGLM2“ 项目

微调大模型的方法之一是PEFT（Parameter-EfficientFine-Tuning），其中包括LoRA（Low-RankAdaptation）等技术。

bluewelkin·2024-08-27 01:38

大模型19：微调大模型方法

有监督微调（SFT）、奖励模型（RM）训练，以及基于人类反馈的强化学习（RLHF）训练1.有监督微调（SFT-SupervisedFine-Tuning）数据处理数据收集：首先，需要收集大量的对话数据。

bluewelkin·2024-08-27 01:38

大模型微调方法总结：LoRA、Adapter、Prefix-tuning、P-tuning、Prompt-tuning

然而，微调（finetuning）这些大模型以适应特定任务是一个复杂且计算密集型的过程。

百度_开发者中心·2024-08-26 19:14

Prompt-Tuning：大模型微调技术

为了解决这个问题，研究人员提出了各种大模型微调技术，以减少模型的大小和计算复杂度，同时保持模型的性能。

百度_开发者中心·2024-08-26 19:14

大模型微调技术（Adapter-Tuning、Prefix-Tuning、Prompt-Tuning(P-Tuning)、P-Tuning v2、LoRA）_adapter微调 p tuning

要想训练一个针对特定领域的大模型，如果采用全量参数微调（FullParameterFutu

Cc不爱吃洋葱·2024-08-26 19:12

【附资源】LLM大模型学习，这本书不可或缺：《大语言模型基础与前沿》

哈喽大家好！很久都没有更新大模型这块的书了，今天给大家说一下这本：《大语言模型：基础与前沿》，本书深入阐述了大语言模型的基本概念和算法、研究前沿以及应用，涵盖大语言模型的广泛主题，从基础到前沿，从方法到应用，涉及从方法论到应用场景方方面面的内容。作者简介熊涛，美国明尼苏达大学双城分校电子与计算机工程博士。曾在多家中美知名高科技公司担任高级管理职位和首席科学家，在人工智能的多个领域，包括大语言模型、

AI小白熊·2024-08-26 18:39

什么是LLM？看这一篇就够了！

本文主要介绍大语言模型（LargeLanguageModel，简称LLM）。

AI程序猿人·2024-08-26 17:03

什么是LLM，主要用途有哪些，在应用中有哪些优势和局限性？

LLM（大型语言模型）在实际应用中的优势包括多领域应用、技术突破、创新应用等。其局限性则包括设计挑战、行为问题、科学难题等。

好好学习的不知名程序员·2024-08-26 16:59

神经网络微调技术全解（02）-针对每种微调技术的具体实施示例（含代码）

下面是针对每种微调技术的具体实施示例，帮助理解如何应用这些技术进行模型微调：1.Adapter示例：假设我们使用BERT模型进行情感分析任务，并且希望利用Adapter模块进行微调。

技术与健康·2024-08-26 11:20

从零开始大模型开发与微调：有趣的词嵌入

从零开始大模型开发与微调：有趣的词嵌入作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域近年来取得了飞速发展

AGI通用人工智能之禅·2024-08-26 08:33

使用书生万象InternVL大模型进行自定义视频数据集微调时没有petrel_client导致NoneType异常

使用书生万象InternVL大模型进行自定义视频数据集微调时没有petrel_client导致NoneType异常1、项目 7月4日下午，世界人工智能大会科学前沿论坛，代季峰老师代表InternVL研究团队发布了

菜b杨·2024-08-26 06:54

【大模型赋能开发者】海云安入选数世咨询LLM驱动数字安全2024——AI安全系列报告

近日，国内知名数字产业领域第三方调研咨询机构数世咨询发布了LLM驱动数字安全2024——AI安全系列报告。

海云安·2024-08-26 04:39

AI初识--LLM、ollama、llama都是些个啥？

LLM全称（largelanguagemodel）也就是大语言模型什么是Ollama，它与Llama是什么关系？

才艺のblog·2024-08-25 20:51

免费的大模型插件llm.nvim

llm.nvim（https://github.com/StubbornVegeta/llm.nvim）是一款基于cloudflare的免费大模型插件，你可以像使用ChatGPT一样和它进行对话在使用这款插件之前

stubborn vegeta·2024-08-25 16:23

LangChain 与 Elastic 合作为 RAG 添加向量数据库和语义重排序

LangChain已成为使用大型语言模型(LLM)构建应用程序的最受欢迎的库，例如检索增强生成(RAG)系统。该库使原型设计和试验不同的模型和检索系统变得非常容易。

Cc不爱吃洋葱·2024-08-25 15:52

欺诈文本分类微调（六）：Lora单卡训练

1.引言前面欺诈文本分类微调（四）：构造训练/测试数据集已经构造出了数据集，更之前的欺诈文本分类微调（一）：基座模型选型选好了基座模型，这篇文章将基于构造出的数据集和选定的模型进行欺诈文本分类的微调训练

沉下心来学鲁班·2024-08-25 11:27

3个最流行的开源大模型网络爬虫框架

随着具备视觉功能的大型语言模型（LLM）的出现，我们现在可以创建几乎通用的网络爬虫代理，大大简化和自动化了这一过程。在这篇博客中，我们

liugddx·2024-08-25 08:05

用 Unsloth 微调 LLaMA 3 8B

用Unsloth微调LLaMA38B今年4月份，Meta公司发布了功能强大的大型语言模型（LLM）Llama-3，为从事各种NLP任务的开发人员提供了功能强大可以在普通机器上运行的开源LLM。

liugddx·2024-08-25 08:05

大模型LLM的Token相关问题：模型不同，token计算不同，gpt对token的计算，我们如何选择token及token评估模型

Itfuture03·2024-08-25 07:33

【大模型从入门到精通39】LLM部署运维（LLM Ops）使用Kubeflow Pipelines掌握LLM工作流1

使用KubeflowPipelines掌握LLM工作流在本节中，我们将深入探讨如何使用KubeflowPipelines来编排和自动化机器学习工作流。

水木流年追梦·2024-08-25 03:08

PROMETHEUS 2: An Open Source Language Model Specialized in Evaluating Other Language Models

本文是LLM系列文章，针对《PROMETHEUS2:AnOpenSourceLanguageModelSpecializedinEvaluatingOtherLanguageModels》的翻译。

UnknownBody·2024-08-25 02:59

A Survey of Large Language Models on Generative Graph Analytics: Query, Learning, and Applications

本文是LLM系列文章，针对《ASurveyofLargeLanguageModelsonGenerativeGraphAnalytics:Query,Learning,andApplications》的翻译

UnknownBody·2024-08-25 02:29

基于强化学习的即时商店自动化管理

介绍如今，提示是与大型语言模型(LLM)交互的主要模式。提示需要根据用户需求进行调整，为LLM提供正确的上下文和指导—以最大限度地提高获得“正确”响应的机会。

拉达曼迪斯II·2024-08-24 11:34

离线 AI：使用 Termux 从源代码在 Android 手机/Waydroid 上构建 Ollama

Android手机/WaydroidTermux的终端命令相同推荐文章《在自己笔记本上使用Llama-3生成PowerPoint—幻灯片自动化的第一步》权重1，本地类、ppt类《如何微调NLLB-200

知识大胖·2024-08-23 17:32

FastAPI部署大模型Llama 3.1

项目地址：self-llm/models/Llama3_1/01-Llama3_1-8B-InstructFastApi部署调用.mdatmaster·datawhalechina/self-llm(github.com

记得叫Mark周更·2024-08-23 14:12

无坑！部署langchain-chatchat + glm4-9b-chat，轻松实现知识库智能问答！

这里llm模型使用glm4-9b-chatembedding模型使用bge-large-zh-v1.5配置虚拟环境创建虚拟环境condacreate--namechat3python=3.10.9激活虚拟环

zbc-·2024-08-23 02:31

构建大型语言模型（LLM）产品的实战指南

订阅：https://rengongzhineng.io/使用大型语言模型（LLM）进行开发的时代令人兴奋。过去的一年中，LLM在实际应用中的表现

新加坡内哥谈技术·2024-08-22 23:12

金清焦点网络中12 坚持原创分享第 153天

扩大白而非消灭黑，家庭是个系统，微调自己，整个家庭系统就开始发

金JJ·2024-08-22 21:57

LLM基础｜模型后量化原理、量化类型及方式、量化实现效果

（笔者最近在使用丐版colab运行Llama-Chat-7B，这个模型模型大小为13G，要求的显存也在13G左右，丐版无法承受）为了解决这个应用LLM的实际问题（即LLM对显存的占用大，在高并发的环境下

Sunny_AI_addict·2024-08-22 16:04

多模态大模型Internvl-1.5-26B微调后部署及测试实录（附代码）

写代码的中青年·2024-08-22 15:59

深入浅出：大型语言模型（LLM）的全面解读

而在人工智能的领域中，大型语言模型（LLM）作为一种引人瞩目的技术，正在以其强大的语言理解和生成能力引领着一场革命。

一休哥助手·2024-08-22 15:54

【人工智能时代】- 深度解析AI大语言模型（LLM）在企业应用的关键技术与典型架构

大语言模型（LLM）的出现，使基于自然语言处理的人工智能技术实现了飞跃式的发展，彻底开启了AI2.0的时代。

xiaoli8748_软件开发·2024-08-22 09:53

大话LLM之向量数据库

向量数据库是一种专门设计的存储系统，旨在高效处理和查询高维向量数据，通常用于人工智能和机器学习应用中，以实现快速准确的数据检索。好的，今天我们就来聊聊人工智能和向量数据库的事儿。现在人工智能发展得特别快，特别是那些大型的语言模型，它们真是创新的前沿。但不管这些模型有多厉害，它们都得有个核心的东西，那就是能够处理大量的数据。这些数据得被理解、被整理，还得能被搜索，这样我们才能从中找到真正有意义的信息

强哥之神·2024-08-22 09:17

推荐频道

LLM微调