llm 第23页

20倍压缩比！微软提出大模型提示压缩框架LLMLingua

近期，越来越多研究在探索大型语言模型（LLM）在实际应用中的推理和生成能力。随着ChatGPT等模型的广泛研究与应用，如何在保留关键信息的同时，压缩较长的提示成为当前大模型研究的问题之一。

夕小瑶·2023-12-20 13:45

OpenAI发布AGI安全风险框架！董事会可随时叫停GPT-5等模型发布，奥特曼也得乖乖听话

前有OpenAI安全系统（SafetySystems）负责人长文梳理针对LLM的对抗攻击类型与防御方法，后有IlyaSutskever领衔的“超级对齐”团队（Superalignment）发布论

夕小瑶·2023-12-20 13:45

国货之光，复旦发布大模型训练效率工具 CoLLiE，效率显著提升

在这个信息爆炸的时代，大型语言模型（LLM）成为理解和挖掘文本信息的重要工具。为了更好地适应各种应用场景，对LLM进行定制化训练变得至关重要。

夕小瑶·2023-12-20 13:14

复旦团队提出思维交流框架EoT，由CoT到EoT，可跨模型通信，表现更出色

大型语言模型（LLM）通过利用庞大的训练语料和强大的计算资源，在众多NLP任务中表现卓越。然而，在理解和进行推理方面，这些模型仍显得相对薄弱，仅依靠增加模型的大小无法解决这一问题。

夕小瑶·2023-12-20 13:44

【机器阅读理解】System Report for CCL23-Eval Task 9: HUST1037 Explore Proper Prompt Strategy for LLM in MRC

通过使用ChatGLM、GPT3.5和GPT4进行实验，我们发现提示语和LLM阅读理解能力之间存在相关性，提示语工程提高了每种模型的阅读理解能力。我们团队提交了系统评估结果，在三项指标和总分中均

辰阳星宇·2023-12-20 07:54

HuatuoGPT模型介绍

文章目录HuatuoGPT模型介绍LLM4Med（医疗大模型）的作用ChatGPT存在的问题HuatuoGPT的特点ChatGPT与真实医生的区别解决方案用于SFT阶段的混合数据基于AI反馈的RL评估单轮问答多轮问答人工评估

dzysunshine·2023-12-20 07:25

基于LLM+场景识别+词槽实体抽取实现多轮问答

前言随着人工智能技术的不断进步，大语言模型（LLM）已成为技术前沿的热点。它们不仅能够理解和生成文本，还能在多种应用场景中实现复杂的交互。

gallonyin·2023-12-19 21:30

大模型(LLM)+词槽(slot)构建动态场景多轮对话系统

近年来，随着大型语言模型（LLM）的进步，构建能够理解和响应各种用户需求的聊天机器人变得更加可行和强大。本文将介绍我们最新的开源项目——一个基于LLM和词槽（slot）方法的动态场景多轮对话系统。

gallonyin·2023-12-19 21:28

OpenAI 官方的 Prompt 工程指南：你可以这么玩ChatGPT

写好prompt已经成为LLM的一项必修课。‍随着ChatGPT、GPT-4等大型语言模型（LLM）的出现，提示工程（PromptEngineering）变得越来越重要。

Python算法实战·2023-12-19 17:03

大语言模型（LLM）与 Jupyter 连接起来了！

现在，大语言模型（LLM）与Jupyter连接起来了！这主要归功于一个名叫JupyterAI的项目，它是官方支持的ProjectJupyter子项目。

Python算法实战·2023-12-19 17:03

TimeGPT：时序预测领域终于迎来了第一个大模型

大型语言模型(llm)最近在ChatGPT等应用程序中变得非常流行，因为它们可以适应各种各样的任务，而无需进一步的训练。这就引出了一个问题:时间序列的基础模型能像自然语言处理那样存在吗?

Python算法实战·2023-12-19 17:02

RAG（检索增强生成）技术

1.基本概念检索增强LLM(RetrievalAugmentedLLM)，简单来说，就是给LLM提供外部数据库，对于用户问题(Query)，通过一些信息检索(InformationRetrieval,IR

IT斜杆青年·2023-12-19 15:18

MetaGPT使用总结

前言MetaGPT是基于ChatGPT的一个AIAgent应用，这个应用将LLM组成一个软件开发公司，并在公司中设置了老板、产品经理、架构师、项目经理、研发工程师、测试工程师等角色。

金闪闪_Li·2023-12-19 10:48

LLM Agent发展演进历史（观看metagpt视频笔记）

LLM相关的6篇重要的论文，其中4篇来自谷歌，2篇来自openai。

峰峰jack·2023-12-19 10:46

MetaGPT-Agent相关代码分析

Agent参考资料：智能体入门|MetaGPT组成Agent=LLM+Observation+Thought+Action+Memory-大语言模型（LLM）：LLM作为智能体的“大脑”部分，使其能够处理信息

6000lt·2023-12-19 10:15

情感香槟——御姐 MetaGPT版本项目代码分析

meta给我的感觉很像langchain对llm的感觉，开发友好工具丰富！也请大家多多体验！（源百度项目：https://aistudio.baidu.com/projectdetail/720310

王多头发·2023-12-19 10:15

MetaGPT实现多智能体通信，智能体也能轻松狼人杀

ExploringLargeLanguageModelsforCommunicationGames:AnEmpiricalStudyonWerewolf》（以下简称“论文”）为题的论文中，展示了大型语言模型（LLM

DeepWisdom·2023-12-19 10:44

Compositional Chain-of-Thought Prompting for Large Multimodal Models大型多模态模型的组合思想链提示

Abstract强大的视觉主干和大型语言模型(LLM)推理的结合使大型多模态模型(LMM)成为各种视觉和语言(VL)任务的当前标准。

Mars_prime·2023-12-19 08:04

Multimodal Chain-of-Thought Reasoning in Language Models语言模型中的多模态思维链推理

Abstract大型语言模型(LLM)通过利用思维链(CoT)提示生成中间推理链作为推断答案的基本原理，在复杂推理方面表现出了令人印象深刻的性能。然而，现有的CoT研究主要集中在语言情态上。

Mars_prime·2023-12-19 08:31

Can LLM-Generated Misinformation Be Detected?

CanLLM-GeneratedMisinformationBeDetected?Tags:Hallucination,LLMAuthors:CanyuChen,KaiShuCreatedDate:December8,202310:12AMFinishedDate:2023/12/11Status:Finishedorganization:IllinoisInstituteofTechnology

HMTT·2023-12-19 06:01

LongLoRA 介绍

本文将介绍一篇关于使用局部注意力来微调长上下文LLM的文章。文章的要点如下：提出了一种新的局部注意力机制，称为ShiftShortAttention，它可以有效地减少LLM处理长上下文所需的计算量。

步子哥·2023-12-19 02:27

【LLM】Prompt Engineering

PromptEngineeringCoTCoT-SCToTGoTCoT:Chain-of-Thought通过这样链式的思考，Model输出的结果会更准确CoT-SC:Self-ConsistencyImprovesChainofThoughtReasoninginLanguageModels往往，我们会使用Greedydecode这样的策略，每次在概率最大的几个token中选择一个token，进行

Hellespontus·2023-12-18 19:03

Python - FastAPI 实现 get、post 请求

Postman请求1.post-create_item2.get-read_items四.Requests请求1.post-create_item2.get-read_items五.总结一.引言前面介绍了LLM

BIT_666·2023-12-18 19:49

GPT实战系列-大话LLM大模型训练

GPT实战系列-大话LLM大模型训练GPT实战系列-探究GPT等大模型的文本生成GPT实战系列-Baichuan2等大模型的计算精度与量化GPT实战系列-GPT训练的Pretraining，SFT，RewardModeling

Alex_StarSky·2023-12-18 18:11

GPT实战系列-探究GPT等大模型的文本生成

GPT实战系列-探究GPT等LLM文本生成GPT专栏文章：GPT实战系列-Baichuan2等大模型的计算精度与量化-CSDN博客GPT实战系列-GPT训练的Pretraining，SFT，RewardModeling

Alex_StarSky·2023-12-18 18:09

写好ChatGPT提示词原则之：清晰且具体（clear & specific）

为了最大化这些大型语言模型（LLM）的潜力，关键在于编写有效的提示词。适当的提示不仅引导模型正确理解需求，还能防止模型产生误导性或无关的输出。

(_Marvin_)·2023-12-18 17:54

中文开源LLM评测

中文开源LLM汇总评测模型推理建议使用通用的模型推理工具包运行推理，一般都提供较好的UI以及兼容OpenAI的API。

.MING_X·2023-12-18 13:41

[LLM]nanoGPT---训练一个写唐诗的GPT

karpathy/nanoGPT:Thesimplest,fastestrepositoryfortraining/finetuningmedium-sizedGPTs.(github.com)原有模型使用的莎士比亚的戏剧数据集,如果需要一个写唐诗机器人，需要使用唐诗的文本数据，一个不错的唐诗，宋词数据的下载资源地址：https://github.com/chinese-poet这个数据集里面包含

舒克与贝克·2023-12-18 12:13

开源 LLM 微调训练指南：如何打造属于自己的 LLM 模型

一、介绍今天我们来聊一聊关于LLM的微调训练，LLM应该算是目前当之无愧的最有影响力的AI技术。尽管它只是一个语言模型，但它具备理解和生成人类语言的能力，非常厉害！

机器学习社区·2023-12-18 10:25

llm with vector db

KITLM:Domain-SpecificKnowledgeInTegrationintoLanguageModelsforQuestionAnswering大型语言模型（LLM）在广泛的自然语言任务中表现出了非凡的性能

summermoonlight·2023-12-18 07:02

LLM tip

参考链接作用依次递减B站链接langchain+文档+openaiembedding+openai3.5turbo快速搭建一个本地知识问答系统，视频也尝试了本地模型进行embedding，效果比较差视频附上相关的ipynb的代码代码链接微软AutoGen链接吴恩达prompt课程

summermoonlight·2023-12-18 07:28

【LLM】“幻觉”的缓解方法

HallucinationWhat’sHallucination什么是幻觉在大型语言模型（LLM）中生成与现实或已知事实不符的信息。

Hellespontus·2023-12-18 07:30

【LLM】大语言模型的前世今生

AnOverviewofLLMsLLMs’statusquoNLPFourParadigmAtimelineofexistinglargelanguagemodels看好OpenAI、Meta和LLaMA。TypicalArchitecturesCasualDecodereg.GPT3、LLaMA…在前两篇文章大家也了解到GPT的结构了，在训练模型去预测下一个token的时候，是以一个无监督的形式

Hellespontus·2023-12-18 07:55

LLM大语言模型（二）：Streamlit 无需前端经验也能画web页面

怎样用Streamlit画一个LLM的web页面呢？文本输出页面布局滑动条按钮对话框输入框总结问题假如你是一位后端开发，没有任何的web开发经验，那如何去实现一个LLM的对话交互页面呢？

Hugo Lei·2023-12-18 05:15

详解各种LLM系列｜（2）LLaMA 2模型架构、预训练、SFT内容详解 (PART-1)

一、引言Llama2是Meta在LLaMA基础上升级的一系列从7B到70B参数的大语言模型。Llama2在各个榜单上精度全面超过LLaMA1，Llama2作为开源界表现最好的模型之一，目前被广泛使用。为了更深入地理解Llama2的技术特点，特地在此整理了Llama2模型架构、预训练、SFT的内容详解，对于后续的RLHF和安全性分析，由于篇幅原因，笔者将写另一篇来介绍。话不多说，直接上干货啦一、LL

Sunny_AI_addict·2023-12-18 03:36

Mistral MOE架构全面解析

架构全面解析前言Mistral架构分析分词网络主干MixtralDecoderLayerAttentionMOEMLP下游任务因果推理文本分类Mistral架构全面解析前言Mixtral-8x7B大型语言模型(LLM

江小皮不皮·2023-12-18 03:06

Llama 架构分析

架构分析Llama架构分析前言Llama架构分析分词网络主干DecoderLayerAttentionMLP下游任务因果推理文本分类Llama架构分析前言Meta开发并公开发布了Llama系列大型语言模型(LLM

江小皮不皮·2023-12-18 03:35

NExT-GPT: Any-to-Any Multimodal LLM 阅读学习

提出两种轻量的对齐技术——编码端的语言模型中心对齐和解码端的指令遵循对齐，实现了高效的语义对齐与最小的计算开销。提出新的模态切换指令微调(MosIT)方法与高质量数据集，赋予NExT-GPT复杂的跨模态理解与生成能力。方法：通过将语言模型与多模态适配器和不同的解码器相连接，构建了一个端到端的通用任意多模态语言模型系统NExT-GPT。优势：利用现有的高性能编码器和解码器进行微调，既避免了从头开始训

south020·2023-12-18 03:36

OpenAI炸裂新作：GPT-4破解GPT-2大脑！30万神经元全被看透

LLM的哪些部分，究竟负责哪些行为？这些都让他们百思不得其解。万万没想到，AI的「可

乐享技术·2023-12-18 02:05

文本处理工具doctran（集成LLM和NLP库）

（本质上是对LLM和NLP库的封装）G

hj_caas·2023-12-17 23:04

AgentBench排行榜25个主流LLM作为Agent的能力评估结果和重要结论

最终，清华大学评估了25个主流的LLM在上述8个任务上的表现来评估各大模型作为Agent的最终得分。

LCHub低代码社区·2023-12-17 21:18

Agent : 一文读懂LLM Agent架构，详解Profile，Memory，Planning，Action模块作用

原创予墨AI速览2023-10-0713:30收录于合集#AI论文解读3个##Agent5个在人工智能领域，人们对Agent的期待日益增长。每当基于Agent的新开源工具或产品出现时，都能引发热烈的讨论，比如之前的AutoGPT。对于对Agent感兴趣的朋友们，我推荐一篇论文，它全面地介绍了Agent的架构，对于理解Agent的全局有着重要的价值。https://browse.arxiv.org/

AI生成曾小健·2023-12-17 21:17

拆解！何为AI Agent？

NLP论文投稿、LLM交流、论文直播群前沿最近AI圈很火的一个话题就是AIAgent了！AI创投圈也在密切关注着相关创业公司的进展。

zenRRan·2023-12-17 19:56

教会羊驼说话：Instruction Tuning的最新进展

RecentProgressinInstructionTuningLink:https://gaotianyu.xyz/blog/2023/11/30/instruction-tuning/前言大型语言模型（LLM

zenRRan·2023-12-17 19:26

GPT-2能监督GPT-4，Ilya带头OpenAI超级对齐首篇论文来了：AI对齐AI取得实证结果

NLP论文投稿、LLM交流、论文直播群人类无法监督超级人工智能，但人工智能可以。过去一年，以「预测下一个Token」为本质的大模型已经横扫人类世界的多项任务，展现了人工智能的巨大潜力。