(LLM) 第15页

LLM：ALiBi - 给注意力加上线性偏置

论文：https://arxiv.org/pdf/2108.12409.pdf代码：https://github.com/ofirpress/attention_with_linear_biases发表：2021长度外推参考：https://spaces.ac.cn/archives/9431#ALIBI长度外推性是一个训练和预测的长度不一致的问题。具体来说，不一致的地方有两点：1、预测的时候用到

微风❤水墨·2024-01-20 17:18

LLM：Scaling Laws for Neural Language Models （上）

论文：https://arxiv.org/pdf/2001.08361.pdf发表：2020摘要1：损失与模型大小、数据集大小以及训练所用计算量成比例，其中一些趋势跨越了七个量级以上。2：网络宽度或深度等其他架构细节在很大范围内影响较小。3：模型/数据集大小和训练速度与模型大小的依赖关系由简单的方程描述。这些关系使我们能够确定在固定的计算预算下的最优资源分配。4：更大的模型显著地更具样本效率，因此

微风❤水墨·2024-01-20 17:46

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)

专属领域论文订阅关注{晓理紫|小李子}，每日更新论文，如感兴趣，请转发给有需要的同学，谢谢支持分类:大语言模型LLM视觉模型VLM扩散模型视觉导航具身智能，机器人强化学习开放词汇，检测分割[晓理紫]每日论文分享

晓理紫·2024-01-20 17:05

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--大模型、扩散模型、视觉导航

专属领域论文订阅关注{晓理紫|小李子}，每日更新论文，如感兴趣，请转发给有需要的同学，谢谢支持VX关注，并留下邮箱可获得每日定时推送分类:大语言模型LLM视觉模型VLM扩散模型视觉导航具身智能，机器人强化学习开放词汇

晓理紫·2024-01-20 17:34

基于ChatGPT的代码解释神器：GPT Academic、GitHub Copilot

GLM提供实用化交互界面，特别优化论文阅读/润色/写作体验，模块化设计，支持自定义快捷按钮&函数插件，支持Python和C++等项目剖析&自译解功能，PDF/LaTex论文翻译&总结功能，支持并行问询多种LLM

码上出奇迹·2024-01-20 16:38

【人工智能】打开AI能力的钥匙：深入理解提示词的作用(3)

今天我们要聊一聊那个对于使用大型语言模型（LLM）如ChatGPT等来说至关重要的东西——提示词（Prompt）。

魔道不误砍柴功·2024-01-20 13:39

Auto-GPT程序流程图

这个程序由GPT-4驱动，将LLM“思想”链接在一起，以自主地实现您设置的任何目标。作为GPT-4完全自主运行的首个示例之一，Auto-GPT推动了人工智能可能性的边界。简单来说，A

weixin_43825606·2024-01-20 11:36

【TEE】可信执行环境保障大模型安全

文章目录1.TEE+LLM2.Intel平台加速TEE和LLM融合方案3.OpaquePrompts隐藏敏感输入数据4.NVIDIAH1005.安全可信的LLM1.TEE+LLM大模型安全隐患数据泄露、

Destiny·2024-01-20 09:43

【论文阅读】GPT4Graph: Can Large Language Models Understand Graph Structured Data?

文章目录0、基本介绍1、研究动机2、准备2.1、图挖掘任务2.2、图描述语言（GDL）3、使用LLM进行图理解流程3.1、手动提示3.2、自提示4、图理解基准4.1、结构理解任务4.1、语义理解任务5、

鲸可落·2024-01-20 08:52

机器学习周刊第六期：哈佛大学机器学习课、Chatbot Ul 2.0 、LangChain v0.1.0、Mixtral 8x7B

—date:2024/01/08—吴恩达和Langchain合作开发了JavaScript生成式AI短期课程：《使用LangChain.js构建LLM应用程序》大家好，欢迎收看第六期机器学习周刊本期介绍

机器学习算法与Python实战·2024-01-20 04:31

使用 GPT4 和 ChatGPT 开发应用：第四章到第五章

原文：DevelopingAppswithGPT-4andChatGPT译者：飞龙协议：CCBY-NC-SA4.0第四章：GPT-4和ChatGPT的高级技术现在你已经熟悉了LLM的基础知识和OpenAIAPI

绝不原创的飞龙·2024-01-20 03:46

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--大模型、扩散模型、视觉导航

专属领域论文订阅关注{晓理紫}，每日更新论文，如感兴趣，请转发给有需要的同学，谢谢支持关注留下邮箱可每日定时收到论文更新服务分类:大语言模型LLM视觉模型VLM扩散模型视觉导航具身智能，机器人强化学习开放词汇

晓理紫·2024-01-20 02:51

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--具身智能、强化学习

专属领域论文订阅VX关注晓理紫，每日更新论文，如感兴趣，请转发给有需要的同学，谢谢支持分类:大语言模型LLM视觉模型VLM扩散模型视觉导航具身智能，机器人强化学习开放词汇，检测分割[晓理紫]每日论文分享

晓理紫·2024-01-20 02:51

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--大模型、扩散模型、视觉导航

专属领域论文订阅VX关注晓理紫，每日定时更新论文，如感兴趣，请转发给有需要的同学，谢谢支持分类:大语言模型LLM视觉模型VLM扩散模型视觉导航具身智能，机器人强化学习开放词汇，检测分割[晓理紫]每日论文分享

晓理紫·2024-01-20 02:21

随心玩玩（十二）通义千问——LLM大模型微调

写在前面：使劲的摸鱼，摸到的鱼才是自己的~文章目录简介环境配置模型加载jupyter远程配置快速使用微调示例部署方案总结附录：ReActPrompting示例准备工作一：样例问题、样例工具准备工作二：ReAct模版步骤一：让千问判断要调用什么工具、生成工具入参步骤二：让千问根据插件返回结果继续作答FAQ简介参考资料：https://github.com/QwenLM/Qwen/blob/main/

likeGhee·2024-01-20 01:55

通向AGI之路：大型语言模型（LLM）技术精要

原文：通向AGI之路：大型语言模型（LLM）技术精要|AGI|LLM|GPT|NLP|模型|技术|数据|-健康界ChatGPT出现后惊喜或惊醒了很多人。

javastart·2024-01-19 19:43

0基础实战langchain系列讲义【1】Hello LangChain

它是一个封装了大量大语言模型(LLM)应用开发逻辑和工具集成的开源Python库，提供

小菜学AI·2024-01-19 19:31

书生·浦语大模型实战营第四节课笔记及作业

XTuner大模型单卡低成本微调实战1Finetune简介大语言模型LLM是在海量的文本内容基础上，以无监督或半监督方式进行训练的。海量的文本内容赋予了大模型各种各样的行业知识。

zpc1219·2024-01-19 17:30

书生·浦语大模型实战营04课堂笔记

一、Finetune简介1.LLM下游应用中，两种微调模式一种是增量预训练：使用场景是让基座模型学习到一些新知识，如某个垂类领域的常识。

残星流影·2024-01-19 17:29

用通俗易懂的方式讲解：LLM 大模型的 generate 和 chat 函数有什么区别？

通常公司发布的LLM模型会有一个基础版本，还会有一个Chat版本。比如，Qwen-7B（基础版本）和Qwen-7B-Chat（Chat版本）。文章目录1.generate方法2

Python算法实战·2024-01-19 16:43

《向量数据库指南》RAG 应用中的指代消解——解决方案初探

随着ChatGPT等大语言模型(LLM)的不断发展，越来越多的研究人员开始关注语言模型的应用。

LCHub低代码社区·2024-01-19 15:30

LLM：Training Compute-Optimal Large Language Models

论文：https://arxiv.org/pdf/2203.15556.pdf发表：2022前文回顾：OpenAI在2020年提出《ScalingLawsforNeuralLanguageModels》：ScalingLaws(缩放法则）也一直影响了后续大模型的训练。其给出的结论是最佳计算效率训练涉及在相对适中的数据量上训练非常大的模型并在收敛之前earlystopping。所以后续的工作都专注于

微风❤水墨·2024-01-19 15:29

LLM：Sinusoidal位置编码

1：什么是大模型的外推性？外推性是指大模型在训练时和预测时的输入长度不一致，导致模型的泛化能力下降的问题。例如，如果一个模型在训练时只使用了512个token的文本，那么在预测时如果输入超过512个token，模型可能无法正确处理。这就限制了大模型在处理长文本或多轮对话等任务时的效果。2：为什么要位置编码PE？Transformer结构：并行输入。所以需要让输入的内容具有一定的位置信息。句子1：我

微风❤水墨·2024-01-19 15:29

《向量数据库指南》——性能持续突破！火山引擎ByteHouse上线向量检索能力

随着LLM技术应用及落地,数据库需要提高向量分析以及AI支持能力,向量数据库及向量检索等能力“异军突起”,迎来业界持续不断关注。

LCHub低代码社区·2024-01-19 15:25

LLM：RoPE位置编码

论文：https://arxiv.org/pdf/2104.09864.pdf代码：https://github.com/ZhuiyiTechnology/roformer发表：2021绝对位置编码：其常规做法是将位置信息直接加入到输入中（在x中注入绝对位置信息）。即在计算query,key和value向量之前，会计算一个位置编码向量，先加到词嵌入上，然后再乘以对应的变换矩阵:而经典的位置编码PE

微风❤水墨·2024-01-19 15:54

使用微调大语言模型解析肌肉骨骼疼痛疾病的临床健康记录

https://www.thelancet.com/journals/landig/article/PIIS2589-7500(23)00202-9/fulltext目的：使用经过微调的大型语言模型（LLM

AI明说·2024-01-19 14:04

【概述版】悲剧先于解析：在大型语言模型的新时代，历史重演了

这篇论文探讨了大型语言模型（LLM）的成功对自然语言处理（NLP）领域的影响，并提出了在这一新时代中继续做出有意义贡献的方向。

wwlsm_zql·2024-01-19 14:01

提示词工程：大语言模型的Embedding(嵌入和Fine-tuning（微调）

本文是针对这篇文章（https://www.promptengineering.org/master-prompt-engineering-llm-embedding-and-fine-tuning/）

AI明说·2024-01-19 14:30

被遗忘在角落的RPA，成了提升AI Agent执行能力的天选神器

LLM（LargeLanguageModels）刚爆发之时，很多人认为RPA要完了，自然语言交互+API操作足以干掉任何UI自动化工具。

RPA中国·2024-01-19 12:50

从临床和科研场景分析ChatGPT在医疗健康领域的应用可行性

AnAnalysisofMultipleClinicalandResearchScenarios》（评估ChatGPT在医疗健康领域的可行性：对多种临床和研究场景的分析）介绍了以ChatGPT为代表的大型语言模型（LLM

AI明说·2024-01-19 11:00

Stability AI发布全新代码模型Stable Code 3B

StableCode3B:CodingontheEdge要点：StableCode3B是一个包含30亿个参数的大型语言模型(LLM)，可实现准确且响应灵敏的代码补全，其水平与大2.5倍的CodeLLaMA7b

Funny_AI_LAB·2024-01-19 11:41

2024年1月18日Arxiv最热论文推荐：LLM化身符号逻辑大师、谷歌DeepMind新算法挑战动态环境下的在线优化极限、中科院打造新模型分钟级生成Vlog

本文整理了今日发表在ArXiv上的AI论文中最热门的TOP5。论文解读、论文热度排序、论文标签、中文标题、推荐理由和论文摘要均由赛博马良平台（saibomaliang.com）上的智能体「AI论文解读达人」提供。如需查看其他热门论文，欢迎移步saibomaliang.com^_^Top1LargeLanguageModelsAreNeurosymbolicReasoners标题：大语言模型化身符号

夕小瑶·2024-01-19 11:00

深入浅出：大语言模型的视觉解析

一系列工具与文章的汇编，直观易懂地解读复杂的AI概念图片由作者利用unDraw.co的免费插图制作在当今世界，大语言模型（LLM）成为了热门话题。

这就是编程·2024-01-19 11:18

大模型学习与实践笔记（六）

一、finetune简介两种微调模式：增量预训练与指令跟随1.增量预训练2.指令微调二、LoRA与QLoRA介绍三、XTuner介绍四、低显存玩转LLM的方法

AllYoung_362·2024-01-19 10:24

麻瓜变白袍巫师？SLEICL新范式：强模型生成“魔法书”增强弱模型性能直逼GPT-4...

主要是因为当时提升大模型在下游任务表现的主要方法是微调，但微调却有以下三点不足：低效率：从实际的角度来看，每个新任务都需要大量的带有标记的例子数据集，这限制了语言模型的适用性；过拟合：随着模型的表达能力和训练分布的狭窄性增加，LLM

zenRRan·2024-01-19 06:03

【LLM】一种经过指令微调的文本嵌入模型

概述引入了INSTRUCTOR，一种计算给定任务指令的文本嵌入的新方法：每个文本输入都与解释用例的指令（例如任务和域描述）嵌入在一起。与之前工作中更专业的编码器不同，INSTRUCTOR是一个单一的嵌入器，可以生成针对不同下游任务和领域的文本嵌入，无需任何进一步的培训。首先对330个不同任务的指令进行注释，并在这种多任务混合上使用对比损失来训练INSTRUCTOR。在70个嵌入评估任务（其中64个

余俊晖·2024-01-19 03:25

大语言模型LLM幻觉的解决方法：检索增强生成RAG

当你向大语言模型LLMs集成的问答系统平台咨询医疗方面的问题，比如呼吸道感染应该怎么治疗，它可能直接给出答案，但不会提供这个答案的依据来源，这是因为大语言模型应用过程中还存在答案透明度不足的缺陷导致。此外，大语言模型还有知识更新的滞后性、在处理复杂任务时的准确性的问题。为了解决这些问题，检索增强生成（Retrieval-AugmentedGeneration,RAG）的概念应运而生。它是一个为大模

英智未来·2024-01-19 01:21

大语言模型工作原理：AI如何理解与创造语言？

大型语言模型（LLM），如GPT、BERT等，基于深度学习技术，从海量文本中学习语言的模式和规律，核心任务是预测接下来最可能出现的单词，从而实现自然语言生成和理解。

英智未来·2024-01-19 01:51

一文读懂大型语言模型LLM

在当今的技术世界中，人工智能正以前所未有的速度发展和演变。这一领域的快速发展得益于先进的机器学习算法、海量数据的可用性以及计算能力的显著提升。特别是，在自然语言处理（NLP）领域，AI的进步已经让计算机不仅能理解人类语言的基本结构，还能在更深层次上把握其语义和情感。这种能力的核心在于大型语言模型（大语言模型），如GPT和Gemini，它们通过分析和处理大量文本数据，能夠生成流畅、准确且具有上下文关

英智未来·2024-01-19 01:50

用通俗易懂的方式讲解：使用Llama-2、PgVector和LlamaIndex，构建大模型 RAG 全流程

近年来，大型语言模型（LLM）取得了显著的进步，然而大模型缺点之一是幻觉问题，即“一本正经的胡说八道”。

Python算法实战·2024-01-18 21:33

用通俗易懂的方式讲解：使用 LangChain 和 LlamaIndex 从零构建PDF聊天机器人

随着大型语言模型（LLM）（如ChatGPT和GPT-4）的兴起，现在比以往任何时候都更容易搭建智能聊天机器人，并且可以堆积如山的文档，为你的输入提供更准确的响应。

Python算法实战·2024-01-18 21:02

AI技术的思考与实践：AI大模型、技术细节、应用发展

人工智能应用和发展AI大模型LLM可以帮助企业做什么？

技术人生黄勇·2024-01-18 20:30

Elasticsearch：聊天机器人教程（一）

在本教程中，你将构建一个大型语言模型(LLM)聊天机器人，该机器人使用称为检索增强生成(RAG)的模式。使用RAG构建的聊天机器人可以克服ChatGPT等通用会话模型所具有的一些限制。

Elastic 中国社区官方博客·2024-01-18 19:04

使用 Neo4j 和 LangChain 集成非结构化知识图增强 QA

信息检索和知识提取是一个不断发展的领域，随着大型语言模型（LLM）和知识图的出现，这一领域发生了显着的变化，特别是在多跳问答的背景下。

深度学习算法与自然语言处理·2024-01-18 15:56

用通俗易懂的方式讲解：如何用大语言模型构建一个知识问答系统

本文探索使用大语言模型（LargeLanguageModel,LLM），通过其对自然语言理解和生成的能力，揣摩用户意图，并对原始知识点进行汇总、整合，生成更贴切的答案。

深度学习算法与自然语言处理·2024-01-18 15:26

利用 LangChain 和 Neo4j 向量索引，构建一个RAG应用程序

LangChain库是构建大型语言模型(LLM)应用程序的重要框架。这种集成有助于将数据有效地摄取到Neo4jVectorIn

深度学习算法与自然语言处理·2024-01-18 15:22

Elasticsearch：和 LIamaIndex 的集成

LlamaIndex是一个数据框架，供LLM应用程序摄取、构建和访问私有或特定领域的数据。LlamaIndex是开源的，可用于构建各种应用程序。在GitHub上查看该项目。

Elastic 中国社区官方博客·2024-01-18 13:45

大模型学习第五课

大模型量化部署实践学习内容：大模型部署背景LMDeploy简介动手实践环节学习时间：20240115学习产出：1，大模型部署背景模型部署定义，产品形态，计算设备大模型特点内存开销巨大，动态shape，相对视觉模型，LLM

敲键盘的喵桑·2024-01-18 12:46

2024年1月17日Arxiv热门NLP大模型论文：PRewrite: Prompt Rewriting with Reinforcement Learning

引言：自动化提示工程的必要性与挑战在当今的人工智能领域，大型语言模型（LLM）的应用日益广泛，它们在各种下游任务中展现出了令人印象深刻的性能。

夕小瑶·2024-01-18 12:14

2024年1月17日Arxiv热门CV大模型论文：DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models

然而，现有的以LLM为驱动的视觉代理主要集中于静态图像任务的解决，这限制了它们理解现实世界动态本质的能力。例如，在实验室指导学生实验并识别错误的场景中，现有系统仍难以应用。视频模态以其动态和感知密集的

夕小瑶·2024-01-18 12:43

推荐频道

(LLM)

LLM：ALiBi - 给注意力加上线性偏置

LLM：Scaling Laws for Neural Language Models （上）

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--大模型、扩散模型、视觉导航

基于ChatGPT的代码解释神器：GPT Academic、GitHub Copilot

【人工智能】打开AI能力的钥匙：深入理解提示词的作用(3)

Auto-GPT程序流程图

【TEE】可信执行环境保障大模型安全

【论文阅读】GPT4Graph: Can Large Language Models Understand Graph Structured Data?

机器学习周刊第六期：哈佛大学机器学习课、Chatbot Ul 2.0 、LangChain v0.1.0、Mixtral 8x7B

使用 GPT4 和 ChatGPT 开发应用：第四章到第五章

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--大模型、扩散模型、视觉导航

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--具身智能、强化学习

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--大模型、扩散模型、视觉导航

随心玩玩（十二）通义千问——LLM大模型微调

通向AGI之路：大型语言模型（LLM）技术精要

0基础实战langchain系列讲义【1】Hello LangChain

书生·浦语大模型实战营第四节课笔记及作业

书生·浦语大模型实战营04课堂笔记

用通俗易懂的方式讲解：LLM 大模型的 generate 和 chat 函数有什么区别？

《向量数据库指南》RAG 应用中的指代消解——解决方案初探

LLM：Training Compute-Optimal Large Language Models

LLM：Sinusoidal位置编码

《向量数据库指南》——性能持续突破！火山引擎ByteHouse上线向量检索能力

LLM：RoPE位置编码

使用微调大语言模型解析肌肉骨骼疼痛疾病的临床健康记录

【概述版】悲剧先于解析：在大型语言模型的新时代，历史重演了

提示词工程： 大语言模型的Embedding(嵌入和Fine-tuning（微调）

被遗忘在角落的RPA，成了提升AI Agent执行能力的天选神器

从临床和科研场景分析ChatGPT在医疗健康领域的应用可行性

Stability AI发布全新代码模型Stable Code 3B

2024年1月18日Arxiv最热论文推荐：LLM化身符号逻辑大师、谷歌DeepMind新算法挑战动态环境下的在线优化极限、中科院打造新模型分钟级生成Vlog

深入浅出：大语言模型的视觉解析

大模型学习与实践笔记（六）

麻瓜变白袍巫师？SLEICL新范式：强模型生成“魔法书”增强弱模型性能直逼GPT-4...

【LLM】一种经过指令微调的文本嵌入模型

大语言模型LLM幻觉的解决方法：检索增强生成RAG

大语言模型工作原理：AI如何理解与创造语言？

一文读懂大型语言模型LLM

用通俗易懂的方式讲解：使用Llama-2、PgVector和LlamaIndex，构建大模型 RAG 全流程

用通俗易懂的方式讲解：使用 LangChain 和 LlamaIndex 从零构建PDF聊天机器人

AI技术的思考与实践：AI大模型、技术细节、应用发展

Elasticsearch：聊天机器人教程（一）

使用 Neo4j 和 LangChain 集成非结构化知识图增强 QA

用通俗易懂的方式讲解：如何用大语言模型构建一个知识问答系统

利用 LangChain 和 Neo4j 向量索引，构建一个RAG应用程序

Elasticsearch：和 LIamaIndex 的集成

大模型学习第五课

2024年1月17日Arxiv热门NLP大模型论文：PRewrite: Prompt Rewriting with Reinforcement Learning

2024年1月17日Arxiv热门CV大模型论文：DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models

提示词工程：大语言模型的Embedding(嵌入和Fine-tuning（微调）