LLMs 第3页

Andrej Karpathy 最新AI讲座（3个半小时）：Deep Dive into LLMs like ChatGPT（深入探索像ChatGPT这样的大语言模型）

自动驾驶小学生·2025-03-05 21:46

基于Ubuntu+vLLM+NVIDIA T4高效部署DeepSeek大模型实战指南

一、前言：拥抱vLLM与T4显卡的强强联合在探索人工智能的道路上，如何高效地部署和运行大型语言模型（LLMs）一直是一个核心挑战。尤其是当我们面对资源有限的环境时，这个问题变得更加突出。

来自于狂人·2025-03-05 02:01

大语言模型生成式AI学习笔记——1. 1.1 大语言模型及生成式AI项目生命周期简介——课程简介

GenerativeAIwithLargeLanguageModelsbyDeepLearning.AI&AmazonWebServicesAboutthisCourseInGenerativeAIwithLargeLanguageModels(LLMs

预见未来to50·2025-03-04 18:07

大模型学习笔记-基于《Deep Dive into LLMs like ChatGPT》

模型是什么从逻辑层面理解，模型类似于函数。给定模型一个输入，它会产生一个输出。例如，垃圾邮件识别器就是一种模型。当输入一封电子邮件时，它会输出该邮件是否为垃圾邮件的判断结果。天气预测同样是一个模型，输入历史天气数据，它会输出对明天天气情况的预测。这些都是模型的实例。当然，模型的输出存在一定的准确率，其结果可能与预期高度相符，也可能偏离较大。构建数据集对于大语言模型（LLM）的训练而言，首先需要构建

XiyouLinux_Kangyijie·2025-03-04 18:33

llama_factory微调QWen1.5

GitHub-hiyouga/LLaMA-Factory:UnifyEfficientFine-Tuningof100+LLMsUnifyEfficientFine-Tuningof100+LLMs.Contributetohiyouga

Kun Li·2025-03-03 02:50

SQL-o1：一种用于Text-to-SQL的自奖励启发式动态搜索方法

得益于大规模语言模型(LLMs)的应用，该领域取得了显著进展。然而，模型的可扩展性、生成空间的限制以及SQL生成过程中的连贯性问题仍然存在。

数之何·2025-03-02 12:25

【大模型】fp32 和 fp16 的区别，混合精度的原理。

LLMs浮点数一、fp32和fp16的区别，混合精度的原理1.fp32与fp16的对比特性fp32（单精度）fp16（半精度）位数32位（4字节）16位（2字节）内存占用高低（仅为fp32的50%）数值范围约

深度求索者·2025-03-02 08:20

借助知识图谱和Llama-Index实现基于大模型的RAG

幻觉是在处理大型语言模型（LLMs）时常见的问题。LLMs生成流畅连贯的文本，但经常产生不准确或不一致的信息。防止LLMs中出现幻觉的一种方法是使用外部知识源，如提供事实信息的数据库或知识图谱。

爱吃牛油果的璐璐·2025-03-01 08:32

如何使用Anyscale平台运行、微调和扩展大语言模型(LLMs)

Anyscale是一个功能强大的平台，主要用于运行、微调和扩展大语言模型(LLMs)，并且通过生产就绪的API提供成本效益的调用服务。

eahba·2025-03-01 03:49

第九章 Spring AI API中文版 - Ollama Embeddings API

Ollama嵌入通过Ollama，您可以在本地运行各种大型语言模型（LLMs），并从中生成嵌入。SpringAI通过OllamaEmbeddingClient支持Ollama文本嵌入。

明爷们儿·2025-02-28 18:52

Empowering LLMs with Logical Reasoning: 从“语言大师”到“逻辑大师”的进化之路

让大语言模型（LLMs）既能说会道，又能逻辑严谨，是AI发展的下一座高峰。”开篇：语言模型的“逻辑盲区”近年来，大语言模型（LLMs）在自然语言处理（NLP）任务中取得了令人瞩目的成就。

步子哥·2025-02-28 07:19

利用DSPy优化LangChain RAG系统的实战指南

利用DSPy优化LangChainRAG系统的实战指南技术背景介绍DSPy是一个用于大语言模型（LLMs）的出色框架，它引入了一个自动编译器，能够教会模型如何执行你程序中的声明性步骤。

scaFHIO·2025-02-28 04:01

使用LangChain与GPT4All模型进行交互

核心原理解析GPT4All是基于大型语言模型（LLMs）的开源项目，通过训练大量干净的数据，能够生成高质量的对话和回答。LangChain是一种用于简化与

bavDHAUO·2025-02-28 04:28

LangChain入门：使用Python和通义千问打造免费的Qwen大模型聊天机器人

前言LangChain是一个用于开发由大型语言模型（LargeLanguageModels，简称LLMs）驱动的应用程序的框架。

闯江湖50年·2025-02-27 20:45

大数据最全大模型入门到应用——LangChain：索引（Indexes）-[文本分割器

大模型从入门到应用》总目录LangChain系列文章：基础知识快速入门安装与环境配置链（Chains）、代理（Agent:）和记忆（Memory）快速开发聊天模型模型（Models）基础知识大型语言模型（LLMs

2401_84182507·2025-02-27 17:22

大模型入门到应用——LangChain：索引（Indexes）-[文本分割器(2)

快速入门安装与环境配置链（Chains）、代理（Agent:）和记忆（Memory）快速开发聊天模型模型（Models）基础知识大型语言模型（LLMs）基础知识LLM的异步API、自定义LLM包装器、虚假

2301_78399616·2025-02-27 17:21

大语言模型原理与工程实践：Transformer 大语言模型预训练

数据处理文章目录大语言模型原理与工程实践：Transformer大语言模型预训练1.背景介绍1.1问题的由来1.2研究现状1.3研究意义1.4本文结构2.核心概念与联系2.1大语言模型（LargeLanguageModels，LLMs

AI天才研究院·2025-02-27 16:18

DeepSeek R1、Kimi k1.5与OpenAI o1：技术架构、性能对比及应用前景深度剖析

在人工智能的浪潮中，大型语言模型（LLMs）已成为推动技术变革的核心引擎。

WilsonShiiii·2025-02-27 00:48

LLMs之ReACT-Agent：ReACT-Agent简介、实现及其使用方法(MReACT/AutoReACT)、案例应用(比如采用ReAct框架让LLM稳定输出JSON格式数据)之详细攻略

LLMs之ReACT-Agent：ReACT-Agent简介、实现及其使用方法(MReACT/AutoReACT)、案例应用(比如采用ReAct框架让LLM稳定输出JSON格式数据)之详细攻略目录相关文章

一个处女座的程序猿·2025-02-27 00:46

深入解析 DeepSeek R1：强化学习如何驱动大模型推理能力的进化

这一思路不仅为大规模语言模型（LLMs）带来了新的训练范式，还在跨任务推理迁移上表现出潜力。本文将深入解析DeepSeekR1的架构、训练方法和对比实验，并从多维度审视其局限性与未来发展方向。

海棠AI实验室·2025-02-26 23:07

百度文心大模型API保姆级教程：从入门到实战

目录文心大模型简介文心大模型vs.OpenAIGPT系列应用构建实例API集成详细步骤准备工作获取AccessToken发起API请求API的调试和常见问题的解决进阶应用安全性和最佳实践总结与未来展望随着大型语言模型（LLMs

海棠AI实验室·2025-02-26 16:44

Title: Empowering Social Network Intelligence with AI Agents

AIagents,poweredbyadvancementsinlargelanguagemodels(LLMs)andmultimodalAItechnologies,arerevolutionizingsocialnetworksbyofferingdeeperinsightsintouserinteractions

诗远小一·2025-02-26 14:28

Lil‘Log《Extrinsic Hallucinations in LLMs》读后总结

博客《ExtrinsicHallucinationsinLLMs》由LilianWeng撰写，详细探讨了大型语言模型（LLMs）中“幻觉”现象的背景、原因、类型、影响及其缓解策略。

心碎小猫p·2025-02-25 02:42

docker安装Open WebUI详解-遇到的坑OSError: We couldn‘t connect to ‘https://huggingface.co‘ to load this file

一、OpenWebUI简介OpenWebUI（https://openwebui.com）是一个用户友好的Web界面，专为本地大语言模型（LLMs）设计。

坚定信念，勇往无前·2025-02-24 22:16

能力模型迁移：专业教育从「知识掌握度」转向「提示工程能力」

然而，随着以大型语言模型（LLMs）为代表的生成式AI技术的崛起，仅仅掌握知识已经远远不够，提示工程能力逐渐成为更核心、更关键

由数入道·2025-02-24 20:05

DeepSeek-R1秘籍轻松迁移，只需原始数据0.3% | 邱锡鹏团队联合出品

他们提出了MHA2MLA这种数据高效的微调方法，使基于MHA（多头注意力）的大语言模型（LLMs）能够顺利转换到MLA架构。以Llama2-7B为例

·2025-02-24 19:13

对抗性提示（adversarial prompts）

对抗性提示对抗性提示是提示工程中的一个重要主题，它可以帮助我们了解LLMs所涉及的风险和安全问题。对抗性提示也是一个重要的学科，可以识别这些风险并设计技术来解决这些问题。

u013250861·2025-02-23 16:18

Grok-3：人工智能领域的新突破

大模型之路·2025-02-23 10:59

LLM之提示词工程

掌握提示工程技能对于深入理解大型语言模型（LLMs）的潜力与局限至关重要。研究人员借助提示工程，致力于增强LLM在广泛且复杂的任务（如问答系统与算术推理）中的表现。

樱花的浪漫·2025-02-22 16:11

2023-arXiv-FinGPT: 开源金融大语言模型

https://github.com/AI4Finance-Foundation/FinGPT&https://github.com/AI4Finance-Foundation/FinNLP摘要：大语言模型（LLMs

量仔搞靓化·2025-02-22 12:41

AnythingLLM 项目安装与配置指南

AnythingLLM项目安装与配置指南anything-llm为开源和闭源的大型语言模型（LLMs）、嵌入器和向量数据库提供开源的ChatGPT体验。

龙聪山Diane·2025-02-20 02:04

Ollama部署大模型并安装WebUi

Ollama用于在本地运行和部署大型语言模型（LLMs）的工具，可以非常方便的部署本地大模型安装Linuxcurl-fsSLhttps://ollama.com/install.sh|sh我是ubuntu

m0_74823611·2025-02-20 01:29

[论文笔记] Cost-Effective Hyperparameter Optimization for Large Language Model Generation 大型语言模型生成推理超参优化

id=DoGmh8A39OChiWang1,SusanXueqingLiu2,AhmedH.Awadallah11微软研究院，雷德蒙德2史蒂文斯理工学院摘要大型语言模型（LLMs）因其生成能力引发了广泛关注

心心喵·2025-02-19 02:45

大语言模型（LLM）如何实现上下文的长期记忆？

引言大语言模型（LargeLanguageModels,LLMs），如GPT-4、Claude和LLaMA等，已经在自然语言处理领域展现出卓越的能力。

·2025-02-18 00:06

使用多模态大语言模型进行深度学习的图像、文本和语音数据增强

在过去的五年里，研究方向已从传统的机器学习（ML）和深度学习（DL）方法转向利用大语言模型（LLMs），包括多模态方法，用于数据增强，以提高泛化能力，并在训练深度卷积神经网络时防止过拟合。

数行天下·2025-02-17 12:42

深度剖析DeepSeek本地部署：技术、实践与优化策略

其中，大语言模型（LLMs）作为人工智能领域的关键技术，在自然语言处理、智能客服、内容创作等众多领域展现出了强大的应用潜力，引发了学术界和产业界的广泛关注。

Abossss·2025-02-17 05:11

大模型会替代哪些工作岗位?

引言本文主要探讨了大模型（LLMs）对就业市场的影响。包括了介绍那些已经受到大模型影响的行业，对大模型将要产生的影响，以及如何更好的监管大模型应用进行了讨论。

中年猿人·2025-02-15 12:30

【deepseek】论文笔记--DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-R1论文解析1.论文基本信息标题：DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning作者：DeepSeek-AI团队（联系邮箱：research@deepseek.com）发表时间与出处：2024年，AIME2024（人工智能与数学教育国际会议）关键词：ReinforcementLe

大表哥汽车人·2025-02-15 02:40

大语言模型原理基础与前沿通过稀疏MoE扩展视觉语言模型

大语言模型（LargeLanguageModels,LLMs）如GPT-3、BERT等，已经在自然语言处理（NLP）任务中取得了显著的成果。

AI天才研究院·2025-02-14 12:52

【AI论文】使用大型推理模型进行竞技编程

摘要：我们的研究表明，将强化学习应用于大型语言模型（LLMs）能显著提升复杂编码和推理任务的性能。

东临碣石82·2025-02-13 23:06

多模态大模型（LMMs）与大语言模型（LLMs）的比较

前言现在的大模型分为两大类：大语言模型（LargeLanguageModels，简称LLMs）和多模态大模型（LargeMultimodalModels，简称LMMs）。

大F的智能小课·2025-02-13 23:02

如何训练LLMs进行“思考”（如o1和DeepSeek-R1）

如何训练LLMs进行“思考”（如o1和DeepSeek-R1）阅读时长：19分钟发布时间：2025-02-13近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容LLM

·2025-02-13 16:07

使用 Llama.cpp 和 llama-cpp-python 快速部署本地 LLM 模型

在这篇技术文章中，我们将探讨如何使用llama-cpp-python（llama.cpp的Python绑定）在本地运行大语言模型（LLMs）。

hgSdaegva·2025-02-12 20:16

llama3简介与国内最快体验方式

Meta公司研发并推出了MetaLlama3系列大型语言模型（LLMs），该系列包括8B和70B参数量的预训练及指令调优生成文本模型。

weixin_40941102·2025-02-12 15:08

Java程序员Python一小时速成

背景由于最近要开发一些AILLM（LargeLanguageModel大语言模型）应用程序，然后又想使用LangChain（LangChain是一个用于构建和操作大语言模型（LLMs）的框架，旨在帮助开发者更方便地集成和使用各种

BossFriday·2025-02-12 15:04

大语言模型多代理协作（MACNET）

研究背景与动机：大语言模型（LLMs）因神经缩放定律展现出强大能力，

ZhangJiQun&MXP·2025-02-12 00:51

【NLP算法面经】NLP算法面经 -- 腾讯 VS 美团（附面题）

博客主页：[青松]目录【NLP百面百过】大模型算法高频面题（全面整理ʘ‿ʘ）一、大模型（LLMs）基础面大模型（LLMs）架构篇注意力机制（Attention）篇Transformer理论篇二、大模型微调面有监督微调

青松ᵃⁱ·2025-02-11 13:37

《大语言模型：原理与工程实践》书籍推荐及详细说明

随着人工智能技术的发展，尤其是深度学习技术的进步，大规模语言模型（LargeLanguageModels,LLMs）已成为自然语言处理领域的研究热点。

大模型入门教程·2025-02-11 01:57

代码星辰：探索 benchmark 构建的奥秘之旅

而在这片“代码星海”中，如何评估大语言模型（LLMs）在编程任务上的表现，就像天文学家借助望远镜探索宇宙奥秘一般关键。近日，一篇题为《HowShouldIBuildABenchmark?

步子哥·2025-02-10 07:56

使用 llama-cpp-python 在 LangChain 中运行 LLM 模型

使用llama-cpp-python在LangChain中运行LLM模型引言在人工智能和自然语言处理领域，大型语言模型（LLMs）的应用越来越广泛。

qq_37836323·2025-02-10 01:37

推荐频道

LLMs