(LLM) 第8页

Python中LLM的稀疏Transformer架构：Longformer与BigBird

文章目录1.Transformer架构的挑战2.稀疏Transformer架构的提出2.1Longformer2.1.1局部注意力2.1.2全局注意力2.1.3实现2.2BigBird2.2.1随机注意力2.2.2局部注意力2.2.3全局注意力2.2.4实现3.稀疏Transformer架构的优势4.稀疏Transformer架构的挑战5.未来发展方向5.1更高效的稀疏注意力机制5.2自适应稀疏注

二进制独立开发·2025-02-17 22:36

AIMv2：多模态自回归预训练的视觉新突破

AIMv2：多模态自回归预训练的视觉新突破阅读时长：19分钟发布时间：2025-02-17近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容LLM架构专栏知乎LLM

·2025-02-17 20:28

边缘AI架构提升LLM应用的响应速度

边缘AI架构提升LLM应用的响应速度关键词边缘计算、边缘AI、LLM、响应速度、模型压缩、分布式计算摘要本文探讨了如何通过边缘AI架构提升大型语言模型（LLM）应用的响应速度。

AI天才研究院·2025-02-17 15:08

如何在不依赖函数调用功能的情况下结合工具与大型语言模型

当大型语言模型（LLM）原生不支持函数调用功能时，如何实现智能工具调度？本文通过自然语言解析+结构化输出控制的方法来实现。

Jason9510·2025-02-17 15:01

笔记-《A Survey of Large Language Models》- 尾声

尾声:尾声:本综述是由我们研究团队在一次讨论会上计划的,我们旨在总结LLM的最新进展,为我们的团队成员提供一份高度可读性的报告。

L_serein·2025-02-17 13:46

使用多模态大语言模型进行深度学习的图像、文本和语音数据增强

然而，现有的综述文章主要集中于机器学习和深度学习技术或有限的模态（如文本或图像），在涵盖LLM方法的最新进展和多模态应用方面仍存在空白。

数行天下·2025-02-17 12:42

LLM 大模型学习必知必会系列(一)：大模型基础知识篇

LLM大模型学习必知必会系列(一)：大模型基础知识篇魔搭ModelScope开源的LLM模型魔搭ModelScope欢迎各个开源的LLM模型在社区上做开源分享。

汀、人工智能·2025-02-17 12:40

《深入浅出LLM基础篇》（三）：大模型结构分类

GoAI·2025-02-17 12:39

本地部署 DeepSeek：环境准备 + 详细步骤 + 高级部署方案 + 可视化工具集成 + 故障排除手册 + 性能优化建议

前言随着人工智能技术的迅猛发展，大语言模型（LLM）在多个行业中的应用日益广泛，从自然语言处理、内容生成到智能客服、医疗诊断等领域，AI正在深刻改变传统的工作方式和业务流程。

Katie。·2025-02-17 12:08

基于DeepSeek-R1的高效推理优化实战：从API封装到动态批处理

引言在LLM（大语言模型）应用中，推理延迟和计算资源消耗是核心痛点。

竹木有心·2025-02-17 11:29

知识图谱大模型系列之 11什么是 Neo4j LLM 知识图谱构建器？

简介LLM知识图谱构建器是Neo4j的GraphRAG生态系统工具之一，可让您将非结构化数据转换为动态知识图谱。它与检索增强生成(RAG)聊天机器人集成，可实现自然语言查询和对数据的可解释洞察。

知识大胖·2025-02-17 07:53

直肠癌远处转移预测模型临床影响力研究Protocol

直肠癌远处转移预测模型临床影响力研究Protocol举例说明AI工具，包括LLM模型和临床预测模型，的临床影响力研究的流程，这是AI工具进入临床实践之前必要的评估流程，如果AI工具与现有的临床工具相比，

医学AppMatrix·2025-02-17 06:47

DeepSeek R1 与 OpenAI O1：机器学习模型的巅峰对决

点赞收藏❤一、引言在机器学习的广袤天地中，大型语言模型（LLM）无疑是最为璀璨的明珠。它们凭借卓越的语言理解与生成能力，正以前所未有的方式重塑着我们与信息交互的模式。

学无止尽5·2025-02-17 04:59

基于 LLM 的智能运维 Agent 系统设计与实现

摘要本文详细介绍了一个基于大语言模型(LLM)的智能运维Agent系统的设计与实现。该系统采用多Agent协同的架构，通过事件驱动的方式实现了自动化运维流程。

LLM教程·2025-02-16 22:51

事件驱动架构促进LLM应用的解耦与扩展

事件驱动架构概述1.1.1事件驱动架构的定义事件驱动架构（Event-DrivenArchitecture，EDA）是一种软件架构模式，它基于事件来驱动应用程序的运行。在这种架构中，事件被视为数据传输的基本单位，它们可以由系统内部或外部的源生成，并触发相应的处理逻辑。事件可以是一个用户操作、系统状态变更、硬件设备信号或其他任何可以由系统感知和响应的信息。事件驱动架构的核心思想是将系统的行为与事件分

AI天才研究院·2025-02-16 22:20

python后端调用Deep Seek API

python后端调用DeepSeekAPI需要依次下载●Ollama●DeepseekR1LLM模型●嵌入模型nomic-embed-text/bge-m3●AnythingLLM参考教程：DeepseekR1

YY_oot·2025-02-16 22:20

【AI论文】随机鹦鹉在大型语言模型（LLM）之肩：物理概念理解的总结性评估

摘要：我们以系统的方式探讨了一个被广泛提及的问题：大型语言模型（LLM）真的理解它们所说的话吗？这与人们更为熟悉的术语“随机鹦鹉”息息相关。

东临碣石82·2025-02-16 21:16

理论一、大模型—概念

大模型全称是大型语言模型（LLM，LargeLanguageModel），这个“大”主要指模型结构容量大，结构中的参数多，用于预训练大模型的数据量大。一个大模型可以

伯牙碎琴·2025-02-16 20:31

大语言模型常用微调与基于SFT微调DeepSeek R1指南

概述大型语言模型（LLM，LargeLanguageModel）的微调（Fine-tuning）是指在一个预训练模型的基础上，使用特定领域或任务的数据对模型进行进一步训练，以使其在该领域或任务上表现更好

知来者逆·2025-02-16 16:08

InfiniteHiP - 在单个GPU上扩展 LLM 上下文至300万tokens

InfiniteHiP:ExtendingLanguageModelContextUpto3MillionTokensonaSingleGPUPaper:https://huggingface.co/papers/2502.08910Sourcecode:https://github.com/DeepAuto-AI/hip-attention/SGLangIntegrationavailablen

伊织code·2025-02-16 14:18

AIGC 实战：如何使用 Docker 在 Ollama 上离线运行大模型（LLM）

Ollama简介Ollama是一个开源平台，用于管理和运行各种大型语言模型(LLM)，例如Llama2、Mistral和Tinyllama。它提供命令行界面(CLI)用于安装、模型管理和交互。

surfirst·2025-02-16 04:04

清华大学KVCache.AI团队联合趋境科技联合的KTransformers开源项目为什么那么厉害

KTransformers是一个由清华大学KVAV.AI团队开发的开源项目，旨在优化大语言模型（LLM）的推理性能，特别是在有限显存资源下运行大型模型。

魔王阿卡纳兹·2025-02-16 03:52

LangChain开发【NL2SQL】应用（few-shot优化）

这篇文章来讲一下优化什么是few-shot使用这些少量的、调整后的样本对预训练模型进行微调其实就是给LLM少量示例关于few-shot的研究：https://medium.com/ubiai-nlp/step

向羿燃·2025-02-15 22:48

零代码！只需3步用DeepSeek+Ollama+AnythingLLM打造免费AI本地专属知识库（含原理）

本文将拆解本地知识库的三大核心技术（嵌入模型/向量数据库/LLM智能问答），将详细介绍如何用DeepSeek+Ollama+AnythingLLM组合，无需任何编程基础，只需3步即可免费零代码搭建全流程私有化智能知识库

少喝冰美式·2025-02-15 15:22

【开发日志】数字人+LLM：从概念到实现的全程记录！

数字人是各种技术的集合，所以文章尽可能完整的介绍，项目中涉及的大小模型均可在本地部署并在我本人机器上运行。系统环境：CPU:i91490016GBGPU:GTX40608GBSYS:Windows11WSL:Ubuntu22.04本文章使用到的技术内容:数字人框架:LiveTalking大模型:Llama3.1TTS:GPT-SoVits语音转视频:Wav2Lip前端展示：WebRTC项目整体架构

AI大模型-王哥·2025-02-15 13:11

本地部署的DeepSeek-R1-32B与DeepSeek-R1-7B模型效果对比

本地部署的DeepSeek-R1-32B与DeepSeek-R1-7B模型效果对比在当今人工智能快速发展的时代，大语言模型（LargeLanguageModel,LLM）的应用场景日益广泛。

MaxCode-1·2025-02-15 12:35

23. AI-大语言模型

文章目录前言一、LLM1.简介2.工作原理和结构3.应用场景4.最新研究进展5.比较二、Transformer架构1.简介2.基本原理和结构3.应用场景4.最新进展三、开源1.开源概念2.开源模式3.模型权重四

真上帝的左手·2025-02-15 12:34

RWKV Runner：让RNN-LLM模型触手可及

在这个信息爆炸的时代，人工智能（AI）已经成为我们生活中不可或缺的一部分，尤其是大语言模型（LLM）在自然语言处理中的广泛应用。

步子哥·2025-02-15 11:57

使用CerebriumAI进行大规模语言模型的推理

传统的CPU在处理大规模语言模型（LLM）时效率较低，GPU成为了首选。然而，自行搭建GPU环境成本高昂且维护复杂。

qahaj·2025-02-15 07:54

AI大模型DeepSeek本地部署及使用

二：认识Ollama1.什么是OllamaOllama是一个开源的LLM（大型语言模型）服务工具&#

zy_xingdian·2025-02-15 02:41

焦损函数（Focal Loss）与RetinaNet目标检测模型详解

焦损函数（FocalLoss）与RetinaNet目标检测模型详解阅读时长：19分钟发布时间：2025-02-14近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容LLM

·2025-02-14 22:31

LLM大模型中文开源数据集集锦（三）

文章目录1ChatGLM-Med:基于中文医学知识的ChatGLM模型微调1.1数据集1.2ChatGLM+P-tuningV2微调1.3Llama+Alpaca的Lora微调版本2LawGPT_zh：中文法律大模型（獬豸）2.1数据集2.1.1利用ChatGPT清洗CrimeKgAssitant数据集得到52k单轮问答：2.1.2带有法律依据的情景问答92k:2.1.3法律知识问答2.2模型3C

悟乙己·2025-02-14 13:01

大语言模型(LLM)快速理解

自2022年，ChatGPT发布之后，大语言模型（LargeLanguageModel），简称LLM掀起了一波狂潮。作为学习理解LLM的开始，先来整体理解一下大语言模型。

大模型猫叔·2025-02-14 13:59

LLM大语言模型书籍教程推荐：《大模型时代》+《开源大模型食用指南》！附文档

哈喽大家好！很久都没有更新大模型这块的书了，今天给大家说一下这本：《大模型时代》，本书对大模型时代的技术、应用和产业变化进行了深入的分析和阐述。《本书》深入探讨了大型模型时代的技术演进、应用场景和产业变革。生动地阐释了ChatGPT背后的工作原理，深入解析了这一推动技术和产业变革的关键力量书中对国内外大型模型产业的布局和发展趋势进行了剖析，并对潜在的风险和泡沫进行了预警。作者简介龙志勇：曾任阿里巴

Langchain·2025-02-14 09:32

探索DeepSeek：开源大模型领域的中国力量

在人工智能技术迅猛发展的今天，大语言模型（LLM）已成为全球科技竞争的焦点。来自中国的深度求索（DeepSeek）团队凭借其开源模型系列，正在为这一领域注入新的活力。

机器学习司猫白·2025-02-14 09:29

云原生AI Agent应用安全防护方案最佳实践（上）

当下，AIAgent代理是一种全新的构建动态和复杂业务场景工作流的方式，利用大语言模型（LLM）作为推理引擎。

佛州小李哥·2025-02-14 08:56

Ollama与Vllm使用对比与优劣

Ollama和vLLM是两个用于优化大型语言模型（LLM）推理的框架，它们在性能、资源利用率、部署复杂性等方面各有优劣。

魔王阿卡纳兹·2025-02-14 08:55

使用LangChain与OpenAI API进行向量嵌入和搜索的实战教程

技术背景介绍LangChain是一个用于构建大型语言模型(LLM)应用的强大工具集，能够帮助开发者快速构建智能应用。结合Ope

bBADAS·2025-02-14 06:06

ViT：2 理解CLIP

若在某个环节出现卡点，可以回到大模型必备腔调或者LLM背后的基础模型新阅读。而最新科技（Mamba,xLSTM,KAN）则提供了大模型领域最新技术跟踪。若对于具身智能感兴趣的请移步

庞德公·2025-02-14 05:33

ALBERT：轻量级的BERT，用于语言表征的自监督学习

ALBERT：轻量级的BERT，用于语言表征的自监督学习阅读时长：19分钟发布时间：2025-02-13近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容LLM架构专栏知乎

·2025-02-14 05:05

DeepSeek与Web3：科技融合的新纪元

作为新一代LLM（大型语言模型），DeepSeek不仅在推理质量和成本上展现出优势，还重新定义了去中心化智能代理（AIAgent）的发展方向。

TechubNews·2025-02-14 04:25

一杯咖啡的时间学习大模型（LLM）：LLaMA解读之旋转编码RoPE（含代码实现）

文章目录一、LLaMA的核心改进全景二、旋转位置编码（RoPE）2.1改进动机2.2数学原理2.3源码实现一、LLaMA的核心改进全景Meta开源的LLaMA模型凭借其卓越的性能表现成为大模型发展的重要里程碑。相较于标准Transformer架构，LLaMA主要在以下几个方面进行了关键改进：位置编码升级：采用旋转位置编码（RotaryPositionEmbedding,RoPE）归一化革新：对每个

Bug_makerACE·2025-02-14 02:52

Aider: 人工智能辅助编程的革命性工具

Aider是一个强大的AI辅助编程工具,它能让开发者在终端中与大型语言模型(LLM)进行结对编程,极大地提升编码效率和质量。让我们深入了解这个令人兴奋的项目,看看它如何改变着软件开发的未来。

2401_87189860·2025-02-14 02:20

RAG中的双编码器与跨编码器模型

RAG中的双编码器与跨编码器模型阅读时长：19分钟发布时间：2025-02-13近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容LLM架构专栏知乎LLM专栏知乎【

·2025-02-14 01:01

深度学习-108-大语言模型LLM之基于langchain的结构化输出功能提取结构化信息

文章目录1langchain的结构化输出1.1推荐的使用流程1.2模式定义1.3返回结构化输出1.3.1工具调用(方式一)1.3.2JSON模式(方式二)1.3.3结构化输出法(方式三)2提取结构化信息2.1定义数据模型2.2配置提示模板2.3设置执行链3参考附录1langchain的结构化输出对于许多应用程序，例如聊天机器人，模型需要直接用自然语言响应用户。然而，在某些情况下，我们需要模型以结构

皮皮冰燃·2025-02-14 01:44

真正通俗易懂的Langchain入门学习（一）

定义：基于语言模型（LLM）构建应用程序的框架。核心功能：连接LLM与外部数据/工具、管理对话流程、自动化复杂任务。典型应用场景：聊天机器人、文档问答、数据分析助手、自动化工作流。

caridle·2025-02-14 00:42

AI Agent智能应用从0到1定制开发Langchain+LLM全流程解决方案与落地实战

全栈大模型项目实战，人工智能视频课程-多模态大模型，微调技术训练营，大模型多场景实战，AI图像处理，AI量化投资，OPenCV视觉处理，机器学习，Pytorch深度学习，推荐系统，自动驾驶，训练私有大模型，LLM

AI知识分享官·2025-02-14 00:41

解码DeepSeek家族系列：大语言模型赛道上的黑马传奇

DeepSeek自成立之初，便专注于开发先进的大语言模型（LLM）及相关技术，致力于通过数据蒸馏技术提取更精炼、有用的数据，以提升模型性能。在发展历程中，DeepSeek

大F的智能小课·2025-02-13 22:52

DeepSeek R1：开启AI推理新时代，强在哪里？

DeepSeekR1：开启AI推理新时代阅读时长：19分钟发布时间：2025-02-13近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容LLM架构专栏知乎LLM专栏知乎

·2025-02-13 20:19

从零开始大模型开发与微调：Miniconda的下载与安装

从零开始大模型开发与微调：Miniconda的下载与安装1.背景介绍随着人工智能和机器学习技术的快速发展,大型语言模型(LargeLanguageModel,LLM)已经成为当前研究和应用的热点。

AGI大模型与大数据研究院·2025-02-13 18:30

推荐频道

(LLM)