LLM零碎知识第2页

AI编程系列之Claude 3.5 Sonnet：编码的未来已无限改变！ Claude 3.5 Sonnet 即将改变一切！

正如JensenHuang所说，LLM的最新特点让我们意识到了解编码可能并不像我们想象的那么重要。你知道吗，你可以在2分钟内创建一款贪吃蛇或俄罗斯方块游戏？

知识大胖·2025-03-21 12:10

AnythingLLM - 任何文档资源内容转换为任何LLM

小众AI·2025-03-21 10:56

智见未来：多大模型协同的数据分析新范式

个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言随着大语言模型（LLM）的快速发展，ChatGPT、DeepSeek、Grok等AI模型在数据分析和洞察生成方面展现出巨大潜力。

一ge科研小菜菜·2025-03-21 09:15

无矩阵乘法LLM：效率与性能双突破

标题：无矩阵乘法LLM：效率与性能双突破文章信息摘要：无矩阵乘法的LLMs通过创新技术替代传统矩阵乘法操作，显著降低了计算成本，减少了对GPU的依赖。

XianxinMao·2025-03-21 08:42

Adam-mini：深度学习内存效率新突破

在训练十亿参数级别的大语言模型（LLM）时，Adam-mini实现了49.6%的吞吐量提升，并减少了33%的

XianxinMao·2025-03-21 08:42

使用提示词进行信息抽取的实用方法

在大规模语言模型（LLM）中进行信息抽取时，我们不一定需要工具调用功能。通过精心设计的提示词（prompt）可以指导模型输出特定格式的信息，然后对其进行解析以生成结构化数据。

scaFHIO·2025-03-21 08:38

10篇R1相关的研究全面汇总，万字思考！

原创长琴DatawhaleDatawhale干货作者：长琴，Datawhale成员本文通过10篇R1相关的研究，介绍R1后LLM的新范式。其核心就是如何进一步增强LLM的能力。

·2025-03-21 07:28

【无标题】

在大语言模型（LLM）进行自回归（autoregressive）文本生成时，每次生成新token，都需要基于过去的上下文重新计算self-attention机制中的Key（K）和值（V）。

gs80140·2025-03-21 06:19

使用LLM自动化生成微电网Simulink模型

使用LLM自动化生成微电网Simulink模型！⚡在构建微电网仿真模型时，我们通常需要手动拖拽模块、设置参数，耗费大量时间。

MC数据局·2025-03-21 06:48

LLM(7)：文本分词 token 化

下面讨论如何将输入文本分割成独立的token，这是为LLM创建嵌入所需的预处理步骤。这些tokens要么是单独的词语，要么是特殊字符，包括标点符号，如图2.4所示。

CS创新实验室·2025-03-21 05:17

在LangChain中传递运行时值给工具

在大多数情况下，这些参数不应该由LLM（大语言模型）控制，因为这样可能存在安全风险。因此，我们需要一种机制，让LLM只控制那些它需要控制的参数，而其他参数则由应用逻辑来固定。

bavDHAUO·2025-03-21 03:31

Qwen2-Audio：通义千问音频大模型技术解读

引言：从llm到mlm（audio）大型语言模型（LLM）的发展日新月异，它们在文本理解、生成、推理等方面展现出惊人的能力。

kakaZhui·2025-03-21 01:41

Dify 项目开源大模型应用开发平台

Dify是一款开源的大语言模型（LLM）应用开发平台，旨在简化生成式AI应用的创建、部署和持续优化流程。

魔王阿卡纳兹·2025-03-20 23:30

基于Python的金融领域AI训练数据抓取实战（完整技术解析）

项目背景与需求分析场景描述为训练一个覆盖全球金融市场的多模态大语言模型（LLM），需实时采集以下数据：全球30+主要证券交易所（NYSE、NASDAQ、LSE、TSE等）的上市公司公告企业财报PDF文档及结构化数据社交媒体舆情数据

海拥✘·2025-03-20 23:57

向量数据库 PieCloudVector 进阶系列丨打造以 LLM 为基础的聊天机器人

本系列前两篇文章深入探讨了PieCloudVector在图片和音频数据上的应用之后，本文将聚焦于文本数据，探索PieCloudVector对于文本数据的向量化处理、存储以及检索，并最终结合LLM打造聊天机器人的全流程

·2025-03-20 14:52

实战LLM强化学习——使用GRPO（DeepSeek R1出圈算法）

通过不断优化决策策略，DRL能在大量数据中学习最佳行为，尤其是大型语言模型（LLM）在任务中展现出的巨大潜力。

大富大贵7·2025-03-20 10:10

有了大模型为何还需要Agent智能体

其核心架构如下：大脑（LLM）：负责语言理解、逻辑推理、知识问答等认知任务。感官（工具链）：通过API、传感器或数据库获取实时数据（如天气、股价）。

全栈你个大西瓜·2025-03-20 09:59

五、AIGC大模型_09手动实现ReAct_Agent

我们了解到：create_react_agent是LangGraph提供的一个预构建方法（fromlanggraph.prebuiltimportcreate_react_agent），它可以将语言模型（LLM

学不会lostfound·2025-03-20 05:59

agent实现：通过prompt方式实现agent自定义使用

openvino_tonypihttps://github.com/QwenLM/Qwen/blob/main/examples/react_prompt.md（思想类似react）通过prompt形式，基本任何llm

loong_XL·2025-03-20 05:27

DeepSeek爆火，背后模型竟藏着这些秘密！

DeepSeek，全称杭州深度求索人工智能基础技术研究有限公司，是一家专注于开发先进大语言模型（LLM）和相关技术的企业。它成

qq_23519469·2025-03-20 04:49

自定义Retriever的实现方法

技术背景介绍在许多大语言模型（LLM）应用中，检索器（Retriever）用于从外部数据源获取信息。

vaidfl·2025-03-20 03:17

如何缓存聊天模型响应以提高效率

技术背景介绍在开发基于大型语言模型（LLM）的应用程序时，API调用的成本和响应速度是需要考虑的两个重要因素。尤其是在开发过程中，重复请求相同的文本生成可能会增加额外的成本和延迟。

scaFHIO·2025-03-20 03:46

如何在一行代码中初始化各种AI模型

技术背景介绍在开发大语言模型(LLM)应用时，用户有时需要选择不同的模型提供商和具体模型。这通常需要一定的逻辑来根据用户配置初始化不同的聊天模型。

qahaj·2025-03-20 03:16

Transformers模型版本和lm_eval老版本冲突问题ImportError: cannot import name ‘initialize_tasks‘ from ‘lm_eval.task

Transformers模型版本和lm_eval老版本冲突问题1问题背景在LLM评测的时候，要用lm_eval模型，而对于像是llama3/Mistrual等比较新的模型，较低的Transformers

neverwin6·2025-03-20 02:58

Tree of Thought Prompting（思维树提示）

TreeofThoughtPrompting（思维树提示）是一种新兴的提示工程技术，旨在通过模拟人类解决问题时的多步推理过程，提升大型语言模型（LLM）在复杂任务中的表现。

大数据追光猿·2025-03-20 02:28

深度学习-130-RAG技术之基于Anything LLM搭建本地私人知识库的应用策略问题总结(一)

1.1本地知识库应用场景1.2效果对比及思考1.3本地体现在哪些方面1.3.1知识在本地1.3.2分割后的文档在本地1.3.3大模型部署运行在本地2问错问题带来的问题2.1常见的问题2.2原因分析3为什么LLM

皮皮冰燃·2025-03-20 00:43

A Survey of Large Language Models大模型综述论文章节总结

ASurveyofLLM人大译ASurveyofLargeLanguageModels这篇论文全面回顾了大型语言模型(LLM)的最新进展，重点关注其发展背景、关键发现和主流技术。

WhyteHighmore·2025-03-19 19:09

A SURVEY ON POST-TRAINING OF LARGE LANGUAGE MODELS——大型语言模型的训练后优化综述——第9部分——应用

这些问题引发了一些根本性的探讨：(1)如何系统地提高LLM的表现以满足特定领域的需求？(2)在实

王金-太想进步了·2025-03-19 19:31

复旦：LLM不同层位置编码缩放

Layer-SpecificScalingofPositionalEncodingsforSuperiorLong-ContextModeling来源：arXiv,2503.04355摘要尽管大型语言模型（LLM

大模型任我行·2025-03-19 16:12

OpenManus 代码分析

项目分析：OpenManus这是github地址OpenManus是一个基于LLM（大型语言模型）的智能代理系统，它采用了模块化的设计，支持工具调用、规划和执行等功能。

有个人神神叨叨·2025-03-19 15:38

OctoTools：一个具有复杂推理可扩展工具的智体框架

现有方法使用外部工具增强大语言模型(LLM)，但仅限于专业领域、有限的工具类型或需要额外的训练数据。本文的OctoTools，是一个无需训练、用户友好且易于扩展的

三谷秋水·2025-03-19 09:09

微软开源神器OmniParser V2.0 介绍

这一工具通过结合先进的视觉解析技术和大型语言模型（LLM），显著提升了AI智能体在复杂环境下的识别能力和操作效率。

魔王阿卡纳兹·2025-03-19 04:30

自建 DeepSeek 时代已来，联网搜索如何高效实现

作者：张添翼（澄潭）开源LLM的新纪元：DeepSeek带来的技术平权随着DeepSeek等高质量开源大模型的涌现，企业自建智能问答系统的成本已降低90%以上。

·2025-03-18 18:38

大模型转型之路：必要性与未来前景，迎接智能时代的浪潮_转行大模型

随着人工智能（AI）技术的迅猛发展，特别是大型语言模型（LLM,LargeLanguageModels）的崛起，各行各业正迎来一场前所未有的技术革命。

大模型入门学习·2025-03-18 18:08

3分钟看懂MCP协议：AI领域的“万能插头“革命

它像AI领域的"USB-C接口"，通过统一协议实现大型语言模型（LLM）与本地文件、数据库、API等资源的无缝连接，打破数据孤岛限制，让AI应用真正具备"连接万物

东锋17·2025-03-18 17:37

llama.cpp 和 LLM（大语言模型）

llama.cpp和LLM（大语言模型）的介绍，以及两者的关联与区别：1.LLM（LargeLanguageModel，大语言模型）定义：LLM是基于深度学习技术（如Transformer架构）构建的超大参数量的自然语言处理模型

这个懒人·2025-03-18 14:12

MCP（Model Context Protocol，模型上下文协议）

MCP（ModelContextProtocol，模型上下文协议）是由Anthropic提出的开放协议，旨在为大型语言模型（LLM）与外部数据源、工具和服务之间的交互提供标准化框架。

dev.null·2025-03-18 08:46

揭秘MANUS ：多代理架构如何碾压竞争对手，人类必读的深度剖析

AISWareMaaS平台及DeepSeek的架构对比：架构层级ManusDeepSeekAISWareMaaS核心模块规划代理（任务拆解）、执行代理（工具调用）、验证代理（结果审查）单一大语言模型（LLM

爱吃青菜的大力水手·2025-03-18 07:37

作为普通程序员，我们该如何学习大模型（LLM），学习路线和知识体系

前言原谅我的后知后觉，才开始从头写，我是已经上了一阶段大模型的课，也搜集了些资料，并自己做了小部分实践，回过头来，才想开始整理些文章。起初，大家都在写，都在发，我那会在焦虑。自chatgpt爆火以来，AI技术又被广泛关注，国内外各大厂商也纷纷布局，作为我们每一个普通人，也无不时刻感受着AI一波又一波的冲击。尤其是作为程序员的我，相信绝大多数程序员也有和我一样的感受，从一开始的新奇，到焦虑，到试图去

和老莫一起学AI·2025-03-18 07:04

Cloud Ace 宣布成为 Langfuse 亚太地区首个代理商，提供 LLM 全链路解决方案

通过此次合作，CloudAce将充分发挥Langfuse的先进技术能力与行业专业知识，为企业级客户提供覆盖LLM（大语言模型）应用开发与运营维护的完整解决方案。

·2025-03-18 05:40

MCP协议深度解析：从Cline插件到Cursor，跨平台AI开发的革命性突破

其核心价值在于：实现LLM与外部系统的语义级融合标准化工具发现-调用-反馈全流程推动AI开发从"代码编程"向"自然语言编程"进化2

zhz5214·2025-03-18 02:57

【DeepSeek应用】本地部署deepseek模型后，如何在vscode中调用该模型进行代码撰写，检视和优化？

若已成功在本地部署了DeepSeek模型（例如通过vscode-llm、ollama或私有API服务），在VSCode中调用本地模型进行代码撰写、检视和优化的完整流程如下：1.准备工作：确认本地模型服务状态模型服务类型

AndrewHZ·2025-03-17 22:53

【GPT入门】第24课 langfuse介绍

入门】第24课langfuse介绍1.langfuse概念与作用2.代码3.页面效果4.设计模式1.装饰器模式2.上下文管理模式1.langfuse概念与作用Langfuse是一款专为大规模语言模型（LLM

*星星之火*·2025-03-17 21:16

基于多向量检索器的多模态RAG实现：用于表格、文本和图像

这些cookbooks还提出了一些将多模态LLM与多向量检索器配对以解锁图像上的RAG的想法。

lichunericli·2025-03-17 21:44

DIFFERENTIAL TRANSFORMER

本文是LLM系列文章，针对《DIFFERENTIALTRANSFORMER》的翻译。

UnknownBody·2025-03-17 21:44

LLM-PowerHouse: 一站式大型语言模型定制训练与推理指南

LLM-PowerHouse:解锁大型语言模型的潜力在人工智能和自然语言处理领域,大型语言模型(LargeLanguageModels,LLMs)正在掀起一场革命。

Nifc666·2025-03-17 21:43

[小白学大模型]dify-终于用mac intel跑起了大模型

Dify是一个开源的LLM应用开发平台。其直观的界面结合了AI工作流、RAG管道、Agent、模型管理、可观测性功能等，让您可以快速从原型到生产。

码农丁丁·2025-03-17 20:41

MultiCodeBench:首个涵盖 12 个特定软件应用领域和 15 种编程语言的代码生成基准测试

2024-12-25,由中山大学、西安交通大学、重庆大学共同创建的MultiCodeBench，填补了特定应用领域代码生成性能评估的空白，为开发者选择适合的LLM提供了实践洞见。

·2025-03-17 20:51

颠覆智能助手的游戏规则！LangGraph MCP助你构建通用AI助手！

主要功能无缝集成：能够将LLM（大语言模型）应用与各种外部数据源和工具进行无缝连接。想象一下，构建一个智能助手，能够实时获取所需信息，助你高

大模型.·2025-03-17 17:49

PlanLLM: 首个支持开放词汇与封闭集任务的跨模态视频程序规划框架

2025年1月7号，由杨德杰、赵子敬、刘洋联合提出PlanLLM，一种基于可微调大型语言模型（LLM）的跨模态联合学习框架，用于解决视频程序规划任务。

·2025-03-17 15:11

推荐频道

LLM零碎知识

AI编程系列 之Claude 3.5 Sonnet：编码的未来已无限改变！ Claude 3.5 Sonnet 即将改变一切！