多模态LLM

写给孩子和极客的趣味数学 --“自动驾驶背后的数学” 专栏导读

专栏逻辑图谱深度学习进阶视觉感知与多传感器融合基础工具与决策流程10.激活函数解析6.视觉坐标变换体系7.视觉优化与融合8.全流程解析2.传感器数据到控制指令的函数嵌套1.10岁孩子就能读懂自动驾驶背后的数学密码3.特征提取中的线性变换与非线性激活4.多模态传感器融合建模

赛卡·2025-03-25 12:11

LangChain4j 与 LLM 代理（Agent）机制的深度结合

LangChain4j与LLM代理（Agent）机制的深度结合在大语言模型（LLM）的应用开发中，Agent（代理）是一个强大的概念，它可以使LLM不仅仅是一个简单的对话模型，而是能够动态决策、调用工具

小张学Ai·2025-03-25 09:18

MCP Client 开发教程

在本教程中，你将学习如何构建一个与MCP服务端连接的LLM驱动的聊天机器人客户端。建议你先完成服务端快速入门，该指南将引导你完成构建第一个服务端的基本步骤。

·2025-03-25 08:43

大模型推理能力的局限性

0前言LLM凭借其生成连贯文本、翻译语言甚至进行对话的能力，彻底改变人工智能领域。然而，尽管这些模型表现出色，它们在推理和理解复杂上下文方面仍然面临重大挑战。

·2025-03-25 08:13

Manus智能体持续学习系统的技术实现与效能验证 —— 基于多模态记忆架构与联邦迁移学习的创新框架研究

Manus智能体持续学习系统的技术实现与效能验证——基于多模态记忆架构与联邦迁移学习的创新框架研究摘要本文提出并验证了一种新型持续学习框架ManusCore2.0，旨在解决智能体在复杂动态环境中面临的持续学习挑战

熵减画眉·2025-03-25 01:46

万字长文总结多模态大模型后训练

万字长文总结多模态大模型后训练作者：yearn原文：https://zhuanlan.zhihu.com/p/31278114666本文介绍下我们对多模态alignment近期一系列进展的整理和总结大语言模型

强化学习曾小健·2025-03-24 21:49

大模型的应用与微调：如何调用 LLM？从 OpenAI API 到本地部署

本篇文章将详细介绍如何调用大语言模型（LLM），涵盖OpenAIAPI、DeepSeek、Manus、通义千问等模型的调用方式，并探讨如何在本地部署LLM进行推理。

晴天彩虹雨·2025-03-24 19:02

Trae使用教程，帮助您快速上手这款编程神器。

Trae是一款由字节跳动推出的AI驱动集成开发环境（IDE），旨在通过智能代码补全、多模态交互以及对整个代码库的上下文分析等功能，帮助开发者更高效地编写代码。

云上的阿七·2025-03-24 18:19

LLM大模型提示工程Prompt Engineering

在LLM中影响词汇的分布主要通过两种方式，一种是通过提示（Prompting），另外一种就是通过训练（Training）。

Langchain·2025-03-24 16:08

Java 大视界 -- 基于 Java 的大数据机器学习模型的多模态融合技术与应用（143）

亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视

青云交·2025-03-24 14:20

Transformer 架构对比：Dense、MoE 与 Hybrid-MoE 的优劣分析

1.LLM基础架构类型DenseTransformerMoE(MixtureofExperts)TransformerHybrid-MoETransformer2.Transformer按照编码方式分类单向自回归模型

m0_74825656·2025-03-24 11:01

YOLOV8多模态(可见光+红外光，基于Ultralytics官方代码实现）

YOLOV8多模态(可见光+红外光，基于Ultralytics官方代码实现）各位读者麻烦给个star或者fork，求求了。

@M_J_Y@·2025-03-24 07:20

聊聊langchain4j的HTTP Client

HTTPClientlangchain4j-http-clientlangchain4j提供了langchain4j-http-client模块，它实现了一个HttpClientSPI（服务提供者接口），其他模块通过该接口调用LLM

·2025-03-23 23:52

论文阅读笔记——MAGICDRIVE: STREET VIEW GENERATION WITH DIVERSE 3D GEOMETRY CONTROL

MagicDrive论文MagicDrive通过对3D数据和文本数据的多模态条件融合和隐式视角转换，实现了高质量、多视角一致的3D场景生成。

寻丶幽风·2025-03-23 22:02

NLP高频面试题（十）——目前常见的几种大模型架构是啥样的

1.什么是LLM（大语言模型）？LLM通常指参数量巨大、能够捕捉丰富语义信息的Transformer模型，它们通过海量的文本数据训练而成，能够实现高度逼真的文本生成、复杂的语言理

Chaos_Wang_·2025-03-23 22:30

聊聊langchain4j的HTTP Client

HTTPClientlangchain4j-http-clientlangchain4j提供了langchain4j-http-client模块，它实现了一个HttpClientSPI（服务提供者接口），其他模块通过该接口调用LLM

hello_ejb3·2025-03-23 21:54

DeepSeek 如何处理多模态数据（如文本、图像、视频）？

关注我，持续分享逻辑思维&管理思维&面试题；可提供大厂面试辅导、及定制化求职/在职/管理/架构辅导；推荐专栏《10天学会使用asp.net编程AI大模型》，目前已完成所有内容。一顿烧烤不到的费用，让人能紧跟时代的浪潮。从普通网站，到公众号、小程序，再到AI大模型网站。干货满满。学成后可接项目赚外快，绝对划算。不仅学会如何编程，还将学会如何将AI技术应用到实际问题中，为您的职业生涯增添一笔宝贵的财富

借雨醉东风·2025-03-23 17:50

When Large Language Models Meet Speech: A Survey on Integration Approaches

集成方法基于文本的集成：通过级联集成、LLM重打分和LLM生成式错误纠正等方式，利用文本作为LLMs的输入和输出，处理语音相关任务，但存在信息损失和准确性与多样性平衡的问题。基于潜在表示的集成：

UnknownBody·2025-03-23 17:46

向量数据库技术系列三-Chroma介绍

一、前言Chroma是一个开源的AI原生向量数据库，旨在帮助开发者更加便捷地构建大模型应用，将知识、事实和技能等文档整合进大型语言模型（LLM）中。

恰恰虎·2025-03-23 16:43

LLM之向量数据库Chroma milvus FAISS

以下是Chroma、Milvus和FAISS的核心区别，从功能定位、架构设计、性能及应用场景等维度进行对比：一、功能定位Chroma轻量级向量数据库：专注于快速构建中小型语义搜索原型，提供简单易用的API，适合快速集成到现有应用中。特点：支持近似最近邻搜索（ANN）、实时性能优化，但对大规模数据处理能力有限。Milvus分布式向量数据库：专为超大规模向量数据设计，支持云原生架构和高可用性，适合企业

maxmaxma·2025-03-23 16:38

大模型Agent 和 RAG 的关系

在NLP领域，Agent通常指一个基于大语言模型（LLM）的

大数据追光猿·2025-03-23 16:38

Github上神仙级大模型项目：大语言模型(LLM)入门学习路线图，三个月让你从大模型基础到精通！

Github项目上有一个大语言模型学习路线笔记，它全面涵盖了大语言模型的所需的基础知识学习，LLM前沿算法和架构，以及如何将大语言模型进行工程化实践。

AI大模型-大飞·2025-03-23 16:35

多模态大模型常见问题

1.视觉编码器和LLM连接时，使用BLIP2中Q-Former那种复杂的Adaptor好还是LLaVA中简单的MLP好，说说各自的优缺点？

cv2016_DL·2025-03-23 12:06

大语言模型微调和大语言模型应用的区别？

关键要点微调大型语言模型（LLM）是调整预训练模型以适应特定任务或领域的过程，研究表明这能显著提升性能。大型语言模型应用是指将LLM用于实际问题解决或任务执行，如聊天机器人或文本生成。

AI Echoes·2025-03-23 11:30

端到端的NLP框架（Haystack）

提供可视化界面，方便用户进行配置和调试；支持多模态数据，可处理文本、图像等多种类型的数据；具有可扩展性，可根据需求添加自定义组件。

deepdata_cn·2025-03-23 09:13

vLLM 部署大模型

1介绍vLLM是来自UCBerkeley的LMSYS在LLM推理方面的最新工作（没错就是搞出Vicuna的那个group），最大亮点是采用PagedAttention技术，结合ContinuousBatching

哦豁灬·2025-03-23 05:07

LLM：软件测试的颠覆性力量

LLM：软件测试的颠覆性力量关键词：大语言模型（LLM）、软件测试、人工智能、测试自动化、测试效率、质量保证、测试革新1.背景介绍在当今快速发展的软件行业中，测试一直是确保产品质量的关键环节。

AI天才研究院·2025-03-23 03:41

使用Dall-E生成图像：文本到图像的魔力

核心原理解析Dall-E利用大型语言模型（LLM）从用户提供的文本描述中提取详

shuoac·2025-03-23 03:11

微软 LIDA 库：基于大模型的自动化数据分析与可视化

微软LIDA库：基于大模型的自动化数据分析与可视化一、核心架构与LLM交互流程调用LLM生成数据摘要基于LLM推理分析目标LLM生成可视化代码结合图像生成模型优化原始数据Summarizer模块结构化摘要

窝窝和牛牛·2025-03-23 01:01

OpenManus 架构的详细技术实现

一、OpenManus架构的详细技术实现1.核心分层架构的深度解析底层：LLM层模型选择与适配：OpenManus允许用户替换底层LLM（如mPLUG-Owl3、Qwen、Llama等），通过统一接口调用模型

大势下的牛马·2025-03-22 22:12

系字节LLM攻坚小组成员

一个超越DeepSeekGRPO的关键RL算法出现了！用上该算法后，Qwen2.5-32B模型只经过RL训练，不引入蒸馏等其他技术，在AIME2024基准上拿下50分，优于相同setting下使用GRPO算法的DeepSeek-R1-Zero-Qwen，且DAPO使用的训练步数还减少了50%。这个算法名为DAPO，字节、清华AIR联合实验室SIALab出品，现已开源。论文通讯作者和开源项目负责人都

·2025-03-22 22:24

LLM的工具调用能力（如Function Calling）

LLM的工具调用能力（如FunctionCalling）是增强大模型实用性的核心技术，使其能够通过生成结构化指令与外部系统交互。

maxmaxma·2025-03-22 21:35

使用Python和LangChain构建检索增强生成（RAG）应用的详细指南

使用Python和LangChain构建检索增强生成（RAG）应用的详细指南引言在人工智能和自然语言处理领域，利用大语言模型（LLM）构建复杂的问答（Q&A）系统是一个重要应用。

m0_57781768·2025-03-22 21:33

学习111

项目名称项目简介主要功能技术原理GitHub地址browser-use智能浏览器工具，让AI像人类一样操作浏览器，实现网页自动化网页浏览与操作、多标签页管理、视觉识别与内容提取、操作记录与重复执行、自定义动作支持、主流LLM

麋鹿叔叔·2025-03-22 21:31

使用LangChain实现基于LLM和RAG的PDF问答系统

目录前言一.大语言模型(LLM)1.什么是LLM？2.LLM的能力与特点二、增强检索生成(RAG)三.什么是LangChain？

张同学吧·2025-03-22 20:00

基于ChatGPT、GIS与Python机器学习的地质灾害风险评估、易发性分析、信息化建库及灾后重建高级实践

大模型（LargeLanguageModel,LLM）是一种基于深度学习技术的大规模自然语言处理模型。代表性大模型：GPT-4、BERT、T5、ChatGPT等。

weixin_贾·2025-03-22 20:59

AI 赋能应急管理：ChatGPT、DeepSeek、Grok 的应用探索

个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言随着人工智能（AI）技术的快速发展，大语言模型（LLM）在应急管理领域的应用逐步扩大。

一ge科研小菜菜·2025-03-22 20:58

GitHub项目推荐--基于LLM的开源爬虫项目

以下是一些基于大语言模型（LLM，LargeLanguageModel）的开源爬虫项目，它们结合了自然语言处理（NLP）技术与爬虫的功能，能在一定程度上提升爬取的智能化和精度。

惟贤箬溪·2025-03-22 19:24

YOLO算法全面改进指南（二）

本方案整合了轻量化设计、多模态融合、动态特征优化等创新点，并给出可验证的实验方向。

niuTaylor·2025-03-22 18:13

LLM-Agent方法评估与效果分析

1.引言近年来，随着大型语言模型（LLM）的快速发展，基于强化学习（RL）对LLM进行微调以使其具备代理（Agent）能力成为研究热点。

·2025-03-22 18:50

LLM 大模型技术知识最佳学习路径图发布！

近日，经常有小伙伴私信我，大模型知识太多了，有点懵啊，我该如何学习LLM大模型？今天我们就来剖析下LLM大模型技术知识的学习路径。

AGI-杠哥·2025-03-22 15:54

MiniMind：完全从 0 训练自己的大模型

其目标是把上手LLM的门槛无限降低，直接从0开始训练一个极其轻量的语言模型，最低仅需2G显卡即可推理训练！

三花AI·2025-03-22 15:49

minimind2学习：（1）训练

https://github.com/jingyaogong/minimind/tree/master2、预训练训练6个epochspythontrain_pretrain.py--epochs6训练过程：LLM

溯源006·2025-03-22 14:47

关于AI OS那点事

一、AIOS需具备的核心功能智能体全生命周期管理智能体调度与并发：需支持多智能体任务的优先级排序、资源分配及并发执行，例如通过轮询调度或动态优先级算法优化LLM资源利用率。

大囚长·2025-03-22 13:34

【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践

解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界大语言模型（LLM）的“幻觉”问题，即模型生成与事实不符或脱离上下文的内容，是限制其广泛应用的关键挑战之一。

蒙娜丽宁·2025-03-22 13:29

Tinyflow AI 工作流编排框架 v0.0.7 发布

该框架代码库轻量，学习成本低，能轻松应对简单任务编排和复杂多模态推理

自不量力的A同学·2025-03-22 09:21

微软Data Formulator：用AI重塑数据可视化的未来

DataFormulator是一款基于大语言模型（LLM）的AI工具，旨在帮助用户通过自然语言和界

几道之旅·2025-03-22 06:51

向量检索、检索增强生成（RAG）、大语言模型及相关系统架构——典型面试问题及简要答案

向量检索非常适合多模态场景（例如“以图搜图”）或自然语言问答（同义词、上下文关联等）。2.什么是检索增强生成（RAG）？核

快撑死的鱼·2025-03-22 05:13

使用LangSmith追踪LLM令牌使用情况的指南

技术背景介绍在大语言模型（LLM）的应用中，令牌使用计数是估算模型调用成本的基础。LangSmith提供了一种有效的方式来帮助跟踪应用程序中的令牌使用。

dgay_hua·2025-03-22 05:13

一步到位！7大模型部署框架深度测评：从理论到DeepSeek R1:7B落地实战

人肉推土机·2025-03-22 05:12

推荐频道

多模态LLM

写给孩子和极客的趣味数学 --“自动驾驶背后的数学” 专栏导读

LangChain4j 与 LLM 代理（Agent）机制的深度结合

MCP Client 开发教程

大模型推理能力的局限性

Manus智能体持续学习系统的技术实现与效能验证 —— 基于多模态记忆架构与联邦迁移学习的创新框架研究

万字长文总结多模态大模型后训练

大模型的应用与微调：如何调用 LLM？从 OpenAI API 到本地部署

Trae使用教程，帮助您快速上手这款编程神器。

LLM大模型提示工程Prompt Engineering

Java 大视界 -- 基于 Java 的大数据机器学习模型的多模态融合技术与应用（143）

Transformer 架构对比：Dense、MoE 与 Hybrid-MoE 的优劣分析

YOLOV8多模态(可见光+红外光，基于Ultralytics官方代码实现）

聊聊langchain4j的HTTP Client

论文阅读笔记——MAGICDRIVE: STREET VIEW GENERATION WITH DIVERSE 3D GEOMETRY CONTROL

NLP高频面试题（十）——目前常见的几种大模型架构是啥样的

聊聊langchain4j的HTTP Client

DeepSeek 如何处理多模态数据（如文本、图像、视频）？

When Large Language Models Meet Speech: A Survey on Integration Approaches

向量数据库技术系列三-Chroma介绍

LLM之向量数据库Chroma milvus FAISS

大模型Agent 和 RAG 的关系

Github上神仙级大模型项目：大语言模型(LLM)入门学习路线图，三个月让你从大模型基础到精通！

多模态大模型常见问题

大语言模型微调和大语言模型应用的区别？

端到端的NLP框架（Haystack）

vLLM 部署大模型

LLM：软件测试的颠覆性力量

使用Dall-E生成图像：文本到图像的魔力

微软 LIDA 库：基于大模型的自动化数据分析与可视化

OpenManus 架构的详细技术实现

系字节LLM攻坚小组成员

LLM的工具调用能力（如Function Calling）

使用Python和LangChain构建检索增强生成（RAG）应用的详细指南

学习111

使用LangChain实现基于LLM和RAG的PDF问答系统

基于ChatGPT、GIS与Python机器学习的地质灾害风险评估、易发性分析、信息化建库及灾后重建高级实践

AI 赋能应急管理：ChatGPT、DeepSeek、Grok 的应用探索

GitHub项目推荐--基于LLM的开源爬虫项目

YOLO算法全面改进指南（二）

LLM-Agent方法评估与效果分析

LLM 大模型技术知识最佳学习路径图发布！

MiniMind：完全从 0 训练自己的大模型

minimind2学习：（1）训练

关于AI OS那点事

【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践

Tinyflow AI 工作流编排框架 v0.0.7 发布

微软Data Formulator：用AI重塑数据可视化的未来

向量检索、检索增强生成（RAG）、大语言模型及相关系统架构——典型面试问题及简要答案

使用LangSmith追踪LLM令牌使用情况的指南

一步到位！7大模型部署框架深度测评：从理论到DeepSeek R1:7B落地实战