夕小瑶

今日最佳NLP大模型论文解读：【Advancing Spatial Reasoning in Large Language Models: An In-Depth Evaluation ......

本文由赛博马良（http://saibomaliang.com）AI专家——AI论文解读达人推荐选题&撰写生成。如需查看本月份其他每日最佳NLP大模型论文解读，欢迎移步 http://saibomaliang.com ～

复旦新作SpeechAgents：基于多模态语言模型的多智能体系统，模拟人类沟通

引言：人类沟通的多模态模拟

人类沟通是一个复杂多样的过程，不仅涉及语言、常识、文化背景等多种因素，还需要多模态信息的参与，如语音。基于大型语言模型（LLM）的多智能体系统在模拟人类社会方面展现出了令人瞩目的性能。

我们是否可以利用基于LLM的多智能体系统来模拟人类沟通呢？

然而，当前基于LLM的多智能体系统主要依赖文本作为主要媒介。

在本文中，我们提出了SpeechAgents，一个基于多模态LLM的多智能体系统，旨在模拟人类沟通。SpeechAgents利用多模态LLM作为个体智能体的控制中心，并采用多模态信号作为智能体之间交换信息的媒介。

此外，我们提出了多智能体调整策略，以增强LLM的多智能体能力，而不损害其一般能力。为了加强和评估人类沟通模拟的有效性，我们构建了人类沟通模拟基准测试。

实验结果表明，SpeechAgents能够模拟具有一致内容、真实节奏和丰富情感的人类沟通对话，并且即使在多达25个智能体的情况下也展现出了出色的可扩展性，可应用于剧本创作和音频小说生成等任务。代码和模型将在项目地址开源。

论文标题：SpeechAgents: Human-Communication Simulation with Multi-Modal Multi-Agent Systems

论文解读链接：

https://www.saibomaliang.com/generate?session_id=c54820c9-9f89-487c-8704-75cad38eb71f

项目地址：

https://github.com/0nutation/SpeechAgents

多模态人类沟通模拟的挑战与SpeechAgents的提出

人类沟通是一个复杂多样的过程，不仅涉及语言、常识、文化背景等多个因素，还需要多模态信息的参与，如语音。基于大型语言模型（LLM）的多智能体系统在模拟人类社会方面展现出了有希望的性能。但是，当前基于LLM的多智能体系统主要依赖文本作为主要媒介。这些系统在模拟多模态人类沟通时，往往专注于模态扩展，但在不依赖额外文本参考的情况下，未能生成高质量的对话内容。

为了解决这一问题，我们提出了SpeechAgents，一个基于多模态LLM的多智能体系统，旨在模拟人类沟通。SpeechAgents利用多模态LLM作为个体智能体的控制中心，并采用多模态信号作为智能体之间信息交换的媒介。此外，我们提出了多智能体调整策略，以增强LLM的多智能体能力，同时不损害其通用能力。为了加强和评估人类沟通模拟的有效性，我们构建了人类沟通模拟基准。实验结果表明，SpeechAgents能够生成具有一致内容、真实节奏和丰富情感的人类沟通对话，并且即使在多达25个智能体的情况下也展现出了出色的可扩展性，可应用于戏剧创作和音频小说生成等任务。

1. 多模态人类沟通模拟的挑战

当前的多模态人类沟通模拟系统在模态扩展方面取得了一定的进展，但在不依赖额外文本参考的情况下，未能生成高质量的对话内容。这些系统主要依赖文本作为信息交换的媒介，缺乏感知和生成多模态信号的能力。现有的多模态智能体主要使用基于文本的LLM作为中心控制单元，通过使用模态特定的专家工具与其他模态进行交互。在这样的系统中，多模态能力并不是智能体固有的，与文本不同，这给跨模态信息整合和知识转移带来了挑战。

2. SpeechAgents的提出

为了模拟人类沟通，我们提出了SpeechAgents，一个基于多模态LLM的多智能体系统。SpeechAgents采用支持多模态输入和输出的SpeechGPT作为个体智能体的控制中心。不同的智能体通过语音信号进行交流。为了增强和评估多模态人类沟通模拟能力，我们引入了人类沟通模拟基准，并提出了多智能体调整策略，以改善LLM的多智能体能力，同时不损害其通用能力。实验结果表明，SpeechAgents能够生成具有准确内容、真实节奏和丰富情感的人类沟通对话，并展现出了出色的可扩展性，可应用于戏剧创作和音频小说生成等任务。

SpeechAgents系统架构解析

SpeechAgents系统的架构包括多模态多智能体系统和多智能体调整两个主要部分。

1. 多模态多智能体系统

多模态多智能体系统的特点包括：(1) 使用多模态LLM作为个体智能体的中心控制单元；(2) 多模态信号作为不同智能体之间通信的媒介。系统中的每个智能体都有其场景、角色和个人资料，这些信息指导智能体的行动和互动。智能体通过语音消息流与其他智能体进行交流，每个智能体的发言都作为消息传递给所有其他智能体，并存储在语音消息流银行中以供后续回合参考。

2. 多智能体调整

为了增强LLM的多智能体能力，我们引入了多智能体调整策略，类似于(Zeng et al., 2023)。多智能体调整包括两个组成部分：从人类沟通模拟基准数据集中派生的智能体轨迹指令数据集和混合调整策略。这种策略旨在增强智能体的多智能体能力，同时保持其通用能力。智能体轨迹指令数据集用于微调LLM，增强SpeechGPT的多智能体能力。同时，我们使用SpeechInstruct数据集中的模态指令集来保持模型的通用能力。训练目标是在保持通用能力的同时，增强智能体的多智能体能力。

通过这种系统架构，SpeechAgents能够在不同的人类沟通场景中生成具有一致性和质量的对话，同时保持对话内容的自然流畅和情感丰富，证明了其在模拟人类沟通方面的潜力。

人类沟通模拟基准（Human-Communication Simulation Benchmark）的构建

在构建人类沟通模拟基准（Human-Communication Simulation Benchmark）的过程中，我们采取了分层的方法，以确保生成的数据能够全面反映人类沟通的复杂性。这一过程涉及到场景生成、角色分配和剧本编写等多个步骤。

1. 场景生成（Scene Generation）

首先，我们利用ChatGPT生成各种沟通场景，每个场景都拥有独特的故事背景。我们提供了详细的时间和地点描述，以及整体氛围，确保模型能够在不同背景下产生富有想象力和多样性的故事。例如，我们生成了一个夏季社区烧烤的场景，其中社区成员组织了一个夏日烧烤活动，旨在增进人们之间的团结和友谊。

2. 角色分配（Role Assignment）

对于每个特定场景，我们指导ChatGPT创建一个多样化的角色池，包括30个命名角色，每个角色都有简短的描述，涵盖他们的年龄、背景、个性和当前状态。这些角色的描述有助于为对话场景增添变化和深度。例如，角色池中可能包括一个45岁的烧烤大师、一个30岁的活动策划者、一个40岁的当地商人和一个33岁的积极父母。

3. 剧本编写（Scripts Crafting）

在确定了沟通场景和背景后，我们通过从角色池中随机抽取特定数量的角色来生成对话剧本。我们设置了角色数量为2、4、6、8和10。然后，我们指导ChatGPT生成符合这些条件的沟通剧本。这些剧本形式为多方、多轮对话，确保对话内容与场景描述相符，每个角色的发言都与其个人资料相符。为了增强模拟的真实性，每个角色都需要输出文本内容和相应的发言风格。

4. 模态扩展（Modality Extension）

我们的目标是构建多模态人类沟通剧本，将沟通场景从文本扩展到语音。由于SpeechGPT使用离散单元作为语音表示，我们采用了预训练的文本到单元生成器，将文本剧本转换为单元形式的口语剧本。

实验设置与评估方法

为了评估SpeechAgents在模拟人类沟通方面的有效性，我们进行了一系列实验。

1. 多模态多智能体系统

我们建立了一个多模态多智能体系统，其中每个智能体都采用SpeechGPT作为控制中心，并通过语音信号与其他智能体进行交流。智能体之间的交流通过一个维护语音消息流的银行来进行，每个智能体的发言都作为消息传递给其他所有智能体。

2. 多智能体调优（Multi-Agent Tuning）

我们引入了多智能体调优来增强LLM的多智能体能力，同时保持其一般能力。这包括从人类沟通模拟基准数据集中派生的智能体轨迹指令数据集，以及混合调优策略。我们将智能体轨迹指令数据集用于微调语言模型（LLM），以增强SpeechGPT的多智能体能力。

3. 评估方法

我们使用人类沟通模拟基准的测试集和ChatGPT（GPT-4）作为评估器，主要从场景和角色的一致性以及剧本内容的质量和逻辑连贯性两个角度评估生成的剧本。我们还评估了SpeechAgents在语音到语音对话任务中的表现，以评估其在更一般的对话任务中的能力。

实验结果表明，SpeechAgents能够生成具有准确内容、真实节奏和丰富情感的类人沟通对话，并且即使在多达25个智能体的情况下也展现出了出色的可扩展性，可应用于剧本创作和有声小说生成等任务。

实验结果与分析

在本研究中，我们提出了SpeechAgents，这是一个基于多模态大型语言模型（LLM）的多智能体系统，旨在模拟人类交流。我们采用了SpeechGPT作为每个智能体的控制中心，并通过语音信号作为智能体之间信息交换的媒介。为了增强和评估多模态人类交流模拟的有效性，我们引入了人类交流模拟基准（Human-Communication Simulation Benchmark）。实验结果表明，SpeechAgents能够生成具有准确内容、真实节奏和丰富情感的类人交流对话，并且即使在涉及多达25个智能体的情况下，也展示出了卓越的可扩展性，可应用于剧本创作和音频小说生成等任务。

1. 实验设置

我们使用了从人类交流模拟基准数据集中解析出的多智能体轨迹指导数据集，并结合SpeechInstruct数据集，通过混合调优（Mix-Tuning）策略来增强SpeechGPT的多智能体能力，同时保持其一般能力。我们在24个A100 GPU上训练了SpeechGPT，使用了1152的批量大小和1024的最大序列长度，训练步数为77000步。对于多智能体调优，我们以288的批量大小和4096的最大序列长度训练了6000步。

2. 基线系统

我们与几个基线系统进行了比较，包括Speech-ChatGPT、LLaMA2-MAT和Speech-LLaMA2-MAT。这些系统分别基于不同的模型和技术构建，以提供对比。

3. 评估

我们从两个角度评估了SpeechAgents的性能：一是模拟人类交流的能力，二是一般能力。我们使用了人类交流模拟基准的测试集，并利用ChatGPT（GPT-4）作为评估器。一致性得分（Consistency Score）评估脚本是否与提供的场景和角色描述以及上下文元素（如时间和氛围）一致。质量得分（Quality Score）关注语言质量、情感表达、逻辑一致性和对话内容的整体合理性。此外，我们还评估了SpeechAgents在语音对语音指令遵循任务中的性能，以评估其一般能力。

混合调优（Mix-Tuning）与“思考前言”（Think Before You Speak）的效果

1. 混合调优的效果

混合调优是指在不牺牲模型的一般能力的前提下，通过在人类交流模拟基准数据集和SpeechInstruct数据集上进行微调，来增强SpeechGPT的多智能体能力。我们发现，移除混合调优会显著降低在语音对语音对话中的性能，但对人类交流模拟任务的性能没有影响。这表明混合调优在保持一般能力方面非常有效。

2. “思考前言”的效果

“思考前言”是指在智能体生成语音输出之前，首先进行内部思考的过程。这种方法类似于链式思考（Chain-of-Thought），它通过逐步推进显著增强了LLM的推理能力。我们的实验表明，移除“思考前言”会使得人类交流模拟任务变得无法实现，这突显了这一设计元素的重要性。

3. 智能体数量的可扩展性

我们的实验还展示了SpeechAgents框架在智能体数量增加时的强大可扩展性。即使在涉及多达25个智能体的对话场景中，也能够生成具有相对较高一致性和质量的脚本。这表明SpeechAgents能够泛化到训练集中遇到的最大智能体数量之外的场景。

4. 案例研究

我们通过一个案例研究来进一步说明SpeechAgents的效果。在一个夏季社区烧烤活动的场景中，不同角色之间的对话能够展示出角色的个性和情感，同时内容与场景背景保持一致。例如，烧烤大师迈克尔·特纳（Michael Turner）以友好的态度负责烧烤站，而活动策划者杰西卡·罗德里格斯（Jessica Rodriguez）则以充满活力的方式组织活动。这些对话不仅展示了SpeechAgents在生成具有情感丰富度和节奏真实性的对话方面的能力，而且还证明了其在模拟复杂人类交流场景中的有效性。

代理数量可扩展性的探讨

在构建模拟人类交流的多模态多代理系统中，代理数量的可扩展性是一个关键因素。理想的系统应能够在不牺牲对话质量的前提下，支持大量代理的参与。在SpeechAgents系统中，我们通过实验探讨了代理数量对系统性能的影响。

1. 实验设计与评估指标

我们设计了一系列实验，以评估系统在不同代理数量下的表现。实验中，代理数量从2个逐渐增加到25个，以模拟不同规模的人类交流场景。我们采用一致性得分（Consistency Score）和质量得分（Quality Score）作为评估指标。一致性得分评估生成的脚本是否与提供的场景和角色描述相符，而质量得分则关注对话内容的语言质量、情感表达、逻辑一致性以及整体合理性。

2. 实验结果与分析

根据实验结果（如图4所示），随着代理数量的增加，一致性得分和质量得分并没有显著下降，几乎保持不变。即使在涉及25个代理的对话场景中，系统仍能生成具有相对较高一致性和质量的脚本。这一结果表明，SpeechAgents框架具有强大的可扩展性，能够泛化到训练集中未遇到的更多代理数量的场景。

结论与未来展望

本研究提出了SpeechAgents，一个基于多模态大型语言模型（LLM）的多代理系统，旨在模拟人类交流。SpeechAgents利用多模态LLM作为代理的中心控制单元，并采用多模态信号作为代理间信息交换的媒介。实验结果表明，SpeechAgents能够模拟具有准确内容、真实节奏和丰富情感的人类交流对话，并且即使在多达25个代理的情况下，也展现出了卓越的可扩展性。这使得SpeechAgents可以应用于剧本创作、有声小说生成等任务。

在未来的研究中，我们将探索更多的应用场景，并进一步优化系统的性能。我们也计划开源代码和模型，以便社区能够对SpeechAgents进行测试和改进。此外，我们将继续研究如何提高系统在更大规模代理参与时的性能，以及如何进一步提升对话内容的质量和情感表达的丰富性。随着人工智能技术的不断进步，我们相信SpeechAgents及其后续版本将在模拟人类交流方面发挥更大的作用。

注：本文由赛博马良（http://saibomaliang.com）AI专家——AI论文解读达人推荐选题&撰写生成。

如需查看本月份其他每日最佳NLP大模型论文解读，欢迎移步 http://saibomaliang.com ～

高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？ ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 机器学习算法深度学习人工智能
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？在大语言模型（LLM）中，最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息，这是由LLM的核心架构（以Transformer为基础）决定的，具体可以从以下角度理解：1.核心机制：自注意力（Self-Attention）的作用现代LLM（如GPT系列、Qwen等）均基于Transformer架构，其核心是自注意力机制。在
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
AI MCP教程之什么是 MCP？利用本地 LLM 、MCP、DeepSeek 集成构建您自己的 AI 驱动工具知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 mcp deepseek
介绍利用模型上下文协议(MCP)的工具吸引了我们的注意力—将AI变成触手可及的生产力引擎。它们巧妙、高效，让人难以抗拒。但如果您可以将这样的功能添加到自己的工具中，会怎么样呢？在本指南中，我将引导您构建一个具有本地运行的大型语言模型(LLM)和MCP集成的AI工具-让您以类似的方式自动执行利用MCP的工具您喜欢的任务。推荐文章《AnythingLLM教程系列之12AnythingLLM上的Olla
24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介最初的DeepSeekR1是一个拥有6710亿个参数的语言模型，UnslothAI团队对其进行了动态量化，将模型大小减少了80%（从720GB减少到131GB），同时保持了强大的性能。当添加模型卸载功能时，该模型可以在24GBVRAM下以低令牌/秒的推理速度运行。推荐文章《本地构建AI智能分析助手之01快速安装，使用PandasAI和Ollama进行数据分析，用自然语言向你公司的数据提问为决策
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
GPT实操——利用GPT创建一个应用狗木马深度学习 gpt-3 gpt
功能描述信息查询：用户可以询问各种问题，如天气、新闻、股票等，机器人会返回相关信息。任务执行：用户可以要求机器人执行一些简单的任务，如设置提醒、发送邮件等。情感支持：机器人可以与用户进行情感交流，提供安慰和支持。个性化设置：用户可以自定义机器人的回复风格和偏好。技术栈前端：React.js后端：Node.js+Express数据库：MongoDB自然语言处理：OpenAIGPT-3API其他工具：
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
【实战AI】macbook M1 本地ollama运行deepseek 东方鲤鱼 chat AI macos ai llama AIGC chatgpt
由于deepseek官网或者Aapi调用会有网络延迟或不响应的情况，故在本地搭建部署；前提条件1.由于需要拉取开源镜像，受网络限制，部分资源在前提中会下载的更快！请自行；2.设备macbookM132G下载ollamaOllama是一款跨平台推理框架客户端（MacOS、Windows、Linux），专为无缝部署大型语言模型（LLM）（如Llama2、Mistral、Llava等）而设计。通过一键式
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
Python爬虫实战：使用最新技术爬取新华网新闻数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 音视频
一、前言在当今信息爆炸的时代，网络爬虫技术已经成为获取互联网数据的重要手段。作为国内权威新闻媒体，新华网每天发布大量高质量的新闻内容，这些数据对于舆情分析、市场研究、自然语言处理等领域具有重要价值。本文将详细介绍如何使用Python最新技术构建一个高效、稳定的新华网新闻爬虫系统。二、爬虫技术选型2.1技术栈选择在构建新华网爬虫时，我们选择了以下技术栈：请求库：httpx（支持HTTP/2，异步请求
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
LLaMA-Omni 深度解析：打开通往无缝人机语音交互的大门 kakaZhui 前沿多模态大模型：论文与实战 llama 交互 LLM TTS 语音识别语音合成人工智能
一、引言：语音交互大模型今天我们来看语音交互大模型LLaMA-Omni，它由中国科学院计算技术研究所的研究者们推出，是一个基于强大的Llama-3.1-8B-Instruct构建的语音语言模型。LLaMA-Omni不仅实现了低至226ms的惊人交互延迟，还能同时生成高质量的文本与语音回复，真正意义上让大语言模型（LLM）具备了“听说”的能力。这篇博客将带你由浅入深，全方位地探索LLaMA-Omni
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python 实战人工智能数学基础：推荐系统应用 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.背景介绍2.核心概念与联系2.1用户画像2.2相似性计算2.2.1基于物品的相似度2.2.2基于用户的相似度2.3协同过滤算法2.3.1基于用户的协同过滤算法2.3.2基于物品的协同过滤算法2.3.3基于上下文的协同过滤算法3.核心算法原理和具体操作步骤以及数学模型公式详细讲解3.1基于用户的协同过滤算法3.2基于物品的协同过滤算法3.3混合协同过滤算法3.
在LLM快速迭代时代构建持久AI应用：架构设计与实施策略
引言：技术浪潮下的开发困境大型语言模型(LLM)的发展速度令人瞠目：从GPT-3到GPT-4，从Claude1到Claude3，从Llama1到Llama3，迭代周期正在从"年"缩短到"月"。作为一名AI应用开发者，我亲身经历了这种技术浪潮带来的挑战：昨天精心调优的prompt今天可能失效；上个季度集成的模型这个季度已有更优选择；刚完成的功能设计瞬间被新模型的能力超越。在如此快速变化的环境中，如何
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。