WhyteHighmore

A Survey of Large Language Models大模型综述论文章节总结

A Survey of LLM

人大译A Survey of Large Language Models

这篇论文全面回顾了大型语言模型 (LLM) 的最新进展，重点关注其发展背景、关键发现和主流技术。文章主要围绕 LLM 的四个主要方面展开：

1引言

自从 1950 年图灵测试被提出以来，人类一直在探索机器掌握语言智能的方法。语言本质上是一种受语法规则支配的复杂、精细的人类表达系统，这使得开发能够理解和掌握语言的强大人工智能 (AI) 算法成为一项重大挑战。在过去二十年里，语言建模作为一种主要方法，被广泛研究用于自然语言处理 (NLP) 中的语言理解和生成，从统计语言模型发展到神经网络语言模型。最近，预训练语言模型 (PLM) 通过在大型语料库上预训练 Transformer 模型而提出，在解决各种 NLP 任务方面展现出强大的能力。由于研究人员发现模型缩放可以提高模型容量，他们进一步通过增加参数规模来研究缩放效应，甚至将参数规模扩大到更大的规模。有趣的是，当参数规模超过一定水平时，这些扩大的语言模型不仅在性能上取得了显著提升，而且还展现出一些小型语言模型（例如 BERT）所不具备的特殊能力（例如上下文学习）。为了区分不同参数规模的语言模型，研究界为包含数十亿或数百亿参数的 PLM 提出了“大型语言模型 (LLM)”这一术语。最近，LLM 的研究在学术界和工业界都取得了重大进展，其中最引人注目的是 ChatGPT（基于 LLM 开发的强大 AI 聊天机器人）的发布，这引起了社会的广泛关注。LLM 的技术进步对整个 AI 社区产生了重要影响，这将彻底改变我们开发和使用 AI 算法的方式。考虑到这种快速的技术进步，在本调查中，我们通过介绍背景、关键发现和主流技术来回顾 LLM 的最新进展。特别是，我们专注于 LLM 的四个主要方面，即预训练、适应微调、利用和容量评估。此外，我们还总结了开发 LLM 的可用资源，并讨论了未来方向的剩余问题。本调查提供了关于 LLM 的最新文献综述，可以为研究人员和工程师提供有用的资源。

2概述

大模型要权衡尺度理论与涌现能力emergent的关系。尺度理论 Scaling law 是模型能力、数据尺寸之间的渐进关系，例如KM scaling law与Chinchilla scaling law。其中大模型涌现能力包括情景学习、指令调优、逐步微调（代表方法：思维链）

大模型关键技术：可伸缩性、训练、能力引导、对其调优、工具操作（计算器、搜索引擎、开发的APP）

工程方面。OpenAI采用迭代部署策略[134]，按照五个阶段的开发和部署生命周期来开发模型和产品，旨在有效降低模型使用的潜在风险。 paper:Lessons learned on language model safety and misuse

GPT技术演进：从GPT1到4

3LLM的资源

总结公共api线上模型、指令微调与对其数据集

我们首先在4.1节中讨论数据的收集和处理，然后在4.2节中介绍常用的模型架构，最后在4.3节中介绍稳定有效地优化llm的训练技术。

4预训练

数据的收集和处理：

数据收集、数据预处理（质量过滤、去重、隐私删减、token化）、数据调度（多数据源数据混合配比、数据课表控制数据训练顺序）、

常用的模型架构：

架构（编码器-解码器、因果解码器和前缀解码器）使用混合专家MoE扩展参数；

Transformer架构

四个主要配置（归一化、位置嵌入、激活函数以及注意和偏置）；
有两种常用的预训练任务（语言建模和去噪自编码）；
长上下文建模（扩展位置编码、适应上下文窗口）；
模型解码策略（贪婪搜索、随机采样）

优化llm的训练技术：

优化方法（批量训练、学习率、优化器、训练稳定性）、模型训练建议（并行、ZeRO、精度浮点训练）、其他方法（可预测性扩展、模型评估）

5大模型自适应微调

分为指令微调与对齐微调，以下为指令微调！！！

首先需要收集或构造指令格式化的实例。然后，我们使用这些格式化的实例以监督学习的方式对LLMS进行微调

1、格式化实例构造：

（1）格式化现有数据集。

（2）格式化人类需求。它们将一条指令（即收集的用户查询）和期望的输出（即人工编写的答案）作为训练实例进行配对。

（3）关键因素：指令规模、指令格式、CoT数据结合。最近，为了引出LLM 的分步推理能力，一些研究[69]提出在一些推理数据集(如算术推理)中加入思维链(CoT)示例。研究表明，具有CoT和非CoT示例的微调llm可以在各种推理任务中获得良好的性能，包括那些需要多跳推理能力的任务(例如，常识性问答和算术推理)以及那些不需要这种推理方式的任务(例如，情感分析和抽取式问答)。

2、指令调谐策略（重要方面）：

平衡数据分布。由于指令调优涉及不同任务的混合，因此在调优过程中平衡不同任务的比例是很重要的。
结合指令调优和预训练。为了使优化过程更加有效和稳定，Opt-IML在指令优化过程中加入了预训练数据（大规模数据），这可以看作是模型优化的正则化。
进行多阶段指令微调。使用**大规模任务格式的指令（具体明确任务描述）**和日常聊天指令（日常随意对话）。
其他技巧：多回合聊天数据的有效训练。自我认同（指令前制定人物关系）。多个示例连接到单个序列中以接近最大长度。

3、实证分析

不同类型指令集对LLM指令微调效果的影响：

增加复杂度（任务需求或推理步骤），提高模型理解复杂指令

提高指令数据集的主题多样性

平衡指令难度（指令复杂度评估）

三、参数效率模型自适应

这四种参数高效微调方法各有优缺点，适用于不同的场景：

方法	详细方法	优点	缺点	适用场景
Adapter Tuning	Transformer 层中添加微调模块	参数高效，可自定义适配器	适配器设计需要经验	想要自定义适配器功能的场景
Prefix Tuning	Transformer 层前添加微调模块	参数高效，训练稳定	需要设计MLP函数，可能需要额外的数据	需要增强特定任务性能的场景
Prompt Tuning	输入添加提示向量	参数最少，简单易用	选择一个性能良好的底层模型	快速微调场景
LoRA	对所选权重矩阵的密集层更新，并添加低秩自适应约束	减少模型参数与内存	需要选择合适的低秩	大模型
QLoRA	引入了16位网络节点，量化为4位，并采用分页机制交换二进制数据	以处理内存有限的大型模型	有一些信息损失，但它被认为是可以接受
全量微调	对预训练模型的全部参数进行微调	完全适应特定任务或领域	计算资源高，数据量大	大型模型

Low-Rank Adaptation

四、内存效率模型自适应

量化通常是指从浮点数到整数的映射过程，两种量化方式

量化感知训练(QAT)(需要额外的全模型再训练)
训练后量化(PTQ)(不需要模型再训练)。更受欢迎

四种PTQ方法：

方法		优点	缺点
混合精度分解	离群值的特征维度分开计算INT8
细粒度量化	权重和激活值分别进行量化ZeroQuant	可获得最低的量化误差	计算量大，时间长
平衡量化难度	缩放因子来平衡权重和激活值的量化难度SmoothQuant	可以减少量化误差，同时降低计算量	缩放因子的选择需要仔细调整
分层量化	对每一层的权重进行量化，并最小化层重建损失GPTQ、AWQ	可以有效地优化量化目标，适用于大型模型	计算量较大，需要特定的优化方法
高效微调增强量化	加入适配器QLoRA	可以获得与高精度模型相当的性能，同时减少内存占用	需要额外的训练数据
量化意识培训	无数据蒸馏方法，压缩权重、激活以及键值缓存		4位激活量化效果差

经验：

。。。

https://github.com/qwopqwop200/GPTQ-for-LLaMa可以基于GPTQ算法对不同的llama模型进行量化

6利用（使用）

提示词

关键因素（任务描述、输入数据、情景信息、提示风格）

设计原则（清晰表达任务目标、分解成子任务、提供少量示例、利用模型规定格式）

提示词优化：

离散提示优化：基于梯度的方法（最大化似然）、基于强化学习的方法、基于编辑的方法和基于 LLM 的方法（LLM生成）
连续提示优化：基于大量数据的提示学习和基于稀缺数据的提示迁移（原任务提示词迁移）

上下文学习

ICL 公式：ICL 使用格式化的自然语言提示，包含任务描述和/或少量示例。

示例设计：示例选择（启发式方法和基于 LLM ）、格式、顺序（相似度、熵或信息论）

思维链

基本 CoT 提示方法：CoT 提示将中间推理步骤添加到示例中，引导 LLM 逐步生成 CoT 和答案。

改进策略：

更好提示词设计
增强CoT生成（采样与集成方法相结合、验证方法）
推理结构扩展（方便纠正中心思想、前瞻和回溯等探索）
- 树状结构ToT并行推理（可以并行探索多个推理路径，并进一步支持前瞻和回溯的操作）。
- 图状结构GoT（产生新的思维时进一步利用其他推理路径的思维）

CoT 提示何时有效：对大型模型和需要逐步推理的任务更有效。

LLM 为什么可以进行 CoT 推理：可能源于代码训练或提示设计。

复杂工作任务规划

整体框架：包括任务规划器、计划执行器和环境。

计划生成
反馈获取（内部反馈：来自 LLM 本身，例如评估计划质量或中间结果；外部反馈：来自工具或其他环境，例如代码解释器或虚拟世界）
计划细化（推理：从反馈中提取关键信息；回溯：使用搜索算法改进计划；记忆：使用长期记忆来处理长期任务）

7能力与评估

基本能力：语言生成、知识利用（闭卷问答、开放卷问答（使用检索器与大模型一起训练）、知识完整性）、复杂推理

高级能力：

人类对齐：使用对抗性问答、偏见检测和毒性检测数据集评估模型的符合人类价值观的能力。
与外部环境的交互：使用虚拟家庭、电子商务网站和开放世界环境评估模型的交互能力。
工具操作：使用搜索引擎、计算器和模型接口评估模型的工具操作能力。

基准与评估方法：

LLM三种类型：基础llm(预训练的模型检查点)，微调llm(指令或校准微调模型检查点)，以及专门的llm(针对某些特定任务或领域的适应性模型检查点)

微调LLM评分：以人评估、以模型评估

三种评估方法

基于基准的方法：使用现有的基准评估 LLM 的性能，例如 MMLU、BIG-bench 和 HELM。
基于人类的方法：使用人类评估 LLM 的性能，例如对抗性问答、偏见检测和毒性检测，以及自然语言生成评估，这种方法可以更直接地反映 LLM 在真实场景中的表现，但成本高且耗时长。
基于模型的方法：使用 LLM 评估 LLM 的性能，例如 AlpacaEval 和 MT-bench，这种方法可以减少对人类评估的依赖，提高效率，但可能存在模型偏差问题。

8应用

LLM 对研究社区的影响：

经典 NLP 任务： LLM 在词/句级任务、序列标注、信息提取和文本生成等经典 NLP 任务中展现出强大的能力，甚至优于经过微调的小模型。然而，LLM 在处理复杂语义关系和低资源语言任务方面仍然存在挑战。
信息检索： LLM 可以作为信息检索模型，通过重新排序检索到的候选文档来提高检索质量。此外，LLM 也可以增强现有的检索模型，例如通过生成查询或扩展文档来改进相关性评估。
推荐系统： LLM 可以作为推荐模型，通过指令微调来实现个性化推荐。LLM 也可以增强推荐模型，例如通过推断用户意图或编码用户和物品的特征来提高推荐质量。此外，LLM 还可以模拟用户行为，开发推荐模拟器。
多模态大语言模型 (MLLM)： MLLM 可以处理文本以外的模态，例如图像，并通过视觉指令微调来提高性能。然而，MLLM 仍然面临幻觉生成和安全性的挑战。
知识增强 LLM：知识图谱 (KG) 可以增强 LLM 的性能，例如通过检索和利用 KG 中的知识来提高问答和知识补全任务的准确性。此外，LLM 也可以帮助构建和扩展 KG。
基于 LLM 的智能体： LLM 可以作为智能体的核心计算单元，通过记忆、规划和执行等组件来实现自主任务解决。LLM 智能体可以应用于单智能体和多智能体场景，例如自主代理和协作代理。
LLM 用于评估： LLM 可以作为自动评估器，例如通过评分或生成语言反馈来评估文本质量。LLM 评估方法包括基于提示的评估、多模型协作和微调专门化的评估模型。然而，LLM 评估仍然存在偏差和局限性。

LLM 对特定领域的影响：

医疗保健： LLM 可以用于生物信息提取、医疗咨询、心理健康分析和报告简化等任务。然而，LLM 也可能生成虚假信息，并引发隐私问题。
教育： LLM 可以作为学生水平的标准化考试解答者，并帮助学生进行写作和阅读。然而，LLM 也可能导致剽窃、AI 内容偏见和过度依赖等问题。
法律： LLM 可以用于法律文件分析、法律判决预测和法律文件写作等任务。然而，LLM 的应用也引发了法律挑战，例如版权问题、个人信息泄露和偏见歧视。
金融： LLM 可以用于数值索赔检测、金融情绪分析和金融实体识别等任务。LLM 也需要在大规模金融语料库上进行持续预训练来提高性能。
科学研究： LLM 可以帮助进行文献综述、研究想法生成、数据分析和研究论文写作等任务。LLM 也可以协助自动论文审查过程。

总结： LLM 的应用前景广阔，但也面临着挑战，例如准确性、偏见、安全性和隐私等问题。未来需要开发更有效的技术来提高 LLM 的能力，并确保其安全可靠地应用于现实世界。

9结论及未来发展方向

LLM 的基础和原理：

需要揭示 LLM 能力的基础原理，例如模型容量学习、缩放效应和泛化能力。
探索 LLM 的信息建模能力，并分析数据污染问题。

LLM 的模型架构：

改进 Transformer 架构，降低训练成本和提高推理效率。
开发新的模型架构和算法来处理长上下文信息。
探索替代模型架构，例如对 decoder-only Transformer 的限制。

LLM 的模型训练：

建立数据中心的训练流程，并开发更有效的训练方法。
解决灾难性遗忘和任务专业化问题，并开发有效的微调策略。
探索持续的预训练和微调方法，并改进预训练数据准备和数据调度。

LLM 的模型利用：

进一步探索提示设计、优化和有效查找有效提示的方法。
探索降低 LLM 推理成本的方法，例如高效调优和量化。
探索检索增强生成，以提高知识边界和问答能力。

LLM 的安全性和对齐：

改进对齐方法，例如 RLHF，并探索更高效的标注方法和简化的优化算法。
采用红队测试和联邦学习等技术来提高模型安全性。
关注隐私问题，例如在微调时使用领域特定数据。

LLM 的应用和生态系统：

推动信息检索和推荐系统等技术的发展。
开发更智能的系统（例如自主 AI 代理）来解决现实世界中的复杂任务。
建立 LLM 应用生态系统，例如 OpenAI 的 GPT Store。
探索 AGI 的发展，并关注 AI 安全性问题。

总结： LLM 是一项具有巨大潜力的技术，但需要解决许多挑战才能实现其全部潜力。未来需要持续探索和改进 LLM 的各个方面，以确保其安全可靠地应用于现实世界，并推动 AI 的发展。

[NIPST AI]对抗性机器学习攻击和缓解的分类和术语 Anooyman 人工智能网络安全人工智能大语言模型网络安全安全
原文link：https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-2e2025.pdfIntroduction人工智能（AI）系统在过去几年中持续全球扩展。这些系统正在被众多国家开发并广泛部署于各自的经济体系中，人们在生活的许多领域都获得了更多使用AI系统的机会。本报告区分了两大类AI系统：预测型AI（PredictiveAI，PredAI）和生成型A
基于STM32的智能花盆浇水系统毕业设计看，是大狗 stm32 课程设计嵌入式硬件
目录单片机毕业设计论文前言单片机毕业设计功能介绍设计视频演示单片机毕业设计论文前言随着城市化进程的加快和人们生活水平的提高，越来越多的人开始在家中种植植物，以美化环境、净化空气和陶冶情操。然而，由于工作繁忙或缺乏种植经验，许多人难以对植物进行及时、适量的浇水，导致植物生长不良甚至死亡。传统的花盆浇水方式依赖人工操作，存在效率低下、难以精准控制水量等问题，无法满足现代家庭对植物养护的智能化需求。近年
基于STM32的语音播报小项目课程设计程序开源看，是大狗 stm32 开源嵌入式硬件
目录单片机毕业设计论文前言单片机毕业设计功能介绍设计视频演示单片机课程设计设计论文前言随着科技的飞速发展和智能化时代的到来，人们对环境监测的需求日益增加，尤其是在温度监测方面，精准、实时的温度数据对于工业生产、农业生产以及日常生活都具有重要意义。传统的温度监测系统往往功能单一，缺乏实时反馈和智能化处理能力，难以满足现代应用场景的需求。近年来，嵌入式系统、传感器技术和语音交互技术的快速发展，为温度监
甘肃省天水市13家亲子鉴定中心大全(附2024年9月汇总鉴定) 鼎律基因刘主任
宗旨：在提高亲子鉴定咨询结果的准确性和真实性，为每一位受检客户得到一个公平、公证、真实、可靠的咨询结果，长期关注国内亲子鉴定师编写论文，从而确保提供实时亲子鉴定解答，是我们作为一家有责任心企业的标准的原则。实验室实力：配备了多套高端实验设备，包括美国AB公司3500XL遗传分析仪、9700金座PCR扩增仪、普洛麦格公司超精确检测系统PP21+PPY23，准确度高达99.9999%超高精确试剂盒等，
骗子太猖獗了，打着摩根士丹利何晓斌名义带股民进入虚假宝丰能源节能减排碳交易市场，大量股民被骗真相曝光墨守成法
为什么明明跟老师对过视频，确认是本人，怎么还会被骗了?你有没有想过一个名人大咖怎么会有时间给你们一对一视频，其次我来给大家揭露一下，这个套路AI换脸骗局是一种利用人工智能技术，通过替换视频中的人脸来伪造身份或进行诈骗的行为。你的账户“余额”是真的吗？为什么不能提现呢？其实都是骗子给你的一串数字而已！这些新平台打着“低风险”、“高收益”、“慈善公益投票”等噱头先让投资人尝到甜头再通过恶意操作将投资人
法学本科毕业论文什么选题方向好写？专科、本科都能看
加文末微信，获取论文服务：专科、本科、专升本；自考、函授、成教、国开、网教、成人专升本；全学科1对1咨询，承接各种论文辅导帮助；扫描文末，专业老师1v1论文服务。法学本科毕业论文什么选题方向好写？专科、本科都能看法学专业的本科毕业论文写作中，选题是一个关键步骤，它直接影响到论文的质量和研究的深度。如果你还在为选题而苦恼，不妨参考一下师哥师姐的经验，他们的研究方向往往能为你提供有价值的参考和启示。本
智慧水库信息化系统建设产品需求文档V2.0 小赖同学啊 test Technology Precious 物联网
智慧水库信息化系统建设产品需求文档1.引言1.1文档目的本文档旨在明确智慧水库信息化系统的建设需求，为系统设计、开发和实施提供全面依据，确保系统功能满足水库管理业务需求，提升水库管理的智能化水平和决策效率。1.2背景介绍传统水库管理面临数据采集不及时、分析手段有限、决策依赖经验等问题，难以应对复杂多变的水文情势和日益增长的管理需求。随着物联网、大数据、人工智能等技术的发展，智慧水库建设成为必然趋势
黄仁勋链博会演讲实录：脱掉皮衣，穿上唐装，中文开场
黄仁勋一度尝试用中文开场，他说，“我在美国长大，学到了很多汉语。”他表示，像DeepSeek、阿里巴巴、MiniMax、百度，他们开发的产品都是世界级的，推动了全球人工智能的发展。中国的开源AI是全球进步的催化剂，以至于全世界各个行业都有机会加入到AI革命当中。7月16日，黄仁勋身着唐装出席了第三届链博会，在此之前，他身着标志性皮衣出席多个场合活动。在此之前，英伟达官宣获得H20芯片对华的出口许可
【AI 赋能：Python 人工智能应用实战】5. 梯度下降家族：SGD/Adam优化器对比实验与选择策略 AI_DL_CODE 人工智能 python 梯度下降优化器 SGD Adam PyTorch
摘要：本文系统解析梯度下降优化器的核心原理与演进脉络，构建从理论到实战的完整知识体系。理论部分梳理优化器发展里程碑，从1951年的SGD到2018年的AdamW，揭示技术迭代逻辑；通过数学公式对比SGD、Momentum、Adam等核心算法的更新机制，解析动量加速、自适应学习率的创新点。结合损失曲面分析，阐释Momentum如何逃离鞍点、Adam如何处理悬崖梯度。实战模块基于PyTorch在MNI
【人工智能之深度学习】6. 卷积核工作原理：从边缘检测到特征抽象的逐层演进（附可视化工具与行业实战代码） AI_DL_CODE 人工智能深度学习卷积核特征提取卷积神经网络边缘检测特征可视化
摘要：卷积核是卷积神经网络（CNN）的核心组件，其通过局部感受野与参数共享机制实现高效特征提取。本文从数学本质出发，揭示卷积操作的空域-频域对偶性：空域卷积等价于频域乘积（F{f∗g}=F{f}⋅F{g}F\{f*g\}=F\{f\}⋅F\{g\}F{f∗g}=F{f}⋅F{g}），解释边缘检测核（Sobel、Laplacian）的频域响应特性。通过特征可视化实验表明，CNN特征呈现逐层抽象规律：
[论文]基于强化学习的控制输入非线性水下机器人自适应神经网络控制王莽v2 机器人神经网络神经网络算法控制器
[论文]基于强化学习的控制输入非线性水下机器人自适应神经网络控制摘要本文研究了在水平面内运动的全驱动自主水下机器人的轨迹跟踪问题。在我们的控制设计中考虑了外部干扰、控制输入非线性和模型不确定性。基于离散时间域的动力学模型，两个神经网络(包括一个临界神经网络和一个作用神经网络)被集成到我们的自适应控制设计中。引入临界神经网络来评价设计的控制器在当前时间步长内的长期性能，并利用作用神经网络来补偿未知动
颠覆未来：创新代码引领人工智能与量子计算深度融合金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 人工智能量子计算
摘要在信息时代飞速演进的背景下，人工智能与量子计算正以前所未有的速度互相融合，推动着科技边界的不断拓展。本文回顾了经典算法的智慧，展示了前沿深度学习模型的构建，并通过量子电路设计探讨了创新代码的可能性，为探索未来科技变革提供了全新视角。1.引言当前，科技创新正处于高速迭代的关键阶段，传统计算方法与新型技术的交汇处正成为研究热点。人工智能的发展已渗透到各行各业，而量子计算的崛起则为解决复杂计算问题提
【大模型】结构化提示词：让AI高效完成复杂任务的“编程语言” JosieBook AI/大数据/云计算人工智能
文章目录前言：提示词一、不同提示词写作方法对比进阶技巧对比表实战组合策略二、三板斧：精准撰写提示词的黄金法则角色设定：为AI精准定位任务描述：明确行动指南输出要求：规范成果呈现三、魔法棒：零基础也能用的“AI需求翻译机”四、结构化：把提示词写成“可插拔的乐高”五、分治法：把“庞然大物”拆成可并行的小任务前言：提示词在人工智能时代，提示词（Prompt）已成为连接人类意图与AI能力的核心媒介。优质的
人工智能视频分析系统人员离岗报警设计方案 liuhu21 人工智能云计算运维
一、方案概述近几年安防监控技术不断的进步，特别是在人工智能推出之后。安防监控系统结合人工智能算法做到了许多以前无法做到的事情。就比如我们今天要说的离岗检测报警监控系统。以前我们只能通过人工值守监控室的方式，通过人的判断去观看现场人员在岗情况。如今有了离岗检测监控系统，系统可以自动监测现场人员是否在岗、离岗时间以及离岗人数等等。这样，大大减少了监控室值班人员的工作量，同时相较人工监管提升了工作效率。
AI新纪元：2025年深度学习技术突破与行业应用全景像素笔记杂谈人工智能深度学习 ai 自动驾驶工业数字化转型未来趋势技术创新
2025年，人工智能技术迎来爆发式增长，大模型、生成式AI和多模态技术持续突破，人形机器人量产元年正式开启，自动驾驶商业化进程加速，工业数字化转型全面铺开。这些进展不仅重塑了技术边界，更在多个行业创造了实际价值，推动AI从实验室走向产业化。本文将深入剖析2025年深度学习与AI领域的核心技术突破、行业应用案例及未来发展趋势，为技术从业者提供全面视角。一、深度学习核心技术突破：大模型、生成式AI与多
三篇AAAI顶级论文带你一键搞懂多模态！
关注gongzhonghao【计算机sci论文精选】！拿捏更多顶会顶刊发文资讯随着人工智能技术的飞速发展，多模态学习逐渐成为研究热点。多模态技术能够整合文本、图像、语音等多种模态的信息，为人工智能的应用带来了更丰富的语义理解和更强大的交互能力。此外，多模态技术在视频和语言任务中的应用也取得了显著进展。这些技术不仅提升了模型的性能，还为人工智能在更多领域的应用提供了新的可能性。今天小图给大家精选3篇
进阶向:基于Python的智能客服系统设计与实现
智能客服系统开发指南系统概述智能客服系统是人工智能领域的重要应用，它通过自然语言处理(NLP)和机器学习技术自动化处理用户查询，显著提升客户服务效率和响应速度。基于Python的实现方案因其丰富的生态系统（如NLTK、spaCy、Transformers等库）、跨平台兼容性以及易于集成的特点，成为开发智能客服系统的首选。系统架构系统核心包括两个主要功能模块：1.API集成模块负责连接各类外部服务，
计算机视觉产品推荐,个性化推荐:人工智能中的计算机视觉、NLP自然语言处理和个性化推荐系统哪个前景更好一些？...
这个问题直接回答的话可能还是有着很强的个人观点，所以不如先向你介绍一些这几个领域目前的研究现状和应用情况(不再具体介绍其中原理)你自己可以斟酌一下哪方面更适合自己个性化推荐。一．所谓计算机视觉，是指使用计算机及相关设备对生物视觉的一种模拟个性化推荐。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息，就像人类和许多其他类生物每天所做的那样[1]。现在人工智能的计算机视觉主要研究
短文完结版☞【重生后，我打脸渣男狗女】唐秋苏渺渺☞【重生后，我打脸渣男狗女】一口气读完！妞妞爱读书1
前世，我苦心研究了三年的科研成果却被男友的学妹举报抄袭。只因我们的sci论文完全相同，但她却比我还要提早发表。铁板钉钉的证据面前，我无力反驳，被网络暴力。甚至有极端网友破坏了我家的电线导致短路失火，让我父母葬身火海。我因此患上了抑郁症，割喉自杀。再睁眼，我回到了发表论文的前一天。我睁开眼睛，映入眼帘的是电脑屏幕上即将完成的sci论文。“唐秋你实在是太棒了!"“你居然真的研究出了常温下的超导材料，这
AI如何塑造下一代网络安全防御体系 weishi122 web安全人工智能网络人工智能网络安全威胁检测行为分析漏洞挖掘
AI如何塑造下一代网络安全防御体系随着网络威胁日益复杂化，传统安全措施已难以应对。人工智能(AI)正通过创新解决方案重塑网络安全格局。本文将探讨AI如何推动网络安全革命，并分析实施过程中的关键挑战。日益严峻的威胁形势到2025年，网络犯罪预计将造成全球10.5万亿美元损失。传统防御手段已无法应对快速演变的威胁，这正是AI发挥关键作用的领域。人工智能：新一代数字卫士AI能实时分析海量数据，在威胁发生
「感恩日语」2021-303篇，吸渣体质能学多少学多少
学习感悟，避免成为“吸渣”体质很重要，“环境”能改变人，学会甄别那些“书籍”、那些“文章”（论文）对自己成长有利，而非“奶头乐”系统算法之类推送的让自己无法自拔的内容，个人每天、每周、每月、每年、一生总时间是有限的，缩小到每天，计算一下每天浪费有多少，真正发挥价值时间效力有多少，简单做个记录，会发现很可怕。同时找到了为什么每天进步一点点的重要性，只跟昨天的自己，前天的自己比较一下，很重要，多做对自
企业级AI搜索引擎从零到一开发实战：全链路技术解析与代码实现
简介从零开始构建一个企业级AI搜索引擎，是掌握现代搜索技术栈的重要实践。本文将深入剖析基于大语言模型、知识图谱和分布式架构的智能搜索引擎开发全流程，从数据抓取、索引构建到查询处理模块，提供完整的代码实现和架构设计。通过整合多平台数据并应用优化策略，构建一个具备高并发处理能力、精准语义理解及高效搜索排序的智能搜索引擎系统。一、架构设计：智能搜索引擎的核心组件智能搜索引擎架构由三个核心模块组成：数据抓
从功能到落地：AI Agent 平台选型的 6 大维度全解析
一、背景：AIAgent爆发式普及，企业如何科学选型？近两年，随着大语言模型（LLM）技术的快速迭代，“AIAgent”正在从实验室走向企业实际生产线。从内容生成、客户服务，到销售助手、流程调度，越来越多企业开始探索将Agent作为“智能化助手”纳入业务流程。然而市场上平台众多、能力差异巨大，企业常常面临如下难题：不知道该选国内还是国外平台？哪个平台支持私有化部署？是否能接入已有CRM/CDP系统
Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction zzfive 生成模型论文阅读 kotlin 开发语言 android
论文链接：VisualAutoregressiveModeling:ScalableImageGenerationviaNext-ScalePrediction文章目录简介预测下一个token自回归模型范式分析VAR详解分词实现细节幂律缩放定律零样本泛化能力结论简介本文提出的视觉自回归建模/VAR这种新范式，其将图像的自回归学习重新定义为从粗到细的“下一个尺度预测”或“下一个分辨率预测”，与常规的
【国内超大型智能算力中心建设白皮书 2024】 AI大模型 lose and dream 人工智能开源 git 开源软件 github gitlab 开放原子
文末有福利！智算中心建设通过领先的体系架构设计，以算力基建化为主体、以算法基建化为引领、以服务智件化为依托，以设施绿色化为支撑，从基建、硬件、软件、算法、服务等全环节开展关键技术落地与应用。一、体系架构（一）总体架构图8智算中心总体架构智能算力中心建设白皮书，重点围绕基础、支撑、功能和目标四大部分，创新性地提出了智算中心总体架构。其中，基础部分是支撑智算中心建设与应用的先进人工智能理论和计算架构；
高并发解决方案：SpringBoot+Redis分布式缓存实战 fanxbl957 Web 缓存 spring boot redis
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人高并发解决方案：SpringBoot
SpringBoot缓存技术全解析：Redis+Caffeine二级缓存架构 fanxbl957 Web 缓存 spring boot redis
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot缓存技术全解析：
米信使股票群诈骗真相！郑洪盛国浩盟国一带一路项目就是资金盘不要被骗了！不成功不收费
讲述:郑洪盛国浩盟国慈善投票被骗无法出金真相！套路太深教你该如何避！！骗子引诱人上当方式很简单：先给你一点甜头尝尝，一开始入金能正常提现，也能赚一点，但当投入更多钱时，你发现你的运气开始变差了。所以，荐股类骗局最大的迷惑性是：给受害人一种假象，你是投资亏损的，而不是被骗的！广大市民对此要提高警惕，如果是还没有投资，千万不要抱有侥幸心理，一定要及时远离！一定不要打草惊蛇低碳项目数字体育，人工智能ai
基于 Qwen-Agent 与 MCP 实现阿里云 ECS 实例查询（含完整代码与实操）
✅关键词：Qwen-Agent、MCP、阿里云、运维、LLM、FunctionCalling在现代云运维场景中，我们不仅希望大语言模型（LLM）能回答文本问题，更希望它能直接调用云端API、查询资源，实现「智能运维」。本文将分享如何基于Qwen-Agent和MCP，快速实现一个“云资源助手”，能帮你查询阿里云ECS实例信息。什么是MCP？MCP(Model-ComputingPlatform)是阿
实现大语言模型与应用的无缝对接 meslog 技术分享语言模型 microsoft 人工智能
在当今人工智能快速发展的时代，大语言模型（LLMs）已经成为众多应用的核心驱动力。然而，如何让这些强大的模型与各种数据源和工具进行有效集成，仍然是一个挑战。ModelContextProtocol（MCP）正是为解决这一问题而设计的开放协议，它标准化了应用程序如何向大语言模型提供上下文信息。本文将介绍MCP的基本概念，并通过C#SDK展示如何实现客户端和服务器端的交互。什么是MCP？ModelCo
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出