赫凯

论文阅读 A Survey of Large Language Models 1

文章目录

摘要
介绍
回顾
LLMS资源
- 公开可用的模型检查点或API
- - 具有数十亿个参数的模型
  - 具有数千亿个参数的模型
  - LLM公开API
- 常用语料库
- - 书籍
  - CommonCrawl
  - Reddit链接
  - 维基百科
  - 代码
  - 其他
- 库资源

摘要

讨论了机器语言智能的发展，特别是大规模预训练语言模型（PLMs）。该综述详细介绍了语言模型从统计语言模型，神经语言模型到预训练语言模型（PLMs）的演变。作者强调，大规模LLM超出某一参数大小的模型扩展导致了新的能力的出现。这种现象导致了强大的人工智能聊天机器人的创建，例如ChatGPT，可以解决复杂的任务，展现了与人类极佳的对话能力。该综述强调了评估和了解LLMs的性能的必要性，包括它们的预训练、适应性调整、利用和容量评估。本文解释了LLMs的发展不仅仅限于学术研究，而且还涉及大规模数据处理和分布式并行计算的实践经验。该综述对LLMs的文献进行了全面回顾，对研究人员和工程师都是一个有用的资源。

介绍

语言是人类最重要的交流方式，但机器不能自然地掌握和使用人类语言。语言建模是提高机器语言智能的主要方法之一，它旨在预测未来（或缺失）令牌的概率。LM的研究已经经历了四个发展阶段。实现让机器像人类一样阅读、写作和交流一直是一个研究挑战。

统计语言模型（SLMs）是基于马尔可夫假设的单词预测模型，通过预测下一个单词来提高任务性能，在信息检索(IR)中广泛应用。N-gram语言模型是一种特殊的SLMs，其中固定上下文长度n，如bigram和trigram语言模型。然而，高阶语言模型估计存在数据稀疏问题，导致很难准确估计转换概率，因此需要专门设计的平滑策略，如后退估计和Good-Turing估计。
神经语言模型(NLM)是通过神经网络表征单词序列的概率的模型。NLM的发展经历了许多里程碑式的研究，如引入单词的分布式表示的概念、通过扩展学习单词或句子有效特征的思想，开发了一种通用神经网络方法，并且构建了一个简化的浅层神经网络word2vec来学习分布式单词表示。这些研究开创了语言模型在表示学习中的应用，对自然语言处理领域产生了重要影响。
预训练语言模型（PLM）是NLP任务中的重要工具，早期的尝试如ELMo和基于自注意机制的高度并行化Transformer架构的BERT被提出。这些预先训练的上下文感知词表示作为通用语义特征非常有效，可以极大地提高NLP任务的性能标准。后续工作引入了各种不同的架构和改进的预训练策略。通常需要对PLM进行微调以适应不同的下游任务。
缩放大型语言模型（PLM）通常会提高模型容量和性能，研究团体为这些大型PLM创造了术语“大型语言模型(LLM)”。虽然缩放主要是在模型大小上进行的，但大型PLM与小型PLM表现出不同的行为，并在解决复杂任务时表现出惊人的能力。ChatGPT2是LLM的一个显著应用，可以与人类进行惊人的对话。

本文介绍了自然语言生成模型(LLM)的最新进展，重点关注了其开发和使用的技术和方法，概述了预训练、适应调整、利用和能力评估四个方面的最新进展。LLM与小型PLM具有三个主要的区别，包括展示出令人惊讶的涌现能力、改变了人类开发和使用AI算法的方式以及在培训中涉及了大规模数据处理和分布式并行训练等工程问题。虽然LLM取得了进步和影响，但其基本原则仍未得到很好的探索。此外，由于模型预训练成本巨大且许多细节不对公众透露，研究界很难为其培训有能力的LLM。文章指出，LLM的研究与开发具有机遇与挑战并存的特点，值得重视。最后，文章总结了本次调查的主要发现，并讨论了未来工作的剩余问题。

回顾

在本节中，我们将介绍LLM的背景，包括关键术语、能力和技术。

背景大型语言模型是指拥有数千亿参数的在大量文本数据上进行训练的语言模型，其采用Transformer架构和预训练目标，并通过缩放模型大小、预训练数据和总计算来提高理解自然语言和生成高质量文本的能力。模型大小的增加大致遵循比例定律，但一些能力只有当模型大小超过一定水平时才能观察到。

LLM具有紧急能力 其涌现能力在大型模型中出现，而在小型模型中不存在。当涌现能力出现时，当量达到一定水平时，其绩效显著高于随机水平。LLM的涌现模式与物理学中的相变现象密切相关。LLM具有三种典型涌现能力，可以应用于解决多个任务的一般能力。

GPT-3可以进行上下文内学习，通过完成输入文本的单词序列为测试实例生成预期的输出，而不需要额外的训练或梯度更新；
通过指令调优，它能够在不使用显式示例的情况下通过理解任务指令来执行新的任务，从而提高泛化能力；
使用思维链推理策略，可以利用包含中间推理步骤的提示机制解决复杂任务。这种能力可能是通过代码训练获得的。

LLM的关键技术 LLMs是一种具有高学习能力的机器学习模型，经过长时间的发展，其关键技术不断提升，提高了LLMs的能力，其中几个成功的重要技术包括：技术提高了LLMs的精度和效率。

本文讨论了语言模型的优化方法，主要包括可伸缩性、激发能力、对齐调整和使用外部工具。可伸缩性是提高模型容量的关键因素，该方法需要考虑模型大小、数据大小和总计算量三个方面的最优调度。激发能力涉及到设计合适的任务指令或特定的情境策略来培养模型的解决问题的能力。对齐调整是保证模型与人类价值观相一致的方法，避免模型产生有毒、有偏见、对人类有害的内容。最后，使用外部工具可以弥补模型在文本生成和获取最新信息方面的缺陷。通过这些方法，可以构建更加可靠和有效的语言模型。

此外，许多其他因素(如硬件的升级)也有助于LLM的成功。同时，我们将讨论局限于开发llm的技术方法和关键发现。

LLMS资源

开发或复制LLM并不容易，考虑到技术问题和计算资源需求。一种可行的方法是利用现有LLM经验和公共资源进行增量开发或研究，这包括开源模型检查点和api、可用的语料库以及LLM的有用库。本节主要总结这些资源。

公开可用的模型检查点或API

模型预训练所需的巨额成本使得良好训练的模型检查点至关重要。由于参数规模是使用LLMs的关键因素，因此我们将这些公共模型分为两个规模级别（即数十亿参数或数百亿参数），这有助于用户根据其资源预算选择适当的资源。此外，对于推断，我们可以直接使用公共API来执行任务，而无需在本地运行模型。本节简要总结了LLMs的公共检查点和API的使用情况。

具有数十亿个参数的模型

大多数开源模型的参数规模在10B-20B之间，而LLaMA最大版本包含65B个参数。其他模型包括mT5、T0、GPT-NeoX-20B、CodeGen、UL2、Flan-T5、mT0和pangua。在这些模型中，Flan-T5(11B版本)适合指令调优研究，CodeGen(11B版本)适合生成代码。多语言任务可以考虑mT0(13B版本)。盘古-α在中文下游任务中表现良好，最大版本有200B个参数，而LLaMA则需要数千个gpu或tpu。例如，GPT-NeoX-20B使用12个超微服务器，而LLaMA使用2048个A100-80G gpu。建议使用FLOPS来评估所需的计算资源。

具有数千亿个参数的模型

一些具有数千亿个参数的模型，只有少数被公开发布，如OPT[79]、OPT-iml[83]、BLOOM[66]和BLOOMZ[82]等。其中，OPT(175B版本)被用于开源共享，能够用于大规模可重复的研究。这些模型需要数千个gpu或tpu进行训练。Galactica、GLM和OPT-IML已经使用指令进行调优，可能成为研究指令调优效果的良好候选者。BLOOM和BLOOMZ可以作为跨语言泛化研究的基础模型。

LLM公开API

该API不需要在本地运行模型，为用户提供方便的使用方式。其中GPT系列模型的API被广泛应用，包括7个主要接口：ada、babbage、curie、davinci、text-ada-001、text-babbage-001和text-curie-001。这些接口可以在OpenAI的主机服务器上进一步调优。巴贝奇、居里和达芬奇分别对应不同版本的GPT-3模型，此外还有与食典相关的API和GPT-3.5系列等增强版本。最近发布了GPT-4系列API，具体选择取决于应用场景和响应要求。详情请参见项目网站。

常用语料库

LLMs需要更多的训练数据，因为它由大量参数组成，需要涵盖广泛的内容。为了满足这一需求，越来越多的训练数据集被发布用于研究。根据内容类型，这些语料库被分为六组：书籍、CommonCrawl、Reddit链接、维基百科、代码和其他。

书籍

BookCorpus和古腾堡计划是常用的小规模和大规模图书语料库，其中后者包括7万多本不同的文学书籍。GPT-3使用的较大的Books1和Books2目前还没有公开发布。这些数据集被广泛用于机器翻译、自然语言生成和其他语言处理任务的训练。

CommonCrawl

开源网络爬行数据库CommonCrawl是最大的之一，包含千兆级数据量，但由于web数据中的噪声和低质量信息，需要进行预处理。现有工作中常用的过滤数据集有四个:C4、CCStories、CC-News和RealNews。其中C4包括5个变体，已被用于训练多种模型。CC-Stories是CommonCrawl数据的子集，已经不可用，但有复制版本。此外，从CommonCrawl中提取的两个新闻语料库REALNEWS和CC-News也常被用作预训练数据。

Reddit链接

Reddit是一种允许用户分享链接和文字帖子的社交媒体平台，其他用户可以通过投票来评价这些帖子的质量。一些高质量的帖子可以被用来创建高级数据集，如WebText和PushShift.io。WebText是由来自Reddit平台的高赞帖子组成的一个语料库，但该资源并不是公开的。作为替代方案，人们可以利用开源工具OpenWebText，而PushShift.io则提供了实时更新和全历史数据的数据集，方便用户搜索并进行初步处理和调查。

维基百科

维基百科是一个高质量的在线百科全书，涵盖广泛的主题和领域，并以说明性的写作风格组成。其英文过滤版本常被用于LLMs中，包括GPT-3、LaMDA和LLaMA。同时，维基百科还有多种语言版本，可以在不同语言环境中使用。

代码

工作主要从互联网上抓取开放源代码许可代码，主要来源包括 GitHub 和 StackOverflow；谷歌已经发布了 BigQuery 数据集，包含各种编程语言的开源许可代码片段，CodeGen 利用其中一个子集 BIGQUERY 训练了多语言版本。

其他

Pile是一个大规模、多样化、开源的文本数据集，包括超过800GB的数据，由22个高质量子集组成。Pile数据集被广泛应用于不同参数尺度的模型。ROOTS则涵盖了59种不同的语言，共1.61 TB文本，用于训练BLOOM。

LLMs现在采用多个数据源进行预训练而不是单个语料库。目前的研究使用了多个现成数据集混合处理，还需要从相关来源提取数据来丰富预训练数据。其中，GPT-3、PaLM和LLaMA是具有代表性的LLMs，它们的预训练语料库包括多个来源，如CommonCrawl、WebText2、Wikipedia、社交媒体对话、Github等。其中GPT-3在175B的混合数据集上进行训练，而PaLM和LLaMA的预训练数据集大小分别为540B和1.0T~1.4T令牌。

库资源

介绍了若干可用于语言模型开发的库。其中最受欢迎的是由Hugging Face维护的Transformers，它使用Transformer结构，提供预训练模型和数据处理工具。Microsoft的DeepSpeed和NVIDIA的Megatron-LM都支持分布式训练和优化技术。Google Brain的JAX提供硬件加速支持，EleutherAI的Colossal-AI则是在JAX的基础上开发了ColossalChat模型。OpenBMB的BMTrain注重简单性和可用性，FastMoE则支持Mixture-of-Experts模型的训练。除了这些库外，现有的深度学习框架（如PyTorch、TensorFlow等）也提供了并行算法的支持。

Deepseek：多轮对话与上下文拼接 chilavert318 熬之滴水穿石 ai
今天的内容，应该很好理解。我们先从场景切入来理解。首先，你回想一下，有没有遇到过这样的情况：和朋友聊天时，聊了一会儿，突然朋友说起之前的某个话题，你却有点反应不过来，得努力回忆之前说了啥。人工智能之所以“智能”，因为它就不可能这么健忘。在和Deepseek聊天，在多轮对话中，Deepseek就像一个记忆力超强的小伙伴，能清楚记得你们聊过的每一个重要细节，让对话一直顺顺畅畅。这背后呀，藏着Deeps
MCP 与 AI 任务分解：如何让 AI 高效执行复杂任务？ Echo_Wish Python 进阶人工智能
MCP与AI任务分解：如何让AI高效执行复杂任务？在人工智能应用中，任务分解（TaskDecomposition）是一个绕不开的话题。无论是自动驾驶、智能客服，还是代码生成，AI都需要将复杂问题拆解成可执行的小任务，逐步完成目标。而在AI领域，MCP（Multi-StepCognitiveProcessing，多步认知处理）是一种前沿技术，旨在提升AI的任务分解能力，使其能够更精准、高效地执行复杂
【LangChain】langchain.chains.create_sql_query_chain() 函数：基于自然语言生成 SQL 查询的链（Chain）彬彬侠 LangChain langchain chains create_sql_quer sql_database sql
langchain.chains.create_sql_query_chain函数是LangChain库中的一个函数，用于创建基于自然语言生成SQL查询的链（Chain），结合语言模型（LLM）和数据库上下文生成可执行的SQL语句。本文基于LangChain0.3.x，详细介绍create_sql_query_chain的定义、参数、方法和典型场景，并提供一个独立示例，展示如何使用create_s
AIGC领域Prompt工程：原理、方法与行业应用 AI天才研究院 ChatGPT 计算 AI大模型应用入门实战与进阶 AIGC prompt ai
AIGC领域Prompt工程：原理、方法与行业应用关键词：Prompt工程、大语言模型（LLM）、提示设计、少样本学习、AIGC应用、思维链（CoT）、提示优化摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，大语言模型（如GPT-4、LLaMA、通义千问）的性能已达到前所未有的高度。然而，模型的强大能力能否被充分释放，很大程度上依赖于"提示（Prompt）"的设计质量。本文系统解析Prom
大语言模型中的思维链提示：解锁高效互动的秘密 t0_54program 大数据与人工智能语言模型人工智能自然语言处理个人开发
在当今的人工智能领域，大语言模型（LLMs）已然成为一颗耀眼的明星，它经过海量训练，能够理解并生成人类语言，在编程等诸多领域助力人们完成日常任务。然而，若想与这些模型实现高效沟通，掌握正确的请求方式至关重要，而思维链提示（Chainofthoughtprompting）便是与LLMs互动时最为高效的技术之一。什么是提示（Prompting）？LLMs基于海量数据集进行训练，以理解并生成类人文本。其
人工智能大模型原理与应用实战：大模型在金融风控中的应用 AI天才研究院 LLM大模型落地实战指南大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
文章目录人工智能大模型原理与应用实战：大模型在金融风控中的应用01.背景介绍1.1金融风控的挑战1.2大模型的优势2.核心概念与联系2.1大模型在金融风控中的应用场景2.2大模型与传统风控技术的结合3.核心算法原理具体操作步骤3.1基于大模型的欺诈检测3.2基于大模型的信用评估4.数学模型和公式详细讲解举例说明4.1逻辑回归模型4.2XGBoost模型5.项目实践：代码实例和详细解释说明5.1基于
AlphaStar 星际首秀，人工智能走向星辰大海谷歌开发者
文/王晶，资深工程师，GoogleBrain团队作者王晶，现为GoogleBrain团队的资深工程师，主要致力深度强化学习的研发，和DeepMind团队在强化学习的应用上有许多合作。北京时间1月25日凌晨2点，DeepMind直播了他们的AIAlphaStar和人类顶尖的职业电竞选手对战星际争霸2。根据DeepMind介绍，AlphaStar在2018年12月10日和19日先后以5：0全胜的战绩击
**双生“基尼”**：跨越世纪的术语撞车与学科分野
在学术的宇宙中，“基尼”（Gini）这个名字如同一个奇特的星标，闪耀在两个看似毫不相关的领域：衡量社会贫富差距的经济学与驱动人工智能的机器学习。然而，当人们在这两个领域都遇到“基尼指数”或“基尼系数”时，困惑油然而生——它们为何如此不同？又为何共享同一个名字？这不是某个“傻逼”的随意命名，而是一场跨越学科与世纪的“术语交通事故”，其背后是学术传承与概念抽象的交织。本文由「大千AI助手」原创发布，专
AI算力综述和资料整理木鱼时刻人工智能
目录总体介绍计算精度传输协议GPU池化资源调度CUDA技术GPU硬件参考链接总体介绍AI算力是人工智能系统的核心基础设施，涵盖了从计算精度、传输协议到硬件架构的完整技术栈。计算精度混合精度训练原生满血版DeepSeek671B是FP8精度。FP16在训练计算力占比有80-90%，FP32占比10%-20%。大模型训练中通常会用到FP16（半精度浮点数），但并不是只使用FP16，而是采用**混合精度
大模型系列——Ollama WebUI 简明教程猫猫姐大模型大模型人工智能
大模型系列——OllamaWebUI简明教程OpenWebUI，以前称为OllamaWebUI，支持各种大型语言模型(LLM)运行器，是本地部署并与语言模型交互的多功能工具。OpenWebUI，以前称为OllamaWebUI，是一个可扩展、功能丰富且用户友好的自托管Web界面，旨在完全离线运行。它支持各种大型语言模型(LLM)运行器，使其成为部署和与语言模型交互的多功能工具。OpenWebUI提供
【学习】《算法图解》第七章学习笔记：树程序员
前言在前面的章节中，我们学习了数组、链表、散列表等基本数据结构，以及一些基础算法。本章将介绍一种非常重要的数据结构——树(Tree)，特别是二叉搜索树(BinarySearchTree)。树结构在计算机科学中应用广泛，从文件系统到数据库再到人工智能，都能看到树的身影。《算法图解》第七章深入浅出地介绍了树的基本概念、实现和应用，帮助读者理解这一关键数据结构。一、树的基本概念（一）什么是树树是一种分层
智能体综述和参考资料整理木鱼时刻大模型人工智能
目录总体介绍核心组件记忆系统工具系统计划与推理开发框架Single-AgentMulti-Agent智能体平台技术实现通信协议角色系统对话记忆MCP协议参考链接总体介绍智能体（AIAgents）是人工智能领域的重要发展方向，它们能够通过传感器感知环境并通过执行器对环境采取行动。根据罗素和诺维格在《人工智能：一种现代方法》（2016年）中的定义，AIAgent是任何可以通过传感器感知其环境并通过执行
主流AI代码编程工具分享 scuter_yu ai ai编程
在当今数字化时代，AI代码编程工具已成为提升开发效率、优化代码质量的重要助手。这些工具利用人工智能技术，为开发者提供从代码生成、补全到调试、优化等一系列功能，极大地简化了编程流程，让编程变得更加高效、便捷和智能。以下将介绍几款热门的AI代码编程工具。通义灵码产品介绍：通义灵码是阿里云出品的基于通义大模型的智能编程辅助工具，提供行级/函数级实时续写、自然语言生成代码、单元测试生成、代码优化、注释生成
Deepoc大模型在半导体技术芯片性能应用协助突破物理极限 Deepoch 人工智能网络智能化 AI 科技数据分析硬件工程信息与通信
半导体垂直大模型在芯片设计中的应用与技术突破半导体垂直大模型（SemiconductorVerticalLLM）是专为芯片设计、制造与优化领域训练的大规模人工智能模型，其通过融合半导体物理、工艺知识、设计规则及行业经验，正在重构芯片开发全流程。以下从设计流程革新、性能优化、可靠性提升三大维度，结合具体技术路径与行业案例，解析其应用场景与价值。Deepoc模型在半导体技术应用中取得了巨大突破，可以协
[论文阅读] 软件工程 | 需求工程中领域知识研究：系统映射与创新突破张较瘦_ 前沿技术论文阅读软件工程
需求工程中领域知识研究：系统映射与创新突破论文信息DomainKnowledgeinRequirementsEngineering:ASystematicMappingStudyarXiv:2506.20754DomainKnowledgeinRequirementsEngineering:ASystematicMappingStudyMarinaAraújo,JúliaAraújo,RomeuO
卷积神经网络亿只小灿灿 Python 算法与数据结构人工智能 cnn 人工智能神经网络
一、引言在当今人工智能的浪潮中，卷积神经网络（ConvolutionalNeuralNetwork，CNN）无疑是一颗璀璨的明星。它在图像识别、语音处理、自然语言处理等众多领域取得了巨大的成功，极大地推动了人工智能技术的发展。那么，什么是卷积神经网络？它的算法原理是什么？本文将深入探讨这些问题，并通过Python代码实现一个简单的卷积神经网络，以帮助读者更好地理解和掌握这一强大的技术。二、卷积神经
Python pdfminer.six库【PDF解析库】全面使用指南老胖闲聊 Python库大全 python pdf 开发语言
想全面了解DeepSeek的看过来【包邮】DeepSeek全攻略人人需要的AI通识课零基础掌握DeepSeek的实用操作手册指南【限量作者亲笔签名版售完即止】玩转DeepSeek这本就够了【自营包邮】DeepSeek实战指南deepseek从入门到精通实用操作指南现代科技科普读物AI普及知识读物人工智能使用教程中小学读物京东超级618Python初学者的入门教程动手学深度学习PyTorch版李沐和
HCCDA – AI华为云人工智能开发者认证-60道单选题题库及答案_华为人工智能入门级开发者认证题库 2401_89172925 人工智能华为云华为
单选题及答案AI模型的评测指标主要分为精度指标和性能指标，以下哪一项不属于常用的性能指标？A.FPS(FramesPerSecond)B.FLOPs(Floating-pointOperationsPerSecond)C.aPs（QueryPerSecond）D．F1值Mask＿Detection技能模板提供了口罩检测技能，针对每个人，若没有检测到人脸，也没有检测到口罩，则会显示什么信息？A.No
Agent-to-Agent (A2A) 协议全面解析：定义、原理、应用与未来 C7211BA a2a llm mcp
Agent-to-Agent(A2A)协议全面解析：定义、原理、应用与未来在人工智能技术迅猛发展的今天，AI智能体(Agent)正从独立运作向协同工作演进，而Agent-to-Agent(A2A)协议作为这一转变的关键基础设施，正在重塑AI生态系统的协作方式。本文将从A2A协议的基本定义出发，深入剖析其设计原则、核心机制、技术实现、与MCP协议的对比关系、安全考量以及实际应用场景，帮助读者全面理解
人工智能中的知识图谱与向量数据库：选择与应用指南 AI Agent首席体验官人工智能知识图谱数据库
1.人工智能领域，知识图谱是什么？知识图谱是人工智能和语义网领域的一个重要概念，它是一种结构化的知识表示方法，用于存储实体之间的语义关系。知识图谱基本上是由节点（实体）和边（关系）组成的图结构：节点：代表现实世界中的实体或概念，如人物、地点、组织等边：代表实体间的语义关系，如"出生于"、“工作于”、"创立了"等知识图谱的主要特点和应用包括：语义网络表示：以三元组形式（主体-关系-客体）存储知识，如
微调大语言模型(生成任务)，怎么评估它到底“变好”了？茫茫人海一粒沙语言模型人工智能自然语言处理
随着大语言模型（如GPT、LLaMA）的广泛应用，越来越多团队开始基于它们做微调，定制符合自己业务需求的模型。微调虽能让模型更贴合任务，但评估是否真的“变好”却不是简单的事。本文将系统介绍微调过程中和微调完成后，如何科学有效地评估模型效果，帮助你用对指标，做出准确判断。一、微调时的评估：关注训练过程中的模型表现1.验证集Loss（ValidationLoss）微调训练时，我们会准备一部分数据作为验
【AI大模型】26、算力受限下的模型工程：从LoRA到弹性智能系统的优化实践无心水 AI大模型人工智能搜索引擎 LoRA 大语言模型微调模型压缩知识蒸馏量化技术
引言：算力瓶颈与模型工程的突围之路在人工智能领域，大语言模型的发展正呈现出参数规模爆炸式增长的趋势。从GPT-3的1750亿参数到PaLM的5400亿参数，模型能力的提升往往伴随着对算力资源的极度渴求。然而，对于大多数企业和研究者而言，动辄数百GB的显存需求、数十万块GPU的训练集群显然是难以企及的"算力鸿沟"。当面对"无米之炊"的困境时，模型工程技术成为突破算力瓶颈的核心路径——通过算法创新而非
这份「零基础」机器学习实战课程，帮你彻底搞懂AI不再迷茫！——深度解析ML-For-Beginners wylee 人工智能机器学习
引言：告别迷茫，拥抱AI未来在当今科技浪潮之巅，人工智能（AI）无疑是最璀璨的明星。机器学习（MachineLearning），作为AI的核心驱动力，正以前所未有的速度渗透到我们生活的方方面面：从智能推荐系统到自动驾驶，从疾病诊断到金融风控，其应用场景几乎无处不在。然而，对于无数渴望投身AI领域的学习者而言，机器学习的门槛似乎一直高不可攀。你是否也曾有过这样的困惑：面对海量的在线课程和资料，眼花缭
【AI】为Cursor配置MCP服务器自学也学好编程 AI MCP 人工智能 ai AI编程
title:【AI】为Cursor配置MCP服务器categories:AItags:CursorMCPAI编程开发工具AI一、Cursor与MCP服务简介Cursor是一款AI驱动的代码编辑器，通过集成大型语言模型（LLM）帮助开发者更高效地编写代码。而MCP（ModelContextProtocol）是由Anthropic推出的开放标准协议，它允许AI模型与外部工具、数据和系统无缝交互，极大扩
【学习】《算法图解》第七章学习笔记：树自学也学好编程程序人生
前言在前面的章节中，我们学习了数组、链表、散列表等基本数据结构，以及一些基础算法。本章将介绍一种非常重要的数据结构——树(Tree)，特别是二叉搜索树(BinarySearchTree)。树结构在计算机科学中应用广泛，从文件系统到数据库再到人工智能，都能看到树的身影。《算法图解》第七章深入浅出地介绍了树的基本概念、实现和应用，帮助读者理解这一关键数据结构。一、树的基本概念（一）什么是树树是一种分层
提示工程入门指南：如何有效地与大语言模型交互止观止大语言模型语言模型人工智能
本文深入拆解提示工程的核心概念、最佳实践和实用技巧。作为AI领域的热点技术，提示工程（PromptEngineering）能显著提升大语言模型（LargeLanguageModel,LLM）如DeepSeek的响应质量。文档结构概览引言：为什么需要提示工程？提示的定义与结构：上下文、指令、约束的完整解析提示工程原则：6项核心技巧有效vs无效提示对比：案例驱动的实操分析用户提示与系统提示：行为控制的
微软人工智能证书AI-102 | 如何快速通过？全球认证考试中心人工智能微软
微软AI-102考试，全称“DesigningandImplementingaMicrosoftAzureAISolution”，是微软推出的用于验证考生在Azure平台上设计和实施AI解决方案核心能力的认证考试。以下是具体介绍：考试描述：考试主要衡量考生实施计划和管理Azure认知服务解决方案、计算机视觉解决方案、自然语言处理解决方案、知识挖掘解决方案、对话式AI解决方案的能力。考试题型通常包括
Bagel: 开源协作式AI数据管理平台的使用指南 llzwxh888 人工智能 python
Bagel:开源协作式AI数据管理平台的使用指南引言在人工智能和机器学习领域，高质量的数据集对于模型训练和推理至关重要。Bagel作为一个开源的协作式AI数据管理平台，为开发者和研究人员提供了一个强大的工具，用于创建、共享和管理推理数据集。本文将深入探讨Bagel的特性、安装方法以及如何使用它来处理和管理向量数据。Bagel简介Bagel（OpenInferenceplatformforAI）可以
Midscene.js介绍和使用望华笙测试工具 ui 前端
Midscene.js介绍和使用由于课程任务的需要，本人去寻找了AI+软件测试的相关应用，发现了Midscene这一便利的UI自动化测试工具。本篇博客主要对Midscene作了介绍，也给出了本人在使用Midscene过程中遇到的问题及摸索到的解决方案。Midscene.js是一个开源的基于多模态大型语言模型的UI自动化测试工具，它是由字节的web-infra团队开发。它能够智能地“解析”用户界面并
Python开发AI智能体(三)———Langchain定义提示词模板【本人】 Agent智能体 python 人工智能 langchain 语言模型
前言上篇文章给大家介绍AI项目检测平台LangSmish以及开源框架Langchain的使用，并且带领大家编写了一个案例。这篇文章将介绍在Langchain框架中如何定义提示词模板一、什么是提示词模板？提示词模板（PromptTemplate）是大语言模型（LLM）应用开发中的核心概念，本质是预定义的提示结构框架。它通过将静态文本与动态变量结合，实现标准化、可复用的提示生成机制。它提示词可以是一个
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23