睡熊猛醒

ERNIE: Enhanced Representation through Knowledge Integration（百度）论文翻译

paper：https://arxiv.org/pdf/1904.09223.pdf

code：https://github.com/PaddlePaddle/LARK/tree/develop/ERNIE

文前总结

ERNIE相比于BERT，做出了如下改进：

1.mask策略。BERT只使用了字级别的随机masking，但是ERNIE使用了字、实体、短语三个级别的masking，旨在使模型学习到更多高级的语义。

2.中文异构数据预训练。对异构无监督数据进行预训练的语义编码器可以提高迁移学习性能。百度构建了混合语料库——中文Wikepedia，百度百科，百度新闻和百度贴吧。

3.对话语言模型。DLM任务可帮助ERNIE学习对话中的隐式关系，这也增强了模型学习语义表示的能力。

0.摘要

我们提出了一种新的语言表示模型，该模型称为ERNIE（通过知识集成的增强表示）。受到BERT掩盖策略的启发（Devlin等人，2018），ERNIE被设计为学习通过知识掩盖策略增强的语言表示，其中包括实体级掩盖和短语级掩盖。实体级策略可掩盖通常由多个单词组成的实体。短语级策略掩盖了整个短语，该短语由几个词组成，作为一个概念单元。实验结果表明，ERNIE优于其他基准方法，在五个自然语言处理任务（包括自然语言推理，语义相似性，命名实体识别，情感分析和问题解答）上取得了最新的最新成果。我们还证明ERNIE在完形填空测试中具有更强大的知识推理能力。

1.简介

事实证明，语言表示预训练可以有效地改善许多自然语言处理任务，例如命名实体识别，情感分析和问题解答。为了获得可靠的单词表示，设计了神经语言模型来学习单词共现，然后在无监督学习的情况下获得单词嵌入。 Word2Vec和Glove中的方法将单词表示为矢量，其中相似的单词具有相似的单词表示形式。这些单词表示为其他深度学习模型中的单词向量提供了初始化。最近，Cove，Elmo，GPT和BERT等许多作品通过不同的策略改进了单词表示，这已被证明对于下游自然语言处理任务更为有效。

这些研究中的绝大多数通过仅通过上下文来预测丢失的单词来对表示进行建模。这些作品没有考虑句子中的先验知识。例如，在“哈利·波特是由J·罗琳撰写的一系列幻想小说”一句中。哈利·波特（Harry Potter）是一个新颖的名字，而罗琳（J. K. Rowling）是作家。该模型很容易通过实体内的单词搭配来预测实体Harry Potter的缺失单词，而无需借助较长的上下文。该模型无法根据哈利·波特与J·K·罗琳之间的关系预测哈利·波特。 直观的是，如果模型学习了有关先验知识的更多信息，则该模型可以获得更可靠的语言表示。

在本文中，我们提出了一种使用知识掩盖策略的名为ERNIE（通过知识集成的增强表示）的模型。除了基本的掩蔽策略外，我们还使用两种知识策略：短语级策略和实体级策略。我们将一个短语或一个实体作为一个单元，通常由多个单词组成。在单词表示训练期间，同一单元中的所有单词都被屏蔽，而不是仅一个单词或字符被屏蔽。以这种方式，在训练过程中隐式地学习了短语和实体的先验知识。ERNIE没有直接添加知识嵌入的知识，而是隐式地学习了有关知识和较长语义依赖性的信息，例如实体之间的关系，实体的属性和事件的类型，以指导单词嵌入学习。这可以使模型具有更好的概括性和适应性。

为了减少模型的训练成本，对ERNIE进行了异类中文数据的预训练，然后将其应用于5个中文NLP任务。 ERNIE在所有这些任务上都提供了最新的成果。完形填空测试的另一个实验表明，与其他强大的基线方法相比，ERNIE具有更好的知识推理能力。

我们的贡献如下：

（1）我们引入了一种新的语言模型学习处理方法，该方法掩盖了诸如短语和实体之类的单元，以便从这些单元隐式地学习语法和语义信息。

（2）ERNIE在各种中文自然语言处理任务上明显优于以前的最新方法。

（3）我们发布了ERNIE和预训练模型的代码。

2 相关工作

2.1 上下文无关的表示

将单词表示为连续向量已有很长的历史。（Bengio et al，2003）提出了一种非常流行的用于估计神经网络语言模型（NNLM）的模型架构，其中使用具有线性投影层和非线性隐藏层的前馈神经网络来学习词向量表示。

通过使用大量未标记的数据来预训练语言模型，学习通用的语言表示的方法是有效的。传统方法着重于上下文无关的词嵌入。诸如Word2Vec（Mikolov等，2013）和Glove（Pennington等，2014）之类的方法将大量文本集作为输入，并产生通常在几百个维度上的词向量。它们为词汇表中的每个单词生成单个单词嵌入表示。

2.2 情境感知表示

但是，单词在上下文中可能具有完全不同的意义或含义。 Skip-thought（Kiros et al，2015）提出了一种通用的分布式句子编码器的无监督学习方法。 Cove（McCann et al，2017）表明，与在各种常见的NLP任务上仅使用无监督的单词和字符向量相比，添加这些上下文向量可以提高性能。 ULMFit（Howard and Ruder，2018）提出了一种有效的转移学习方法，该方法可以应用于NLP中的任何任务。 ELMo（Peters等人，2018）从不同维度概括了传统单词嵌入研究。他们建议从语言模型中提取上下文相关的功能。 GPT（Radford等人，2018）通过修改Transformer增强了上下文相关的嵌入。

BERT（Devlin等人，2018）使用两种不同的预训练任务进行语言建模。 BERT随机掩盖句子中一定比例的单词，并学习预测那些被掩盖的单词。此外，BERT学习预测两个句子是否相邻。该任务试图对传统语言模型无法捕获的两个句子之间的关系进行建模。因此，这种特殊的预训练方案可以帮助BERT在各种关键的NLP数据集（例如GLUE（Wang等人，2018）和SQUAD（Rajpurkar等人，2016）等）上大大超越最新技术。

其他一些研究人员尝试根据这些模型添加更多信息。 MT-DNN（Liu等人，2019）结合了预训练学习和多任务学习，以提高GLUE中多个不同任务的绩效（Wang等人，2018）。 GPT-2（Radford等人，2019）将任务信息添加到了预训练过程中，并使他们的模型适应零样本任务。 XLM（Lample and Conneau，2019）在预训练过程中增加了语言嵌入功能，从而在跨语言任务中取得了更好的结果。

2.3 异构数据

对异构无监督数据进行预训练的语义编码器可以提高迁移学习性能。通用句子编码器（Cer等人，2018）采用了来自Wikipedia，网络新闻，Web质量检查页面和讨论论坛的异构训练数据。基于响应预测的句子编码器（Yang等，2018）受益于从Reddit对话中提取的查询-响应对数据。 XLM（Lample和Conneau，2019年）向BERT引入了并行语料库，它与掩盖语言模型任务一起接受了训练。通过对异构数据进行预训练的Transformer模型，XLM在监督/非监督MT任务和分类任务上显示出巨大的性能提升。

3. 方法论

在本节中，我们将介绍ERNIE及其详细实现。我们首先描述模型的Tran编码器，然后在3.2节中介绍知识集成方法。 BERT和ERNIE的比较如图1所示。

区别就是BERT是字输入字掩码，ERNIE是字输入词掩码，而这个识别词的过程就是加入知识整合的点。

3.1 Transformer编码器

ERNIE使用多层Transformer （Vaswani et al，2017）作为基本编码器，类似于之前的预训练模型，例如GPT，BERT和XLM。 Transformer 可以通过自我关注来捕获句子中每个标记的上下文信息，并生成一系列上下文嵌入。

对于中文语料库，我们在CJK Unicode范围内的每个字符周围添加空格，并使用WordPiece（Wu等人，2016）对中文句子进行标记化。对于给定的令牌，其输入表示形式是通过将相应的令牌，段和位置嵌入相加来构造的。每个序列的第一个标记是特殊分类嵌入（[CLS]）。

3.2 知识整合

我们使用先验知识来增强我们的预训练语言模型。我们提出了一种多阶段的知识掩盖策略，而不是直接添加知识嵌入，而是将短语和实体级知识集成到语言表示中。句子的不同掩蔽级别在图2中进行了描述。

3.2.1基本级别掩码

第一个学习阶段是使用基本级别掩盖，它将句子作为基本语言单位的序列，对于英语，基本语言单位是单词，对于中文，基本语言单位是汉字。在训练过程中，我们随机掩盖15％的基本语言单元，并使用句子中的其他基本单元作为输入，并训练一个Transformer来预测掩盖单元。和BERT一样的操作，基于基本级别的掩码，学习低级语义。

3.2.2 短语级别掩码

第二阶段是采用短语级别的屏蔽。词组是一小部分单词或字符，一起充当概念单元。对于英语，我们使用词法分析和分块工具来获取句子中短语的边界，并使用一些依赖于语言的分段工具来获取其他语言（例如中文）的词/短语信息。 在短语级掩码阶段，我们还使用基本语言单元作为训练输入，这与随机基本单元掩码不同，这次我们随机选择句子中的几个短语，掩盖并预测同一短语中的所有基本单元。在此阶段，短语信息被编码到单词嵌入中。

3.2.3实体级别掩码

第三阶段是实体级屏蔽。名称实体包含人员，位置，组织，产品等，可以用专有名称表示。它可以是抽象的，也可以是物理存在的。通常，实体在句子中包含重要信息。与短语屏蔽阶段一样，我们首先分析句子中的命名实体，然后屏蔽并预测实体中的所有时隙。经过三个阶段的学习，获得了通过更丰富的语义信息增强的单词表示。

4 实验

ERNIE was chosen to have the same model size as BERT-base for comparison purposes. ERNIE uses 12 encoder layers, 768 hidden units and 12 attention heads.

4.1异构语料库预训练

ERNIE采用异构语料库进行预训练。我们构建了混合语料库——中国Wikepedia，百度百科，百度新闻和百度贴吧。句子数分别是21M，51M，47M，54M。百度百科包含用正式语言编写的百科全书文章，这些文章被用作语言建模的强大基础。百度新闻提供有关电影名称，演员名称，足球队名称等的最新信息。百度贴吧是一个类似Reddits的开放讨论论坛，每个帖子都可以视为对话话题。在我们的DLM任务中使用Tieba语料库，这将在下一部分中讨论。

我们对汉字执行从传统到简体的转换，对英文字母执行大写到小写的转换。我们为模型使用了17,964个unicode字符的共享词汇表。

4.2 对话语言模型

对话数据对于语义表示很重要，因为相同答复的相应查询语义通常很相似。 ERNIE在DLM（对话语言模型）任务上对查询-响应对话结构进行建模。如图3所示，我们的方法引入了对话嵌入（dialogue embedding）来识别对话中的角色，这与通用句子编码器的方法不同（Cer等人，2018）。 ERNIE的“对话”嵌入功能与BERT中的令牌类型嵌入功能相同，不同之处在于ERNIE还可以表示多回合对话（例如QRQ，QRR，QQR，其中Q和R分别代表“查询”和“响应”）。像BERT中的MLM一样，使用掩码来强制使模型预测以查询和响应为条件的缺失词。而且，我们通过用随机选择的句子替换查询或响应来生成假样本。该模型旨在判断多回合对话是真实的还是假的。

DLM任务可帮助ERNIE学习对话中的隐式关系，这也增强了模型学习语义表示的能力。DLM任务的模型体系结构与MLM任务的模型体系结构兼容，因此可以通过MLM任务对其进行预训练。

4.3 中文NLP的实验项目

ERNIE被应用于5个中文NLP任务，包括自然语言推理，语义相似性，命名实体识别，情感分析和问答对。

4.3.1 自然语言推理

跨语言自然语言推理（XNLI）语料库（Liu等人，2019）是MultiNLI语料库的众包集合。两对文字加上文字说明，并被翻译成包括中文在内的14种语言。标签包含矛盾，中立和包含。我们遵循BERT中的中文实验（Devlin等，2018）。

4.3.2 语义相似度

大规模中文问题匹配语料库（LCQMC）（Liu等人，2018）旨在识别两个句子是否具有相同的意图。数据集中的每一对句子都与一个二进制标签相关联，该二进制标签指示两个句子是否共享相同的意图，并且可以将该任务形式化为预测二进制标签。

4.3.3 命名实体识别

MSRA-NER数据集用于命名实体识别，由Microsoft Research Asia发布。实体包含几种类型，包括人员姓名，地名，组织名称等。该任务可以看作是序列标记任务。

4.3.4 情感分析

ChnSentiCorp（Song-bo）是一个数据集，旨在判断句子的情感。它包括酒店，书籍和电子计算机等多个领域的评论。该任务的目的是判断句子是肯定的还是否定的。

4.3.5 检索问题回答

NLPCC-DBQA数据集（http://tcci.ccf.org.cn/conference/2016/dldoc/evagline2.pdf）的目标是选择相应问题的答案。该数据集的评估方法包括MRR（Voorhees，2001）和F1得分。

4.4 实验结果

4.5 消融研究

为了更好地了解ERNIE，我们将在本节中对ERNIE的每种策略进行消融实验。

4.5.1 知识屏蔽策略的效果

我们从整个语料库中抽取10％的训练数据，以验证知识掩盖策略的有效性。结果显示在表2中。我们可以看到，将短语级掩码添加到基线单词级掩码可以改善模型的性能。在此基础上，我们添加了实体级屏蔽策略，从而进一步提高了模型的性能。此外。结果还显示，使用预训练数据集的大小大10倍，XNLI测试集可实现0.8％的性能提升。

4.5.2 DLM的效果

我们也对DLM任务进行了消融研究。我们使用不同比例的所有训练语料库的10％来说明DLM任务对XNLI开发集的贡献。我们对这些数据集从头开始对ERNIE进行了预训练，并从5次随机重新启动微调中报告了XNLI任务的平均结果。表3给出了详细的实验设置和开发设置结果，我们可以看到，在此DLM任务中，开发/测试精度提高了0.7％/ 1.0％。

4.6 完形填空

我们比较了BERT和ERNIE的预测。

在情况1中，BERT尝试复制出现在上下文中的名称，而ERNIE则记住了文章中提到的有关关系的知识。

在情况2和情况5中，BERT可以根据上下文成功学习模式，因此可以正确预测命名的实体类型，但是无法使用正确的实体填充插槽。相反，ERNIE可以使用正确的实体填充插槽。

在情况3、4、6中，BERT用与句子相关的几个字符填充了空位，但是很难预测语义概念。 ERNIE可以预测除情况4之外的正确实体。尽管ERNIE在情况4中预测了错误的实体，但它可以正确地预测语义类型，并用一个澳大利亚城市填充该位置。

总之，这些案例表明ERNIE在基于上下文的知识推理中表现更好。

5 总结

在本文中，我们提出了一种将知识整合到预训练语言模型中的新方法。对5种中文处理任务的实验表明，在所有这些任务上，我们的方法均优于BERT。我们还确认，知识整合和对异构数据的预训练都使模型能够获得更好的语言表示。 将来，我们会将其他类型的知识集成到语义表示模型中，例如使用语法分析或来自其他任务的弱监督信号。此外，我们还将以其他语言验证该想法。

当争论者还在讨论AI的边界，实践者早已用这些技术解决实际问题渡难繁辰人工智能拥抱AI 人工智能 ai
——普通人参与AI革命的关键路径一、AI应用五大核心组件（通俗拆解版）1️⃣LLM：AI的「决策核心」本质：大型语言模型（如DeepSeek、通义千问），具备语言理解与生成能力能力边界：✅处理文本类任务（写作/翻译/摘要）❌无法获取实时信息（如最新股价）⚠️存在“幻觉”（虚构信息）风险案例对比：问：“鲁迅和周树人什么关系？”基础LLM：“两位都是著名作家”（错误）增强版LLM：“周树人是鲁迅本名”
Python 爬虫实战：Selenium 爬取豆瓣相册（图片分类 + 标签提取）西攻城狮北 python 爬虫 selenium
一、引言豆瓣作为国内知名的社区平台，其相册功能允许用户上传和分享各类图片，涵盖电影海报、音乐专辑、生活记录等多个领域。这些图片数据对于了解用户兴趣、进行内容推荐和市场调研具有重要价值。然而，豆瓣对直接的数据访问设定了诸多限制，因此，本文将介绍如何通过Python爬虫技术结合Selenium自动化工具，合法高效地爬取豆瓣相册图片，并运用深度学习技术实现图片分类和标签提取。二、开发环境搭建（一）编程语
PagedAttention和Continuous Batching 流浪大人大模型深度学习人工智能机器学习
PagedAttention是什么PagedAttention是一种用于优化Transformer架构中注意力机制的技术，主要用于提高大语言模型在推理阶段的效率，特别是在处理长序列数据时能有效减少内存碎片和提高内存利用率。它借鉴了操作系统中虚拟内存分页机制的思想。工作原理传统注意力机制的局限性：传统的注意力机制在处理长序列时，需要为每个位置计算注意力得分并存储中间结果，这会导致内存占用随着序列长度
【深度学习】大模型GLM-4-9B Chat ，微调与部署(3) TensorRT-LLM、TensorRT量化加速、Triton部署 XD742971636 深度学习机器学习深度学习人工智能
文章目录获取TensorRT-LLM代码：构建docker镜像并安装TensorRT-LLM：运行docker镜像：安装依赖魔改下部分package代码：量化：构建图：全局参数插件配置常用配置参数测试推理是否可以代码推理CLI推理性能测试小结验证是否严重退化使用NVIDIATriton部署在线推理服务器代码弄下来编译镜像启动容器安装依赖量化构建trtengines图Triton模板说明实操发起Tr
大白话解释深度学习中多尺度特征融合及其意义来自宇宙的曹先生深度学习人工智能
想象一下，你正在看一幅城市街道的照片。在这张照片中，你可能会看到：远处的小汽车，它们在图像中看起来很小。近处的大巴士，它们在图像中看起来很大。还有一些行人，他们可能在不同的距离上，大小各异。假设你想训练一个计算机程序来识别和分割这些不同的物体（汽车、巴士、行人）。如果这个程序只能在一个固定的尺度上“看”图像，比如说只能处理大物体，它可能会错过那些远处的小汽车，因为这些小汽车在图像中占据的像素很少。
Spring Boot + 本地部署大模型实现：安全性与可靠性保障代码老y spring boot bootstrap 后端
在将大语言模型集成到SpringBoot应用中时，安全性和可靠性是两个关键因素。本地部署的大模型虽然提供了强大的功能，但也可能带来一些安全风险，如数据泄露、模型被恶意利用等。本文将介绍如何在SpringBoot应用中保障本地部署大模型的安全性和可靠性，确保应用的稳定运行。一、安全性保障（一）数据加密传输加密：确保模型生成的结果在传输过程中被加密，防止数据在传输过程中被窃取。可以使用HTTPS协议来
想要了解大模型，看懂这一篇就够了！大模型工作流程及核心参数介绍！ Gq.xxu qwen3 vllm transforms 大语言模型部署深度学习人工智能
若想深入探究大模型核心参数的效果与作用，就务必先弄清大模型的工作流程，明确核心参数在流程各阶段的效能与功能，知晓其具体含义。一，大模型的工作流程大模型运行时的工作原理可以概括为输入处理→特征提取→模型推理→结果生成四个核心阶段，整个过程融合了深度学习架构、自然语言处理技术以及分布式计算能力。从用户输入到大模型输出，整个工作的处理流程如下：输入文本→分词→嵌入+位置编码→Transformer多层处
「源力觉醒创作者计划」_以FastDeploy为例部署ERNIE-4.5-21B大模型全流程实践 cooldream2009 大模型基础 AI技术文心大模型 FastDeploy
目录前言1环境准备与依赖安装1.1硬件要求1.2Python环境与pip升级2下载ERNIE-4.5模型权重2.1安装HuggingFaceCLI工具2.2设置国内镜像加速（可选）2.3下载模型文件3安装FastDeploy与Paddle推理引擎3.1安装PaddlePaddle-GPU版本3.2安装FastDeploy-GPU4启动ERNIE-4.5本地服务4.1启动OpenAI兼容API服务4
深度学习-Tensor
Tensor张量：与numpy中的ndarray不同之处：tensor可以在GPU或其他专用硬件上运行，以加速计算。一、Tensor初始化1.直接从数据中创建data=[[1,2],[3,4]]x_data=torch.tensor(data)2.从numpy数组创建np_array=np.array(data)x_np=torch.from_numpy(np_array)3.从另一个Tensor
MCP客户端请求MCP服务器资源的Python SDK实现 AI天才研究院计算 AI人工智能与大数据 Python实战 python 开发语言 ai 服务器
我将为您提供一个详细的指南，说明如何使用PythonSDK让MCP客户端请求MCP服务器的资源。MCP客户端请求MCP服务器资源的PythonSDK实现核心概念ModelContextProtocol(MCP)是一个标准化协议，允许应用程序以标准化的方式为大语言模型(LLM)提供上下文，将提供上下文的关注点与实际的LLM交互分离。MCP中的资源(Resources)是一种核心原语，允许服务器暴露数
基于存算一体架构的实时深度学习推理优化瑕疵热点资讯架构深度学习人工智能
博客主页：瑕疵的CSDN主页Gitee主页：瑕疵的gitee主页⏩文章专栏：《热点资讯》基于存算一体架构的实时深度学习推理优化基于存算一体架构的实时深度学习推理优化基于存算一体架构的实时深度学习推理优化引言存算一体架构的核心优势1.能效比突破2.实时性保障架构设计与实现技术1.存储单元创新2.硬件加速器设计3.电路级优化深度学习推理优化策略1.模型压缩技术2.硬件-软件协同优化3.运行时调度典型应
人工智能LLM | 基础配置 | 通过环境变量配置API-KEY 一文通教程 H-大叔人工智能大模型实战与教程人工智能
在实战开发大语言模型的过程中，经常会遇到各种API-KEY的配置问题，例如GPTOpenAIKEY的配置，而且目前大部分都要求将其配置在环境变量中，下面将会讲解如何在Linux、macOS、Windows中配置，本文一文通教程。您可以使用配置环境变量的方法，避免在调用各种SDK时显式地配置API-KEY，从而降低泄漏风险。环境变量是操作系统中用于存储有关系统环境的信息的变量。您可以通过环境变量来配
「论文导读」LLM高效推理与模型量化雷羿 LexChien prompt 人工智能 LLM 论文阅读
1.论文背景作者：HugoTouvron等人，來自MetaAI来源：arXiv:2302.13971，2023年2月主题：介绍LLaMA系列模型（LLaMA-7B、13B、33B、65B），专为研究用途设计，强调高效能与低资源需求的语言模型推理。论文探讨如何通过优化训练数据、模型架构和推理技术，在有限硬体资源（如单一GPU或CPU）上实现高效推理。学术背景：随着大型语言模型（LLM）如GPT-3的
AlphaEvolve：谷歌的算法进化引擎 | 从数学证明到芯片设计的AI自主发现新纪元大千AI助手人工智能 Python #OTHER 算法人工智能深度学习 AlphaEvolve google gemini
AlphaEvolve：谷歌的算法进化引擎|从数学证明到芯片设计的AI自主发现新纪元——结合大语言模型与进化计算，重塑科学发现与工程优化的通用智能体本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！⚙️一、核心定义与技术架构AlphaEvolve是由谷歌DeepMind开发的通用科学AI智能体，其核心
vLLM 的逻辑与运作机制 a李兆洋大模型推理
vLLM的逻辑与运作机制vLLM作为一种高效的推理框架，逐渐成为研究和应用的热点。vLLM的核心在于如何高效地管理和调度模型推理任务，以最大化利用计算资源并提高推理效率。一、vLLM是如何运作的？vLLM是一种虚拟化的大语言模型推理框架，它通过高效的资源管理和调度机制，使得大规模语言模型的推理任务能够更加高效地运行。vLLM的核心逻辑是LLMEngine，它负责处理和调度推理请求，管理KVcach
【深度学习新浪潮】什么是上下文长度？小米玄戒Andrew 深度学习新浪潮深度学习人工智能 LLM 语言模型大模型模型优化上下文长度
大型语言模型（LLM）的上下文长度是指模型在处理当前输入时能够有效利用的历史文本长度，通常以token（如单词、子词或标点）为单位衡量。例如，GPT-4支持128Ktoken的上下文，而Llama4Scout甚至达到了10Mtoken的惊人规模。这一指标直接影响模型在长文档理解、多轮对话等复杂任务中的表现。一、上下文长度的合理范围上下文长度的选择需结合具体应用场景：日常对话：通常需要8K–32Kt
Manus AI与多语言手写识别 tonngw 人工智能
技术文章大纲：ManusAI与多语言手写识别引言手写识别技术的发展背景与市场需求ManusAI的定位与核心技术优势多语言场景下的挑战与机遇ManusAI的核心技术架构基于深度学习的端到端手写识别模型多模态数据融合（笔迹压力、书写轨迹等）自适应语言模型与字符集扩展机制多语言手写识别的关键技术非拉丁语系（中文、阿拉伯语等）的笔迹特征提取小样本语言数据的迁移学习策略上下文感知与语法纠错在低资源语言中的应
Python机器学习与深度学习：决策树、随机森林、XGBoost与LightGBM、迁移学习、循环神经网络、长短时记忆网络、时间卷积网络、自编码器、生成对抗网络、YOLO目标检测等 WangYan2022 机器学习/深度学习 Python 机器学习深度学习随机森林迁移学习
融合最新技术动态与实战经验，旨在系统提升以下能力：①掌握ChatGPT、DeepSeek等大语言模型在代码生成、模型调试、实验设计、论文撰写等方面的实际应用技巧②深入理解深度学习与经典机器学习算法的关联与差异，掌握其理论基础③熟练运用PyTorch实现各类深度学习模型，包括迁移学习、循环神经网络（RNN）、长短时记忆网络（LSTM）、时间卷积网络（TCN）、自编码器、生成对抗网络（GAN）、YOL
大模型开源与国产化突围：技术路径与产业机遇深度解析梦玄海开源架构 golang 开发语言后端大数据
引言：大模型时代的双轨竞速2023年全球大语言模型（LLM）参数量突破万亿级，GPT-4、LLaMA等模型引领技术浪潮。中国在这场竞赛中面临双重命题：既要融入全球开源生态，又要构建自主可控的技术体系。本文将从技术架构、训练范式、生态建设三个维度，深入剖析大模型开源与国产化的突围路径。一、全球开源格局与中国大模型现状1.1国际开源生态的演进特征技术民主化加速：LLaMA-2（700亿参数）、BLOO
【AI大模型】神经网络反向传播：核心原理与完整实现我爱一条柴ya 学习AI记录人工智能神经网络深度学习 ai AI编程
一、反向传播的本质与意义反向传播（Backpropagation）是神经网络训练的核心算法，通过链式法则高效计算损失函数对网络参数的梯度，实现神经网络的优化学习。它的出现解决了神经网络训练中的关键瓶颈，使深度学习成为可能。为什么需要反向传播？参数规模爆炸：现代神经网络有数百万至数十亿参数手动计算不可行：复杂网络梯度计算量指数级增长高效优化需求：梯度下降算法需要精确的梯度计算二、前向传播与反向传播对
基于YOLOv8深度学习架构的智能农业巡检小车系统—面向农作物与杂草实时精准识别的创新实践
1.科技赋能智慧农业随着全球人口的持续增长和农业生产面临的挑战，精准农业已成为现代农业发展的必然趋势。其中，农作物与杂草的精准识别是实现自动化、智能化管理的关键一环。传统的人工除草效率低下，化学除草则可能带来环境问题。因此，开发高效、精准、环保的智能农业系统迫在眉睫。本文将深入探讨一款基于深度学习和智能硬件集成的农田作业智能小车系统。我们将重点聚焦于其硬件系统设计、软件系统架构、核心算法创新(特别
多角色AI Agent：基于LLM的虚拟角色扮演系统 AI天才研究院 AI人工智能与大数据人工智能 ai
多角色AIAgent：基于LLM的虚拟角色扮演系统关键词多角色AIAgentLargeLanguageModel(LLM)虚拟角色扮演系统人工智能自然语言处理程序设计摘要本文旨在探讨多角色AIAgent的基础知识以及其如何在虚拟角色扮演系统中发挥作用。我们将首先介绍多角色AIAgent的概念、历史背景和基本原理。随后，我们将深入探讨LLM（大语言模型）在虚拟角色扮演系统中的应用，包括其工作原理、核
FastMCP：用于构建MCP服务器的开源Python框架 NetX行者 AI编程服务器开源 python
在人工智能领域，模型上下文协议（ModelContextProtocol，简称MCP）作为一种标准化的协议，为大型语言模型（LLM）提供了丰富的上下文和工具支持。而FastMCP作为构建MCP服务器和客户端的Python框架，以其简洁的API设计、高效的开发体验以及强大的扩展能力，正逐渐成为开发者们的首选工具。一、FastMCP简介FastMCP是一个用于构建MCP服务器和客户端的Python框架
Ubuntu下安装多版本CUDA及灵活切换全攻略芯作者 D2：ubuntu linux ubuntu
——释放深度学习潜能，告别版本依赖的烦恼！**为什么需要多版本CUDA？在深度学习、科学计算等领域，不同框架（TensorFlow、PyTorch等）对CUDA版本的要求各异。同时升级框架或维护旧项目时，版本冲突频发。多版本CUDA共存+一键切换是高效开发的刚需！本文将手把手教你实现这一能力，并分享独创的“动态软链接+环境隔离”技巧，让版本管理行云流水！环境准备硬件要求NVIDIA显卡（支持CUD
ReAct (Reason and Act) OR 强化学习（Reinforcement Learning, RL） SugarPPig 人工智能人工智能
这个问题触及了现代AI智能体（Agent）构建的两种核心思想。简单来说，ReAct是一种“调用专家”的模式，而强化学习(RL)是一种“从零试错”的模式。为了让你更清晰地理解，我们从一个生动的比喻开始，然后进行详细的对比。一个生动的比喻想象一下你要完成一项复杂的任务，比如“策划一场完美的生日派对”。ReAct的方式（像一位经验丰富的活动策划师）你是一位知识渊博的专家（大语言模型LLM）。你首先会思考
【文献精读笔记】Explainability for Large Language Models: A Survey （大语言模型的可解释性综述）（五）百万年薪天才少女人工智能人工智能机器学习深度学习
****非斜体正文为原文献内容（也包含笔者的补充），灰色块中是对文章细节的进一步详细解释！五、解释评估（ExplanationEvaluation）在前面的章节中，我们介绍了不同的解释技术和它们的用途，但评估它们如何忠实地反映模型的推理过程仍然是一个挑战。我们将评估大致分为两类：传统微调范式的局部解释评估（第5.1节）和提示范式中自然语言CoT解释的评估（第5.2节）。评估的两个关键维度是对人类的
深入详解 AI 与深度学习：从零开始掌握 BERT 模型架构拉不拉斯AICoding 技术探索人工智能深度学习 bert
深入详解AI与深度学习：从零开始掌握BERT模型架构引言在自然语言处理（NLP）领域，BERT（BidirectionalEncoderRepresentationsfromTransformers）是近年来最具影响力的模型之一。它通过双向上下文理解彻底改变了NLP任务的处理方式。本文将从基础概念到核心原理、应用场景和实践技巧，深入浅出地讲解BERT，帮助初学者快速掌握这一技术。一、BERT的核心
生成式人工智能实战 | 条件生成对抗网络（conditional Generative Adversarial Network, cGAN）盼小辉丶生成对抗网络神经网络深度学习生成式人工智能 pytorch
生成式人工智能实战|条件生成对抗网络0.前言1.条件生成对抗网络1.1GAN基础回顾1.2cGAN核心思想2.cGAN网络架构2.1数学原理2.2网络架构3.实现cGAN3.1环境准备与数据加载3.2模型构建3.3模型训练0.前言生成对抗网络(GenerativeAdversarialNetwork,GAN)是近年来深度学习领域最具突破性的技术之一，能够生成逼真的图像、音频甚至文本。然而，传统的G
提示词工程在实体关系抽取中的创新 AI天才研究院计算 ChatGPT AI人工智能与大数据 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
1.5概念结构与核心要素组成在深入探讨提示词工程在实体关系抽取中的应用之前，我们需要对其概念结构与核心要素组成有一个清晰的理解。这一部分将介绍提示词工程的基本框架，以及实体关系抽取的关键技术。提示词工程的基本框架提示词工程（PromptEngineering）是指利用人工智能技术和自然语言处理方法，设计并优化用于训练语言模型的输入提示（prompt），以达到特定任务目标的过程。其核心框架包括以下几
动手学深度学习13.7. 单发多框检测（SSD）-笔记&练习（PyTorch） scdifsn 深度学习笔记 pytorch ssd 单发多框检测（SSD）目标检测 mAP评价
以下内容为结合李沐老师的课程和教材补充的学习笔记，以及对课后练习的一些思考，自留回顾，也供同学之人交流参考。本节课程地址：45SSD实现【动手学深度学习v2】_哔哩哔哩_bilibili本节教材地址：13.7.单发多框检测（SSD）—动手学深度学习2.0.0documentation本节开源代码：…>d2l-zh>pytorch>chapter_optimization>ssd.ipynb单发多框
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb