若年封尘

详细介绍百度ERNIE 2.0：A Continual Pre-Training Framework for Language Understanding

阅读更多：详细介绍百度ERNIE：Enhanced Representation through Knowledge Integration

文章目录

- ERNIE 2.0简介
- 相关工作
- - 语言表征的无监督学习
  - 持续学习
- ERNIE2.0 框架
- - 持续的预训练
  - 预训练任务的构建
  - 持续的多任务学习
  - 针对应用任务的微调
- ERNIE 2.0模型
- - 模型结构
  - 预训练任务
  - 1.词汇感知预训练任务
  - 2.结构感知的预训练任务
  - 3.语义感知的预训练任务
- 实验
- - 预训练及其实现
  - 微调任务
  - 实验结果
- 结论

论文题目：ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding语言理解的持续预训练框架

为了从训练语料中提取词汇、句法和语义信息，我们提出了一个名为ERNIE 2.0的持续预训练框架，该框架逐步建立预训练任务，然后通过持续的多任务学习在这些构建的任务上学习预训练模型。基于这个框架，我们构建了几个任务，并训练ERNIE 2.0模型来捕捉训练数据中的词汇、句法和语义方面的信息。

实验结果表明，ERNIE 2.0模型在16个任务上的表现优于BERT和XLNet，包括GLUE基准的英语任务和几个类似的中文任务。

ERNIE 2.0简介

预训练的语言表征，如ELMo、OpenAI GPT、BERT、ERNIE 1.0和XLNet已被证明能有效提高各种自然语言理解任务的性能，包括情感分类、自然语言推理、命名实体识别等等。

目前模型的预训练往往是根据词和句子的共现性来通过几个简单的任务训练模型。而事实上，在训练语料中，除了共现之外，还有其他值得研究的词法、句法和语义信息。例如，像人名、地点名和组织名称这样的命名实体，可能包含概念性信息。像句子顺序和句子接近度这样的信息使模型能够学习结构感知的表示。而文档级别的语义相似性或句子之间的话语关系使模型能够学习语义感知的表述。

为了发现训练语料中所有有价值的信息，无论是词汇、句法还是语义表征，我们提出了一个名为ERNIE 2.0的持续预训练框架，它可以通过持续的多任务学习逐步建立并训练大量的预训练任务。

ERNIE框架支持不断引入各种定制的任务，这是通过持续的多任务学习实现的。当给定一个或多个新任务时，持续多任务学习方法以有效的方式同时训练新引入的任务和原来的任务，而不会忘记以前学到的知识。通过这种方式，我们的框架可以根据它所掌握的先前训练的参数来逐步训练分布式表征。此外，在这个框架中，所有的任务都共享相同的编码网络，从而使跨不同任务的词汇、句法和语义信息的编码成为可能。

ERNIE2.0 框架

如图1所示，ERNIE 2.0框架是基于一个广泛使用的预训练和微调的架构建立的。ERNIE 2.0与以往的预训练不同的是，它不是用少量的预训练目标进行训练，而是可以不断引入大量的预训练任务，以帮助模型有效地学习词汇、句法和语义表征。

在此基础上，ERNIE 2.0框架通过持续的多任务学习不断更新预训练的模型。在微调过程中，ERNIE模型首先用预训练的参数进行初始化，然后用特定任务的数据进行微调。

图1：ERNIE 2.0的框架，其中预训练任务可以逐步构建，模型通过持续的多任务学习进行预训练，预训练的模型进行微调以适应各种语言理解任务。

持续的预训练

持续的预训练过程包含两个步骤。首先，我们不断地用大数据和先验知识构建无监督的预训练任务。其次，我们通过持续的多任务学习逐步更新ERNIE模型。

预训练任务的构建

我们可以在每个时间段构建不同类型的任务，包括单词感知任务、结构感知任务和语义感知任务。所有这些预训练任务都依赖于自监督或弱监督的信号，这些信号可以从没有人工标注的海量数据中获得。先验知识，如命名实体、短语和话语关系，被用来从大规模数据中生成标签。

持续的多任务学习

ERNIE 2.0框架旨在从一些不同的任务中学习词汇、句法和语义信息。因此，有两个主要挑战需要克服。第一个挑战是如何以持续的方式训练任务而不忘记之前学到的知识。第二是如何以一种有效的方式对这些任务进行预训练。

我们提出了一种持续的多任务学习方法来解决这两个问题。每当有新的任务出现时，持续多任务学习方法首先使用以前学过的参数来初始化模型，然后将新引入的任务与原有的任务同时训练。这将确保所学的参数能够编码先前所学的知识。剩下的一个问题是如何让它更有效地训练。我们通过给每个任务分配N次训练迭代来解决这个问题。我们的框架需要将每个任务的这N次迭代自动分配给不同的训练阶段。

图2：持续预训练的不同方法

图2显示了我们的方法、从头开始的多任务学习和以前的持续学习之间的区别。
虽然从头开始的多任务学习（第二种）可以同时训练多个任务，但在训练进行之前，必须准备好所有定制的预训练任务，每当有新任务时，模型都需要从头学习。所以这种方法需要的时间和持续学习一样多，甚至更多。
传统的持续学习方法（第三种）在每个阶段只用一个任务来训练模型，其缺点是可能会忘记之前学到的知识。

图4：ERNIE 2.0框架中的多任务学习架构，其中编码器可以是循环神经网络或深度Transformer。

如图4所示，我们的持续多任务学习的架构在每个阶段都包含一系列共享文本编码层来编码上下文信息，可以通过使用递归神经网络或由堆叠的自我注意层组成的深度转化器来定制。

编码器的参数可以在所有学习任务中更新。在我们的框架中，有两种损失函数。一个是句子级损失，另一个是标记级损失，这与BERT的损失函数类似。每个预训练任务都有自己的损失函数。在预训练过程中，一个句子损失函数可以与多个标记级损失函数相结合，不断地更新模型。

针对应用任务的微调

通过对特定任务的监督数据进行微调，预训练的模型可以适应不同的语言理解任务，如问题回答、自然语言推理和语义相似性。每个下游任务在经过微调后都有自己的微调模型。

ERNIE 2.0模型

为了验证该框架的有效性，我们构建了三种不同的无监督语言处理任务，并开发了一个预先训练好的模型，称为ERNIE 2.0模型。这一节将介绍该模型在提出的框架中的实现。

模型结构

Transformer编码器：该模型使用多层Transformer作为基本编码器，就像其他预训练模型，如GPT，BERT和XLM。Transformer可以通过自注意力来捕捉序列中每个标记的上下文信息，并生成一串上下文嵌入。

给定一个序列，特殊的分类嵌入[CLS]被添加到该序列的首位。此外，对于多输入段的任务，[SEP]的符号被添加到段的间隔中作为分隔符。

任务嵌入：该模型使用任务嵌入来表示不同任务的特征。我们用一个从0到N的id来表示不同的任务，每个任务id被分配到一个唯一的任务嵌入。相应的标记、片段、位置和任务嵌入被作为模型的输入。在微调过程中，我们可以使用任何任务ID来初始化我们的模型。该模型结构如图3所示。

图3：ERNIE 2.0模型的结构。输入嵌入包括标记嵌入、句子嵌入、位置嵌入和任务嵌入。ERNIE 2.0模型中构建了七个属于不同种类的预训练任务。

预训练任务

我们构建了三种不同类型的任务来捕捉训练语料中不同层面的信息。
词汇感知任务使模型能够捕获词汇信息，结构感知任务使模型能够捕获语料的句法信息，语义感知任务旨在学习语义信息。

1.词汇感知预训练任务

知识屏蔽任务：ERNIE 1.0提出了一个有效的策略，通过知识整合来增强表示。它引入了短语屏蔽和命名实体屏蔽，并预测整个被屏蔽的短语和命名实体，以帮助模型学习本地语境和全局语境中的依赖性信息。我们使用这个任务来训练模型的初始版本。

大写字母预测任务：与句子中的其他单词相比，大写字母通常具有某些特定的语义信息。大写字母模型在命名实体识别等任务中具有一些优势，而非大写字母模型则更适合于其他一些任务。为了结合两种模型的优势，我们增加了一个预测单词是否大写的任务。

标记-文档关系预测任务：这个任务预测一个片段中的标记是否出现在原始文档的其他片段中。根据经验，出现在文档许多部分的词通常是常用的词或与文档的主要主题有关。因此，通过识别出现在片段中的文档常见词，可以使模型在一定程度上捕捉到文档的关键词。

2.结构感知的预训练任务

句子重新排序任务：这个任务旨在学习句子之间的关系。在这个任务的预训练过程中，一个给定的段落被随机分割成1到m个片段，然后所有的组合被随机排列洗牌。我们让预训练模型来重组这些被打乱的段落，模型是一个k分类问题，其中k = ∑m n=1 n! 根据经验，句子重新排序的任务可以使预训练的模型学习文档中句子之间的关系。

句子距离任务：我们还构建了一个预训练任务，利用文档级信息学习句子距离。这个任务被建模为一个三类分类问题。"0 "代表两个句子在同一个文档中是相邻的，"1 "代表两个句子在同一个文档中，但不相邻，"2 "代表两个句子来自两个不同的文档。

3.语义感知的预训练任务

话语关系任务：除了上面提到的距离任务外，我们还引入了一个预测两个句子之间语义或修辞关系的任务。我们使用Sileo等人建立的数据来训练英语任务的预训练模型。按照Sileo et.al的方法，我们还自动构建了一个中文数据集进行预训练。

IR相关任务：我们建立了一个预训练任务来学习信息检索中的短文相关度。这是一个3类分类任务，预测查询和标题之间的关系。我们把查询作为第一句，把标题作为第二句。
来自商业搜索引擎的搜索日志数据被用作我们的预训练数据。这个任务有三种标签。被标记为 "0 "的查询和标题对代表强相关性，这意味着用户在输入查询后点击了标题。标为 "1 "的代表弱相关性，这意味着当用户输入查询后，这些标题出现在搜索结果中，但没有被用户点击。标记为 "2 "意味着查询和标题在语义信息方面是完全不相关和随机的。

实验

我们将ERNIE 2.0的性能与最先进的预训练模型进行比较。对于英语任务，我们将我们的结果与BERT和XLNet在GLUE上进行比较。对于中文任务，我们在几个中文数据集上与BERT和之前的ERNIE 1.0模型的结果进行比较。此外，我们将把我们的方法与多任务学习和传统的持续学习进行比较。

表1：预训练任务和预训练数据集之间的关系。我们使用不同的预训练数据集来构建不同的任务。一个类型的预训练数据集可以对应多个预训练任务。

表2：预训练数据集的大小

预训练及其实现

预训练数据：与BERT类似，英语语料库中的一些数据是从Wikipedia和BookCorpus抓取的。此外，我们还从Reddit收集一些数据，并使用Discovery数据作为我们的话语关系数据。对于中文语料库，我们从搜索引擎中收集各种数据，如百科全书、新闻、对话、信息检索和对话关系数据。预训练数据的详情见表2。预训练任务和预训练数据集之间的关系如表1所示。
预训练设置：为了与BERT进行比较，我们使用了与BERT相同的模型设置的转化器。基础模型包含12层，12个自注意头和768维的隐藏大小，而大模型包含24层，16个自注意头和1024维的隐藏大小。XLNet的模型设置与BERT相同。
ERNIE 2.0在48块NVidia v100 GPU卡上训练基本模型，在64块NVidia v100 GPU卡上训练大模型的英文和中文。ERNIE 2.0框架是在PaddlePaddle上实现的，这是一个由百度开发的端到端的开源深度学习平台。我们使用Adam优化器，其参数固定为β1=0.9，β2=0.98，批量大小为393216个标记。英语模型的学习率被设定为5e-5，中文模型为1.28e-4。它由衰减方案noam设置，对每个预训练任务的前4000步进行热身。凭借float16操作，我们设法加速训练并减少我们模型的内存使用。每个预训练任务都被训练，直到预训练任务的指标收敛。

微调任务

英语任务：作为自然语言理解的多任务基准和分析平台，通用语言理解评估（GLUE）通常被用来评估模型的性能。我们也在GLUE上测试ERNIE 2.0的性能。具体来说，GLUE涵盖了多样化的NLP数据集。

中文任务：我们对9个中文NLP任务进行了广泛的实验，包括机器阅读理解、命名实体识别、自然语言推理、语义相似性、情感分析和问题回答。具体来说，我们选择了以下中文数据集来评估ERNIE 2.0在中文任务上的表现：
机器阅读理解（MRC）：CMRC2018，DRCD，和DuReader。
命名实体识别（NER）：MSRA-NER。
自然语言推理（NLI）：XNLI。
情感分析（SA）：ChnSentiCorp。
语义相似度（SS）：LCQMC，BQ语料库。
问题回答（QA）：NLPCC-DBQA。

微调的实施细节：英语任务的详细微调实验设置见表3，中文任务的设置见表4。

表3：GLUE数据集的实验设置

表4：中文数据集的实验设置

实验结果

英语任务的结果：我们评估了基础模型和每种方法的大型模型在GLUE上的表现。考虑到只有单一模型XLNet在开发集上的结果被报告，我们也报告了每种方法在开发集上的结果。为了获得与BERT和XLNet的公平比较，我们在设计集上运行了单任务和单模型ERNIE 2.0。关于GLUE的详细结果在表5中描述。

如表5的BASE模型列所示，ERNIE 2.0_BASE在所有10个任务上都优于BERT_BASE，获得了80.6分。如表5中LARGE模型部分的dev列所示，ERNIE 2.0_LARGE在除MNLI-m之外的大多数任务上始终优于BERT_LARGE和XLNet_LARGE。此外，如表5中LARGE模型部分所示，ERNIE 2.0LARGE在所有10个任务上都优于BERT_LARGE，它在GLUE测试集上得到了83.6分，比之前的SOTA预训练模型BERT_LARGE实现了3.1%的改进。

表5：GLUE基准测试的结果，其中设计集的结果是五次运行的中位数，测试集的结果由GLUE评估服务器打分，最先进的结果用粗体表示。所有AX的微调模型都是由MNLI的数据训练的。

中文任务的结果：表6显示了在9个经典的中文NLP任务上的表现。可以看出，ERNIE 1.0_BASE在XNLI、MSRA-NER、ChnSentiCorp、LCQMC和NLPCC-DBQA任务上的表现优于BERT_BASE，但在其余任务上的表现却不太理想，这是由两种方法的预训练差异造成的。具体来说，ERNIE 1.0_BASE的预训练数据不包含长度超过128的实例，但BERT_BASE是用长度为512的实例预训练的。从结果中还可以看出，所提出的ERNIE 2.0取得了进一步的进展，它在所有九个任务上的表现都远远超过了BERT_BASE。此外，我们还训练了一个大型版本的ERNIE 2.0。ERNIE 2.0_LARGE在这些中文NLP任务上取得了最好的性能，并创造了新的最先进的结果。

表6：9个常见的中文NLP任务的结果。报告的结果是五个实验结果的平均值，最先进的结果用黑体字表示。

不同学习方法的比较：为了分析我们框架中采用的持续多任务学习策略的有效性，我们将这种方法与其他两种方法进行了比较，如图2所示。表7描述了详细的信息。对于所有的方法，我们假设每个任务的训练迭代都是一样的。在我们的设置中，每个任务可以在50k次迭代中进行训练，所有任务的迭代次数为200k次。

表7：不同持续预训练方法的结果。我们使用知识遮蔽、大写字母预测、标记文档关系和句子重排序作为我们的预训练任务。我们从整个预训练语料库中抽取10%的训练数据。在多任务学习方法中，我们用4个任务来训练模型，在其他两种学习方法中，我们分4个阶段训练模型。我们在不同的阶段训练不同的任务。这些任务的学习顺序与上面列出的任务相同。为了公平地比较结果，这4个任务中的每一个都以50,000步进行更新。预训练模型的大小与ERNIE_BASE相同。我们选择MNLI-m、SST-2和MRPC作为我们的微调数据集。微调结果是五个随机开始的平均数。微调实验集与表3相同。

可以看出，多任务学习在一个阶段训练所有的任务，持续预训练逐个训练任务，而我们的持续多任务学习方法可以在不同的训练阶段给每个任务分配不同的迭代。实验结果表明，与另外两种方法相比，连续多任务学习在下游任务上获得了更好的表现，而且没有牺牲任何效率。实验结果还表明，我们的预训练方法能够以更有效的方式训练新任务。此外，持续多任务学习、多任务学习和传统的持续学习之间的比较表明，前两种方法优于第三种方法，这证实了我们的直觉，即当每次只涉及一个新任务时，传统的持续学习倾向于忘记它所学的知识。

结论

我们提出了一个名为ERNIE 2.0的持续预训练框架，其中预训练任务可以通过持续的多任务学习以持续的方式逐步建立和学习。基于该框架，我们构建了几个涵盖语言不同方面的预训练任务，并训练了一个名为ERNIE 2.0的新模型，该模型在语言表述方面更有能力。ERNIE 2.0在GLUE基准和各种中文任务上进行了测试。与BERT和XLNet相比，它获得了明显的改进。在未来，我们将为ERNIE 2.0框架引入更多的预训练任务，以进一步提高模型的性能。我们还将在我们的框架中研究其他复杂的持续学习方法。

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
Kimi Chat 1.5 与 2.0 架构升级对比 charles666666 人工智能 transformer 深度学习产品经理 chatgpt
1.5版的MoE架构优化KimiChat1.5采用了优化后的MoE架构，其核心在于“专家网络动态路由”。这一机制类似于快递系统智能选择最优路径，能够根据输入数据的特性动态分配计算资源。这种优化显著提升了模型的计算效率，同时降低了硬件资源的浪费。在实际应用中，这意味着开发者可以在相同的硬件配置下处理更复杂的任务，或者在有限的资源下实现更高的性能。2.0的混合专家系统创新点与1.5版相比，KimiCh
AIGC工具与软件开发流程的深度集成方案 Irene-HQ 软件开发测试 AIGC 测试工具 github AIGC 程序人生面试
一、代码开发环节集成路径‌环境配置标准化‌安装AIGC工具包并配置环境变量（如设置AIGC_TOOL_PATH），确保团队开发环境一致‌。在IDE插件市场安装Copilot等工具，实现编码时实时建议调用‌。‌人机协作新模式‌‌需求解析‌：上传PRD文档，AI自动提取业务规则生成类结构（如支付模块的PaymentService雏形）‌。‌代码补全‌：输入注释//JWT验证中间件，生成OAuth2.0
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
android中百度定位、城市选择列表，右侧字母展示
好久好久没光顾过自己空空的博客了，做项目的时候都是逛着别人的博客急着把功能实现，近来闲下来了总结总结。这个城市选择功能也是当时做项目急着实现从哪找来的框架不记得了，然后改改用到项目中来的。非常感谢提供最初源码的博主，主要的区别是添加了搜索功能、定位功能，把以前的操作本地数据库sqlite的部分，改为操作对assest文件的操作，封装的有百度地图定位方法、可删除的edittext。百度地图的key需
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
Flink 2.0 DataStream算子全景 Edingbrugh.南空大数据 flink flink 人工智能
在实时流处理中，ApacheFlink的DataStreamAPI算子是构建流处理pipeline的基础单元。本文基于Flink2.0，聚焦算子的核心概念、分类及高级特性。一、算子核心概念：流处理的"原子操作1.数据流拓扑（StreamTopology）每个Flink应用可抽象为有向无环图（DAG），由源节点（Source）、算子节点（Operator）和汇节点（Sink）构成，算子通过数据流（S
诗人郑愁予去世：达达马蹄声远去，留下一个世纪的美丽诗篇羊城派2025-06-15 19:07据中国诗歌网消息，著名诗人郑愁予因心脏衰竭，6月13日在美国去世，享年92岁。“我达达的马蹄分享是一种传递，一种快乐杂学百货铺-啥都学 word
编辑百度首页编辑诗人郑愁予去世：达达马蹄声远去，留下一个世纪的美丽诗篇羊城派2025-06-1519:07据中国诗歌网消息，著名诗人郑愁予因心脏衰竭，6月13日在美国去世，享年92岁。“我达达的马蹄是美丽的错误/我不是归人，是个过客……”这传诵半世纪的诗句，如今成为诗人郑愁予留给世间的最后回响。郑愁予，原名郑文韬，祖籍河北宁河，1933年生于山东济南&#x
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
uniapp对接unipush 1.0 ios/android 车轮滚滚__ uni-app ios android
配置注意需要打包自定义基座之后在手机上运行自定义基座才可以！官方有文档可以根据文档来我这里用的是1.0为什么没有2.0因为2.0要用uinicloud注意每次打包之后cid都会变cid用户的标识iduniapp通过这个id可以把消息推送给指定人前端代码前端要做的很简单直接放到app.vue中onLaunch钩子中即可麻烦的在后端和个推的对接onPushMessage(that){//#ifdefA
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
遍历dom 并且存储（将每一层的DOM元素存在数组中）换个号韩国红果果 JavaScript html
数组从0开始！！ var a=[],i=0; for(var j=0;j<30;j++){ a[j]=[];//数组里套数组，且第i层存储在第a[i]中 } function walkDOM(n){ do{ if(n.nodeType!==3)//筛选去除#text类型 a[i].push(n); //con
Android+Jquery Mobile学习系列(9)-总结和代码分享白糖_ JQuery Mobile
目录导航经过一个多月的边学习边练手，学会了Android基于Web开发的毛皮，其实开发过程中用Android原生API不是很多，更多的是HTML/Javascript/Css。个人觉得基于WebView的Jquery Mobile开发有以下优点： 1、对于刚从Java Web转型过来的同学非常适合，只要懂得HTML开发就可以上手做事。 2、jquerym
impala参考资料 dayutianfei impala
记录一些有用的Impala资料 1. 入门资料 >>官网翻译： http://my.oschina.net/weiqingbin/blog?catalog=423691 2. 实用进阶 >>代码&架构分析： Impala/Hive现状分析与前景展望：http
JAVA 静态变量与非静态变量初始化顺序之新解周凡杨 java 静态非静态顺序
今天和同事争论一问题，关于静态变量与非静态变量的初始化顺序，谁先谁后，最终想整理出来！测试代码： import java.util.Map; public class T { public static T t = new T(); private Map map = new HashMap(); public T(){ System.out.println(&quo
跳出iframe返回外层页面 g21121 iframe
在web开发过程中难免要用到iframe，但当连接超时或跳转到公共页面时就会出现超时页面显示在iframe中，这时我们就需要跳出这个iframe到达一个公共页面去。首先跳转到一个中间页，这个页面用于判断是否在iframe中，在页面加载的过程中调用如下代码： <script type="text/javascript"> //<!-- function
JAVA多线程监听JMS、MQ队列 510888780 java多线程
背景：消息队列中有非常多的消息需要处理，并且监听器onMessage（）方法中的业务逻辑也相对比较复杂，为了加快队列消息的读取、处理速度。可以通过加快读取速度和加快处理速度来考虑。因此从这两个方面都使用多线程来处理。对于消息处理的业务处理逻辑用线程池来做。对于加快消息监听读取速度可以使用1.使用多个监听器监听一个队列；2.使用一个监听器开启多线程监听。对于上面提到的方法2使用一个监听器开启多线
第一个SpringMvc例子布衣凌宇 spring mvc
第一步：导入需要的包；第二步：配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi=
我的spring学习笔记15-容器扩展点之PropertyOverrideConfigurer aijuans Spring3
PropertyOverrideConfigurer类似于PropertyPlaceholderConfigurer，但是与后者相比，前者对于bean属性可以有缺省值或者根本没有值。也就是说如果properties文件中没有某个bean属性的内容，那么将使用上下文（配置的xml文件）中相应定义的值。如果properties文件中有bean属性的内容，那么就用properties文件中的值来代替上下
通过XSD验证XML antlove xml schema xsd validation SchemaFactory
1. XmlValidation.java package xml.validation; import java.io.InputStream; import javax.xml.XMLConstants; import javax.xml.transform.stream.StreamSource; import javax.xml.validation.Schem
文本流与字符集百合不是茶 PrintWrite()的使用字符集名字别名获取
文本数据的输入输出; 输入;数据流,缓冲流输出;介绍向文本打印格式化的输出PrintWrite(); package 文本流; import java.io.FileNotFound
ibatis模糊查询sqlmap-mapping-**.xml配置 bijian1013 ibatis
正常我们写ibatis的sqlmap-mapping-*.xml文件时，传入的参数都用##标识，如下所示： <resultMap id="personInfo" class="com.bijian.study.dto.PersonDTO"> <res
java jvm常用命令工具——jdb命令(The Java Debugger) bijian1013 java jvm jdb
用来对core文件和正在运行的Java进程进行实时地调试，里面包含了丰富的命令帮助您进行调试，它的功能和Sun studio里面所带的dbx非常相似，但 jdb是专门用来针对Java应用程序的。现在应该说日常的开发中很少用到JDB了，因为现在的IDE已经帮我们封装好了，如使用ECLI
【Spring框架二】Spring常用注解之Component、Repository、Service和Controller注解 bit1129 controller
在Spring常用注解第一步部分【Spring框架一】Spring常用注解之Autowired和Resource注解（http://bit1129.iteye.com/blog/2114084）中介绍了Autowired和Resource两个注解的功能，它们用于将依赖根据名称或者类型进行自动的注入，这简化了在XML中，依赖注入部分的XML的编写，但是UserDao和UserService两个bea
cxf wsdl2java生成代码super出错,构造函数不匹配 bitray super
由于过去对于soap协议的cxf接触的不是很多,所以遇到了也是迷糊了一会.后来经过查找资料才得以解决. 初始原因一般是由于jaxws2.2规范和jdk6及以上不兼容导致的.所以要强制降为jaxws2.1进行编译生成.我们需要少量的修改: 我们原来的代码 wsdl2java com.test.xxx -client http://..... 修改后的代
动态页面正文部分中文乱码排障一例 ronin47
公司网站一部分动态页面，早先使用apache+resin的架构运行，考虑到高并发访问下的响应性能问题，在前不久逐步开始用nginx替换掉了apache。不过随后发现了一个问题，随意进入某一有分页的网页，第一页是正常的（因为静态化过了）；点“下一页”，出来的页面两边正常，中间部分的标题、关键字等也正常，唯独每个标题下的正文无法正常显示。因为有做过系统调整，所以第一反应就是新上
java-54- 调整数组顺序使奇数位于偶数前面 bylijinnan java
import java.util.Arrays; import java.util.Random; import ljn.help.Helper; public class OddBeforeEven { /** * Q 54 调整数组顺序使奇数位于偶数前面 * 输入一个整数数组，调整数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半
从100PV到1亿级PV网站架构演变 cfyme 网站架构
一个网站就像一个人，存在一个从小到大的过程。养一个网站和养一个人一样，不同时期需要不同的方法，不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。 1：积累是必不可少的架构师不是一天练成的。 1999年，我作了一个个人主页，在学校内的虚拟空间，参加了一次主页大赛，几个DREAMWEAVER的页面，几个TABLE作布局，一个DB连接，几行PHP的代码嵌入在HTM
[宇宙时代]宇宙时代的GIS是什么？ comsci Gis
我们都知道一个事实，在行星内部的时候，因为地理信息的坐标都是相对固定的，所以我们获取一组GIS数据之后，就可以存储到硬盘中，长久使用。。。但是，请注意，这种经验在宇宙时代是不能够被继续使用的宇宙是一个高维时空
详解create database命令 czmmiao database
完整命令 CREATE DATABASE mynewdb USER SYS IDENTIFIED BY sys_password USER SYSTEM IDENTIFIED BY system_password LOGFILE GROUP 1 ('/u01/logs/my/redo01a.log','/u02/logs/m
几句不中听却不得不认可的话 datageek
1、人丑就该多读书。 2、你不快乐是因为：你可以像猪一样懒，却无法像只猪一样懒得心安理得。 3、如果你太在意别人的看法，那么你的生活将变成一件裤衩，别人放什么屁，你都得接着。 4、你的问题主要在于：读书不多而买书太多，读书太少又特爱思考，还他妈话痨。 5、与禽兽搏斗的三种结局：(1)、赢了，比禽兽还禽兽。(2)、输了，禽兽不如。(3)、平了，跟禽兽没两样。结论：选择正确的对手很重要。 6
1 14:00 PHP中的“syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM”错误 dcj3sjt126com PHP
原文地址：http://www.kafka0102.com/2010/08/281.html 因为需要，今天晚些在本机使用PHP做些测试，PHP脚本依赖了一堆我也不清楚做什么用的库。结果一跑起来，就报出类似下面的错误：“Parse error: syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM in /home/kafka/test/
xcode6 Auto layout and size classes dcj3sjt126com ios
官方GUI https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual/AutolayoutPG/Introduction/Introduction.html iOS中使用自动布局（一） http://www.cocoachina.com/ind
通过PreparedStatement批量执行sql语句【sql语句相同，值不同】梦见x光 sql 事务批量执行
比如说：我有一个List需要添加到数据库中，那么我该如何通过PreparedStatement来操作呢？ public void addCustomerByCommit(Connection conn , List<Customer> customerList) { String sql = "inseret into customer(id
程序员必知必会----linux常用命令之十【系统相关】 hanqunfeng Linux常用命令
一.linux快捷键 Ctrl+C : 终止当前命令 Ctrl+S : 暂停屏幕输出 Ctrl+Q : 恢复屏幕输出 Ctrl+U : 删除当前行光标前的所有字符 Ctrl+Z : 挂起当前正在执行的进程 Ctrl+L : 清除终端屏幕，相当于clear 二.终端命令 clear : 清除终端屏幕 reset : 重置视窗，当屏幕编码混乱时使用 time com
NGINX IXHONG nginx
pcre 编译安装 nginx conf/vhost/test.conf upstream admin { server 127.0.0.1:8080; } server { listen 80; &
设计模式--工厂模式 kerryg 设计模式
工厂方式模式分为三种： 1、普通工厂模式：建立一个工厂类，对实现了同一个接口的一些类进行实例的创建。 2、多个工厂方法的模式：就是对普通工厂方法模式的改进，在普通工厂方法模式中，如果传递的字符串出错，则不能正确创建对象，而多个工厂方法模式就是提供多个工厂方法，分别创建对象。 3、静态工厂方法模式：就是将上面的多个工厂方法模式里的方法置为静态，
Spring InitializingBean/init-method和DisposableBean/destroy-method mx_xiehd java spring bean xml
1.initializingBean/init-method 实现org.springframework.beans.factory.InitializingBean接口允许一个bean在它的所有必须属性被BeanFactory设置后，来执行初始化的工作，InitialzingBean仅仅指定了一个方法。通常InitializingBean接口的使用是能够被避免的，（不鼓励使用，因为没有必要
解决Centos下vim粘贴内容格式混乱问题 qindongliang1922 centos vim
有时候，我们在向vim打开的一个xml，或者任意文件中，拷贝粘贴的代码时，格式莫名其毛的就混乱了，然后自己一个个再重新，把格式排列好，非常耗时，而且很不爽，那么有没有办法避免呢？答案是肯定的，设置下缩进格式就可以了，非常简单：在用户的根目录下直接vi ~/.vimrc文件然后将set pastetoggle=<F9> 写入这个文件中，保存退出，重新登录，
netty大并发请求问题 tianzhihehe netty
多线程并发使用同一个channel java.nio.BufferOverflowException: null at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:183) ~[na:1.7.0_60-ea] at java.nio.ByteBuffer.put(ByteBuffer.java:832) ~[na:1.7.0_60-ea]
Hadoop NameNode单点问题解决方案之一 AvatarNode wyz2009107220 NameNode
我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：NetApp NFS Filer)。经常遇到需要中断服务的问题是给hadoop打补丁。 DataNod