zenRRan

【ERNIE】芝麻街跨界NLP，没有一个ERNIE是无辜的

之前发在知乎、AINLP以及CSDN上的预训练模型系列文章，最近打算整理到公号上。另外欢迎大家左下角阅读原文关注我的知乎专栏：【BERT巨人肩膀】

这篇文章会为大家介绍下同名的"ERNIE"小伙伴们，在预训练模型的飞速发展下，芝麻街恐成最大赢家

ERNIE: Enhanced Language Representation with Informative Entities（THU）^[1]

本文的工作也是属于对BERT锦上添花，将知识图谱的一些结构化信息融入到BERT中，使其更好地对真实世界进行语义建模。也就是说，原始的bert模型只是机械化地去学习语言相关的“合理性”，而并学习不到语言之间的语义联系，打个比喻，就比如掉包xia只会掉包，而不懂每个包里面具体是什么含义。于是，作者们的工作就是如何将这些额外的知识告诉bert模型，而让它更好地适用于NLP任务。

但是要将外部知识融入到模型中，又存在两个问题：

「Structured Knowledge Encoding:」 对于给定的文本，如何高效地抽取并编码对应的知识图谱事实；
「Heterogeneous Information Fusion:」 语言表征的预训练过程和知识表征过程有很大的不同，它们会产生两个独立的向量空间。因此，如何设计一个特殊的预训练目标，以融合词汇、句法和知识信息又是另外一个难题。

为此，作者们提出了ERNIE模型，同时在大规模语料库和知识图谱上预训练语言模型：

「抽取+编码知识信息：」 识别文本中的实体，并将这些实体与知识图谱中已存在的实体进行实体对齐，具体做法是采用知识嵌入算法（如TransE），并将得到的entity embedding作为ERNIE模型的输入。基于文本和知识图谱的对齐，ERNIE 将知识模块的实体表征整合到语义模块的隐藏层中。
「语言模型训练：」 在训练语言模型时，除了采用bert的MLM和NSP，另外随机mask掉了一些实体并要求模型从知识图谱中找出正确的实体进行对齐（这一点跟baidu的entity-masking有点像）。

okay，接下来看看模型到底长啥样？如上图，整个模型主要由两个子模块组成：

底层的「textual encoder (T-Encoder)」，用于提取输入的基础词法和句法信息，N个；
高层的「knowledgeable encoder (K-Encoder)」，用于将外部的知识图谱的信息融入到模型中，M个。

knowledgeable encoder

这里T-encooder跟bert一样就不再赘述，主要是将文本输入的三个embedding加和后送入双向Transformer提取词法和句法信息：

K-encoder中的模型称为aggregator，输入分为两部分：

一部分是底层T-encoder的输出
一部分是利用TransE算法得到的文本中entity embedding，
注意以上为第一层aggregator的输入，后续第K层的输入为第K-1层aggregator的输出

接着利用multi-head self-attention对文本和实体分别处理：

然后就是将实体信息和文本信息进行融合，实体对齐函数为 :

对于有对应实体的输入：

对于没有对应实体的输入词：

上述过程就是一个aggregator的操作，整个K-encoder会叠加M个这样的block：

最终的输出为最顶层的Aggregator的token embedding和entity embedding。

改进的预训练

除了跟bert一样的MLM和NSP预训练任务，本文还提出了另外一种适用于信息融合的预训练方式，「denoising entity auto-encoder (dEA).」 跟下文baidu的还是有点不一样，这里是有对齐后的entity sequence输入的，而百度的是直接去学习entity embedding。dEA 的目的就是要求模型能够根据给定的实体序列和文本序列来预测对应的实体：

微调

为了使得模型可以更广泛地适用于不同的NLP任务，作者也学习BERT设计了不同的特殊的token：

【CLS】：该token含有句子信息的表示，可适用于一般任务
【HD】和【TL】：该token表示关系分类任务中的头实体和尾实体（类似于传统关系分类模型中的位置向量），然后使用【CLS】来做分类；
【ENT】：该token表示实体类型，用于entity typing等任务。试验部分也略过了哈~感觉有些部分还不是很清晰，需要看看源码...

reference

ACL 2019将会有哪些值得关注的论文？^[2]
ACL 2019 | 基于知识增强的语言表示模型，多项NLP任务表现超越BERT^[3]
ACL 2019 | 清华等提出ERNIE：知识图谱结合BERT才是「有文化」的语言模型^[4]
官方源码^[5]

ERNIE: Enhanced Representation through Knowledge Integration（Baidu）^[6]

百度提出的ERNIE模型主要是针对BERT在中文NLP任务中表现不够好提出的改进。我们知道，对于中文，bert使用的基于字的处理，在mask时掩盖的也仅仅是一个单字，举个栗子：

我在上海交通大学玩泥巴-------> 我在上【mask】交通【mask】学玩【mask】巴。

作者们认为通过这种方式学习到的模型能很简单地推测出字搭配，但是并不会学习到短语或者实体的语义信息，比如上述中的【上海交通大学】。于是文章提出一种知识集成的BERT模型，别称ERNIE。ERNIE模型在BERT的基础上，加入了海量语料中的实体、短语等先验语义知识，建模真实世界的语义关系。

在具体模型的构建上，也是使用的Transformer作为特征抽取器。这里如果对于特征抽取不是很熟悉的同学，强烈推荐张俊林老师的"放弃幻想，全面拥抱Transformer：自然语言处理三大特征抽取器（CNN/RNN/TF）比较^[7]"。

那么怎么样才能使得模型学习到文本中蕴含的潜在知识呢？不是直接将知识向量直接丢进模型，而是在训练时将短语、实体等先验知识进行mask，强迫模型对其进行建模，学习它们的语义表示。具体来说， ERNIE采用三种masking策略：

「Basic-Level Masking：」 跟bert一样对单字进行mask，很难学习到高层次的语义信息；
「Phrase-Level Masking：」 输入仍然是单字级别的，mask连续短语；
「Entity-Level Masking：」 首先进行实体识别，然后将识别出的实体进行mask。

经过上述mask训练后，短语信息就会融入到word embedding中了此外，为了更好地建模真实世界的语义关系，ERNIE预训练的语料引入了多源数据知识，包括了中文维基百科，百度百科，百度新闻和百度贴吧（可用于对话训练）。

关于论文后面的试验就不再赘述。

reference：

如何评价百度新发布的NLP预训练模型ERNIE？^[8]
中文任务全面超越 BERT：百度正式发布NLP预训练模型ERNIE^[9]
官方源码^[10]

ERNIE2.0: A Continual Pre-training Framework for Language Understanding^[11]

Baidu团队之前发布的ERNIE1.0效果就不错，虽然基础框架沿袭BERT，但是训练语料以及mask策略的改进，使其在中文任务上表现更好。这刚过了几个月，又发布了增强版的ERNIE，最近NLP社区更新速度可见一斑。先前的模型比如ELMO、GPT、BERT、ERNIE1.0、XLNet等都是基于词和句子的共现关系来训练的，这导致模型不能够很好地建模词法、句法以及语义信息。为此，ERNIE2.0提出了「通过不断增量预训练任务进行多任务学习」来将词法句法以及语义信息融入到模型当中去。整体流程如下所示，首先利用简单的任务初始化模型，接着以串行的方式进行「持续学习（Continual Learning）」，对于每次新增的训练任务，模型可以利用之前已经训练过的任务信息去更好地学习新任务，这跟人类的学习方式是一样的。

模型框架

整体框架还是基本跟ERNIE1.0的一样，不过ERNIE2.0为了匹配多任务持续学习的理念，需要在输入的时候额外增加一部分「Task Embedding」，用来告诉模型这是在处理哪个任务。

预训练任务

前面说到要让模型获取词法、句法以及语义的信息，那么怎么设计合适的预训练任务就成了非常重要的一环。其实BERT本身也可以看做是多任务（MLM+NSP），然后对于扩展BERT至多任务，MTDNN也有过尝试，使用了GLUE相似的任务进行训练然后在GLUE上SOTA了。不过ERNIE2.0与MTDNN在任务设计上不同的是，在预训练阶段使用的任务基本都是无监督或者是弱监督的。要知道在NLP中有标注的数据不多，但是无标注的数据可以说是源源不断，如果能好好利用起来简直功德圆满。okay，下面我们来介绍一下具体的任务设计

Word-aware Pre-training Tasks

基于单词的预训练任务用于获取词法信息

「Knowledge Masking Task：」 就是ERNIE1.0使用的预训练任务，将实体与短语进行mask，具体可以上文
「Capitalization Prediction Task：」 预测单词是否大写。因为在语料中大写字词通常具有特殊含义
「Token-Document Relation Prediction Task ：」 预测某一个段落的token是否出现在同一篇文档的另外段落中。可以认为是对关键字进行建模

Structure-aware Pre-training Tasks

主要是用于建模句法信息

「Sentence Reordering Task：」 具体而言是把一段话拆分成多个segment，之后对其进行排列组合，让模型去预测正确的原始顺序。感觉有点像高中英语试卷大作文前面的那一题hhh...
「Sentence Distance Task：」 预测句子之间的距离，可以看做是三分类的任务，其中“0”表示两个句子是同一篇文档中相邻的，“1”表示两个句子在同一篇文档中但是不相邻，“2”表示两个句子不在同一个文档中。这个任务的话可以看做是BERT的NSP任务的扩展版

Semantic-aware Pre-training Tasks

主要用于建模语法信息

「Discourse Relation Task：」 预测两个句子之间的语义或修辞关系。
「IR Relevance Task ：」 学习信息检索中短文本的相关性。百度作为搜索引擎的优势就是有大量的「query」和「answer」可以用于模型训练。这也是一个三分类的任务，输入为query+title，输出为标签，其中“0”表示这两个是强相关的（定义为用户点击的结果条目），“1”表示弱相关（定义为搜索返回结果中不被用户点击的条目），“2”表示不相关（定义为没有出现在返回结果里的条目）

模型效果

okay，介绍完模型，我们来看看效果怎么样~ERNIE2.0以及BERT在GLUE上的表现，可以看出基本在所有任务上ERNIE2.0的效果都超过了原始的BERT和XLNet。这是中文数据集上的模型比对效果，目前中文版的模型好像还没有发布出来

reference

官方开源代码^[12]
如何评价百度最新发布的ERNIE2.0？^[13]
ERNIE 2.0：芝麻街 2.0？^[14]

ERNIE-Tiny

ERNIE-Tiny也是baidu的工作，在一波模型轻量化的风潮之下（更小的模型！迈向更快更环保的NLP），好多预训练模型都出现了XXX-Tiny的延伸，旨在提升预训练模型在实际工程应用中的落地能力。相较于base模型，ERNIE-Tiny采用了以下4点技术，保证了在实际真实数据中将近4.3倍的预测提速。

更浅的模型

最直观的想法就是直接截取base模型的前几层进行下游任务的finetune，但是这样会造成pretrain-finetune discrepancy。因此需要重新训练一个浅层的模型，将12层的ERNIE Base模型直接压缩为3层，线性提速4倍，但效果也会有较大幅度的下降；

更大的hidden_size

为了弥补模型变浅带来的效果下降，这里将原始的hidden_size由768提升至1024，你看这模型它又矮又胖。

subword词粒度

transformer-based模型预测时间性能与输入长度线性相关，通过subword粒度替换字（char）粒度，能够明显地缩短输入文本的长度。统计表明，在XNLI dev集上采用subword字典切分出来的序列长度比字表平均缩短40%。

知识蒸馏

为了进一步提升模型的效果，ERNIE Tiny扮演学生角色，利用模型蒸馏的方式在Transformer层和Prediction层去学习教师模型ERNIE模型对应层的分布或输出，这种方式能够缩近ERNIE Tiny和ERNIE的效果差异。

reference

ERNIE-tiny GITHUB^[15]

ERNIE-GEN

ERNIE-GEN也是baidu的ERNIE套餐之一，看名字就知道是把ERNIE用在生成任务上的，论文在今年一月就放出来了，说的也都是SOTA，但是好像一直也没见宣传和讨论。这里篇幅原因先不展开了，感兴趣可以去了解下。

ERNIE-Classification

这是一个github项目，基于Keras/TensorFlow 2以及HuggingFace's Transformers，集成多个bert-based模型用于句子分类，有需要的可以试试效果。

本文参考资料

[1]

ERNIE: Enhanced Language Representation with Informative Entities（THU/ACL2019）: https://arxiv.org/pdf/1905.07129.pdf

[2]

ACL 2019将会有哪些值得关注的论文？: https://www.zhihu.com/question/324223170/answer/686289852

[3]

ACL 2019 | 基于知识增强的语言表示模型，多项NLP任务表现超越BERT: http://mrw.so/4J6Bgi

[4]

ACL 2019 | 清华等提出ERNIE：知识图谱结合BERT才是「有文化」的语言模型: https://www.jiqizhixin.com/articles/2019-05-26-4

[5]

官方源码: https://github.com/thunlp/ERNIE

[6]

ERNIE: Enhanced Representation through Knowledge Integration（Baidu/2019）: https://arxiv.org/pdf/1904.09223.pdf

[7]

放弃幻想，全面拥抱Transformer：自然语言处理三大特征抽取器（CNN/RNN/TF）比较: https://zhuanlan.zhihu.com/p/54743941

[8]

如何评价百度新发布的NLP预训练模型ERNIE？: https://www.zhihu.com/question/316140575

[9]

中文任务全面超越 BERT：百度正式发布NLP预训练模型ERNIE: https://www.jiqizhixin.com/articles/2019-03-16-3

[10]

官方源码: https://github.com/PaddlePaddle/LARK/tree/develop/ERNIE

[11]

ERNIE2.0: A Continual Pre-training Framework for Language Understanding: https://pdfs.semanticscholar.org/9025/1aa6225fcd5687542eab5819db18afb6a20f.pdf?_ga=2.6153395.1282941031.1565490089-793294112.1556434811

[12]

官方开源代码: https://github.com/PaddlePaddle/ERNIE

[13]

如何评价百度最新发布的ERNIE2.0？: https://www.zhihu.com/question/337827682

[14]

ERNIE 2.0：芝麻街 2.0？: https://zhuanlan.zhihu.com/p/76125042

[15]

ERNIE-tiny GITHUB: https://github.com/PaddlePaddle/ERNIE/blob/develop/README.zh.md#ernie-tiny

- END -

交流学习，进群备注：昵称-学校（公司）-方向，进入DL&NLP交流群。

方向有很多：机器学习、深度学习，python，情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

广告商、博主勿入！

详解c++的编译过程，如何从源文件到可执行文件到飞鼠_ C++c++开发语言
本节详细介绍c++的编译过程，c++从代码到可执行文件有四个阶段：预处理运行以#好开头的代码，引入头文件，做预处理定义常量等编译对代码进行优化，进行词法与语法的分析，生成与平台无关的中间表示，再将中间代码转换为目标平台的汇编代码。汇编将汇编代码转换为机器码（二进制格式）。链接将目标文件中的未定义符号（如printf）与库文件中的定义匹配。预处理我们可以使用g++-Emain.cpp-omain.i
C#网络通信实战：从零打造高性能Socket编程与TCP/IP协议栈应用墨瑾轩一起学学C#【一】c#tcp/ip 开发语言
网络通信是现代软件开发中不可或缺的一部分，特别是在分布式系统和互联网应用中。C#提供了丰富的网络编程接口，尤其是基于Socket的TCP/IP协议栈编程，可以实现高性能的网络通信。以下从零开始逐步介绍如何在C#中使用Socket进行高性能网络通信编程，包括创建Socket、连接服务器、发送和接收数据，以及处理并发和错误等，包含详细的代码和注释。一、创建Socket CsharpusingSyste
没有接口文档，该怎么进行接口测试？海姐软件测试接口测试测试工具面试职场和发展
想获取更多软件测试干货和实战技巧？欢迎扫码关注我的小红书【海姐的测试星球】，一起交流学习，解锁更多测试秘籍！在面试中如何回答好“没有接口文档，该怎么进行接口测试”，可按以下要点阐述，全面展现你的应变能力和专业素养：沟通协调-与开发人员沟通：主动与开发人员交流，了解接口的基本信息，如接口的用途、请求方法（GET、POST等）、大致的请求参数和响应格式。例如，询问该接口是用于用户登录、数据查询还是其他
OctoTools：一个具有复杂推理可扩展工具的智体框架三谷秋水智能体大模型机器学习人工智能语言模型机器学习
25年2月来自斯坦福大学的论文“OctoTools:AnAgenticFrameworkwithExtensibleToolsforComplexReasoning”。解决复杂的推理任务可能涉及视觉理解、域知识检索、数值计算和多步骤推理。现有方法使用外部工具增强大语言模型(LLM)，但仅限于专业领域、有限的工具类型或需要额外的训练数据。本文的OctoTools，是一个无需训练、用户友好且易于扩展的
华为海思 CPU「麒麟 X90」曝光自不量力的A同学华为
2025年3月15日，中国信息安全评测中心发布安全可靠测评结果公告（2025年第1号），华为海思麒麟X90处理器首次曝光，其安全可靠等级评测结果为II级。相关信息如下：架构与制程：采用华为自研的“泰山V3”架构，基于ARMv9指令集，首次在PC端实现“超线程+大小核异构”设计，集成多达16核（4大核+12能效核），主频突破4.2GHz。推测制程为中芯国际N+2的等效7nm技术。芯片集成：将CPU、
Vuex 和 Pinia 的对比徐福记c vue.js 前端 javascript
Vuex和Pinia都是Vue状态管理库，但它们有一些区别：1.开发背景Vuex：Vuex是Vue.js官方推出的状态管理库，主要用于管理复杂应用中的全局状态。它在Vue2和Vue3中都被广泛使用。Pinia：Pinia是一个社区驱动的状态管理库，最初是为了弥补Vuex在某些场景下的不足而创建的。现在，它已经被Vue官方认可，并成为Vue3推荐的状态管理库之一。2.API设计Vuex：使用stor
YUNBE云贝-PostgreSQL Vacuum详解：深入理解与实践云贝教育-郑老师 postgresql 数据库缓存 sql dba
引言PostgreSQL作为一款功能强大、开源的关系型数据库管理系统，其性能优化机制中，“VACUUM”命令扮演着至关重要的角色。本文将对PostgreSQL的VACUUM操作进行全面解析，探讨其工作原理、类型以及如何在实际环境中合理应用。一、VACUUM基础概念1.1VACUUM的作用在PostgreSQL中，当数据被更新或删除时，系统并不会立即释放物理空间，而是将其标记为“可重用”。随着时间推
文字转动画视频软件（Animaker） deepdata_cn 视频生成文字转视频
Animaker以动画制作为主的文字转视频软件。创建新项目导入文字后，可根据文字内容挑选合适模板和素材，软件自动结合生成初步视频，再利用编辑功能如剪辑、加特效、调颜色等进行优化。最初以提供基础的文字转动画功能和一些简单的模板为主，随着技术的不断进步和用户需求的增加，逐渐丰富了其功能和素材库，不断优化算法以提高生成动画的质量和效率，界面也变得更加友好和易用，在全球范围内获得了越来越多用户的认可，尤其
java文件分块上传,OkHttp文件上传（2）：实现文件分块上传陈章玉 java文件分块上传
前言分块上传和断点下载很像，就是讲文件分为多份来传输，从而实现暂停和继续传输。区别是断点下载的进度保存在客户端，ey往是写入数据库，分块上传的进度保存在服务器，每次可以通过文件的md5请求服务器，来获取最新的上传偏移量。但是这样明显效率偏低，客户端可以把offSet保存在内存，每上传一块文件服务器返回下一次的offSet。只不过这个offSet不需要保存在数据库，每次app关闭在打开继续上传可以请
kubernetes部署 etcd 集群 weixin_30569033 json
本文档介绍部署一个三节点高可用etcd集群的步骤：etcd集群各节点的名称和IP如下：kube-node0：192.168.111.10kube-node1：192.168.111.11kube-node2：192.168.111.12创建etcd证书和私钥，所有证书和私钥的操作在/etc/kubernetes/ca/目录。这里说下题外话：证书和私钥跟程序本身没有什么特定的关系，只是网络传输时的认
Python 地图基础教程教程小白教程 python python Python地图 Python基础教程 Python地图教程 Python地图入门 Python绘制地图 Python地图源码
文章目录前言1.环境准备1.1Python安装1.2选择Python开发环境1.3安装必要库二、绘制基本世界地图1.导入必要的库：2.加载世界地图数据：3.绘制地图：三、自定义地图样式1.按面积给国家着色：2.突出显示特定国家：四、添加地理信息1.显示国家名称：2.添加其他地理要素：五、保存地图前言地图在生活、科研、商业等诸多领域都有着广泛的应用，从日常出行的导航，到地理信息系统（GIS）中的数据
C# 零基础入门篇(19.DateTime 使用指南) think__deeply c#开发语言 visualstudio
##一、概述`DateTime`是C#中用于表示日期和时间的结构，位于`System`命名空间中。它提供了丰富的属性和方法，用于处理日期和时间的创建、格式化、比较和计算。##二、创建DateTime对象###（一）使用默认构造函数```DateTimenow=DateTime.Now;//获取当前日期和时间DateTimetoday=DateTime.Today;//获取当前日期，时间为00:00
【进阶编程】Roslyn 解析 C# 语法树（Syntax Tree）的节点详解 de之梦-御风技术 .net 进阶编程 c#
Roslyn解析C#语法树（SyntaxTree）的节点详解Roslyn解析C#代码后会生成一棵语法树（SyntaxTree），其中每个代码元素（类、方法、变量等）都是一个语法节点（SyntaxNode）。在Roslyn中，语法树的核心结构包括：SyntaxTree（语法树）SyntaxNode（语法节点）SyntaxToken（语法标记，如关键字、标点符号）SyntaxTrivia（额外信息，如
C# WPF编程-ToggleButton SongYuLong的博客 C#WPF开发 c#wpf 开发语言
ToggleButton在WPF中，ToggleButton是一个非常有用的控件，它允许用户在两种状态之间切换：选中（Checked）和未选中（Unchecked）。此外，还有一个中间状态叫做“不确定”（Indeterminate），但需注意的是，并不是所有的使用场景都需要或支持这个状态。下面将介绍如何使用ToggleButton，包括基本用法、样式定制以及事件处理。privatevoidTogg
tkinter报错 tcl和tk报错 _tkinter.TclError: Can‘t find a usable init.tcl in the following directories: 大博士.J java 数据库 python
问了好几个GPT回答的都不是解决问题的，胡编乱造的目前经过尝试好几个解决方案，终于破案了win10系统使用安装python时自动将tcl和tk识别到了新创建的虚拟环境继承中win11系统则需要手动去做一些操作，才可以解决问题我这报错的问题是这样的self.tk=_tkinter.create(screenName,baseName,className,interactive,wantobjects
Kafka 同步机制关键点 2分钟讲明白大博士.J kafka
ApacheKafka通过副本同步机制来保证数据的高可用性和可靠性。Kafka的同步机制主要涉及以下几个核心概念：副本（Replication）Kafka的每个Partition都会有多个副本（Replica），分为：Leader副本：负责处理生产者和消费者的所有请求。Follower副本：仅从Leader同步数据，不直接处理请求。副本数由replication.factor参数配置。例如：rep
SQL Server 触发器 .Net 爱好者 sql 数据库 oracle
在SQLServer中，触发器是一种特殊类型的存储过程，它会在特定事件发生时自动执行。触发器主要分为以下几种类型：DML触发器（DataManipulationLanguageTriggers）DDL触发器（DataDefinitionLanguageTriggers）登录触发器（LogonTriggers）1.DML触发器DML触发器用于响应数据操作语言（INSERT、UPDATE、DELETE
自己用 Node 搭个 DeepSeek 用起来香麻了李游Leo 环境配置 AI 视频教程 node.js deep 语言模型
不知道大家最近有没有关注DeepSeek，确实是火出圈了，过年串亲戚的大爷大妈们都能聊几句，而且不管是刷短视频，还是逛社交平台，到处都能看到大家在讨论DeepSeek。而且目前这把火还烧到美国去了，整的GPT都要免费了，而且文心外加开源+免费，就连王毅外长念完了诗之后都对外说了，不懂可以去查查deepseek。好家伙，这buff越叠越高啊，那这么好的东西，咱们是不是就要看一看了！！！不研究一下似乎
HarmonyOS ArkTS声明式UI开发实战教程李游Leo harmonyos harmonyos-next 鸿蒙 harmonyos ui 华为
引言：为何选择ArkTS？在HarmonyOS生态快速发展的当下，ArkTS作为新一代声明式UI开发框架，正在引发移动应用开发范式的变革。笔者曾在多个跨平台框架开发中经历过"命令式编程之痛"，直到接触ArkTS后才发现，原来UI开发可以如此直观高效。本文将通过完整案例解析，带您掌握声明式UI设计的精髓。一、ArkTS声明式设计核心理念1.1与命令式开发的本质差异传统开发中，我们需要逐步指示每个UI
Kali Linux 渗透测试环境配置（Metasploit + Burp Suite）李游Leo 环境配置 linux 运维服务器
一、KaliLinux系统准备首先，确保你已经成功安装了KaliLinux系统。可以从官方网站下载镜像文件，并通过U盘引导安装等常规方式完成系统部署。建议使用最新稳定版本，以获取最新的软件包支持和安全更新。安装完成后，登录系统，打开终端。由于许多操作需要管理员权限，在终端输入“sudosu”切换到root用户，后续操作若无特殊说明，均在root权限下进行。二、Metasploit配置1.KaliL
【大模型开发】ONNX 格式的大模型在 Android 上的部署与测试云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习 android 大模型部署本地推理引擎大模型开发机器学习边缘设备
以下内容将以ONNX格式的大模型在Android上的部署与测试为核心，提供一套可运行的示例（基于AndroidStudio/Gradle），并结合代码进行详细讲解。最后会给出一些针对在移动设备上部署ONNX推理的优化方法和未来建议。目录整体流程概述准备工作2.1ONNX模型准备2.2Android项目准备在Android上使用ONNXRuntime3.1添加依赖3.2项目结构说明3.3代码示例运行
网站老是被上传木马后门，怎么办？推荐两步解决法 hwscom 服务器安全技术服务器安全运维
站长朋友们，基本上都遭遇过网页木马和网站后门吧！其中最出名的当属“一句话木马”，因为非常简短，真的只有一句话（如下图），并且一般都嵌入到网站正常代码内，让人难以察觉。（图一：一句话木马）黑客入侵服务器往往都会先入侵网站，植入木马后门，再通过该木马后门进一步窃取服务器权限。黑客植入木马后门主要有以下几种途径：在线上传漏洞、FTP信息泄露、跨站入侵。其中在线上传漏洞是最常用的途径，占比高达90%以上。
题解 | 牛客周赛 Round 41 BCDEF Java huaxinjiayou java
题解|#学好C++##includeintmain(){printf(&qu中国电子工程设计院的工作环境办公环境较好，工作时间正常是8-9点弹性上班11.30吃午饭，13.00午休结束，下午17.00下良品铺子视觉设计师岗面经因为武汉的良品铺子是本土比较大的企业，所以参加了他们视觉设计师岗面试，共3轮面试，简单记录下面试过程阿里闲鱼｜Java&前端｜24届急聘｜杭州【招聘岗位】：闲鱼技术部，Jav
题解 | 牛客周赛 Round 49 DEF Java题解 han_xue_feng java
面试又黄了反正不是什么喜欢的工作[牛泪]面试又黄了反正不是什么喜欢的工作2024秋招数据开发第一波面试题露出#字节##滴滴##大数据##面经##秋招#引流字节阿里巴巴腾讯百度美团美团后端暑期实习体验——实习的一天早上：8点半出门坐地铁，9点下地铁到惠新西街南口地铁站，出地铁站坐班车（这一点还是不错的），9点30深圳阿里实习day1领工牌mac，认工位mentor，配环境看文档，七点就润了。看各个文
python怎么爬取网页数据,python爬取网页数据步骤 ab524100 python
这篇文章主要介绍了python爬取网页数据表格会超出索引，具有一定借鉴价值，需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获，下面让小编带着大家一起了解一下。前言：用python的爬虫爬取数据真的很简单，只要掌握这六步就好，也不复杂python源码库。以前还以为爬虫很难，结果一上手，从初学到把东西爬下来，一个小时都不到就解决了。python爬虫六步走第一步：安装requests库和Beaut
【MySQL】表的改，删熙曦Sakura MySQL mysql 数据库
CRUD：Create(创建),Retrieve(读取),Update(更新),Delete(删除)6.3Update语法：UPDATEtable_nameSETcolumn=expr[,column=expr...][WHERE...][ORDERBY...][LIMIT...]对查询到的结果进行列值更新6.3.1将孙悟空同学的数学成绩变更为80分--更新值为具体值--查看原数据SELECTna
牛客周赛 Round 54 题解（A~E） TCaaaaa 算法图论 c++
牛客周赛Round54题解A清楚姐姐的糖葫芦思路解析:显然只需要数字符串的字符o的个数即可。时间复杂度:O(N)O(N)O(N)代码块:voidsolve(){strings;cin>>s;intc=0;for(autov:s){c+=v=='o';}cout>a>>b>>x;llres1=x*a;llv=(x+2)/3*b;res1=min(res1,v);res1=min(res1,x/3*b
基于Python的大学生思想政治教育平台mysql(Django Flask Vue Pycharm ) QQ_188083800 python mysql django
文章目录具体实现截图项目技术介绍研究方案源码获取详细视频演示：文章底部获取博主联系方式！！！！系统设计核心代码部分展示django项目示例源码/演示视频获取方式具体实现截图项目技术介绍我国主流校园使用的是传统开发基于Java语言通过SpringBoot框架开发管理系统，开发周期长，开发人员学习成本高。使用如Django或Flask开发框架可以大量的减少开发者需要写的代码量，使开发人员可以最少的代码
自动驾驶---打造自动驾驶系统之导航模块开发（三）智能汽车人从零打造自动驾驶算法仿真系统自动驾驶人工智能机器学习
各位读者朋友，大家好。本次打造的自动驾驶系统仿真系统，涉及感知，预测，规控等多个模块（以规控算法为主，包括Polynomial预测，MCTS决策算法，通行走廊Corridor构建，QP/CILQR轨迹生成求解器，LQR+PID的控制器等），同时也支持其它相关规控算法的扩展（部署&开发自身感兴趣的算法），非常便捷。笔者在该系列中开发的规控算法主要依据专栏《自动驾驶Planning决策规划》中的章节逐
【第15届蓝桥杯】软件赛CB组省赛 Guiat 算法竞赛真题题解蓝桥杯
个人主页：Guiat归属专栏：算法竞赛真题题解文章目录A.握手问题（填空题）B.小球反弹（填空题）C.好数D.R格式E.宝石组合F.数字接龙G.爬山H.拔河正文总共8道题。A.握手问题（填空题）【题目】握手问题【分析】纯考察数学中简单排列组合。考虑相互握手的43人：（43*42）/2；考虑剩下7人与43人分别握手：7*43；两者相加即最终答案。【答案】1204【AC_Code】#include#d
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option

【ERNIE】芝麻街跨界NLP，没有一个ERNIE是无辜的

ERNIE: Enhanced Language Representation with Informative Entities（THU）[1]

knowledgeable encoder

改进的预训练

微调

reference

ERNIE: Enhanced Representation through Knowledge Integration（Baidu）[6]

reference：

ERNIE2.0: A Continual Pre-training Framework for Language Understanding[11]

模型框架

预训练任务

Word-aware Pre-training Tasks

Structure-aware Pre-training Tasks

Semantic-aware Pre-training Tasks

模型效果

reference

ERNIE-Tiny

更浅的模型

更大的hidden_size

subword词粒度

知识蒸馏

reference

ERNIE-GEN

ERNIE-Classification

本文参考资料

你可能感兴趣的:(【ERNIE】芝麻街跨界NLP，没有一个ERNIE是无辜的)

ERNIE: Enhanced Language Representation with Informative Entities（THU）^[1]

ERNIE: Enhanced Representation through Knowledge Integration（Baidu）^[6]

ERNIE2.0: A Continual Pre-training Framework for Language Understanding^[11]