加勒比海鲜

DistillBERT

论文标题：DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter

提出机构：HuggingFace

部分内容引用于https://www.cnblogs.com/jiangxinyang/p/11715678.html

优化内容

DistillBert是在bert的基础上用知识蒸馏技术训练出来的小型化bert。整体上来说这篇论文还是非常简单的，只是引入了知识蒸馏技术来训练一个小的bert。具体做法如下：

1）给定原始的bert-base作为teacher网络。

2）在bert-base的基础上将网络层数减半（也就是从原来的12层减少到6层）。

3）利用teacher的软标签和teacher的隐层参数来训练student网络。

训练时的损失函数定义为三种损失函数的线性和，三种损失函数分别为：

1）。这是teacher网络softmax层输出的概率分布和student网络softmax层输出的概率分布的交叉熵（注：MLM任务的输出）。

2）。这是student网络softmax层输出的概率分布和真实的one-hot标签的交叉熵。也就是student模型做预训练的mlm损失。

3）。这是student网络隐层输出和teacher网络隐层输出的余弦相似度值，在上面我们说student的网络层数只有6层，teacher网络的层数有12层，因此个人认为这里在计算该损失的时候是用student的第1层对应teacher的第2层，student的第2层对应teacher的第4层，以此类推。

同时，作者对student的初始化也做了工作（后面的实验证明初始化工作也对精度有很大提升），作者用teacher的参数来初始化student的网络参数，做法和上面类似，用teacher的第2层初始化student的第1层，teacher的第4层初始化student的第2层。另外作者在这里移除了句子向量和pooler层，同时也移除了预训练过程中的NSP任务。

Distillation细节

模型和BERT架构完全一样，预训练过程也一致。batch_size设置的很大，使用梯度累计使batch达到4K，同时使用动态mask并移除nsp。
语料使用和BERT相同：English Wikipedia and Toronto Book Corpus。
在8张16G显存的V100 GPU上训练了90个小时。作为对比，RoBERTa在1024张32G显存的V100 GPU上训练了24个小时。

消融实验

如下表所示，mlm损失对精度影响不大，但其他两个蒸馏的loss和student模型的初始化工作对精度有很大影响。

Ablation study

你可能感兴趣的:(DistillBERT)

语义表示模型新方向《DistillBert》章鱼小丸子vvv
从应用落地的角度来说，bert虽然效果好，但有一个短板就是预训练模型太大，预测时间在平均在300ms以上（一条数据），无法满足业务需求。知识蒸馏是在较低成本下有效提升预测速度的方法。最近在看知识蒸馏方面的内容，对《DistillBert》做个简单的介绍。提纲1.Bert后演化的趋势2.知识蒸馏基本原理3.《DistillBert》详解4.后话一、Bert后演化的趋势Bert后，语义表示的基本框架已
DistillBERT 加勒比海鲜
论文标题：DistilBERT,adistilledversionofBERT:smaller,faster,cheaperandlighter提出机构：HuggingFace部分内容引用于https://www.cnblogs.com/jiangxinyang/p/11715678.html优化内容DistillBert是在bert的基础上用知识蒸馏技术训练出来的小型化bert。整体上来说这篇论
BERT蒸馏完全指南｜原理/技巧/代码 zenRRan 算法机器学习人工智能深度学习大数据
来自：李rumor小朋友，关于模型蒸馏，你是否有很多问号：蒸馏是什么？怎么蒸BERT？BERT蒸馏有什么技巧？如何调参？蒸馏代码怎么写？有现成的吗？今天rumor就结合DistilledBiLSTM/BERT-PKD/DistillBERT/TinyBERT/MobileBERT/MiniLM六大经典模型，带大家把BERT蒸馏整到明明白白！模型蒸馏原理Hinton在NIPS2014[1]提出了知识
NLP预训练模型6 -- 模型轻量化（ALBERT、Q8BERT、DistillBERT、TinyBERT等） anshiquanshu 自然语言处理深度学习
1背景模型压缩和加速在工业界应用中十分重要，特别是在嵌入式设备中。压缩和加速在算法层面，大体分为结构设计、量化、剪枝、蒸馏等。本文从这四个方面分析怎么实现BERT轻量化，从而实现BERT模型压缩和加速。2结构设计通过结构设计来实现模型轻量化的手段主要有：权值共享、矩阵分解、分组卷积、分解卷积等。BERT中也广泛使用了这些技术。以ALBERT为例：矩阵分解：embedding层矩阵分解，分解前参数量
LMTC-emnlp论文+代码剖析(BERT-LWAN) wcx881212 bert 算法 nlp 深度学习
LMTC-emnlp论文来源论文Meta-LMTC:Meta-LearningforLarge-ScaleMulti-LabelTextClassification（2021emnlp）提到的使用meta-lmtc方法能增强BERTlike模型即BERT-LWAN（IliasChalkidis…）。原文实验用的是蒸馏的Bert即DistillBert-LWAN。评估标准Precision@K:P@
BERT蒸馏完全指南｜原理/技巧/代码机智的叉烧大数据算法机器学习人工智能深度学习
小朋友，关于模型蒸馏，你是否有很多问号：蒸馏是什么？怎么蒸BERT？BERT蒸馏有什么技巧？如何调参？蒸馏代码怎么写？有现成的吗？今天rumor就结合DistilledBiLSTM/BERT-PKD/DistillBERT/TinyBERT/MobileBERT/MiniLM六大经典模型，带大家把BERT蒸馏整到明明白白！模型蒸馏原理Hinton在NIPS2014[1]提出了知识蒸馏（Knowle
NLP预训练模型4 -- 训练方法优化（RoBERTa、T5）谢杨易深度学习 nlp 自然语言处理深度学习人工智能机器学习
系列文章，请多关注NLP预训练模型1–综述NLP预训练模型2–BERT详解和源码分析NLP预训练模型3–预训练任务优化（ERNIE、SpanBERT）NLP预训练模型4–训练方法优化（RoBERTa、T5）NLP预训练模型5–模型结构优化（XLNet、ALBERT、ELECTRA）NLP预训练模型6–模型轻量化（ALBERT、Q8BERT、DistillBERT、TinyBERT等）Transfo
BERT模型超酷炫，上手又太难？请查收这份BERT快速入门指南！ Evan-yzh
点击上方“AI遇见机器学习”，选择“星标”公众号重磅干货，第一时间送达来自|GitHub作者|JayAlammar转自|机器之心如果你是一名自然语言处理从业者，那你一定听说过最近大火的BERT模型。本文是一份使用简化版的BERT模型——DisTillBERT完成句子情感分类任务的详细教程，是一份不可多得的BERT快速入门指南。在过去的几年中，用于处理语言的机器学习模型取得了突飞猛进的进展。这些进展
NLP预训练模型1 -- 综述谢杨易深度学习
系列文章，请多关注NLP预训练模型1–综述NLP预训练模型2–BERT详解和源码分析NLP预训练模型3–预训练任务优化（ERNIE、SpanBERT）NLP预训练模型4–训练方法优化（RoBERTa、T5）NLP预训练模型5–模型结构优化（XLNet、ALBERT、ELECTRA）NLP预训练模型6–模型轻量化（ALBERT、Q8BERT、DistillBERT、TinyBERT等）Transfo
BERT家族：DistillBERT 姆爷预训练语言模型 BERT
DistillBERT论文：《DistilBERT,adistilledversionofBERT:smaller,faster,cheaperandlighter》论文地址：https://arxiv.org/pdf/1910.01108作者/机构：Huggingface年份：2019.10DistillBert是在Bert的基础上用知识蒸馏技术训练出来的小型化bert，通过teachermod
万字长文带你纵览 BERT 家族姆爷 BERT 预训练语言模型
目录1.BERT1.1概述1.2模型解读1.3BERT的特点1.4用法2.BERT的后代2.1XL-Net2.2RoBERTa2.3ALBERT2.4ELECTRA2.5ERNIE2.6BERT-WWM2.7SpanBERT2.8TinyBERT2.9DistillBERT2.10sentence-BERT2.11K-BERT2.12SemBert2.13StructBERT自18年底谷歌BERT
Bert改进模型汇总（5）一枚小码农 NLP
目录DistillBert:adistilledversionofBERT:smaller,faster,cheaperandlighterTinyBert::DISTILLINGBERTFORNATURALLANGUAGEUNDERSTANDINGReferenceDistillBert:adistilledversionofBERT:smaller,faster,cheaperandlight
NLP预训练模型2 -- BERT详解和源码分析谢杨易深度学习 nlp hilbert transform 自然语言处理人工智能深度学习
系列文章，请多关注NLP预训练模型1–综述NLP预训练模型2–BERT详解和源码分析NLP预训练模型3–预训练任务优化（ERNIE、SpanBERT）NLP预训练模型4–训练方法优化（RoBERTa、T5）NLP预训练模型5–模型结构优化（XLNet、ALBERT、ELECTRA）NLP预训练模型6–模型轻量化（ALBERT、Q8BERT、DistillBERT、TinyBERT等）Transfo
BERT模型超酷炫，上手又太难？请查收这份BERT快速入门指南喜欢打酱油的老鸟人工智能
2019-12-3110:50:59选自GitHub作者：JayAlammar参与：王子嘉、GeekAI如果你是一名自然语言处理从业者，那你一定听说过最近大火的BERT模型。本文是一份使用简化版的BERT模型——DisTillBERT完成句子情感分类任务的详细教程，是一份不可多得的BERT快速入门指南。在过去的几年中，用于处理语言的机器学习模型取得了突飞猛进的进展。这些进展已经走出了实验室，开始为
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他