鲨鱼儿

transformer、bert网络

序言

1、bert、transformer 比较传统的rnn

1、传统缺点：seq2seq使用循环网络固有的顺序特性阻碍样本训练的并行化，这在更长的序列长度上变得至关重要，因为有限的内
         存限制样本的批次大小；传统的seq2seq 处理时刻数 0-50，bert可以处理 几百个时刻长度的序列。
2、新结构：Transformer，这种模型架构避免循环并完全依赖于attention机制来绘制输入和输出之间的全局依赖关系。 Transf
         ormer允许进行更多的并行化
3、优势总结：
    ① bert、transformer 引入 位置嵌入 的思想，因此可以保证前后关系依赖的前提下实现并行化，bert网络比传统的r
      nn网络运行速度快很多
    ② 就算LSTM 引入了更新门、遗忘门，它不能完美解决 state 方向的梯度消失问题，因此LSTM处理的序列长度通常不超过
      50，bert网路可以处理更长的序列。
4、bert、transformer、传统rnn的缺点：
    虽说 他们 结构有差异，但是都属于 FC 类型的网络。

一、transformer 网络

1、self-attention

Self-attention：有时称为intra-attention，是一种attention机制，它关联单个序列的不同位置以计算序列的表示。 Self-attention已成功用于各种任务，包括阅读理解、摘要概括、文本蕴涵和学习与任务无关的句子表征。

2、网络基本结构解析

注意：① transformer 输入 input 序列时与 LSTM 不同，LSTM 网络每一次只输入一个时刻的文本，transformer 输入是多时刻同时输入（所有时刻embeding数据）并行执行结构。
② 在预测时， transformer 编码器由于引入了位置嵌入向量，它是一个并行结构的输入，但是解码器每一时刻输入需要参考上一时刻输出。在训练时，解码器的每个输入已知（即标签），所以可以直接位置嵌入并行输入。

注意： transformer 结构只有最后一层的编码器与解码器各层之间有 attention 机制（这个attention是类似seq2
seq的attention）

3、transformer 编码器与解码器结构

（1）encode 编码器基本结构

每个Encoder 包含两层结构: SelfAttention以及feedforward NN 构成。当然还有残差结构与归一化操作。

加上残差结构与归一化操作的编码器

1、注意：
    ① 编码器的输出维度结构：
        输入多少时刻的词，输出就是多少时刻的词，它们的时刻数相同，用于 与解码器 之间的attention做准备

（2） decode 解码器基本结构

解码器只是在Self-Attention和 feed-forward NN之间增加了一个 Encoder-Decoder Attention

完整的结构

执行过程：

4、位置嵌入 position embedding

1、模型还没有描述词之间的顺序关系，也就是如果将一个句子打乱 其中的位置，也应该获得相同的注意力，为了解决这个问题，
    论 文加入了自定义位置编码，位置编码和word embedding长度相同 的特征向量，然后和word embedding进行求和操作。
2、位置嵌入的作用
    transformer 网络编码器的输入是 多时刻 词embeding，为了使得并行执行的网络学习到词与词前后顺序，因此在词向
    量输入网络前用 位置向量 进行标记。

例：我是中国人

0 1 2 3

将位置 0,1,2,3..... 类似word2vec 的方式进行嵌入。

4、muti-head-self-attention、masked 概念

1、一个head相当于提取一种特征，类似于CNN的多输出通道一样吧，muti-head可以提取文本更多的特征。

（1）self-attention 执行过程

K、V、Q生成的方式

batch_size ==1 时 self-attention 执行的过程

batch_size + self-attention 执行的过程

self-attention最终表现结果

（2）muti-head-self-attention

cancat 合并后进行 linear转化为原来输入时的维度

（3）解码器中 masked 概念

Mask：遮挡掩盖的意思，比如：把需要预测的词给挡住。出现出 现在OpenAI GPT和Bert中。

Q:我|困|了 A：早点|休息    随机干扰句：你|该|吃饭|了
Input = [CLS] 我 [MASK] 了 [SEP] 早点 [MASK]  [SEP]
Label = IsNext
Input = [CLS]  [MASK] 困了 [SEP] 你该 [MASK] 饭了 [SEP]
Label =  NotNext

5、transformer 结构结构中 FFN 层、残差结构、normal 归一化操作

（1）Feed Forward 层（FNN层，两层FC结构）

-------- FNN 层计算方式

1、FFN层目的：

（2）残差结构 Residuals

残差结构的作用：
    类似 resnet 的思想，防止导链断掉（某部分出现梯度消失）。

（3）normal 归一化

1、作用:
    目的类似于 BN 层的三个作用，具体看 https://blog.csdn.net/qq_16555103/article/details/89914946

6、Final Linear and Softmax Layer

映射词汇表负采样构建 softmax 损失函数

二、transformer 文献名词

1、放缩点积attention（scaled dot-Product attention）

1、放缩点积attention：
    self-attention 权重α计算方式

常见的 query 与 key 计算权重α的公式

2、多头注意力（Multi-headed attention）机制

多头attention的Query，Key，Value首先进过一个线性变换，然后输入到放缩点积attention，注意这里要做h次，其实也就是所谓的多头，每一次算一个头。而且每次Q，K，V进行线性变换的参数W是不一样的。然后将h次的放缩点积attention结果进行拼接，再进行一次线性变换得到的值作为多头attention的结果。

三、BERT网络 ------ 语言模型

注意：一个transformer 输入一个时刻的词embeding（每一层的transformer是并行执行），因此上述bert网络中有
两层结构，一共有2N个transformer结构；他相当与一个双向的全连接。

1、bert网络的优势

1、BERT语言模型优势
    ① BERT 使用 Masked（掩码） 语言模型（也称为 “完形填空” 任务）来实现预训练好的深度双向表征。
    ② BERT 使用的是一个双向的全连接结构，从图中可以看出是在所有的网络层中都受到左右文本的共同作用。
    ③ BERT 使用的是 transformer 结构，因此它是一个并行执行的结构，它的运行速度较快
    ④ BERT 是一种 12/24 ... 层transformer 结构（muti-head-attention），提取的文本信息特征比较丰富

2、bert 网络结构

CLS：每个序列的第一个 token 始终是特殊分类嵌入（special classification embedding），即 CLS。对应于该 token 
    的最终隐藏状态（即，Transformer的输出）被用于分类任务的聚合序列表示。如果没有分类任务的话，这个向量是被忽略的。
SEP：用于分隔一对句子的特殊符号。有两种方法用于分隔句子：第一种是使用特殊符号 SEP；第二种是添加学习句子 A 嵌入到
    第一个句子的每个 token 中，句子 B 嵌入到第二个句子的每个 token 中。如果是单个输入的话，就只使用句子 A 。

（1）bert 网络输入

token：令牌，相当于输入端口

（2）bert Masked Language Model（掩盖语言模型）

（3）bert 网络四种问题

TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S