跨语言词向量笔记4. 句级别对齐方法

神经翻译笔记5. 序列到序列模型与注意力机制 TimsonShi 神经翻译笔记机器翻译注意力机制序列到序列模型
文章目录神经翻译笔记5.序列到序列模型与注意力机制机器翻译概论编码器-解码器结构集束搜索注意力机制结语其它参考文献备注神经翻译笔记5.序列到序列模型与注意力机制本系列笔记从2018年3月开始编写，虽然题名为“神经翻译笔记”，但是历经2年3个月，虽然偶尔提到一些神经翻译使用的方法（例如subword），却仍并未真正涉及机器翻译本身，颇有点“博士买驴”的感觉。不过从本章开始，终于要进入正题，聊一聊神经
神经翻译笔记5扩展d. PyTorch学习笔记 TimsonShi 神经翻译笔记 pytorch
文章目录神经翻译笔记5扩展d.PyTorch学习笔记PyTorch与张量自动微分简介示例进一步的数学解释示例2.“冷冻”某个子图以微调预训练模型使用PyTorch定义一个神经网络定义网络损失函数和参数更新常用的PyTorch包及其连携`torch.utils.data.Dataset``torch.utils.data.DataLoader``torch.optim``torch.nn`构造函数成
神经翻译笔记3扩展a. 深度学习的矩阵微积分基础 TimsonShi 神经翻译笔记矩阵微分
文章目录神经翻译笔记3扩展a.深度学习的矩阵微积分基础预备知识矩阵微积分雅可比矩阵的泛化两向量间逐元素运算的导数向量与标量运算的导数向量的求和规约操作链式法则单变量链式法则单变量全微分链式法则向量的链式法则激活函数的梯度神经网络损失函数的梯度神经翻译笔记3扩展a.深度学习的矩阵微积分基础写在前面：矩阵微积分是深度学习的数学基础之一，但是这部分内容在大学计算机系（及相关非数学类专业）本科几乎没有介绍
神经翻译笔记6. 卷积神经网络及其在机器翻译中的应用 TimsonShi 神经翻译笔记卷积神经网络机器翻译
文章目录神经翻译笔记6.卷积神经网络及其在机器翻译中的应用CNN的基本原理卷积卷积的定义CNN中的基本二维卷积操作对二维卷积操作的扩展二维卷积总结一维卷积为什么使用卷积池化典型CNN结构CNN在机器翻译中的应用ByteNetConvS2S卷积层多步注意力机制其它设计细节轻量与动态CNN轻量卷积带有CNN思想的RNNQuasiRNN基本结构变种参考文献神经翻译笔记6.卷积神经网络及其在机器翻译中的应
神经翻译笔记2. Log-linear语言模型 TimsonShi 神经翻译笔记
文章目录神经翻译笔记2.Log-linear语言模型模型简介Softmax的计算问题模型示例学习模型参数损失函数使用随机梯度下降（SGD）进行优化损失函数对参数的偏导数神经翻译笔记2.Log-linear语言模型本章笔记基于[Neubig2017]第四章和NNMNLP第二章的一部分上一章提到的N元语法模型实际上就是基于计数和条件概率，而log-linear语言模型（或称对数-线性语言模型）使用了另
神经翻译笔记3扩展e第1部分. Word2Vec原理及若干关于词向量的扩展知识 TimsonShi 神经翻译笔记
文章目录神经翻译笔记3扩展e第1部分.Word2Vec原理及若干关于词向量的扩展知识Word2vec的参数学习连续词袋模型（CBOW）上下文仅有一个单词的情况隐藏层到输出层权重的更新输入层到隐藏层权重的更新上下文有多个单词的情况SkipGram模型优化计算效率分层softmax负采样Softmax的近似方法Softmax扩展法采样法ISNCENCE与其它采样法的关系如何生成好的词向量参考文献神经翻
神经翻译笔记3扩展d. 神经网络的泛化 TimsonShi 神经翻译笔记
文章目录神经翻译笔记3扩展d.神经网络的泛化数据增强参数范数惩罚$L^2$正则化$L^1$正则化在TensorFlow中使用参数范数惩罚提前终止方法概览提前终止与$L^2$正则的关系集成方法集成方法概览参数平均Dropout原理实现与使用批归一化原理使用与实现进一步探索扩展权重归一化层归一化组归一化参考文献神经翻译笔记3扩展d.神经网络的泛化机器学习模型的正则化是一个老生常谈的问题，毕竟模型训练出
神经翻译笔记3扩展b. 自动微分 TimsonShi 神经翻译笔记
文章目录神经翻译笔记3扩展b.自动微分引言自动微分不是什么自动微分不是数值微分自动微分不是符号微分自动微分及其主要模式前向模式（Forwardmode）二元数后向模式（Backwardmode）自动微分与机器学习基于梯度的优化神经网络、深度学习与可微分编程实现陷阱性能扰动混淆数值计算的陷阱近似问题实现方法TensorFlow的实现静态图模式梯度计算函数动态图模式神经翻译笔记3扩展b.自动微分本文无
神经翻译笔记3扩展c. 神经网络的初始化 TimsonShi 神经翻译笔记
文章目录神经翻译笔记3扩展c.神经网络的初始化基本初始化方法LeCun初始化Xavier初始化（Glorot初始化）何恺明初始化（He初始化）前向视角反向视角不要使用常数初始化小结参考文献神经翻译笔记3扩展c.神经网络的初始化深度学习中，在具体网络结构之上，有三种应用广泛而且比较微妙的技术，分别是初始化，即如何恰当地初始化网络参数。不恰当的初始化方法甚至会使网络无法被训练，而好的初始化方法可以缩短
神经翻译笔记2扩展a. 损失函数 TimsonShi 神经翻译笔记
文章目录神经翻译笔记2扩展a.损失函数针对回归问题的损失函数均方误差函数平均绝对值误差函数Huberloss关于回归问题的损失函数小结针对分类问题的损失函数交叉熵损失函数概述Softmax交叉熵损失函数Sigmoid交叉熵损失函数铰链损失函数（hingeloss）均方误差函数关于分类问题的损失函数小结神经翻译笔记2扩展a.损失函数从最抽象的角度来讲，机器学习问题的求解过程就是提出一个损失函数来度量
神经翻译笔记4扩展d. 迁移学习概述与前BERT时代的NLP预训练模型 TimsonShi 神经翻译笔记
神经翻译笔记4扩展d.迁移学习概述与前BERT时代的NLP预训练模型迁移学习多任务学习（MTL）辅助任务为什么多任务学习能够有效顺序迁移学习终生学习（Lifelonglearning）领域适配基于表示的方法领域相似度数据加权和数据选择自标注技术前BERT时代的两种经典RNN预训练模型ULMFiTELMo讨论：微调还是不调，这是一个问题参考文献本节仍然是为了系列笔记的完整性而做，主要介绍迁移学习的概
神经翻译笔记4扩展c. 2017-2019年间RNN和RNN语言模型的新进展 TimsonShi 神经翻译笔记
文章目录神经翻译笔记4扩展c.2017-2019年间RNN和RNN语言模型的新进展QuasiRNNFS-RNNSkipRNN高秩RNN语言模型MoSIndRNNON-LSTMMogrifierLSTM参考文献神经翻译笔记4扩展c.2017-2019年间RNN和RNN语言模型的新进展尽管在本文写作时（2020年4月），基于Transformer结构的预训练语言模型已经大杀四方，BERT都已经成为明日
神经翻译笔记4扩展b. RNN的正则化方法 TimsonShi 神经翻译笔记正则化 rnn
文章目录神经翻译笔记4扩展b.RNN的正则化方法层归一化对dropout的扩展集大成的方法：AWD-LSTM正则化方法不同形式的dropout变长的反向传播嵌入共享嵌入维度与隐藏层维度分离激活单元正则化与时序激活单元正则化优化方法其它技术与实验参考文献神经翻译笔记4扩展b.RNN的正则化方法本系列笔记前文介绍了若干神经网络常用的泛化方法，本文将延续这一话题，介绍若干适用于RNN的泛化/正则化方法层
神经翻译笔记4扩展a第二部分. RNN在TF2.0中的实现方法略览 TimsonShi 神经翻译笔记
神经翻译笔记4扩展a第二部分.RNN在TF2.0中的实现方法略览文章目录神经翻译笔记4扩展a第二部分.RNN在TF2.0中的实现方法略览相关基类`tf.keras.layers.Layer``recurrent.DropoutRNNCellMixin`RNNCell相关`LSTMCell``PeepholeLSTMCell``StackedRNNCells``AbstractRNNCell`RNN
神经翻译笔记4扩展a第一部分. RNN在TF1.x中的实现方法略览 TimsonShi 神经翻译笔记
神经翻译笔记4扩展a第一部分.RNN在TF1.x中的实现方法略览RNNcell的实现`keras.layers.Layer``layers.Layer``nn.rnn_cell.RNNCell``LayerRNNCell``BasicRNNCell``GRUCell``BasicLSTMCell``LSTMCell``MultiRNNCell`RNN的实现静态机制动态机制参考文献本文主要讨论TF1
神经翻译笔记4. 循环神经网络（RNN） TimsonShi 神经翻译笔记
神经翻译笔记4.循环神经网络（RNN）普通RNN(VanillaRNN)RNN的反向传播事与愿违的RNN基于门控单元的RNN长短期记忆网络(LSTM)门控循环单元(GRU)双向的RNN与更深的RNN双向RNN堆叠RNN批量训练RNNRNN能解决的任务参考文献本文来自于如下来源[Neubig2017]第6节(主要来源，结构遵从此文)[Koehn2017]13.4.4、13.4.5、13.4.6三小节
神经翻译笔记3扩展e第2部分. Subword TimsonShi 神经翻译笔记
文章目录NMTTutorial3扩展e第2部分.Subword序言分词方法介绍BPE原理与算法使用Morfessor术语方法模型与损失函数似然先验训练与解码算法参数初始化全局维特比算法局部维特比算法递归算法似然权重与半监督学习fastText算法原理实现参考文献附录MAP估计HMM模型马尔可夫模型马尔可夫链隐马尔可夫模型求解似然问题：前向算法求解解码问题：维特比算法求解学习问题：前向-后向算法（B
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p

跨语言词向量笔记4. 句级别对齐方法

跨语言词向量笔记4. 句级别对齐方法

使用平行语料的句子级别方法

组成法

双语自编码器

双语skip-gram

其它方法

使用可比较数据的句级别对齐方法

参考文献

你可能感兴趣的:(神经翻译笔记)