囚生CY

CS224N WINTER 2022（五）Transformers详解（附Assignment5答案）

CS224N WINTER 2022（一）词向量（附Assignment1答案）
CS224N WINTER 2022（二）反向传播、神经网络、依存分析（附Assignment2答案）
CS224N WINTER 2022（三）RNN、语言模型、梯度消失与梯度爆炸（附Assignment3答案）
CS224N WINTER 2022（四）机器翻译、注意力机制、subword模型（附Assignment4答案）
CS224N WINTER 2022（五）Transformers详解（附Assignment5答案）

序言

CS224N WINTER 2022课件可从https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1224/下载，也可从下面网盘中获取：
```
https://pan.baidu.com/s/1LDD1H3X3RS5wYuhpIeJOkA
提取码: hpu3
```
本系列博客每个小节的开头也会提供该小结对应课件的下载链接。
课件、作业答案、学习笔记（Updating）：GitHub@cs224n-winter-2022
关于本系列博客内容的说明：
- 笔者根据自己的情况记录较为有用的知识点，并加以少量见解或拓展延申，并非slide内容的完整笔注；
- CS224N WINTER 2022共计五次作业，笔者提供自己完成的参考答案，不担保其正确性；
- 由于CSDN限制博客字数，笔者无法将完整内容发表于一篇博客内，只能分篇发布，可从我的GitHub Repository中获取完整笔记，本系列其他分篇博客发布于（Updating）：
  
  CS224N WINTER 2022（一）词向量（附Assignment1答案）
  
  CS224N WINTER 2022（二）反向传播、神经网络、依存分析（附Assignment2答案）
  
  CS224N WINTER 2022（三）RNN、语言模型、梯度消失与梯度爆炸（附Assignment3答案）
  
  CS224N WINTER 2022（四）机器翻译、注意力机制、subword模型（附Assignment4答案）
  
  CS224N WINTER 2022（五）Transformers详解（附Assignment5答案）

文章目录

序言
- lecture 9 Transformers
- - slides
  - suggested readings
- lecture 10 更多关于Transformers的内容以及预训练
- - slides
  - suggested readings
  - huggingface transformers tutorial session
  - assignment5 参考答案
  - - 1. Attention exploration
    - 2. Pretrained Transformer models and knowledge access
    - 3. Considerations in pretrained knowledge

lecture 9 Transformers

slides

[slides]

Transformer是对自然语言处理研究领域的一场革新，几乎目前NLP中所有的先进模型都离不开Transformer。典中典的Attention Is All You Need，很多人都有写过Transformer的原理解析，这里不赘述。

RNN的缺陷：slides p.19

① 线性交互距离（linear interaction distance）：联系两个相隔很长的节点的时间复杂度是 $O(\text{sequence length})$

② 不能并行：GPU和TPU能够高效地并行巨量的独立运算，然而RNN无法享受这样的红利。
自注意力（self attention）：slides p.22

注意力机制将每个单词的表示视为查询向量（query），然后与一系列值向量结合（参考lecture7中相关内容），在encoder-decoder模型架构中，注意力得分是根据decoder中当前需要解码的一个隐层状态与encoder中所有隐层状态计算得到的一个相似度向量（如点积），这称为encoder-decoder注意力。

自注意力则是encoder-encoder注意力（或decoder-decoder注意力），具体而言，在机器翻译模型中，注意力刻画的两种不同的语言序列（称之为输入语句和输出语句）之间的相似度，那么自注意力就是刻画输入语句（或输出语句）与自身的一个相似度。
Transformer的优势：slides p.24

① 非并行的运算复杂度不会随着序列长度的增加而增加；

② 因为自注意力机制的存在，每个单词都相互关联，因此联系两个相隔很长的节点的时间复杂度是 $O (1)$
Transformer详解（编码器部分）：slides p.26

下图摘自Transformer提出文：Attention Is All You Need
- 自注意力机制：这是Transformer的核心区块（多头注意力）。
  
  假想有一个模糊的哈希表，如果我们想要查询某个值（value），我们需要将查询（query）与表中的键（key）进行对比（因为这是一个模糊的哈希表）。
  
  上图左边是各标准哈希表，每个查询恰好对应一个键值对，右边是自注意力机制，每个查询可能匹配多个键值对，因此我们将根据查询与键的相似度对每个值进行赋权。
  
  首先我们来看Transformer中编码器的自注意力机制：
  
  ① 对于每个输入的词向量 $x_i\in\R^{d_{\rm model}}$ （ $d_{\rm model}$ 表示词向量的维度），计算其查询向量，键向量，值向量：
  $q_i=W^Qx_i\in\R^{d_k}\quad k_i=W^Kx_i\in\R^{d_k}\quad v_i=W^Vx_i\in\R^{d_v}\quad i=1,2,...,n\tag{9.1}$
  ② 计算查询向量与键向量之间的注意力得分（点积）， $n$ 表示序列长度：
  $e_{ij}=q_ik_j\in\R\quad i=1,2,...,n;j=1,2,...,n\tag{9.2}$
  ③ 对注意力得分取softmax进行得到标准化的概率分布：
  $\alpha_{ij}=\text{softmax}(e_{ij})=\frac{\exp(e_{ij})}{\sum_{p=1}^n\exp(e_{ip})}\in\R\quad i=1,2,...,n;j=1,2,...,n\tag{9.3}$
  ④ 根据概率分布计算值向量的加权累和：
  $\text{output}_i=\sum_{j=1}^n\alpha_{ij}v_j\quad i=1,2,...,n\tag{9.4}$
  可以将式 $(9.1)$ 到式 $(9.4)$ 写成统一矩阵的形式：
  $\left.\begin{aligned} Q=XW^Q\quad K=XW^K\quad V=XW^V&\\ E=QK^\top&\\ A=\text{softmax}(E)&\\ \text{Output}=AV&\end{aligned}\right\} \Rightarrow\text{Output}=\text{softmax}(QK^\top)V\tag{9.5}$
  其中：
  $X\in\R^{n\times d_{\rm model}},W^{Q}\in\R^{d_{\rm model}\times d_k},W^{K}\in\R^{d_{\rm model}\times d_k},W^V\in\R^{d_{\rm model}\times d_v}\\ Q\in\R^{n\times d_k},K\in\R^{n\times d_k},V\in\R^{n\times d_{v}},E\in\R^{n\times n},A\in\R^{n\times n},\text{Output}\in\R^{n\times d_v}\tag{9.6}$
  现在的问题在于是式 $(9.5)$ 的注意力的机制中仅仅是对值向量做加权平均，缺少元素级别上的非线性成分，一种简单的处理思路是将式 $(9.7)$ 直接输入到一个前馈层中，然后使用非线性的激活函数处理一下即可：
  $m_i=\text{MLP}(\text{output}_i)=W_2\times\text{ReLU}(W_1\times\text{output}_i+b_1)+b_2\tag{9.7}$
  下面要介绍的是编码器中的几个技巧：
- 训练技巧一：残差连接（Residual Connections）： $x_l=F(x_{l-1})+x_{l-1}$
  
  这是为了防止网络忘记多层之前的重要信息，因此直接粗暴地把多层之前的信息 $x_{l-1}$ 拎过来。
  
  残差连接也可以使得损失函数的更新更加平滑（缓解梯度消失），使得训练更加丝滑流畅。
- 训练技巧二：层标准化（LayerNorm）：
  
  层正则化是将网络层的输入划归为均零方一的格式：
  ${x^l}'=\frac{x^l-\mu^l}{\sigma^l+\epsilon}\tag{9.8}$
  分母添加的小常数 $\epsilon$ 是为了防止标准差过小。
- 训练技巧三：Scaled Dot-product Attention
  
  式 $(9.5)$ 即Dot-product Attention，原论文中提出归一化，即得到原文Figure2中的Scaled Dot-product Attention：
  $\text{Attention}(Q,K,V)=\text{softmax}\left(\frac{QK^\top}{\sqrt{d_k}}\right)V\tag{9.9}$
  这里其实就是一个层标准化，因为均值是零， $\sqrt{d_k}$ 就是标准差。
- 位置编码（Positional Encodings）：slides p.39
  
  是否注意到目前为止，输入序列的次序并不会影响上面每一个表达式的求解，也就是说我将一个输入语句打乱次序，上面的计算结果仍然保持不变。因此需要引入位置编码（这是Transformer扯下RNN的最后一块遮羞布，RNN可以表达次序，Transformer也完美解决了这个问题）。
  
  在式 $(9.1)$ 的基础上，我们定义 $p_i\in\R^d$ （ $i = 1, 2, . . ., n$ ）来编码位置编号，然后更新：
  $v_i\leftarrow v_i+p_i\\ q_i\leftarrow q_i+p_i\\ k_i\leftarrow k_i+p_i\tag{9.10}$
  这里有一个小问题就是 $v_i\in\R^{d_v}$ 的维度跟 $q_i,k_i\in\R^{d_k}$ 可能是不一样的，式 $(9.10)$ 可能没那么容易就可以相加，但是这不关键，因为 $p_i$ 的定义是这样的：
  $p_i=\left[ \begin{matrix} \sin(i/10000^{2/d})\\ \sin(i/10000^{2/d})\\ \sin(i/10000^{4/d})\\ \cos(i/10000^{4/d})\\ ...\\ \sin(i/10000^{2\times(d/2)/d})\\ \cos(i/10000^{2\times(d/2)/d})\\ \end{matrix} \right]\in\R^d\tag{9.11}$
  因此只要自定义一下 $d$ 的取值即可，想要多少维度的的 $p_i$ 都可以。这样的位置编码其实本质上就是就是近似的交替 $[0, 1, 0, 1, . . . 0, 1]$ ，与绝对位置基本已经没有太大关系了。
  
  其实对于式 $(9.11)$ 这种定义许多人颇有微词，认为这种定义的位置编码不具有可学习性（其实就已经完全固定了），因此也有人觉得应当将 $p_i$ 变为可学习的参数，比如学习一个 $p\in\R^{d\times n}$ 来作为位置编码的嵌入表示。这样的好处是确实可以学习到更好的位置编码，但是坏处是无法外推到文本序列长度超过 $n$ 的情况。
  
  一些近期的位置编码研究paper：相对线性位置编码，结构化的位置编码
- 多头注意力机制：slides p.44
  
  多头注意力机制是在式 $(9.9)$ 的基础上进行的改进，简而言之就是重复做若干次Scaled Dot-product Attention，得到多个头（head） $\rm Output$ ，将它们拼接起来后再进行一次线性映射：
  $\text{MultiHead}(Q,K,V)=\text{Concat}(\text{head}_1,...,\text{head}_h)W^O\in\R^{n\times d_{\rm model}}\\\text{head}_i=\text{Attention}(QW_i^Q,KW_i^K,VW_i^V)\in\R^{n\times d_v}\quad i=1,2,...,h\tag{9.12}$
  其中 $W^O\in\R^{hd_v\times d_{\rm model}}$ ， $h=8,d_k=d_v=d_{\rm model}/h=64$ 是默认的超参数。
  
  使用多头注意力的原因可以这样解释，一个头所揭示的概率分布权重可能并不那么可信，那么我就多做几个不同的头，让它们学习得到一个更好的权重表示。
Transformer详解（解码器部分）以及缺陷分析：slides p.47
- Masked多头注意力：如何避免解码器作弊（解码器逐字解码，要防止其使用到整个序列的信息），因此使用Masked Multi-Head Attention（这个在assignment4中代码部分有一个类似的问题，需要回答mask的作用，答案就是防止作弊），将未来的分词信息给抹去。
- encoder-decoder注意力机制：
  
  相对于编码器中的自注意力（键、值、查询）都来自同一个语句序列，解码器中的注意力机制就跟lecture7中讲得没什么两样了（来自两个语句序列的相似度计算注意力得分）：
  
  ① $h_1,...,h_n\in\R^d$ 是编码器的输出向量；
  
  ② $z_1,...,z_n\in\R^d$ 是解码器的输入向量；
  
  ③ 记录 $k_i=Kh_i,v_i=Vh_i,i=1,...,n$
  
  ④ 计算 $q_i=Qz_i,i=1,...,n$
总体来说Transformerd的缺陷可能主要在于这样几点：
- 位置编码的做法存在争议，这个在上文已有几篇改进做法paper的链接；
- 关于自注意力需要计算 $O(n^2)$ 对自注意力权重太耗时，有人提出改进Linformer到 $O (n)$ 的级别，核心思想是将序列长度 $n$ 映射到低维；
  
  还有人（bigbird，这个链接是错的，但是也没能确定到底是哪一篇，叫题目里带bigbird的还挺多，基本都不是NLP领域的）直接就少算一些自注意力得分：

lecture 10 更多关于Transformers的内容以及预训练

slides

[slides]

爆炸性新闻：slides p.2-3
- 2022/02/19：AlphaCode（基于Transformer的预训练代码生成模型）在Codeforces programming比赛中取得了54.3%的准确率。
- 2021/09/20：miniF2F（基于Transformer的数学证明生成模型）在collection of challenging math Olympiad questions取得了突破性进展（29.3%提升到41.2%）。正式论文链接
关于单词结构：slides p.9

这里提到或许Transformer中也可以考虑使用subword级别的编码，问题在于一定要能编纂出一个很好的subword字典（中文可以用偏旁部首，英文要有前后缀等等）。
预训练词向量：slides p.24

Semi-supervised Sequence Learning可能是比较早提出预训练概念的paper，这里使用的就是语言模型的策略，即预测下一个单词，那么就构建一个解码器模型来预测语句中的下一个单词，最后将整个语句预测出来，得到的一个预训练好的模型再嫁接到NLP任务的模型中继续训练（相当于预先找好一个模型参数的初始点）。
预训练的三种方法：slides p.27
- 解码器模型：即预先训练一个用于解码隐层状态的模型，如GPT-2，GPT-3，LaMDA；
  
  通常使用语言模型来预训练解码器，经典的GPT模型与GPT2模型是对Transformer的解码器进行预训练（12层），768个隐层状态，3072维的前馈隐层，使用的是Byte-pair编码（属于subword级别的编码），训练语料是BooksCorpus（超过7000本书籍，包含大量的长文本）。并在多个自然语言生成数据集上进行了测试，效果拔群。
  
  GPT-2模型在GPT模型的基础上继续增加训练数据。
  
  GPT-3是更大的一个模型（1750亿的参数）。
- 编码器模型：即预先郧县一个用于编码文本输入的模型，如BERT，RoBERTa；
  
  BERT在推荐阅读的第一篇（BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding），它的预训练任务是预测被mask掉（80%）、被随机替换（10%）、保持原样（10%）的单词。也是在BookCorpus和Wikipedia上训练的，64张TPU用时4天训练得到，基础模型（12层，768维隐层状态，12注意力头，1.1亿参数），大模型（24层，1024维一层状态，16注意力头，3.4亿参数）。
  
  缺陷：如果主任务是要生成序列，通常选择使用GPT这类预训练的解码器，BERT并不太适合用于序列自动生成类（一次解码一个单词的那种）的任务。
  
  变体：RoBERTa，SpanBERT
- 编码器解码器模型：如Transformer，T5，Meena；
  
  The encoder portion benefits from bidirectional context; the decoder portion is used to train the whole model through language modeling.
  
  意思应该是，编码器得到最终隐层状态输入解码器，与解码器的输入合并，然后解码器还是一个语言模型，任务就是预测下一个单词。其中编码器的输入是 $w_1,...,w_T)$ ，解码器的输入是 $w_{T+1},w_{T+2},...,w_{2T})$ ，解码器的输出是 $w_{T+2},w_{T+3},...,w_{2T+1})$
  
  推荐的一篇使用了这种类型预训练模型的paper
  
  T5模型是问答模型的一种预训练模型，可以用来进行微调解决很多问答任务。

huggingface transformers tutorial session

[Colab]

关于Transformer的教程可以查看笔者的博客，这个Notebook需要才能看到。

assignment5 参考答案

[code] [handout] [latex template]

Assignment5参考答案（written+coding）：囚生CYのGitHub Repository

本次作业不确定性较大，因为缺少计算资源无法完全跑通所有代码。

1. Attention exploration

$(a)$ 提示：参考[slides]中注意力机制的相关内容。
- $(1)$ 作业中式 $(1)$ 已经写得很明白了，这是一个模糊查询，我们不能直接通过查询向量 $q$ 精确匹配到某个键向量 $k$ ，只能赋予每个键一定的概率分布权重（即 $\alpha_{ij}$ ），得到最终的输出结果。
- $(2)$ 根据式 $(2)$ 的计算方法，如果查询向量 $q$ 与某个键 $k_i$ 的相似度非常高（点积值很大），且 $q$ 与其他的键基本垂直（点积值为零），那么就会使得 $\alpha_i$ 极大。
- $(3)$ 此时 $c$ 基本近似等于 $v_i$
- $(4)$ 直觉上就是单词的表示越相近，注意力权重就会越高，得到的注意力输出就越接近那个单词。（感觉在把一句废话换着方式说了好几遍）
$(b)$ 只考虑两个值向量的特殊情况，探究注意力机制的深层含义。
- $(1)$ 有人可能会觉得如果只是将值向量根据注意力得分取加权和，很难从这个结果中挖掘原先值向量的信息，事实上不然，但是这里做了一个非常强的假定，即两个值向量 $v_a,v_b$ 是来自相互垂直的向量空间的：
  $v_a\in\text{span}\{a_1,a_2,...,a_m\}\Rightarrow v_a=\sum_{i=1}^mc_ia_i\\ v_b\in\text{span}\{b_1,b_2,...,b_p\}\Rightarrow v_b=\sum_{j=1}^pd_ib_i\\ \text{where }\left\{\begin{aligned} &a_i^\top b_j=0&&\forall i=1,...,m;\forall j=1,...,p\\ &a_i^\top a_j=0&&\forall i=1,...,m\\ &b_i^\top b_j=0&&\forall j=1,...,p \end{aligned}\right.\tag{a5.1.1}$
  根据秩一矩阵的构造方法，假定 $M$ 具有如下的形式：
  $M=\sum_{i=1}^m\lambda_ia_ia^\top_i\tag{a5.1.2}$
  其中 $\lambda_i,i=1,...,m$ 是待定系数，则有如下推导：
  $\begin{aligned} Ms=v_a&\Longleftrightarrow M(v_a+v_b)=v_a\\ &\Longleftrightarrow\left(\sum_{i=1}^m\lambda_ia_ia^\top_i\right)\left(\sum_{i=1}^mc_ia_i+\sum_{j=1}^pd_ib_i\right)=\sum_{i=1}^mc_ia_i\\ &\Longleftrightarrow\sum_{i=1}^m\lambda_ic_ia_ia_i^\top a_i=\sum_{i=1}^mc_ia_i\quad\text{(orthogonal property)}\\ &\Longleftrightarrow\sum_{i=1}^m(\lambda_ic_ia_i^\top a_i)a_i=\sum_{i=1}^mc_ia_i\\ &\Longrightarrow\lambda_ic_ia_i^\top a_i=c_i\\ &\Longrightarrow\lambda_i=\frac{1}{a_i^\top a_i}\quad i=1,...,m \end{aligned}\tag{a5.1.3}$
  综上所述：
  $M=\sum_{i=1}^m\frac{a_ia_i^\top}{a_i^\top a_i}\tag{a5.1.4}$
- 本质上就是找一个 $q$ 使得 $k_a^\top q=k_b^\top q$ ，则可知 $q^\top (k_a-k_b)=0$ ，找一个与 $k_a-k_b$ 垂直的 $q$ 就完事了（表达式应该怎么写呢？）。
$(c)$ 探究单头注意力机制的缺陷：
- $(1)$ 因为协方差矩阵很小，因此可以近似用 $\mu_i$ 来替换 $k_i$ ，因此等价于找一个 $q$ 与 $(\mu_a-\mu_b)$ 垂直即可。
- $(2)$ 容易想到，如果存在一个明显很大的键向量 $k_a$ ，那么单头注意力机制得到的权重就没有什么意义了，因为加权和之后基本就还是指向 $k_a$ 的方向。
$(d)$ 探究多头注意力机制的优势：

这里的意思是说，给两个查询向量 $q_1$ 和 $q_2$ ，分别计算单头注意力得到权重 $c_1$ 和 $c_2$ ，然后取 $c=(c_1+c_2)/2$ 作为最终结果即可。
- $(1)$ 这个就没那么显然了，要求有下式的条件成立：
  $\begin{aligned} &\alpha_{1}^a+\alpha_2^a=\alpha_1^b+\alpha_2^b\\ \Longleftrightarrow&\frac{\exp(k_a^\top q_1)}{\exp(k_a^\top q_1)+\exp(k_b^\top q_1)}+\frac{\exp(k_a^\top q_2)}{\exp(k_a^\top q_2)+\exp(k_b^\top q_2)}=\frac{\exp(k_b^\top q_1)}{\exp(k_a^\top q_1)+\exp(k_b^\top q_1)}+\frac{\exp(k_b^\top q_2)}{\exp(k_a^\top q_2)+\exp(k_b^\top q_2)}\\ \Longleftrightarrow&\frac{\exp(k_a^\top q_1)-\exp(k_b^\top q_1)}{\exp(k_a^\top q_1)+\exp(k_b^\top q_1)}+\frac{\exp(k_a^\top q_2)-\exp(k_b^\top q_2)}{\exp(k_a^\top q_2)+\exp(k_b^\top q_2)}=0\\ \Longleftrightarrow&[\exp(k_a^\top(q_1+q_2))+\exp(k_a^\top q_1+k_b^\top q_2)-\exp(k_b^\top q_1+k_a^\top q_2)-\exp(k_b^\top(q_1+q_2))]\\ &+[\exp(k_a^\top(q_1+q_2))+\exp(k_b^\top q_1+k_a^\top q_2)-\exp(k_a^\top q_1+k_b^\top q_2)-\exp(k_b^\top(q_1+q_2))]=0\\ \Longleftrightarrow&\exp(k_a^\top(q_1+q_2))=\exp(k_b^\top(q_1+q_2))\\ \Longleftrightarrow&k_a^\top(q_1+q_2)=k_b^\top(q_1+q_2)\\ \Longleftrightarrow&(k_a-k_b)^\top(q_1+q_2)=0 \end{aligned}\tag{a5.1.5}$
  刚好消掉了交叉项，那么结论就是找到 $q_1,q_2$ 使得它们的和与 $k_a-k_b$ 垂直，这里用 $\mu_a$ 和 $\mu_2$ 近似，就是跟 $\mu_a-\mu_b$ 垂直。
- $(2)$ 实话说没怎么搞明白是什么意思，虽然增加了协方差，但是 $\mu_a-\mu_b$ 依然可以近似表示 $k_a-k_b$ ，而且理论上偏差值比没有协方差的情况要小一些（因为协方差都是正数，所以相减相当于抵消了一些偏差）。
  
  我觉得可能就是想说在多头注意力的情况下，可以缓解 $(c . 2)$ 的问题，因为对输出的注意力权重进行了均衡。

2. Pretrained Transformer models and knowledge access

本次代码实验是 $\text{GPT}$ 模型的预训练和微调， $\text{GPT}$ 模型定义的代码已经完全写好了，要完成的只是数据处理、注意力机制定义、运行与报告部分的代码。

注意代码里有不少读取文件的默认代码可能出错，需要设置文件编码类型。

实话说这个任务有点离谱，居然是根据人名预测出生地，虽说的确不同地区的人名是可以做一些区分，但未免也太牵强了。

本题的代码借鉴自GitHub@Mr-maoge的解法，需要至少 $8\text{G}$ 以上的显存才能跑通，因为缺少计算资源无法跑通代码（经测试，可以调小 $\text{batch size}$ 使得在低显存耗用的情况下通过代码测试，但是无法获得正确的结果）。

虽然代码很难跑通得到结果，但是其中的 $\text{GPT}$ 模型代码以及两种注意力机制的实现代码是值得学习的。

$(a)$ 阅读play_char.ipynb，看代码说明里应该还有play_math.ipynb，play_image.ipynb，play_word.ipynb，有谁知道几个在哪儿可以找到，到时候踢我一下。

$(b)$ 运行python src/dataset.py namedata得到以下输出：

data has 418352 characters, 256 unique.
x: Where was Khatchig Mouradian born?⁇Lebanon⁇□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□
y: □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□⁇Lebanon⁇□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□
x: Where was Jacob Henry Studer born?⁇Columbus⁇□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□
y: □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□⁇Columbus⁇□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□
x: Where was John Stephen born?⁇Glasgow⁇□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□
y: □□□□□□□□□□□□□□□□□□□□□□□□□□□⁇Glasgow⁇□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□
x: Where was Georgina Willis born?⁇Australia⁇□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□
y: □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□⁇Australia⁇□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□

双问号表示MASK_CHAR，正方形表示PAD_CHAR。

$(c)$ 编写run.py中相关代码块，注意如果出现trainer.py中有pipeline的报错信息，将num_workers取 $0$ 来避免。（从这边往下 $\text{PC}$ 机就跑不通了）

$(d)$ 运行下面的脚本：

# Train on the names dataset
python src/run.py finetune vanilla wiki.txt --writing_params_path vanilla.model.params --finetune_corpus_path birth_places_train.tsv
# Evaluate on the dev set, writing out predictions
python src/run.py evaluate vanilla wiki.txt --reading_params_path vanilla.model.params --eval_corpus_path birth_dev.tsv --outputs_path vanilla.nopretrain.dev.predictions
# Evaluate on the test set, writing out predictions
python src/run.py evaluate vanilla wiki.txt --reading_params_path vanilla.model.params --eval_corpus_path birth_test_inputs.tsv --outputs_path vanilla.nopretrain.test.predictions

$(e)$ 运行python src/dataset.py charcorruption

$(f)$ 运行下面的脚本：

# Pretrain the model
python src/run.py pretrain vanilla wiki.txt --writing_params_path vanilla.pretrain.params
# Finetune the model
python src/run.py finetune vanilla wiki.txt --reading_params_path vanilla.pretrain.params --writing_params_path vanilla.finetune.params --finetune_corpus_path birth_places_train.tsv
# Evaluate on the dev set; write to disk
python src/run.py evaluate vanilla wiki.txt --reading_params_path vanilla.finetune.params --eval_corpus_path birth_dev.tsv --outputs_path vanilla.pretrain.dev.predictions
# Evaluate on the test set; write to disk
python src/run.py evaluate vanilla wiki.txt --reading_params_path vanilla.finetune.params --eval_corpus_path birth_test_inputs.tsv --outputs_path vanilla.pretrain.test.predictions

$(g)$ 运行下面的脚本：
```
# Pretrain the model
python src/run.py pretrain synthesizer wiki.txt --writing_params_path synthesizer.pretrain.params

# Finetune the model
python src/run.py finetune synthesizer wiki.txt --reading_params_path synthesizer.pretrain.params --writing_params_path synthesizer.finetune.params --finetune_corpus_path birth_places_train.tsv

# Evaluate on the dev set; write to disk
python src/run.py evaluate synthesizer wiki.txt --reading_params_path synthesizer.finetune.params --eval_corpus_path birth_dev.tsv --outputs_path synthesizer.pretrain.dev.predictions

# Evaluate on the test set; write to disk
python src/run.py evaluate synthesizer wiki.txt --reading_params_path synthesizer.finetune.params --eval_corpus_path birth_test_inputs.tsv --outputs_path synthesizer.pretrain.test.predictions
```
记录一下 $\text{synthesizer}$ 注意力（提出论文）的原理：
- 设 $X\in\R^{l\times d}$ ，其中 $l$ 的块大小（序列长度）， $d$ 是词向量温度， $d / h$ 是每个注意力头的维度， $Q,K,V\in\R^{d\times d/h}$ 跟自注意力中的三个矩阵一样，则自注意力头的输出为：
  $Y_i=\text{softmax}\left(\frac{(XQ_i)(XK_i)^\top}{\sqrt{d/h}}\right)(XV_i)\in\R^{l\times d/h}\tag{a5.2.1}$
  接着将各个自注意力头拼接起来：
  $Y=[Y_1;...;Y_h]A\in\R^{l\times d}\tag{a5.2.2}$
- 本题实现的是上面的一个变体：
  $Y_i=\text{softmax}(\text{ReLU}(XA_i+b_1)B_i+b_2)(XV_i)\tag{a5.2.3}$
  其中 $A_i\in\R^{d\times d/h},B\in\R^{d/h\times l},V_i\in\R^{d\times d/h}$
  
  可以作这样的解释：
  
  ① $(XQ_i)(XK_i)^\top\in\R^{l\times l}$ 是注意力得分；
  
  ② $\text{synthesizer}$ 变体则避免计算所有成对的这种点积，而是直接通过将每个自注意力头的 $d$ 维向量映射到 $l\times l$ 的注意力得分矩阵。

3. Considerations in pretrained knowledge

$(a)$ 预训练模型结果比非预训练模型结果好不是理所当然的吗，硬要说就是首先找到了一个比较好的初始解开始迭代，因而可以收敛到更好地解。实际情况，不微调只有 $0.02$ ，微调了之后是 $0.22$
$(b)$ 人无法辨别出机器到底是检索还是在瞎猜，这可能会使得机器的可解释性下降，无法用于实际应用。测试集中几乎所有人名都没有在训练集中出现过，但是只看姓氏或者名字的话还是有迹可循的，所以机器也并非完全是在瞎猜。
$(c)$ 模型瞎猜肯定会导致应用的可信度下降呗，不是很能理解这种应用有啥用。

你可能感兴趣的:(CS224N课程系列,机器翻译,深度学习,人工智能,自然语言处理,transformer)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
2019-08-08 65454
东莞家庭聚会出行旅游去哪里玩住？想起来有很久没有和家里人聚会啦，这次组织家人来到威廉古堡别墅轰趴，一大家子27个人，在别墅订了一天办，玩的非常的开心，小孩子玩游戏机，也很放心不会丢，我们就在唱歌、打麻将、打桌球一系列的活动，还准备小次等小孩生日在别墅举办，还可以给孩子做一个生日的策划
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
MYSQL面试系列-04 king01299 面试 mysql 面试
MYSQL面试系列-0417.关于redolog和binlog的刷盘机制、redolog、undolog作用、GTID是做什么的？innodb_flush_log_at_trx_commit及sync_binlog参数意义双117.1innodb_flush_log_at_trx_commit该变量定义了InnoDB在每次事务提交时，如何处理未刷入（flush）的重做日志信息（redolog）。它
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
Redis系列：Geo 类型赋能亿级地图位置计算 Ly768768 redis bootstrap 数据库
1前言我们在篇深刻理解高性能Redis的本质的时候就介绍过Redis的几种基本数据结构，它是基于不同业务场景而设计的：动态字符串(REDIS_STRING)：整数(REDIS_ENCODING_INT)、字符串(REDIS_ENCODING_RAW)双端列表(REDIS_ENCODING_LINKEDLIST)压缩列表(REDIS_ENCODING_ZIPLIST)跳跃表(REDIS_ENCODI
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
果然只有离职的时候，才有人敢说真话！ return2ok
今天公司出了神贴。今天中午吃饭，同事问我看了论坛上的神贴了吗？什么帖子？我问。同事显得很惊讶，你居然没看，现在那个帖子可能会成为年度最佳帖子。这么厉害？我等不及了，饭没吃完就快速的奔向办公室，打开公司论坛，我要一睹这个帖子的神奇。写这帖子的童鞋胆儿真肥。这哪里是一个帖子，这是很多个帖子，组成了一个系列。某人从公司文化、管理、人事、项目管理等多个方面分析了公司的概况，并抨击了公司的各种弊端，并提出了
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
2021-07-31 比峰
七月的最后一天，过了今天，就是八月，心脏在颤抖……昨天两点半才睡，一直在以两倍的语速的听之前的课程，虽然隔得时间不长，但是很多知识点已经忘了差不多了，为了让自己能够掌握的稍微全面一点，还是磨刀不误砍柴工的比较好。正因为晚上睡得晚，今天一上午的状态都不好，也可能因为上午都是待在家里，所以多数时间自己是在补觉。既然太累，那就睡觉吧，总比浪费时间的好。下午到咖啡馆做题，一道差错更正一下子让自己的实力暴露
红手套节马小媛为中国城市环卫者公益发声：今天我手红疏狂君
#红手套节#公益活动，线头公益以及同多方资源的共同努力我们邀请到了线头公益大使马小媛马小媛，1993年5月3日出生于江苏省南京市，中国内地新生代女演员。2015年马小媛参演网剧《余罪》，饰演警校校花安嘉璐的闺蜜。2016年马小媛主演系列电影《丽人保镖》中女一号林欢馨，正式出道。此后，马小媛陆续接演了电视剧《警花与警犬2》，在网剧《你美丽李美丽》中担任女主角李美丽。拂晓，当你还在睡梦中时，这座城跟你
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
2023-08-08 2023梦启支教团张牧泽
学汉字历史，行传统书法——中国矿业大学梦启支教团梦启三班开展书法文化课7月20日上午8时，中国矿业大学梦启支教团在贵州省金沙县西洛街道彩虹小学开展了“书法文化”课程。该课程意在向孩子们传授汉字演变的相关知识，围绕书法发展历史讲解不同时期的字形字体特点。此课程由梦启支教团成员王耀民讲授，梦启三班全体成员参加。中国文字的发展有数千年的历史，从早期雏形的象形文字到殷商时期的甲骨文、金文，再到西周、秦朝的
BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
张芝华49天共修 - 草稿李娟AINI
祈禱、靜心、源代碼編程、觀想發願四根支柱，運用靈性能量的助力，讓夢想和渴望在最大向度中輕鬆實現。共修群指定书籍:1.能断金刚麦克格西2.新世界：灵性的觉醒埃克哈特·托尔3.爱是一切的答案芭芭拉迪安吉莉思4.完美的爱,不完美的关系约翰•威尔伍德5.爱的业力法则麦克格西6.漫画《金刚经》蔡志忠7.蔡志忠典藏国学漫画系列(套装共6册)作业:全部在共修群里完成，并请保存好自己的作业。l一周三次共修觉察作业
今日有感，坚持分享第913天，2019.07.13 ZAF峰回路转
本周是假日里最忙碌的一周，连续四天晚上的课程，让我感觉到身体明显透支。昨天晚上读书会结束回到家，已经是十点半之后啦，忽然感觉身体不舒服，勉强支撑着洗漱完毕，没等上床休息，强烈的不适感警告我该吃药啦！感谢老公半夜到医院給我抓了药，今天早上当我对老公表达谢意的时候，老公说，不用感谢，我不是一直都是这样做的吗？多少年啦，今天竟然还谢谢！老公说的没错，可是以前总感觉那是他应该做的，如今感觉到，身边有一个在
趁吾身未老逍遥书生111
趁吾身未老池非2020年，一场突如其来的新冠脑炎疫情，打破了原有的状态。工作与生活的轨迹发生了不确定的变化。01因为隔离防疫，正常的教学不能进行，线上网课成为教学的新形式，年过五十的我面对新的教学形式有些应不暇。只得退而求次，不再负责高考班级的课程。这样，就不用上网课做直播了。感觉很轻松很闲的同时，也感觉到了英雄迟暮。不得不承认，老了。该交班了。因为不能出门，整天呆在家里，一开始还很兴奋，终于可以
Armv8.3 体系结构扩展--原文版代码改变世界ctw ARM-TEE-Android armv8 嵌入式 arm架构安全架构芯片 Trustzone Secureboot
快速链接:.ARMv8/ARMv9架构入门到精通-[目录]付费专栏-付费课程【购买须知】:个人博客笔记导读目录(全部)TheArmv8.3architectureextensionTheArmv8.3architectureextensionisanextensiontoArmv8.2.Itaddsmandatoryandoptionalarchitecturalfeatures.Somefeat
ARMv8 Debug __pop_ ARMv8 ARM64 架构 linux 运维
内容来自DEN0024A_v8_architecture_PG.pdf本质ARMv8Debug是什么历史在ARMv4开始被引入,并已发展成一系列广泛的调试(debug1)和跟踪(trace)功能ARMv6和ARMv7-a新增了自托管调试(debug2)和性能评测(trace-enhance)ARMv8处理器提供硬件功能侵入式:调试工具能够对核心活动提供显著级别的控制非侵入式:以非侵入性方式收集有关
Python入门之Lesson2:Python基础语法小熊同学哦 Python入门课程 python 开发语言算法数据结构青少年编程
目录前言一.介绍1.变量和数据类型2.常见运算符3.输入输出4.条件语句5.循环结构二.练习三.总结前言欢迎来到《Python入门》系列博客的第二课。在上一课中，我们了解了Python的安装及运行环境的配置。在这一课中，我们将深入学习Python的基础语法，这是编写Python代码的根基。通过本节内容的学习，你将掌握变量、数据类型、运算符、输入输出、条件语句等Python编程的基础知识。一.介绍1
【ARM Cortex-M 系列 2.3 -- Cortex-M7 Debug event 详细介绍】主公讲 ARM #ARM 系列 arm开发 debug event
请阅读【嵌入式开发学习必备专栏】文章目录Cortex-M7DebugeventDebugeventsCortex-M7Debugevent在ARMCortex-M7架构中，调试事件（DebugEvent）是由于调试原因而触发的事件。一个调试事件会导致以下几种情况之一发生：进入调试状态：如果启用了停滞调试（HaltingDebug），一个调试事件会使处理器在调试状态下停滞。通过将DHCSR.C_DE
【Python搞定车载自动化测试】——Python实现车载以太网DoIP刷写（含Python源码）疯狂的机器人 Python搞定车载自动化 python DoIP UDS ISO 14229 1SO 13400 Bootloader tcp/ip
系列文章目录【Python搞定车载自动化测试】系列文章目录汇总文章目录系列文章目录前言一、环境搭建1.软件环境2.硬件环境二、目录结构三、源码展示1.DoIP诊断基础函数方法2.DoIP诊断业务函数方法3.27服务安全解锁4.DoIP自动化刷写四、测试日志1.测试日志五、完整源码链接前言随着智能电动汽车行业的发展，汽车=智能终端+四个轮子，各家车企都推出了各自的OTA升级方案，本章节主要介绍如何使
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f

CS224N WINTER 2022（五）Transformers详解（附Assignment5答案）

序言

文章目录

lecture 9 Transformers

slides

suggested readings

lecture 10 更多关于Transformers的内容以及预训练

slides

suggested readings

huggingface transformers tutorial session

assignment5 参考答案

1. Attention exploration

2. Pretrained Transformer models and knowledge access

3. Considerations in pretrained knowledge

你可能感兴趣的:(CS224N课程系列,机器翻译,深度学习,人工智能,自然语言处理,transformer)