学习笔记(attention-transformer)

词向量学习

文本的表示方式主要分为:one-hot表达方式与分布式表达方式

one-hot表达方式存在两个明显的缺陷:

  1. 无法表示语义的相似度
  2. sparsity(形成的矩阵非常稀疏)

100维的one-hot最后可以表示100个单词,但是分布式表示方法下若每个位置采用实数表示可以表示无穷的词,若限制为0/1表示,可以表示为2^100

词向量训练

输入:string(文章句子拼接在一起 eg:10^9的单词)

经典模型:skip-gram、golve、CBOW、RNN/LSTM、MF

最重要的参数:dim/D 词向量维度(一般300以内)

一般场景可以直接调用训练好的词向量、但是在特殊领域如医疗、金融等还是需要训练适用于特定场景的词向量。

理想中的词向量可以代表单词的意义

传统词向量存在一个缺点:词与上下文无关在不同语境下embedding是一样的

Attention

学习来源:https://www.bilibili.com/video/av58991143

学习笔记如图

1.jpg

transformer

模型出处:《attention is all you need》

论文中的模型:

2.png

模型学习笔记:

3.jpg
4.jpg
5.jpg
6.jpg

你可能感兴趣的:(学习笔记(attention-transformer))