预训练模型PTM

目录

  • 自监督学习
  • 图像领域的模型
  • 迁移学习和预训练
  • 预训练模型
  • 预训练模型在CV上
  • 预训练模型在NLP上
  • word2Vec
  • CBOW
  • skip-Gram
  • GloVe(与word2Vec相似的模型)
  • ELMo
  • 局限性
  • GPT 2018
    • 缺点
    • transformer(自注意力的堆叠)
  • 输入-单词特征
  • BERT(NLP预训练模型)
    • KG-BERT(知识图谱BERT)
  • ERNIE
  • ALBERT
  • Roberta
  • spanbert
  • BERT电影评论情感分析

海量文本中没有标记,将没有标记的数让机器和模型自己去学习规律,这个模型就是预训练模型,应用到下游任务中,

自监督学习

区别无监督和有监督学习

图像领域的模型

CNN 去提取图像特征,将特征展开输入到全连接层去

迁移学习和预训练

使用微调来使得数据过少的数据集不过拟合

预训练模型

将之前训练的参数保存,拿到另外一个任务上,根据任务的结果进行微调

预训练模型在CV上

将每一层卷积层进行卷积化,

预训练模型在NLP上

word Embedding :将词转换成计算机处理的向量,
最初是使用One-hot进行,也就是独热变编码,需要的维度大,每一个向量是相互垂直的,没有语义关联。
预训练模型PTM_第1张图片

word2Vec

就是一个神经网络,输入:独热编码,中间:没有激活函数,线性单元,输出和输入的维度是一样的,用的是softmax回归。

CBOW

将一个词语从一个句子中扣掉,然后根据上下文去预测这个词。标签就是one-hot本身,统计的是词共现的概率。

skip-Gram

输入一个词语,根据这个词预测出上下文。

GloVe(与word2Vec相似的模型)

ELMo

解决同义词问题,根据当前的上下文进行预训练,对词嵌入做预训练。
双层、双向的LSTM,将三层进行加权求和预训练模型PTM_第2张图片
预训练模型PTM_第3张图片

局限性

没有用transfrmers,用的是LSTM,和BERT有一定差距,LSTM 没有CNN和transformer快,不能并行计算

GPT 2018

将LSTM换成单向Transformer(2017年提出),是单向的,只用到了上文,将下游任务标准化
下游任务进行微调,引用token,和BERT类似
预训练模型PTM_第4张图片
现在来说GPT的效果已经很好了,可以自己写文章

缺点

transfoermer是单向的,忽略下文信息。

transformer(自注意力的堆叠)

叠加的自注意义机制,和RNN相比可以进行并行计算,和CNN相比可以进行长距离的特征提取,

预训练模型PTM_第5张图片
预训练模型PTM_第6张图片

输入-单词特征

BERT(NLP预训练模型)

双向Transformer,与GPT相比是双向的,下游是怎么应用的?
自从BERT提出之后,预训练就火起来了。任务使用广泛

KG-BERT(知识图谱BERT)

预训练模型PTM_第7张图片
上述提到的三种架构都用到了word2vec。

ERNIE

百度NLP团队提出,基于BERT,专注中文领域。
随机遮盖短语,BERT是遮盖词语,然后进行预测训练。

ALBERT

将BERT进行精简化,

Roberta

提出更好遮盖方案,加入了span boundary objective 目标,batchn_size增加,使得bert更加健壮

spanbert

BERT电影评论情感分析

使用随机种子使得每次的输出都是固定的
from transformers import BertTokenizer,BertModel

你可能感兴趣的:(深度学习,预训练模型)