算法-论文阅读-一文读懂nlp论文含word2vec词向量transformer语言模型...

算法-论文阅读

记录阅读的论文,备注简短的小结.

nlp

1.nlp paperswithcode benchmark

  • 2022 nlp methods
  • 2022 All transformers model list
  • 2019 XLNet: Generalize Autoregressive Pretraining for Language Understanding

2.classic word embeding

  • 2003 NNLM: Feedfirward Neural Net Language Model

神经网络语言模型 NNLM, 根据前面n-1个词预测第n个单词的概率,对比n-gram; 问题:仅仅对一部分词进行梯度传播,去掉停用词;引入先验知识;解决一次多意问题;加速softmax;

  • 2013 Word2Vec: Efficient Estimation of Word Representations in Vector Space

考虑词的上下文,CBOW根据上下文预测中心词,SG根据中心词预测上线文; 论文的核心是: softmax(outside*center)维度过大,根据频次转换成哈夫曼树,层次softmax和负采样,将softmax转换成sigmoid的方法,负采样的核心思想是将多分类问题转化为二分类问题(判断是正样本[中心词和周围词]还是负样本[中心词+随机词])。

  • 2019 GloVe: Global Vectors for Node Representations
  • 论文解读 GloVe: Global Vectors for Word Representation

考虑中心词在全局中的表现,对标方法是CBOW和SVD,目标统计共现矩阵[元素单词j在单词i的上下文出现的次数,概率表示单词j出现在单词i的上下文的概率].

  • 2018 ELMO: Deep contextualized word representations
  • 论文解读 ELMO: Deep contextualized word representations

ELMo:学习到词汇用法的复杂性,比如语法、语义;也可以不同上下文情况下的词汇多义性. 双向语言模型(biLM)左+右的概率=中心词的概率, 使用的BiLSTM作为基本网络单元.


3.cnn-based

2014 TextCNN: Convolutional Neural Networks for Sentence Classification
论文解读 TextCNN: Convolutional Neural Networks for Sentence Classification

建模:cv中BHWC,H为样本句子长度[padding和split后],W为词典长度,C为1;


4.rnn-based

  • 2018 ELMO: Deep contextualized word representations
  • 论文解读 ELMO: Deep contextualized word representations

ELMo:学习到词汇用法的复杂性,比如语法、语义;也可以不同上下文情况下的词汇多义性. 双向语言模型(biLM)左+右的概率=中心词的概率, 使用的BiLSTM作为基本网络单元.


5.transfomrer

  • 2017 Attention Is All You Need
  • 论文解读 Attention Is All You Need

简单/无输入偏见/encoder-decoder的Seq2Seq模型,self-attention为基础。


综述:

  • 2021 A Survey of Transformers
  • 综述论文解读 A Survey of Transformers

全面介绍transformer的组件和应,应用主要分三类。1.情感分析,相似度类别分析类:对句子进行表征,fc进行分类。2.完形填空、实体识别等子词类任务:完形填空使用Bert表征,训练采用的自监督MASK方法;实体识别对子词打标签,判断类别。3.文章摘要、问答系统、翻译任务等理解生成类任务:都是Seq2Seq任务,语料为句子对[SQuAD],部分可以拆解成子词任务。

  • 2002 AMMUS : A Survey of Transformer-based Pretrained Models in Natural Language Processing
  • [综述论文解读 AMMUS : A Survey of Transformer-based Pretrained Models in Natural Language Processing]

全面介绍transformer的变体,总结如下:

1.BERology高精度模型
适合生成文章的模型GPT模型
支持人机对话的模型DialoGFT模型
融合了BERT模型与 GPT 技术的模型MASS模型
支持长文本输入的模型-Transformer-XL模型
支持更长文本的模型-XINet模型
弥补XLNet模型不足的模型-MPNet模型
稳健性更好的模型ROBERTa模型
使用了稀疏注意力的模型Longformer、BigBird模型
基于词掩码的模型-BERT-WWM、 WoBERT等模型
基于小段文字掩码的模型SpanBERT模型
适合翻译任务的模型-T5 模型
支持多种语言的翻译模型XLM、XIM-Roberta模型
既能阅读又能写作的模型UnilM 2.0模型
适用于语法纠错任务的模型StructBERT、Bart模型
可以进行定向写作的模型CTRL 模型
适合摘要生成的模型PEGASUS模型
支持更多语言的模型TULR v2模型
2.BERology小模型
比ROBERTa模型训练速度更快的模型ELECTRA模型
适用于文本分类的超小模型PRADO、PQRNN模型
比BERT模型更适合于部署场景的模型DistilBERT模型
比BERT模型更快的模型FastBERT模型
带有通用蒸馏方案的模型MiniLM模型
精简版的BERT模型ALBERT, ALBERT tinyALBERT V2模型

  • 2018 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
  • 论文解读:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

思想不是自己,快速完成,输入:位置编码[宽度]+段编码[句子在宽度中的位置]+字符编码[字典宽度],输出相同.

  • 2019 RoBERTa: A Robustly Optimized BERT Pretraining Approach
  • 论文解读:RoBERTa: A Robustly Optimized BERT Pretraining Approach

新的数据集CCNEWS、动态mask[每个epoch中mask不一致]、取消NSP任务增加FULL-SENTENCES机制。

  • 2019 ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators
  • 论文解读 ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators

Bert+GAN的思想[generator/discriminator],更小的生成器,训练参数共享=实践短+效果好。

  • 2021 HuggingFace’s Transformers: State-of-the-art Natural Language Processing

列举HuggingFace常用的模型.

  • 2018 GPT1 OpenAI GPT: Improving language understanding by generative pre-training
  • 2019 GPT2: Language models are unsupervised multitask learners
  • 2019 GPT2 wiki
  • 2020 GPT3: Language Models are Few-Shot Learners
  • 2020 GPT3 wiki
  • 论文解读 GPT系列
  • 论文解读 GPT系列

仅仅采用decoder架构,主要用于生成,单向生成。

  • 2020 T5: Exploring the Limits of Transfer Learning with a Unified Text-to-Text - Transformer

机器翻译架构


  1. transformer in cv
  • 2021 Transformers in Vision: A Survey
  • 2020 VIT: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
  • 2021 Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

你可能感兴趣的:(AI理论与实践,算法,自然语言处理)