机器学习-文本

文本

主题

内容

推荐语

长文本分类

简单介绍了四种文本处理的模型

http://www.52nlp.cn/tag/长文本分类

FastText、TextCNN、HAN、DPCNN
NLP中预训练

简单介绍了从Word Embedding到Bert模型

-自然语言处理中的预训练技术发展史

https://zhuanlan.zhihu.com/p/54448555

word embedding ,ELMo,GPT,BERT
文章级的文本分类

Hierarchy Attention Network

 

详细介绍了HAN的网络结构。词向量经过Bi-GRU后进行Attention得到句向量,句向量同理得到文章向量。

  1. 未引入文章的结构特征(如何表征)
  2. Bi-GRU耗时难以训练,替换为CNN;或可改为Transformer的encoder层堆叠。
HAN
GMM https://zhuanlan.zhihu.com/p/45793456 GMM可以给出数据点被分到每个 cluster 的概率
CNN、RNN比较

Comparative Study of CNN and RNN for Natural Language Processing

https://arxiv.org/pdf/1702.01923.pdf

基于卷积的CNN对识别目标任务的结构具有一定优势,RNN对序列识别建模具备一定优势
特征抽取、RNN、CNN、Transformer

放弃幻想,全面拥抱Transformer:自然语言处理三大特征抽取器(CNN/RNN/TF)比较

针对三种不同的特征抽取器,分析其利弊。

RNN:序列依赖的根本特性导致并行能力受限太严重

CNN:高并行计算优势,但无法有效捕获长距离特征

Transformer:语义特征提取能力强,计算效率尚可。

NLP-BERT

 

 

BERT.pdf

模型的主要创新点都在pre-train方法上,使用两个新的无监督预测任务对BERT进行预训练。即用了Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation。

 

训练数据生成器随机选择15%的token。例如在这个句子“my dog is hairy”中,它选择的token是“hairy”。然后,执行以下过程:

 

数据生成器将执行以下操作,而不是始终用[MASK]替换所选单词:

 

80%的时间:用[MASK]标记替换单词,例如,my dog is hairy → my dog is [MASK]
10%的时间:用一个随机的单词替换该单词,例如,my dog is hairy → my dog is apple
10%的时间:保持单词不变,例如,my dog is hairy → my dog is hairy. 这样做的目的是将表示偏向于实际观察到的单词。
 

 

Bert资源汇总

http://www.52nlp.cn/bert-paper-%E8%AE%BA%E6%96%87-%E6%96%87%E7%AB%A0-%E4%BB%A3%E7%A0%81%E8%B5%84%E6%BA%90%E6%B1%87%E6%80%BB

GPT-2

 PDF

 

 

GPT-2

效果惊人的GPT 2.0模型:它告诉了我们什么

两个角度理解GPT-2:

  1. 把它看作采取类似Elmo/GPT/Bert的两阶段模型解决NLP任务的一种后续改进策略
  2. 把GPT 2.0看成一个效果特别好的语言模型,可以用它来做语言生成类任务

NLP领域趋势:

  1. 采取Bert的两阶段模式
  2. 特征抽取器采用Transformer
  3. 预训练阶段:
    1. 强调通用性好以及规模大
    2. 多任务训练

中文对比英文自然语言处理NLP的区别综述

https://mp.weixin.qq.com/s/GeQJ1subHxV7eXgFtvl7xw 从中文和英文的语言的特点出发,分析了两种语言在自然语言处理过程中需要注意的点。

字符级NLP优劣分析:在某些场景中比词向量更好用

https://mp.weixin.qq.com/s/dfobYDv-98W9NAmAbzwQKw 对比了字符和词语作为输入对模型训练的影响。

NLTK学习之一:简单文本分析

https://blog.csdn.net/zzulp/article/details/77150129

Python自然语言处理工具NLTK学习导引及相关资料

nltk可以完成文本预处理(同义词、反义词、停用词、词干提取)、句法分析、语义分析、词组搭配分析、词性标注、分类、概率与估计(如词频统计、词分布、词共现)、结合Stanford NLP工具包等功能。

基于语义法分析的中文句困惑度评价

基于语义法分析的中文句困惑度评价.pdf

在依存语法分析的基础之上,通过对中文句子及其句子主干的语法和语义两方面进行分析得出中文句子的困惑度

哈工大语言技术平台LTP

https://github.com/HIT-SCIR/ltp

有c++,python、java版本。

pyltp 还提供词性标注、命名实体识别、依存句法分析、语义角色标注等功能。

同时公布源码,支持用自己的数据进行模型训练

你可能感兴趣的:(机器学习-文本)