[论文阅读笔记57]NLP低资源的方法综述

1.题目

A Survey on Recent Approaches for Natural Language Processing in Low-Resource Scenarios
萨尔大学

2.摘要

(1)给出了当前致力于低资料NLP的广泛性与结构性概述;
(2)分析低资源设置的不同方面;
(3) 突出介绍必要的资源和数据假设,作为对从业者的指导;
(4) 讨论开放问题与未来的展望。

低资源的总体:

[论文阅读笔记57]NLP低资源的方法综述_第1张图片

3.相关综述

[论文阅读笔记57]NLP低资源的方法综述_第2张图片

生成额外标签数据

  • Data Augmentation–
    使用有标注的样本信息,去扩展更多的样本信息;
  • Distant & Weak Supervision – 远程监督
    用一些策略去标签样本信息;它包括后面三种方法(跨语言标注)
  • Cross-Lingual Annotation Projections
  • Learning with Noisy Labels – 噪音标注学习(包括Non-Expert Support)
  • Non-Expert Support

Transfer Learning

  • Pre-Trained Language Representations
  • Domain-Specific Pre-Training
  • Multilingual Language Models
    来自非NLP领域的启发
  • Meta-Learning
  • Adversarial discriminators

4. 文本数据增强

token层:通过用等价词替换单词来实现;

synonyms(同义词),entities of the same type(相同类型的实体),words that share the same morphology(具有相同形态的单词);

sentence parts方法

manipulation of parts of the dependency tree(操作依赖树的部分),
simplification of sentences by removal of sentence parts(通过删除句子部分来简化句子),inversion of the subject-object relation(主体-对象关系的反转)

whole sentences方法

back-translation(回译)—应用于abstract summarization, table-to-text generation,分类

5. 远程监督

6. 跨语言标注

使用高资源语料训练分类器,使用并行语料库,然后将未标记的低资源数据与高资源语言中的等价数据对齐,其中可以使用上述分类器获得标签。

7. noise标注

由机器自动去生成标注,都会存在或多或少的noise的,这个就涉及到noise学习。
总结为两类:noise filtering and noise modeling。
噪声过滤方法从训练数据中删除具有高概率被错误标记的实例。通过概念的阈值,二分类, reinforcement-based agent;还有软件过滤。
噪声建模,常见的模型是估计干净标签和有噪声标签之间关系的混淆矩阵。

分类器不直接在有噪声标记的数据上进行训练。而是附加一个噪声模型,将“噪声”转移到“清洁标签”分布。

迁移学习(这个可以研究NLP的预训练那一块内容)

总结:低资源大部分情况下是解决资源的相关问题,这里提到数据的扩展与迁移学习两种。这篇与论文阅读笔记08Generalizing from a Few Examples:A Survey on Few-Shot Learning,研究的出发点相同,都是想在人力少的情况下去完成一些事情。
这里没有太多看到与知识图谱,监督,主动学习等内容。按道理这些内容也是解决低资源的方案或模型来的。
接下来,可以研究一下Noise学习,这个在工程也是一个有好的东西。即使是人为去标准的样本也会有很多噪音,特别在某个专业领域,例如医学。

参考:
https://arxiv.org/pdf/2010.12309.pdf

你可能感兴趣的:(NLP,自然语言处理,深度学习,机器学习)