自然语言理解的进展

自然语言理解(Natural Language Understanding,NLU)是自然语言处理(Natural Language Processing,NLP)的一部分。自然语言理解的应用主要有机器翻译,机器客服以及智能音箱等。自然语言理解就是希望机器像人一样,具备正常人的语言理解能力,由于自然语言在理解上有很多难点,所以 NLU 的表现至今还不如人类。

NLU主要有以下五个难点:语言的多样性、语言的歧义性、语言的鲁棒性、语言的知识依赖、语言的上下文。自然语言理解跟整个人工智能的发展历史类似,一共经历了3次迭代:基于规则的方法、基于统计的方法、基于深度学习的方法

深度学习方法在各项指标上都超越了之前的方法,获得了更好的结果。其中比较有代表性的工作是卷积神经网络(Convolutional Neural Network,CNN)【1】以及循环神经网络(Recurrent Neural Network,RNN)【2】。CNN虽然在NLP中有所作用,但是NLP并非它擅长的领域,它在计算机视觉领域取得了更为瞩目的成果。相比之下,RNN在设计之初就是被用来处理时序列数据,非常契合NLP的数据结构。在RNN的基础上,近些年来涌现了非常多的自然语言处理模型,且NLU大部分的进展都与模型的进步挂钩。

RNN容易受到短期记忆的影响。如果序列很长,它很难将信息从较早的时间步传送到后面的时间步。因此,如果尝试通过一段文本进行预测,RNN可能会遗漏开头的重要信息。为了解决这个问题,作为RNN分支下的改进版,Long-Short Term Memory(LSTM)【3】和Gated Recurrent Unit(GRU)【4】都利用了门单元结构拓展了RNN每个节点的功能,使得模型在更长的文本距离上有足够的记忆能力。

在之后的科研过程中,人们发现,在自然语言模型中加入注意力机制【5】能有效提高模型的性能。注意力机制的本质来自于人类视觉注意力机制。人们视觉在感知东西的时候一般不会是一个场景从到头看到尾每次全部都看,而往往是根据需求观察注意特定的一部分。而且当人们发现一个场景经常在某部分出现自己想观察的东西时,人们会进行学习在将来再出现类似场景时把注意力放到该部分上。

注意力机制初始是在编码器-解码器结构下用于神经机器翻译的一种结构,目前它已经非常快速地扩展到了其它相关任务,例如图像描述和文本摘要等。注意力机制的巅峰之作是Google于2017年提出的Transformer【6】模型架构。Transformer在语义特征提取能力,

长距离特征捕获能力(比如主谓一致),任务综合特征抽取能力(比如机器翻译),并行计算能力及运行效率等方面都要优于RNN。从此,基于Transformer架构提出的新型架构层出不穷,把计算机处理NLP相关任务的水平提高了一个层次。

其中最为著名的架构是Bidirectional Encoder Representation from Transformers(BERT)【7】和Generative Pre-Training(GPT)【8】。BERT几乎适用于各项NLU任务,而GPT主要用于阅读理解、句子或段落生成等任务。

在BERT的基础上,百度提出的ERNIE模型【9】改进了BERT在中文NLP任务中表现不够好的缺陷。在BERT预训练语言模型中,它很少考虑知识信息,即知识图谱。知识图谱能够提供丰富的结构化知识事实,以便进行更好的知识理解。因此清华大学提出了ERNIE【10】来改进BERT在知识驱动型任务上的表现。MASS【11】和UNILM【12】改进了BERT在自然语言生成任务(Natural Language Generation)上的表现。还有SpanBert【13】,RoBERTa【14】,ALBert【15】,Electra【16】和DistillBert【17】都在各个角度对BERT进行了改进。

为了衡量各个模型在NLU任务上的表现,有一个公开的Benchmark,通用语言理解评估基准(General Language Understanding Evaluation ,GLUE)【18】。GLUE Benchmark比赛排名是衡量自然语言理解技术水平的重要指标。比赛设置了自然语言推断、语义相似度、问答匹配、情感分析等9项任务,最后按平均分综合排名。目前GLUE上表现最好的是阿里巴巴的团队所提出的模型StructBERT【19】。

Reference:

【1】 Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. 2012: 1097-1105.

【2】 Mikolov T, Karafiát M, Burget L, et al. Recurrent neural network based language model[C]//Eleventh annual conference of the international speech communication association. 2010.

【3】 Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural computation, 1997, 9(8): 1735-1780.

【4】 Cho K, Van Merriënboer B, Gulcehre C, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation[J]. arXiv preprint arXiv:1406.1078, 2014.

【5】 Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[J]. arXiv preprint arXiv:1409.0473, 2014.

【6】 Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing systems. 2017: 5998-6008.

【7】 Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.

【8】 Radford A, Narasimhan K, Salimans T, et al. Improving language understanding by generative pre-training[J]. URL https://s3-us-west-2. amazonaws. com/openai-assets/researchcovers/languageunsupervised/language understanding paper. pdf, 2018.

【9】 Sun Y, Wang S, Li Y, et al. Ernie: Enhanced representation through knowledge integration[J]. arXiv preprint arXiv:1904.09223, 2019.

【10】 Zhang Z, Han X, Liu Z, et al. ERNIE: Enhanced language representation with informative entities[J]. arXiv preprint arXiv:1905.07129, 2019.

【11】 Song K, Tan X, Qin T, et al. Mass: Masked sequence to sequence pre-training for language generation[J]. arXiv preprint arXiv:1905.02450, 2019.

【12】 Dong L, Yang N, Wang W, et al. Unified language model pre-training for natural language understanding and generation[C]//Advances in Neural Information Processing Systems. 2019: 13042-13054.

【13】 Joshi M, Chen D, Liu Y, et al. Spanbert: Improving pre-training by representing and predicting spans[J]. arXiv preprint arXiv:1907.10529, 2019.

【14】 Liu Y, Ott M, Goyal N, et al. Roberta: A robustly optimized bert pretraining approach[J]. arXiv preprint arXiv:1907.11692, 2019.

【15】 Lan Z, Chen M, Goodman S, et al. Albert: A lite bert for self-supervised learning of language representations[J]. arXiv preprint arXiv:1909.11942, 2019.

【16】 Clark K, Luong M T, Le Q V, et al. ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators[C]//International Conference on Learning Representations. 2019.

【17】 Sanh V, Debut L, Chaumond J, et al. DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter[J]. arXiv preprint arXiv:1910.01108, 2019.

【18】 https://gluebenchmark.com/

【19】 Wang W, Bi B, Yan M, et al. StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding[J]. arXiv preprint arXiv:1908.04577, 2019.

你可能感兴趣的:(自然语言理解的进展)