https://www.toutiao.com/a6651845517565231620/
2019-01-29 17:17:53
今天晚上咱们要学习的课程比之前的难度要稍微大点,也是目前人工智能领域最难的研究方向之一——自然语言处理(NLP)。
NLP作为AI领域的认知智能,其动态一直都是业内专家学者关注的重点,尤其是随着深度学习的不断进步,通过深度学习技术让NLP得到长足发展,让机器早日理解人类丰富多变的语言,成为了众多AI爱好者和开发者的期待。
接下来童鞋们就跟着班主任一起来认识下被称为AI领域“第一团宠”的NLP,它能在日常中解决哪些问题,以及实操中会遇到的困难等。
为了让大家更直观地理解自然语言处理,班主任画了一幅图:
上图表明,计算机理解用户输入的各种语言的“谢谢”的过程。
由用户输入不同语言中“谢谢”的不同文本,计算机根据不同文本处理出不同语言的“谢谢”,最后再将这些结果反馈给用户。
其中这个过程包含了句法分析、自然语言处理和自然语言生成等相关技术。
自然语言处理实际应用有如下几点:
A、检验和提取不同类别的反馈
通俗来讲,就是重点文本分析。例如通过一条微博、一篇新闻、一条朋友圈,研究不同的人对某件事的看法,通过研究对象正面或者负面的评论,采取进一步的决策。
B、精准识别指代内容
不同的目标群体在交流过程中会有不同的表达以及指代的方式,适当使用指代会使文本更加简练而且并不影响本意的阐述。
例如,遇到生僻字“燚”不知道拼音的时候,大多会求助一些搜索引擎:“四个火是什么?”,搜索引擎一定会告诉你“燚”念什么,而不是告诉我们这几个词表面的匹配结果。由此可见,计算机能够“理解”这些指代内容。
C、对给定文本进行分类
对给定的文本,给出预定义的一个或多个分类标签,再进行高效、准确的分类。其实这就是一个简单的特征提取过程,通过不同的特征进行不同的分类。
A、自然语言的二义性引起的歧义
自然语言的二义性,其实说的就是自然语言中广泛存在的歧义现象。
比如:“兵乓球拍卖完了”可切分为“乒乓球/拍卖/完了”又可以切分为“乒乓球拍/卖/完了”。对于这两种切分都是正确的。也就是说,就算是人工分词也会产生歧义。
通过这两个例子我们可以看出,由于自然语言的二义性,句子存在着多种可能的组合方式或者句意,计算机在处理这些句子的时候就会费很大的劲。
B、上下文理解引起的歧义
所谓上下文,就是当前这句话所处的语言环境,这句话指代的主语、省略的部分、前后联系等等,都非常重要以及影响着这句话,因此上下文的理解是自然语言处理复杂性的一大体现。
即使是同一概念,不同的人也有不同的解读,所以人们在日常对话中也会有语句理解歧义。例如看下面一段对话:
A:今天一起吃饭吗?B:我妈今天从老家回来。
如果仅仅按照字面理解,B的语句是无法回答A的。实际上,B是告诉A,今天我妈来了,不能和A一起吃饭了,这是人际交往中的一种间接拒绝。
这就表明,相互之间的语言理解要借助语境推理,上下文理解不正确就会产生歧义。那么在计算机的自然语言处理中,要让计算机尽可能多的模拟人的智能,让机器具备人的上下文理解的功能。
由以上自然语言处理的歧义可以看出,NLP的关键在于消除歧义问题。而正确的消除歧义需要大量的知识,包括训练集的标注与添加、词典资源的建立。
下面班主任来介绍三种消除歧义的方法:
A、基于词典的消歧
拿词典中的定义和歧义词出现的上下文环境进行对比,选择覆盖度最大的作为该词的词义。
这种消歧方法思想很简单,但是消歧的准确率不是很高。
B、有监督消歧
让机器学习使用人工标记的数据,并与字典中的词语所代表的典型含义匹配。
例如,在「I often play with my friends near the bank」一句中,「bank」一词需要机器判断是银行还是河边。我们希望机器能够匹配句中单词最有可能表达的含义,让机器更深刻地理解自然语言。
C、无监督消歧
不管是基于词典的消歧还是有监督消歧,都需要训练集,而无监督消歧不需要这些预先知道的资源。
最简单的理解方式,就是把它比作考试。一般情况,每道题都有一个固定答案,对错代表分数的高低。那像作文只有题目没有固定答案,打分情况就要酌情而定。