3.1 自然语言处理介绍

 

自然语言处理介绍

目标

  1. 了解自然语言处理的愿景和经典任务

  2. 知道图灵测试

1. 自然语言处理101-对话

很多科幻片里面,都会有一些机器人能够用人类的语言与人类沟通。

比如,电影机器人总动员里的清洁机器人瓦力

3.1 自然语言处理介绍_第1张图片

就是可以用自然语言(英语)对话的。

希望计算机具有处理人类语言的能力的这种想法出现已久。

我们把这种能够使用自然语言与人类会话的程序称为对话系统(dialogue systems)

1.1 对话系统的组成

事实上,要深入研究对话系统,就要研究它的各个组成部分。

其中包括:

  • 语言输入[自动语音识别(automatic speech recognition)],

  • 自然语言理解(natural language understanding),

  • 语言输出[自然语言生成(natural language generation)],

  • 语音合成(speech synthesis).

2 另一个和语言密切相关的问题 - 翻译

西方宗教中传说人们担心会有诺亚时代的大洪水重新来临,所以决定齐心协力建造一座能够通往天堂的高塔。这个时候,所有人还都是一样的口音。

随着塔建立的越来越高,上帝惊慌了。决定扰乱人们的进程,所以把人们变得语言不通。造塔也因此无法继续进行了。

3.1 自然语言处理介绍_第2张图片

语言不通确实不懂中文的人无法阅读中文app中的文字,不懂英文的人也无法阅读英文网页上的信息。

尽管人类人工可以翻译一些书籍文献等信息。但是面临瀚如烟海的互联网信息,人类翻译远远不够方便。

机器翻译(machine translation)的目标就是自动的把文字从一种语言翻译成另外一种语言。

3 语言、思维和理解

语言总是和我们的认知能力纠缠在一起。

如果计算机能够像人类一样熟练地处理语言,那么就一位置计算机已经达到可真正的智能机器的水平。

图灵是第一个认识到计算机与认知能力之间有着如此密切关系的科学家。

在他的一篇论文中,图灵提出了图灵测试(Turing Test)的想法。

图灵在他的论文的开头就指出,关于社么是机器思维的问题是不能回答的,因为机器(machine)和思维(think)这两个属于本身就是含糊不清的。

所以他建议做一个游戏来进行测试,在游戏中,计算机对语言的使用情况就可以用来作为判断计算机能否进行思维的根据。如果计算机在游戏中获胜,那么就可以判断计算机具有智能。

在图灵的游戏中有三个参加者:两个人和一台计算机。其中一个人充当提问者的角色,他要是用电传打字机向另外两个参加者提出一系列问题,根据这两个参加者的回答判断哪一个回答是计算机作出的。计算机的任务是尽量设法来愚弄提问者,对于提问者的问题,尽量做出如人一样的回答,设法使提问者相信它真的是一个人。而第二个参加游戏的人则尽量使提问者相信第三个参加者是计算机,只有他和提问者才是人。

3.1 自然语言处理介绍_第3张图片

4 总结

本小节我们介绍了人类关于使用机器来处理自然语言的最初的愿景和经典任务:

  • 对话系统

    • 自动语音识别(automatic speech recognition),

    • 自然语言理解(natural language understanding),

    • 自然语言生成(natural language generation),

    • 语音合成(speech synthesis).

  • 机器翻译(machine translation).

这些任务直到今天都还是没有完美解决的问题。我们稍后会介绍在这几个子领域中所使用的各种算法和比较重要的一些局部性工作。

 

 

语音与语言处理中的知识

目标

  1. 了解自然语言处理所涉及的特有的领域知识

1 nlp领域知识

自然语言处理(Natual Language Processing)的程序与其他的程序最大的区别在于,自然语言处理的应用需要用到语言知识。

1.1 什么是语言知识

以语音识别为例,机器人(应用/程序)必须能够分析声音信号,这就需要一些语音学(phonetics)的知识。

机器人(应用/程序)在理解文本时,又需要知道句子是如何排列,以及为什么会如此排列,这就需要具有句法(syntax)的知识。如果是英文,单词又有很多变体(比如名词的复数形式,动词的时态等等),这就需要形态学(morphology)的知识,等等。

这些语言知识对于我们使用算法来处理自然语言都有很大的帮助,尤其是在自然语言理解上。

1.2 自然语言理解很有趣也很难

难度:※ 一颗星

  1. 校长说衣服上除了校徽别别别的

  2. 这几天天天天气不好

  3. “你看到王刚了吗”“王刚刚刚刚走”

难度:※※ 两颗星

  1. 来到杨过曾经生活过的地方,小龙女动情地说:“我也想过过过儿过过的生活。”

  2. 那辆白车是黑车

  3. 能穿多少穿多少

难度:※※※ 三颗星

  1. 写给卖豆芽的对联: 长长长长长长长,长长长长长长长。

  2. 季姬寂,集鸡,鸡即棘鸡。棘鸡饥叽,季姬及箕稷济鸡。鸡既济,跻姬笈,季姬忌,急咭鸡,鸡急,继圾几,季姬急,即籍箕击鸡,箕疾击几伎,伎即齑,鸡叽集几基,季姬急极屐击鸡,鸡既殛,季姬激,即记《季姬击鸡记》。

  3. 石室诗士施氏,嗜狮,誓食十狮。氏时时适市视狮。十时,适十狮适市。是时,适施氏适市。施氏视是十狮,恃矢势,使是十狮逝世。氏拾是十狮尸,适石室。石室湿,氏使侍拭石室。石室拭,氏始试食是十狮尸。食时,始识是十狮尸,实十石狮尸。试释是事。《施氏食狮史》

  4. 去商店买东西一算账1001块,小王对老板说:“一块钱算了。” 老板说好的。于是小王放下一块钱就走了,老板死命追了小王五条街又要小王付了1000,小王感慨:#自然语言理解太难了#

  5. 要去见投资人,出门时,发现车钥匙下面压了一张员工的小字条,写着“老板,加油!”,瞬间感觉好有温度,当时心理就泪奔了。心里默默发誓:我一定会努力的! 车开了15分钟后,没油了。。。

1.3 nlu为啥这么难?

  • 语言形态丰富

    • 什么是词?(中文有分词任务)。

    • 词形比较丰富的语言,比如德语俄语法语,有单复数有时态,有性别,甚至还有各种变格。

    • 研究语言本身的时候需要把这些因素考虑进来。

  • 歧义问题

    • 词法层面

      • 方便的时候

    • 句法

      • 你能穿多少穿多少

    • 语义

      • 中国乒乓球谁也打不过,中国足球谁也打不过

    • 语用

      • 你知道现在几点了吗

      • 请问一下,你知道现在几点了吗

      • 还在打游戏!!你知道现在几点了吗?

  • 创造性

    • 语言随着时间迁移变化

    • 新的名词实体出现(未登录词)

  • 人称指代

    • 他60岁了,和儿子住在一起。他每天工作到很晚,家里除了老人还有媳妇儿子要养。媳妇也要打工到很晚,儿子白天就交给老人带。小孩子白天急的哇哇哭着想找他妈妈。

  • 语义递归

    • 吃饭的碗

    • 吃饭的碗底下垫的桌垫

    • 吃饭的碗底下垫的桌垫边上挂的流苏

    • 吃饭的碗底下垫的桌垫边上挂的流苏上的珠子

    • 吃饭的碗底下垫的桌垫边上挂的流苏上的珠子上面落的一只蚊子

经过上面的分析,我们会发现,虽然自然语言处理(理解中)存在着各种各样的问题。但是总归是可是用语言知识,把它具体成某一方面的问题的。具体如何解决以上的问题。我们留到后面学科实际已用例子中分析。

 

 

 

你可能感兴趣的:(3.1 自然语言处理介绍)