自然语言处理(NLP)发展历程(1),什么是自然语言处理?

一、什么是自然语言处理(NLP)

  首先先了解一下什么是自然语言,自然语言是人类社会发展过程中自然产生的语言,是最能体现人类智慧和文明的产物,也是大猩猩与人的区别(2019斯坦福cs224n,lesson1)。它是一种人与人交流的载体,像计算机网络一样,我们使用语言传递知识,人类语言产生是非常近的事情,大概是在10万年前,至于科学家怎么论证的,我也不清楚,但肯定不是敲着头盖骨化石问“爷爷,你当时会说话吗?”问出来的。据我猜测可能是根据书写文字的年代推断出来的,语言早于书写,书写出现在5000年前,例如大家所熟知的甲骨文距今约3600年(甲骨文发现于中国河南省安阳市殷墟,是商朝(约公元前17世纪-公元前11世纪)的文化产物,距今约3600多年的历史)。
自然语言处理(NLP)发展历程(1),什么是自然语言处理?_第1张图片
  语言是很神奇的东西,只需要短短几个符号,你就可以在脑海里重现一幅图,一个场景。语言是思维的载体,是人类交流思想、表达情感最自然、最直接、最方便的工具,人类历史上以语言文字形式记载和流传的知识占知识总量的80%以上。
自然语言处理(NLP)发展历程(1),什么是自然语言处理?_第2张图片
  而自然语言处理是一门计算机科学、人工智能、认知科学、信息论、数学及语言学的交叉学科。虽然语言只是人工智能的一部分(人工智能还包括机器学习、计算机视觉等),但它是非常独特的一部分。这个星球上许多生物都拥有超过人类的视觉系统,但只有人类才拥有这么高级的语言。
自然语言处理(NLP)发展历程(1),什么是自然语言处理?_第3张图片图片来源 – blog.wizeline.com

自然语言研究内容包括如下:
序列列标注:分词/POS Tag/NER/语义标注
这是最典型的NLP任务,比如中文分词,词性标注,命名实体识别,语义角色标注等都可以归入这一类问题,它的特点是句子中每个单词要求模型根据上下文都要给出一个分类类别。
分类任务:⽂文本分类/情感计算
比如我们常见的文本分类,情感计算等都可以归入这一类。它的特点是不管文章有多长,总体给出一个分类类别即可。
句子关系判断:Entailment/QA/⾃自然语⾔言推理
比如Entailment,QA,语义改写,自然语言推理等任务都是这个模式,它的特点是给定两个句子,模型判断出两个句子是否具备某种语义关系。
生成式任务:机器翻译/⽂文本摘要
比如机器翻译,文本摘要,写诗造句,看图说话等都属于这一类。它的特点是输入文本内容后,需要自主生成另外一段文字。

  自然语言处理的目标是让计算机处理或者说“理解”自然语言,用来完成有意义的任务,比如人工助手订购机票、机器翻译、情感分析、问答系统、智能客服QA等。完全理解和表达语言是极其困难的,完美的语言理解在一定意义上等效于实现了人工智能。

二、NLP的发展简史

1950年前:图灵测试 1950年前阿兰·图灵图灵测试:人和机器进行交流,如果人无法判断自己交流的对象是人还是机器,就说明这个机器具有智能。

1950-1970:主流:基于规则形式语言理论

乔姆斯基,根据数学中的公理化方法研究自然语言,采用代数和集合论把形式语言定义为符号的序列。他试图使用有限的规则描述无限的语言现象,发现人类普遍的语言机制,建立所谓的普遍语法。

1970-至今:主流:基于统计 谷歌、微软、IBM,20世纪70年代,弗里德里克·贾里尼克及其领导的IBM华生实验室将语音识别率从70%提升到90%。 1988年,IBM的彼得·布朗提出了基于统计的机器翻译方法。 2005年,Google机器翻译打败基于规则的Sys Tran。

2010年以后:逆袭:机器学习,深度学习。

AlphaGo先后战胜李世石、柯洁等,掀起人工智能热潮。深度学习、人工神经网络成为热词。领域:语音识别、图像识别、机器翻译、自动驾驶、智能家居。

三、自然语言处理的技术挑战

   自然语言处理为什么难? 人类语言是充满歧义的,不像编程语言那样明确。编程语言中有各种变量名,但人类语言中只有少数几个代词可以用,你得思考到底指代的是谁……
  人类语言的解读依赖于现实世界、常识以及上下文。由于说话速度书写速度阅读速度的限制,人类语言非常简练,省略了大量背景知识。
大量存在的未知语言现象
如:高山、高升;
吉林、武夷山、桂林、温泉、温馨、时光;
虎蝇,埃博拉,奥特,闷骚;
BoW, word2vec;
一带一路;
厉害了word哥;
吃瓜群众;

自然语言处理(NLP)发展历程(1),什么是自然语言处理?_第4张图片
四字姓名,对中文实体识别带来了巨大的困扰。

无处不在的歧义词汇
如:苹果、粉丝;
bank, interest;
那辆白色的车是黑车。
臭豆腐真香啊!
自然语言处理(NLP)发展历程(1),什么是自然语言处理?_第5张图片

复杂或歧义结构比比皆是
喜欢乡下的孩子。
上大学子烛光追思钱伟长。
“动物保护警察”明年上岗。
欢迎新老师生前来就餐。
自然语言处理(NLP)发展历程(1),什么是自然语言处理?_第6张图片

普遍存在的隐喻表达
在微信圈里潜水;
打铁还要自身硬;
你简直是个木头脑袋!
雪域高原处处盛开民族团结之花;
各族人民要像石榴籽一样紧紧拥抱在一起。
帝国主义和一切反动派都是纸老虎。
自然语言处理(NLP)发展历程(1),什么是自然语言处理?_第7张图片

对翻译而言,不同语言之间的概念不对等
馒头: steamed bread
句子1:We do chicken right.(正确翻译:我们是烹鸡专家。)
自然语言处理(NLP)发展历程(1),什么是自然语言处理?_第8张图片

句子2:vanilla Transformer(正确翻译:普通版Transformer)

  以上展示的是NLP中文任务的主要难点(巨坑),各位初入NLP行当的兄弟现在跳坑还来得及。。。
  下一篇讲讲述“如何用数学语言表示词”,敬请期待!~

reference:

1、nlp中的词向量对比:word2vec/glove/fastText/elmo/GPT/bert

2、放弃幻想,全面拥抱Transformer:自然语言处理三大特征抽取器(CNN/RNN/TF)比较

3、《自然语言处理方法与应用》- 宗成庆

4、《知识指导的自然语言处理》- 刘知远

5、自然语言处理

6、NLP-LOVE/ML-NLP

你可能感兴趣的:(自然语言处理)