NLP(自然语言处理)是什么?

NLP基本概念:

  • 自然语言处理( Natural Language Processing, NLP)是以语言为对象,利用计算机技术来分析、理解和处理自然语言的一门学科,即把计算机作为语言研究的强大工具,在计算机的支持下对语言信息进行定量化的研究,并提供可供人与计算机之间能共同使用的语言描写。包括自然语言理解( NaturalLanguage Understanding, NLU)和自然语言生成( Natural LanguageGeneration, NLG)两部分。它是典型边缘交叉学科,涉及到语言科学、计算机科学、数学、认知学、逻辑学等,关注计算机和人类(自然)语言之间的相互作用的领域。人们把用计算机处理自然语言的过程在不同时期或侧重点不同时又称为自然语言理解( Natural Language Understanding, NLU)、人类语言技术( Human Language Technology, HLT)、计算语言学Hl(Computational Linguistics)、计量语言学( QuantitativeLinguistics)、数理语言学( Mathematical Linguistics)
  • 自然语言处理(NLP,Natural Language Processing)是研究人与计算机交互的语言问题的一门学科。按照技术实现难度的不同,这类系统可以分成简单匹配式、模糊匹配式和段落理解式三种类型。
  • 处理自然语言的关键是要让计算机“理解”自然语言,所以自然语言处理又叫做自然语言理解(NLU,NaturalLanguage Understanding),也称为计算语言学(Computational Linguistics)。一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。

NLP基本类型示例

  • 按照技术实现难度的不同,这类系统可以分成简单匹配式、模糊匹配式和段落理解式三种类型。简单匹配式辅导答疑系统主要通过简单的关键字匹配技术来实现对学生提出问题与答案库中相关应答条目的匹配,从而做到自动回答问题或进行相关辅导。模糊匹配式辅导答疑系统则在此基础上増加了同义词和反义词的匹配。这样,即使学生所提问题中按原来的关键字在答案库中找不到直接匹配的答案,但是假若与该关键字同义或反义的词能够匹配则仍可在答案库中找到相关的应答条目。段落理解式辅导答疑系统是最理想的、也是真正智能化的辅导答疑系统(简单匹配式和模糊匹配式,严格说只能称之为“自动辅导答疑系统”而非“智能辅导答疑系统”)。但是由于这种系统涉及自然语言的段落理解,对于汉语来说,这种理解涉及自动分词、词性分析、句法分析和语义分析等NLP领域的多种复杂技术,所以实现难度很大。迄今为止,在国内的网络教学中还没有一个实用化的、能真正实现汉语段落理解的智能辅导答疑系统。但是在我国有些大学的人工智能实验室或中文信息处理实验室中,已有少数研究人员正在研发这类系统的实验原型。相信在不久的将来,就会有这一类的实用性智能系统问世。这是优质网络课程的重要研究方向之一。

NLP主要应用方向

  • 自然语言处理主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。

NLP发展史

  • 早期自然语言处理
  • 第一阶段(60~80年代):基于规则来建立词汇、句法语义分析、问答、聊天和机器翻译系统。好处是规则可以利用人类的内省知识,不依赖数据,可以快速起步;问题是覆盖面不足,像个玩具系统,规则管理和可扩展一直没有解决。
  • 统计自然语言处理
  • 第二阶段(90年代开始):基于统计的机器学习(ML)开始流行,很多NLP开始用基于统计的方法来做。主要思路是利用带标注的数据,基于人工定义的特征建立机器学习系统,并利用数据经过学习确定机器学习系统的参数。运行时利用这些学习得到的参数,对输入数据进行解码,得到输出。机器翻译、搜索引擎都是利用统计方法获得了成功。
  • 神经网络自然语言处理
  • 第三阶段(2008年之后):深度学习开始在语音和图像发挥威力。随之,NLP研究者开始把目光转向深度学习。先是把深度学习用于特征计算或者建立一个新的特征,然后在原有的统计学习框架下体验效果。比如,搜索引擎加入了深度学习的检索词和文档的相似度计算,以提升搜索的相关度。自2014年以来,人们尝试直接通过深度学习建模,进行端对端的训练。目前已在机器翻译、问答、阅读理解等领域取得了进展,出现了深度学习的热潮。

你可能感兴趣的:(科普性文章,自然语言处理,人工智能)