初识自然语言处理---自然语言处理研究报告(概述篇)

主要目的是克服人机对话中的各种限制,使用户能用自己的语言与计算机对话。

相关概念:

自然语言是指汉语、英语、法语等人们日常使用的语言,是自然而然的随着人类社会发展演变而来的语言,而不是人造的语言(如程序设计的语言),它是人类学习生活的重要工具。

自然语言处理,是指用计算机对自然语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。

自然语言处理的具体表现形式包括机器翻译文本摘要文本分类文本校对信息抽取语音合成语音识别等。

自然语言处理机制涉及两个流程,包括自然语言理解和自然语言生成。自然语言理解是指计算机能够理解自然语言文本的意义,自然语言生成则是指能以自然语言文本来表达给定的意图。

               

                                               图 1 自然语言理解层次

语音分析是要根据音位规则,从语音流中区分出一个个独立的音素,再根据音位形态规则找出音节及其对应的词素或词。

词法分析的目的是找出词汇的各个词素,从中获得语言学的信息。

句法分析是对句子和短语的结构进行分析,目的是要找出词、短语等的相互关系以及各自在句中的作用。

语义分析的目的是找出词义、结构意义及其结合意义,从而确定语言所表达的真正含义或概念。

语用分析则是研究语言所存在的外界环境对语言使用者所产生的影响。

判断计算机是否理解了某种自然语言的具体判别标准:问答(正确回答输入文本中的有关问题);文摘生成(有能力生成输入文本的摘要);释义(用不同的词语和句型来复述其输入的文本);翻译(把一种语言翻译成另一种语言)。

发展历程:

时间 标志 意义 局限
1950年 图灵测试 自然语言处理思想的开端  
20世纪50年代到70年代

基于规则的方法

 

(认为自然语言处理的过程和人类学习认知一门语言的过程是类似的)

理性主义思潮阶段

规则不可能覆盖所有语句

开发者不仅要精通计算机还要精通语言学

70年代以后 基于统计的方法逐渐代替了基于规则的方法 向经验主义过渡  
2008年到现在 引入深度学习来做 NLP 研究 深度学习与自然语言处理的结合推向了高潮  

 我国现状

目前自然语言处理的研究可以分为基础性研究和应用性研究两部分,语音和文本是两类研究的重点。基础性研究主要涉及语言学、数学、计算机学科等领域,相对应的技术有消除歧义、语法形式化等。应用性研究则主要集中在一些应用自然语言处理的领域,例如信息检索、文本分类、机器翻译等。由于我国基础理论即机器翻译的研究起步较早,且基础理论研究是任何应用的理论基础,所以语法、句法、语义分析等基础性研究历来是研究的重点,而且随着互联网网络技术的发展,智能检索类研究近年来也逐渐升温。

 业界发展

初识自然语言处理---自然语言处理研究报告(概述篇)_第1张图片

  • 微软亚洲研究院

微软亚洲研究院1998年成立自然语言计算组,研究内容包括多国语言文本分析、机器翻译、跨语言信息检索和自动问答系统等。这些研究项目研发了一系列实用成果,如 IME、对联游戏、Bing 词典、Bing 翻译器、语音翻译、搜索引擎等,为微软产品做出了重大的贡献,并且在 NLP 顶级会议,例如 ACL,COLING 等会议上发表了许多论文。

神经网络机器翻译,人机对话-----小娜,聊天机器人小冰。。。。。。

  • Google

Google 对自然语言处理的研究侧重于应用规模、跨语言和跨领域的算法,其成果在 Google 的许多方面都被使用,提升了用户在搜索、移动、应用、广告、翻译等方面的体验。

机器翻译,知识图谱,语音识别。。。。。

  • Facebook

Facebook 语言技术小组不断改进自然语言处理技术以改善用户体验,致力于机器翻译、语音识别和会话理解。2016年,Facebook 首次将29层深度卷积神经网络用于自然语言处理,2017年,Facebook 团队使用全新的卷积神经网络进行翻译,以9倍于以往循环神经网络的速度实现了目前最高的准确率。

语音识别,文本处理。。。。。

  • 百度

百度自然语言处理部是百度最早成立的部门之一,研究涉及深度问答、阅读理解、智能写作、对话系统、机器翻译、语义计算、语言分析、知识挖掘、个性化、反馈学习等。其中,百度自然语言处理在深度问答方向经过多年打磨,积累了问句理解、答案抽取、观点分析与聚合等方面的一整套技术方案,目前已经在搜索、度秘等多个产品中实现应用。篇章理解通过篇章结构分析、主体分析、内容标签、情感分析等关键技术实现对文本内容的理解,目前,篇章理解的关键技术已经在搜索、资讯流、糯米等产品中实现应用。百度翻译目前支持全球28种语言,覆盖756个翻译方向,支持文本、语音、图像等翻译功能,并提供精准人工翻译服务,满足不同场景下的翻译需求,在多项翻译技术取得重大突破,发布了世界上首个线上神经网络翻译系统,并获得2015年度国家科技进步奖。

  • 阿里巴巴

阿里自然语言处理为其产品服务,在电商平台中构建知识图谱实现智能导购,同时进行全网用户兴趣挖掘,在客服场景中也运用自然语言处理技术打造机器人客服,例如蚂蚁金融智能小宝、淘宝卖家的辅助工具千牛插件等,同时进行语音识别以及后续分析。阿里的机器翻译主要与其国家化电商的规划相联系,可以进行商品信息翻译、广告关键词翻译、买家采购需求以及即时通信翻译等,语种覆盖中文、荷兰语、希伯来语等语种,2017年初阿里正式上线了自主开发的神经网络翻译系统,进一步提升了其翻译质量。

  • 腾讯

AI Lab 是腾讯的人工智能实验室,研究领域包括计算机视觉、语音识别、自然语言处理、机器学习等。其研发的腾讯文智自然语言处理基于并行计算、分布式爬虫系统,结合独特的语义分析技术,可满足自然语言处理、转码、抽取、数据抓取等需求,同时,基于文智 API 还可以实现搜索、推荐、舆情、挖掘等功能。在机器翻译方面,2017年腾讯宣布翻译君上线“同声传译”新功能,用户边说边翻的需求得到满足,语音识别+NMT 等技术的应用保证了边说边翻的速度与精准性。

  • 京东

京东 AI 开放平台基本上由模型定制化平台和在线服务模块构成,其中在线服务模块包括计算机视觉、语音交互、自然语言处理和机器学习等。京东 AI 开放平台计划通过建立算法技术、应用场景、数据链间的连接,构建京东 AI 发展全价值链,实现 AI 能力平台化。

 

 

你可能感兴趣的:(自然语言处理认知)