自然语言处理(Natural Language Processing,缩写作 NLP)是人工智能(AI)领域的一个重要分支,被广泛应用于聊天机器人、机器翻译和搜索引擎等场景。为帮助大家更好地理解NLP技术,云加社区邀请腾讯云大学为大家整理了大咖课程《走进自然语言处理》的回顾,帮助大家更好地理解NLP自然语言处理技术。
自然语言的概念其实是相对于人工语言来说的。什么是人工语言呢?例如,编程语言就是人工语言的一种,是为了让计算机简单地执行人给出的指令而设计出来的人工语言。而自然语言是人类之间沟通时自然发展出来的语言。
自然语言处理技术(以下简称“NLP”)是人工智能的重要技术之一,它能让计算机理解语言、输出语言,并最终接近人类的思维模式。
自然语言、自然语言处理和编程语言的关系如下图所示。
自然语言处理是包括了计算机科学、语言学、心理认知学等一系列学科的一门交叉学科,发展趋势是从规则到统计再到深度学习,而这些发展大致经历了以下四个阶段。
1. 萌芽期(1956年以前)
1956著名的图灵测试被认为是NLP的思想开端,这个时期诞生了基于规则和基于概率两种不同的NLP技术。
2. 快速发展期(1957年-1970年)
在这个时期,更多学者注重于研究推理和逻辑问题,因此使用基于规则的派系比基于概率的派系发展势头更迅猛。
3. 低速发展期(1971年-1993年)
由于NLP的应用无法在短期内得到解决,很多学者对于NLP的研究丧失了信心,导致NLP的研究发展进入了低谷期。
4. 复苏融合期(1994年至今)
计算机的速度和存储大大增加,为NLP的技术研究奠定物质基础,使NLP的商品化成为可能;1994年internet的商业化和同时期网络技术的发展,使得信息检索和信息抽取的需求大增,让更多学者逐渐引入深度学习来做NLP的研究,NLP多种领域的研究皆取得一定的成功。
值得关注的是,在第四个阶段的90年代中期以后,有两个关键事件从根本上促进了NLP研究的复苏与发展:第一件事是90年代中期以来,计算机的速度和存储量大幅增加,为NLP的研究改善了物质基础,使得NLP的商品化成为可能;另一件事是1994年Internet商业化和同期网络技术的发展使得基于自然语言的信息检索和信息抽取的需求变得更加突出。
NLP的基本任务分为三大类:词法分析、句法分析和篇章分析。
词法分析是NLP的基础性工作,包含分词、词性标注和命名实体识别。
句法分析是对自然语言进行句子层面的分析,要包含句法依存分析、语义依存分析和文本纠错。
篇章分析是对给定的文本进行分析和理解,主要包含关键词提取、情感分析、文本分类和自动摘要。
腾讯云自然语言处理深度整合了腾讯内部包括微信AI、AI Lab、信息安全团队和知文团队等在内领先的NLP技术,依托海量中文语料累积,全面覆盖词法、句法、篇章等NLP能力,在不同的垂直领域和6大BG应用场景有深厚的经验累积。腾讯云的NLP产品矩阵正是基于这些技术积累而推出的。
知文NLP平台除了具备三大基本能力外,还增加了向量技术,满足开发者更灵活的需求。
NLP究竟能做些什么呢?接下来我们以知文NLP平台为例,讲一讲NLP的几大能力如何发挥作用。
如下图所示,知文NLP平台基本版包含篇章分析、句法分析和词法分析功能,除此以外还额外提供向量技术,以满足开发者们更灵活的需求。高级版还具备敏感词识别和文本审核功能。
1.词法分析
词法分析能力主要具备三个功能:智能分词、词性标注功能和命名实体识别。比如在下图的例子中,我们可以看到知文NLP平台如何将连续的自然语言文本切分成词汇序列,并且识别出相应的词性和文本中的实体。
命名实体识别是自然语言处理的一个基本任务,是信息抽取,机器翻译、问答系统等功能的基础。
2.句法分析
句法分析能力具备两个功能:句法依存分析和文本纠错。句法依存分析是利用句子中词与词之间的依存关系来表示词语的句法结构信息。
3.篇章分析
篇章分析能力提供了四个功能:关键词提取、情感分析、文本分类和自动摘要。关键词提取功能可以为用户实现诸如新闻内容关键词自动提取、评论关键词提取等提供基础服务。
情感分析功能可以对信息进行情感上的正向、负向及中性进行评价。在舆情监控、话题监督、口碑分析等商业分析领域有非常重要的应用价值。
向量技术指的是将一个词或句子用向量来表示,是自然语言处理领域中最基础的组件。
知文NLP平台的向量技术提供四个功能:词向量、句向量、词义相似度和短文本相似度,后两个功能是扩展性功能。
以上是知文NLP平台基础版的能力。在高级版中,我们提供了敏感词识别和文本审核两个功能。这两个功能可以实现识别信息的色情、政治等敏感程度,并返回对应的敏感词。
六、NLP实际应用场景
场景一:某保险公司的智能核保项目。使用知文NLP平台的关键词提取功能,为保险公司的体检报告复核页面做结构化抽取,然后把结构化抽取的结果给到保险公司用于他们的智能核保项目。
场景二:帮助某社交媒体快速地识别海量文本,过滤掉其中不合规的文本,代替人工审核。
场景三:帮助某个应用软件用户找到满足他们需求的APP。通过对每个APP的文本信息进行信息抽取,并进行文本分类,就可以将APP准确归类到各对应的二三级标签下,这样当用户使用时,就能快速找到他们想要的APP。
场景四:某银行的投诉工单智能分类及解析。这个项目主要拆分为投诉信息提取、投诉分类分析,投诉信息提取运用了文本纠错和关键词抽取的接口;投诉分类帮助银行聚焦热门的投诉问题。
NLP能够在舆论监测、信息审核等很多场景下发挥出重要的作用,关于如何操作使用知文NLP平台,大家可以点击文末【点击查看完整课程视频】,观看完整课程录播视频,还可以到腾讯云官网产品页中搜索“NLP”来亲自体验和使用知文平台。
Q:腾讯云知文NLP平台的优势是什么?
A:主要是三大优势:技术领先、语料格外丰富、模型迭代快。
Q:腾讯云知文NLP主要有哪些使用场景?
A:使用场景很广泛,只要有大量的文本数据场景,都可以使用我们的智能接口。比如社交媒体的用户发言分析,我们可以监测他们的舆论变化。
Q:腾讯云NLP产品后续是否会有免费使用的额度?如果付费的话,价格如何?
A:目前还处于公测阶段,是全免费的。到今年10月1日我们将结束公测,之后会根据用户的使用情况来给到一个具有市场竞争力的价格。而且之后付费阶段我们页会给每个用户提供一些试用包,让大家可以有试用的机会。
添加官方微信号TcloudM【学习君】可加入交流群一起学习,更有鹅厂内部独家技术资料等你领取!腾讯云大学是腾讯云旗下,面向云生态用户的一站式学习成长平台。腾讯云大学大咖分享每周邀请内部技术大咖,为你提供免费、专业、行业最新技术动态分享。