自然语音处理(NLP)系列(三)——什么是序列标注?

自然语音处理(NLP)是人工智能领域中的重要一环,在过去的二十年里,NLP利用机器学习和深度学习的研究成果,在很多方面取得了不小的进步。比尔·盖茨曾说,“语言理解是人工智能皇冠上的明珠”,自然语言处理的进步终会推动人工智能整体进展。

自然语音处理(NLP)系列(三)——什么是序列标注?_第1张图片

 NLP的简介

自然语音处理(NLP)是计算机科学领域与人工智能领域中的一个重要方向,是机器语言和人类语言直接沟通的桥梁,以实现人机交流的目的。

NLP以语言为对象,利用计算机技术对此进行分析、理解和处理自然语言的一门学科,即把计算机作为语言研究的强大工具,在技术的支持下对所得语言中的信息进行定量化的研究,并提供可供人与计算机之间能共同使用的语言。它的基本任务就是词频统计、具体本体词典、上下文语义分析等方式对待处理预料并对此进行分词,最终形成以最小的词性为单位,并且饱含语义的词项单元。

NLP的应用场景

自然语音处理(NLP)主要应用于序列标注、文本检索、情感分析、信息抽取、文本摘要、问答系统、对话系统、知识图谱、文本聚类等领域。现阶段已实现了多种场景的应用,例如谷歌的搜索引擎,就是NLP下信息搜索的经典应用,搜狗深度融合NLP 的命名实体识别、句法分析等技术,实现了“今日头条”的推荐系统,即针对不同人群进行精准推荐等。

序列标注

序列标注是一个比较简单的NLP任务,也可成为最基本的任务。序列标注是给定一个输入序列,使用模型对这个序列的每一个位置标注一个相应的标签,是一个序列到序列的过程。序列标注的涵盖范围非常广,可以解决一系列对字符进行分类的问题,如分词、词性标注、命名实体识别、关系抽取等。

序列标注可分原始标注和联合标注,原始标注就是每个元素中都需要被标注的一个标签,联合标注就是所有的分段都被标注为同样的标签,命名实体识别是信息提取问题中的一个子任务,需要将元素进行定位和分类,如人名、地点、时间、组织名、质量等。

BIO标注的简介

解决联合标注问题的最简单的方法,就是将其转化为原始标注问题,即使用BIO标注。

 BIO标注是将每个元素标注为“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段属于X类型并且此元素为词片段的起始词,“I-X”表示此元素所在的片段属于X类型并且此元素为词片段的起始词之后的词,“O”表示该字不属于事先定义的任何词片段类型。

常用的序列标注还有BIOES标注和BMES标注。

BIOES标注主要将多元实体X标注为B-X,I-X,E-X的格式,B-表示实体的开头,I-表示实体的中间;0-代表非实体部分;E-代表实体的结尾;S-代表单个字符,其本身就是一个实体。

BMES标注中的B-代表实体的开头,M-代表实体的中间,O-代表非实体部分,E-代表实体的结尾、S-代表单个字符,其本身就是一个实体。可以看出在很多任务以上各种标注体系的表现差异不大。

人工智能的进步促进了自然语言处理的发展,深度学习为自然语言处理带来了重大技术突破。随着NLP模型变得越来越大,需要更多的数据来训练它们。

景联文科技支持NLP标注业务

景联文科技作为长三角地区规模最大的数据采集标注公司,自研数据标注平台,保证数据的安全合规性,涵盖了绝大多数主流标注工具,支持NLP标注业务,包括OCR转写、文本信息抽取、NLU语句泛化等标注。

数据平台通过云端托管、各类数据集分布可视化,数据标注最高交付精准度可达到99.99%,有效提高约40%的客户的模型精度,使模型更加精细化;通过数据平台的高度自动化功能,可大幅度缩短客户模型迭代的周期,大力节约人工成本。

景联文科技提供的产品为全链条AI数据服务,从数据采集、清洗、标注、到驻场的全流程、垂直领域数据解决方案一站式AI数据服务,协助人工智能企业解决整个人工智能链条中数据标注环节的相对应问题。

自然语音处理(NLP)系列(三)——什么是序列标注?_第2张图片

景联文科技|AI基础数据服务|数据采集|数据标注|假指纹制作|指纹防伪算法

助力人工智能技术加速数字经济相关产业质量变革,赋能传统产业智能化转型升级

文章著作权归景联文科技所有,商业转载请联系景联文科技获得授权,非商业转载请注明出处;图片源自网络,如有侵权请联系我们进行删除。

你可能感兴趣的:(数据采集,数据标注,自然语言处理,人工智能)