本 文 约3028字
阅 读 需 要
13min
一、语料的需求与工具的产生与发展
语料-从业者心中永远的痛
拥有数据就像拥有矿产,是构建起竞争壁垒的关键,这是AI界最根本的竞争。语料作为数据的一种,也不例外。语料或者说标准语料、高质量的标注语料是NLP任务和模型面临的痛点,而且将长期困扰行业内的从业者,无法从根本上得到解决。
但语料的获取方法从语言学家定义共识框架,到NLP算法工程师手动标注,再到众包标注,逐渐向前发展,行业的产业链和供应链也逐渐拓展,从业者的工作和任务有了细分。语料库从之前的单纯语言学概念逐渐向应用转移,面向NLP任务和模型的语料标注形式逐渐成为行业内的解决方案。
算法到模型,数据是其中的关键。
中文与其他有间隔的文本不同,在标注之前需要多一小步的处理,就是切分——把字、词按照其含义分切分。切分标准一般是语言学家制定,属于标注标准的一个小分支。中文语料的标注的标准及范畴如下:
所以说,中文语料标注也逐渐在发展,从词性标注,到实体标注,再到实体关系标注,以及事件抽取标注与观点标注,不同的标注规则输出的语料不同,面向的任务与应用也不同。
面向任务、模型的语料标注,就是在我们要实现的目标为基准点,做对应的语料标注工作。目前很多标注工具,大部分都是国外的开源工具,其中斯坦福的工具最多,如BRAT等都可以做人工以及半人工标注,标注成本高昂,对标注工程师的语言学功底要求较高。
BRAT数据测试页面
为了提升标注质量和标注语料的一致性,算法工程师和语言学家协同工作,通过不断实验验证然后形成一套有效的标注标准,来提升模型效率,降低标注难度。语料的珍贵性和制作成本可以想象。所以,很长一段时间,高标准的语料也叫黄金语料,是企业的核心竞争力和无形资产之一,是限制竞争者进入的门槛之一。
行业的技术在发展,预训练模型的兴起,让标注行业产业化看到了曙光。有了预训练模型,一小部分的关键语料就可以产生一个相当不错的模型。有了初步的模型,鸡生蛋蛋生鸡的循环很容易就可以滚动起来。后面就是语料生成和修理模型的简单循环工作了。
标注工具的智能程度不但取决于模型,也取决于语料的质量和规模。我们的自动标注平台,依托自有的大规模标注数据和基于多任务统一标注方法,让我们的标注工具可以自动的处理标注数据,并利用字典和图谱技术,自动识别和声明标注过程中存在的风险标注。
赛莉标准中文语料提供平台标注范例
现在,用我们的标注工具,标注工程师只要关注一些染色的风险标注就可以完成有限类别的基础标注任务,提升了5-8倍标注效率,标注质量也更高。
我们可以做个对比。
经过我们的测算,一个相对熟练的标注工程师,在我们平台每小时处理的中文字符数在2000~2700之间,每分钟处理的字符数可达30-45个。一份4000万字符的语料(人民日报2019),10个标注工程师10个月,或者100个标注工程师1个月就可以标注完毕(每天8小时计,每月22天计)。若是按照现在的标注模式,标注工程师每小时处理的中文字符数在400~500之间,同样的标注任务,10个标注工程师至少需要454个月(近38年,每天8小时计,每月22天计),100个标注工程师也需要近4年才能标注完。
标注数据的检查,或者标注任务的质检同样也是比较痛苦的工作之一,很多时候,质检员的工作量与标注员是等同的。自动质检也是自动标注平台的特色之一。很多时候,在标注过程中就能做到自动质检和纠正工作,并针对质检的纠正工作对标注工程师的技能进行考核,输出标注工程师的错误倾向数据,做针对性的培训,进行补救和强化。
二、语料、模型与标注规范之间的关系
语料与模型固然存在鸡生蛋蛋生鸡的循环过程,标注规范则是保证这个过程能够高效和健康运转的基础。虽然标注规范起源于语言学的基础规范和语言使用的共识,但标注规范最终还是要为NLP任务服务的,要为模型效率和准确率负责。好的标注规范可以兼容尽可能多的语言现象,也可以完成尽可能多的任务。
在构建我们的语料和工具的过程中,我们发现,不论是词法分析、句法分析、语义分析、情感分析、文本分类、文本分析还是信息抽取,或者应用层面的问答、对话、翻译、搜索以及知识图所需要的标注数据的基本模块是统一的,是可以构建在一个统一的标注体系内。
切分、词性、依赖关系、实体、情感和事件都可以基于细粒度的标注和粘结。现在,很多标注工作是基于单一目标任务,兼容其他任务的标注成本会成倍提高,所以很少有企业或者需求方会做兼容标注任务。重复标注的资源浪费情况很普遍。
赛莉标准中文语料提供平台标注案例中词性、实体以及事件是可以同时进行的
我是赛莉自动标注平台分割线
https://www.botsally.tech
在我们看来探索统一的兼容标注规范有语言学的基础和应用需求。随着NLP任务的不断出现,难度日益增高,统一标注的标注规范可以兼顾标注任务的同时,寻找不同任务模型间的联系,为构建统一标注模型寻找方向。
我们基于我们所构建的产品需要的NLP任务模型为出发点,将所有任务的标注规则糅合统一,并吸取主流的标注方法,形成了自己的标注方法和标注规范。我们将任务整合后,分拆出将近500个标签,用于不同的标注任务之内,足以应付大多数的NLP标注任务。
我们的标签树在构建时充分考虑了事物,属性,行为间的关系,类别,从属等问题,可以在由标注数据到模型的过程中依据任务的复杂度,自由调整标签的粒度。
举例:
n ns nsp nspf
n nt nth
每一个类别的标签在模型缩放时都可以灵活调整,从而控制模型的颗粒度。
三、标签——每个team都有自己的哈姆雷特
语料标注标准也没有一个主流或者统一的共识。每一个企业、每一个科研机构、每一个学校,有多少团队,就有多少种标签标注方法。在使用已有的语料库时,研究标签、研究标签的转换就是数据清洗工作中必备技能。没有一个统一的标签体系,也是行业的痛点和门槛。
我们在开放自动标注平台的同时,自然也就把我们的标签体系公诸于众。希望最后能够形成统一的标签规范,为人工智能基础设施建设增添新动力。
四、更多的需求制约规模化发展
为什么更多的需求会制约规模化发展?更多的需求造成了更多样化的任务,不同的行业不同的领域,面对的NLP任务虽然可能相同,但语言场景专用词汇的不同也限制了通用模型的发挥。
垂直领域的需求逐渐显现,每个企业都有自己的想法和脾气,要求自然五花八门。个性化的需求,个性化的任务,个性化的标注标准形成了个性化的标注数据。没有一致性的数据,谈何规模化发展?
我们构建平台的初衷就是希望,所有的数据在统一的标注规则体系下可以相互转换,也可以有偿共享,最大限度的节省社会资源。为行业的产业化发展提供更多的支持。
五、语料标注工程师的困惑
语料标注是个非常神奇的工作,在任务重赏机制下,有没有语言基础,有没有NLP处理背景反而显得不重要。谁都可以上手标注,看似没有任何门槛。但我们在构建语料的时候又发现根本不是那么回事,很多的语言现象似是而非,没有专业的语言学背景知识,很难判断具体的标注与实践是否合适。
我们对语料工程师的定义是,要具有一定的学术素养和本科以上的教育背景,有相关知识,了解NLP模型的基本知识和解决问题的理念,最重要的是有语言学方面的系统知识,可以从容应对不同的语言现象。
语料标注工程师可以设计标注方案,可以实施标注动作,承担标注任务,可以配合NLP算法工程师提升模型的准确率和效率。
所以,真正的语料标注工程师的门槛很高,造成了高端语料的成本居高不下。也就限制了高质量语料的规模化生产。
六、本识提出的解决方案
目前,我们正在招募语料标注工程师,共20个名额,其中10个名额针对高校大二、大三计算机与语言学专业的学生,我们将为10个符合要求的大学生提供免费培训服务,助其成为高端的语料标注工程师。