【标注小课堂】数据标注的价值不是数据标注

各位小伙伴们开工大吉,假期总是飞快,第一个没有炮竹的新年总觉得差了点意思,不过绝对不影响对2021年的期待。个人认为2021年绝对是伟大的机遇年,所以祝愿小伙伴们今年都可以跟随国家发展的伟大契机快速发展、实现个人价值。

 

言归正传,因为在研究基于泛标注的个人信息资产化的方向,所以利用春节假期读了中国政法大学朱老师、黄老师写的关于大数据时代的个人信息保护与价值实现的书,非常受启发。所以就想写一篇关于基于数据标注的数据标注价值话题的文章,跟小伙伴们深入交流一下数据标注这件事的价值有哪些?

 

“基于数据标注的数据标注价值”乍一看好像有点绕,为什么会是基于数据标注的数据标注价值呢?数据标注作为一个处理环节除了产生数据集结果之外还会产生什么其他价值呢?其他价值又如何体现呢?带着这些疑问我们从以下三个方面进行探讨:

  1. 数据标注工作流的价值

  2. 数据标注需求流的价值

  3. 数据标注资金流的价值

 

一.数据标注工作流的价值

数据标注工作流有两大非常显著的特点:

  • 精细化流程管理

    数据标注作为一个数据处理的环节,最好的工作结果是与时间基本上是成正比的,一旦某一个环节出现问题所耗费的工时就要成倍的增长,所以很多人更愿意把这类公司形容为“标注工厂”,从单体的标注公司来讲的确很像,而实际上目前的大部分这类公司也是这样做的。精细化流程管理在传统工厂里面是非常普遍的,例如福特工厂的精益生产管理等都可以借鉴。我在管理项目组的阶段采用的是敏捷的方式也非常好用小伙伴们也可以尝试。

  • 基于线上完成可以不受地域时间限制

    数据标注的所有项目都可以基于线上完成的,不受地域和时间限制。这样表述可能没有什么感觉,因为这一点也是这个行业的特点,所以才有很多3线、4线及以下的城市参与进来。那再看看工业4.0的表述“指利用物联信息系统(Cyber—Physical System简称CPS)将生产中的供应,制造,销售信息数据化、智慧化,最后达到快速,有效,个人化的产品供应。同时包含了由集中式控制向分散式增强型控制的基本模式转变,目标是建立一个高度灵活的个性化和数字化的产品与服务的生产模式。”有没有豁然开朗的感觉,数据标注行业的最优解不就是这样一个生产模式么?

 

基于这两大特点数据标注工作流的价值就非常明显的体现出来了,这块我们单独讨论数据标注工作流的价值,那么把数据标注做为一个变量因素呢?基于数据标注工作流模型的应用场景是不是就更多了呢?数据标注可以作为一个工作流通道模型可实现的非常好的应用场景。例如我们目前看到的基于人为主体的灵活用工平台、基于任务匹配的任务分发平台、基于信息共享的众包平台等等都是其模型演变的一种,其核心都是利用技术手段基于工作流改变的生产模式创新。而我个人认为数据标注的规模化是在线非标任务模型非常好的应用场景。

 

二.数据标注需求流的价值

数据标注需求流的两大特点:

  • 项目需求迭代快

    项目需求迭代是必然的,数据标注需求迭代的特点从AI训练的角度来说应该是训练初期迭代最快,项目中期迭代相对较慢,项目末期迭代较快,但是项目初期迭代快一般不会全部体现到数据标注的服务商身上,目前大部分的服务商无法开始有效的给出有建设性的意见,所以这部分一般都会AI公司内部在需求确认阶段迭代完,中期需求针对场景化数据大量产出数据进行AI训练需求的相对大量的聚合标签的数据,所以数据就会在已确定的需求范围内进行快速生产,而AI开发末期更多的是需要未覆盖到的场景数据进行再次补充标注,这个可以参看对抗神经网络的一些文章进行理解。所以整体来说数据标注项目需求唯一不变的应该是不断迭代的需求。

  • 项目每个需求描述都应该对应唯一的结果标签

    对于数据标注需求的描述更多的是以点盖面的方式,而对于单一的数据来说就必然有唯一的结果进行对应,这样就会出现从描述的角度有重合但是结果必须有准确唯一解的问题。而需求的迭代也会尽量区分这部分问题结果。

 

基于上面两点,对于数据标注服务商来说最大的优势就是经历过非常多的完整或不完整的需求流,这些数据标注的需求流的积累沉淀应该是最大的优势,并且应该体现在两个方面的积累上,一是人员积累,二是需求中的知识结构积累。我个人的感觉目前数据标注服务商对人员积累很重视,但是对自己做过项目的需求流知识结构的积累重视度不够,而对于公司的价值恰恰体现在对于知识结构的积累和建立上。基于数据标注需求流的知识结构的建设也是可以AI数据服务解决方案的关键,作为AI模型生产的基础也至关重要。

 

三.数据标注资金流的价值

国家的十四五规划中把数字经济提到了国家的发展战略,我们在来看看数字经济产业的定义:是使用数字化的知识和信息作为关键生产要素、以现代信息网络作为中药载体、以信息通信技术的有效使用作为效率提升和经济结构优化的重要推动的新兴产业。在2020年4月9日国家《关于构建更加完善的要素市场化配置体制机制的意见》正式发布,其中第六条就明确“加快培育数据要素市场”,发挥数据要素核心价值,拘谨数据要素融通,鼓励和引导数据要素市场主体共享、开放与民生紧密相关的数据资源,依法展开数据交易活动,发掘数据要素商用政用民用价值。

 

目前要依法实现数据要素交易活动其实难度挺大的,在非结构化数据确权上难度很大,但这部分不是本文关注的重点。本文我们重点关注数据定价问题的实现。现阶段数据定价方法有以下几种:

  • 基于博弈论的协议定价法

  • 基于数据特征的第三方定价法

  • 基于元组的定价法

  • 基于查询的定价法

  • 实时定价法

那初始的数据定价呢?数据价值的衰减因素有哪些呢?等等

 

而数据标注服务商所产生的资金流来源数据采标注项目,其产生的数据服务的价格体系模型可以作为很好的参考依据。对各维度数据的分类分级等等因素的探索都有着先天优势。

 

基于上面三点,我们再总结来看:

第一点数据标注服务商几乎不可能从数据标注服务本身实现利益最大化的,目前行业通用的基于人员成本的报价结构上就可以明显算出,且这个行业公司的运营成本不是和人数呈正比的,人数在不同阶段运营成本有可能出现指数级增长,人员产生的价值却不会产生溢价,公司的抗风险能力极低,理论上目前传统工厂式的单体数据标注服务商的盈利模型就无法支撑做大做强。

 

第二点本文通篇都是基于流来讨论的,工作流、需求流、资金流。我们所有的分析、算法等等都是基于流才有意义,目前AI的实现也是如此。这样看来数据标注的价值还仅仅是数据标注么?

 

以上就是刚好利用春节假期在学习数据价值相关内容引发的数据标注价值的一些思考,也给从业的小伙伴们做一个参考,欢迎小伙们一同交流学习。

 

 


 

 

图片

 

你可能感兴趣的:(数据标注,人工智能,深度学习,大数据)