“我觉得数据标注一直被世人误解,数据标注不是人工智能界的‘富士康’。”
数据标注到底是怎样的工作?作为人工智能服务行业的一员,为什么被扣上“劳动密集型”的帽子?
推本溯源,这还要从7年前说起。
2015年百度AlphaGo的横空出世,像丢进水里的炸弹一样,掀起AI界的惊涛骇浪。
此后的日子,人工智能行业在聚光灯下飞奔,跑出实验室、实现”AI+产业“落地,成为新基建的重要一员。AI行业也经历了资本的冰与火,逐渐走向理性。
但作为AI产业链的最上游,数据标注行业却一直游离在聚光灯外,被人用有色眼镜看待。
就连大佬刘慈欣都直言:“现在的人工智能,前面有多少智能后面就有多少人工。”
人们为数据标注带上“流水线、小作坊、贫困县”等等标签,它就像小丑一样,更多被用来调侃人们对AI的期望与差距。
但任何符合发展规律的事物都会随着时代进步,难道数据标注是例外吗?
数据标注的真面目
最开始,嗅到商机的确是一批小团体,几乎与AI创业潮同时起步。
刚兴起的AI大多处于实验阶段,对数据需求量少、要求较低,这吸引了大量以劳动密集为主的作坊,这些“小作坊”以外包(BPO)业务为主,给外界留下了“富士康”的印象。
而随着AI大规模落地,对数据需求愈加深广,行业开始跨过野蛮生长,进入精耕细作,数据标注也迎来了严苛考验。
面对标注场景更细分、数据类型更复杂、定制化需求更繁琐的甲方,整个AI基础数据服务产业被迫经历了转型升级——更多劳动密集型企业正面临生死关头,更多的技术型公司正在突出重围。
这个行业已经走过了小作坊的粗放时期,开始走进“技术致胜”的时代。
难以出现的独角兽
其实不难发现,数据标注是一块肥肉,盯上这块肉的也不止中国。
国外早已成长起数家AI数据服务行业的巨头,像Scale AI 、Appen、Lablebox等。
但放眼国内,不仅没有独角兽,连大型的数据标注公司也少之又少。这不禁让人疑惑,为什么差距会这么大?
主要问题还是投资人对数据标注的看法,衡量企业投资价值会依据业务类型、成长空间、技术价值等参考要素。显然,数据标注不被看好。
国内大部分投资者将标注技术公司等同于标注业务公司,加之部分媒体对行业劳动密集属性的刻画,使得提升行业效率的技术价值没有被公允认可,企业自然难以融到大量金额。
而国外比较认可标注公司的技术价值,因此融资金额多,许多公司仅靠融资就能火起来。
据不完全统计,北美数据标注公司与国内相关公司的估值至少相差10倍,融资金额少则几千万多则上亿美金,而国内融资普遍在千万人民币。
不过,随着投资者对行业认识的深入,这种差距会逐渐减少。
重技术的转型之路
据中金企信统计数据显示:2019年中国基础数据服务行业的市场规模已达30.9亿元,预计2025年将突破100亿元,复合年增长率达到21.8%。
面对逐渐正规化的行业需求,越来越多中小型供应商苦恼生存问题,这一群体在1-2年内就会迎来“倒闭潮”。
而最后留存下来的公司,依靠的将是AI+私有化部署+平台的模式。当前,将技术引入数据标注流程已是业内通用做法,让训练好的AI模型反哺人工标注,也是标注技术公司的优势所在。
以曼孚科技为例,曼孚科技作为行业领先的AI基础架构与数据智能平台服务商,专注为AI企业提供从战略到技术落地的一站式数据解决方案。
作为新一代技术导向型公司,曼孚科技自研智能数据服务平台SEED,该平台作为数据智能平台体系的重要组成部分,是实现重构AI基础架构的关键。
SEED平台除拥有目前市面上主流第二代平台的“多场景标注能力+有限项目管理能力”以外,还创新性的大量引入生命周期管理、AI增强等模块,形成了覆盖“数据全生命周期管理能力+供应链管理+项目协同+AI人机协同+自定义权限+全场景标注”的多维立体数据处理能力。
在这些功能模块的加持下,平台数据标注效率平均提升10倍以上;AI辅助筛查下,数据精准度可达99.99%级别,直击AI企业数据需求痛点,从源头端解决AI应用场景持续拓展对于多源异构数据的海量需求。
结语
近期总有数据标注员苦恼职业规划问题,呕心沥血传授知识的AI,却终会代替人类,落得个自己革自己的命的下场。
诚然,机器会越来越智能,这是正常发展规律,也是人类的期望。不过,在一些全新的领域,机器尚不能辅助人类工作,数据标注仍需人力完成。即便有了AI自动化标注工具,依然要由人来做审核质检的最后一步。
就算这一天真的到来,被喻为AI老师的数据标注员也会是AI淘汰的最后一类人,因为总有工作需要人来完成。