人工智能的江湖,有句笑(定)话(理):“想有多少智能,就得有多少人工。”
这里的“人工”不是高级工程师,而是纯手工,是数据标注所耗费的人力。
别看不上数据,算法也是在解释数据。
别看不上数据标注,你得把答案教给人工智能,它才能做题。
教猫,把猫框起来,写上“猫”。
换到自动驾驶汽车场景,以此类推。
工作不难,可是架不住量大。
人工智能是人类的学生,而且,这种教学已经花费了数万小时。
专业说法是,有监督的机器学习需要有标注的数据集。
原来,学习诚可贵,答案价更高。
一种,
让人工智能自己给自己用的数据做标注,“智能标注”。
另一种,边学边标,提升模型性能。
恭喜你理解了主动学习(Active Learning)。
本次科普结束。
科普结束了,但是实践不行。
大数据爆发,数据标不完,标不起,相当于,学不完,学费贵。
于是,主动学习登场了。
主动学习是机器学习的一个分支。
话说,人工智能要学习的知识点都在数据里。主动学习就好比那种江湖人称“考试型选手”。
为了考高分,普通人把所有的知识点都学一遍,而学霸是找到考试重点内容,使巧劲。
以前,全靠人类把数据标好了,扔进给模型。
现在,由算法给人类派活,它自己有标准(策略),知道怎么挑。
把高价值样本“挑”出来,虽不认识,但值得认识。
一边,算法在从人类标注的高价值图片(样本)中学习。
另一边,扩充已标注样本集。
人类亲自给标注的数据,相当于单独辅导,那成绩自然上升。
到这里,智能标注的活就干完了,目标就是让算法给数据打上标签。
智能标注的口号就是:边学边标。
专业的说法是,人机融合,迭代演化,“Human-in-the-Loop”。
没错这是一个单词。这里翻译出来是:你们人类也别闲着,欢迎干点活,在链路里。
别记这个单词,太长了。
来看看电商场景,每天新增商品图片20万。(对,是单日新增。)
全量标注得花不少钱,那些高价值图片得被分出来,由人类亲自来标注。
举个例子,纯手工时代,全部标注,时间和金钱成本都挺高。
毛衣毛帽这类保暖用品的图片各1000张,一共2000张。
好消息是人类教会人工智能认识了毛衣,毛帽。
结果,第二天,又新来了10000张图片,全部都是毛手套。
因为之前没教过,不认识毛手套,直接傻眼了。
主动学习一顿操作猛如虎,从新来的一万张图片里面挑出一些,比如,500张,转交给人类。
人类一看这不是毛手套嘛,把正确答案写上,一口气写了500张。
有主动学习的好处是,只用标500张,人工智能就学会了。
没有主动学习,所有图片都得写上答案。
毛手套,就是困难样本,也就是人工智能做不出的题。
于是,要么胡写答案。要么拿不准。
胡写答案时候,指着毛手套说:“这是毛裤。”
拿不准的时候,说:“我看50%概率是毛衣,50%是毛裤。”
看把人工智能给难的,险些变成人工智障。
赶紧让人类给困难样本写上答案。
下一步呢?
回流,而且是必须要回流,回流到机器学习训练系统中。
这是一个多次循序迭代的过程,直到模型性能指标达到目标性能为止。
智能标注是中级玩家,主动学习融入机器学习链路是高级玩家。
主动学习的“变身”一个迭代工作流。
人生是一个过程,主动学习也是一个过程。
专业一点的问法就是,主动学习能不能和模型训练打通?
必须打通。但是打通之后的目标就变了,变为提高模型效果。
本质是,人类写下困难样本的答案,答案可以用于教学(训练),学习了之后,人工智能就更聪明了。
技术亮点之一是如何从几万张图片找出几百张高价值的,只有这些是值得给人类去做手工标注。
追求的结果是把训练样本量降下来,还要提高机器学习模型的准确性,达到全量训练的预期性能指标。
火了这几年,人工智能终于感觉到自己被PUA了:
又想奶牛少吃草,还要奶牛多产奶。
主动学习用在计算机视觉中,还会用在文本理解、音视频等多种模态中。
坦白说,标注数据是一种劳动密集型工作,大公司通常都是外包出去。
成本按业务分,按部门分都可以,谁的标注,谁来出钱。
反正互联网大厂一年花几个亿也正常。
常见物品的图片,标注一个花几分钱。
然而,标出肺结节这种,得加钱,可能几十元到一百块人民币。
更糟糕的还是涉密数据,给外包标注根本不可能。
通常来说,人们花在训练过程中的注意力多,花在数据上的太少。
市场上,少有创业公司推出技术含量高的工具,以便查看和了解人工智能所用的数据的情况。
有的云厂商还处在主动学习的预研阶段。
AWS用上了主动学习技术的产品叫Amazon SageMaker Ground Truth Plus,AWS自称其为“端到端数据标注管理”。
对标美国,国内极少有技术含量的标注公司,大多是纯人力外包标注公司,看上去技术驱动的数据标注赛道还是一片蓝海。
(但这和我没有什么关系,我不搞一级市场投资,快乐都是你们的。)
主动学习已经用在很多方面了,没办法很多领域的数量非常大,亟待减轻标注工作量。
科学领域包括,天文,生物,化学;
工业领域包括,自动驾驶,药物发现,人脸识别,黑产风控,电力系统检测。
还有一个应用之处好玩极了,研究北极冰。
另外,推荐一本好书,《Human-in-the-Loop Machine Learning Active learning and annotation for human-centered AI》这本书的作者在苹果公司任职,可惜没有中文。
(此书封面请自行在推文内寻找。)
他的核心观点之一是,人工智能是人类的学生。
教好学好,教坏学坏。
教得好,科技向善,教得坏,毁灭世界。
所以,你说人和人工智能,磕不磕CP呢?