关于海量数据集的标签工程的思考

下图是Kaggle官网手机验证识别机器人与否的方式


关于海量数据集的标签工程的思考_第1张图片

现状

目前人工智能或者说深度学习赋能各个领域,需要大量的标签化数据集作为支撑,国内现状是聘请大量的人员花费大量人力物力在人工给数据集打标签,这严重影响了数据集的扩充,更加使得数据集的开源收到冲击。国内的网站登录验证方式多是滑块拼图方式,而这种kaggle验证模式,在国外很多大型网站都已经普遍推广开来了。。。

思考

国内的大型网站的登录验证方式是否可以考虑Kaggle类似的模式,让访问者来标记图片,多次标记一类或者多类图片,来达到识别是正常的人类访问,并能够给海量的数据集打标签,真的是一举多得。如此可以解决目前数据集的获取成本变得更低,也让数据集更加具有多样化,符合人类的常规识别等级。虽然要全面推广需要整个行业一起改革,但是完全符合网站各方数据集健全的利益啊,为人工智能赋能各个领域提供了数据基础。

 

有考虑不周全的地方,还请批评指教,希望各位大佬不吝赐教。

你可能感兴趣的:(思考,人工智能)