数据标注

当前AI的主流是机器学习,机器学习大致可以分为监督学习、无监督学习和半监督学习。
有监督的机器学习需要被标注数据作为先验经验,这些数据需以比例(通常为80:20或75:25)划分为训练集和测试集。机器通过对训练集的学习得到一个模型,再对测试集进行识别,就可以到的该模型的准确率。算法人员根据测试结果找到模型的短板,并将数据问题反馈给数据标注人员,再重复流程,直到得到的模型指标符合上线需求。具体标注的内容取决于要训练AI完成的功能,如要进行人脸识别,就需要标注图像中是否存在人脸等。
数据标注_第1张图片

1、数据清洗
根据算法人员的要求进行数据清洗,包括去除无效的数据、整理成规整的格式等。

2、数据标注
常见的数据标注类型
1)分类标注:即对目标打标签。如文本、图像、语音、视频,一个具体目标对应一个标签封闭集合。
2)边框标注:对图像中要检测的对象进行框选,进行人脸识别或物品识别。
3)区域标注:精确选择图像的某个区域进行标注,如自动驾驶中的道路识别。
4)描点识别:对于图像中的特征要求细致的应用中常常需要描点标注。

3、标注工具

一般来说模型测试至少需要关注两个指标:

  • 精确率:识别为正确的样本数/识别出来的样本数
  • 召回率:识别为正确的样本数/所有样本中正确的数

关于数据标注未来的发展:
数据标注是近两年为了帮助人工智能训练数据应运而生的新兴职业,主要根据不同的任务需求对图像、声音、文字等进行不同方式的标注。
1)职业需求:目前机器学习大多还是监督学习,算法效果和训练数据的规模、质量有很大关系,而这些训练数据需由大量人工标注得到;未来也将会有更多企业加入到人工智能产业中来,只要人工智能企业持续性发展、功能需求稳定增长,标注行业就会随之发展;
2)个人需求:在AI行业可以更多地看到未来需求和发展的趋势,一定程度上有助于个人的学习和提升;
3)但随着标注工具的不断优化,标注人员会在智能化辅助工具的帮助下减少大量重复性工作,未来单纯依靠人工的纯手工标注工作会大大减少,与此相对数据标注工作的门槛会提高,需要的将是专业性人才。


文章内容有参考网络资料,再次特表感谢!

你可能感兴趣的:(标注)