数据处理(效验,转换,清洗,选择,增强)
数据处理的目的是让开发者在模型训练之前拿到质量更高的数据集,以提升精度,降低模型训练成本
1,数据效验和转换
数据效验(对数据可用性进行判断和验证的过程)
采集的数据是否有格式的问题,图像名称,后缀不满足训练算法的要求,可能无法识别,和无法解码等情况,因此,数据的效验非常重要,数据的标注格式可能也有很多种。
ModelArts数据处理模块提供数据效验功能,对于图像数据,判断标注格式是否相符合要求,图像分辨率是否符合要求,图像通道是否符合算法要求,图像解码是否正常,图像名称和后缀是否满足规范
数据转换(对数据进行规范化处理)
数据转换是指数据大小,格式,特征等进行变换的过程,数据转换是为了使数据更适合算法选择和模型训练,使数据充分利用
如图像有JPEG,PNG等格式,为了满足算法输入要求的格式,比如算法要求图像都是PNG格式,就要将不同的图像格式转换成PNG格式,这就需要转换格式并进行必要的数据整理
数据清洗(数据进行去噪,纠错或补全的过程)
1,离散化(针对连续的场景特征取值) 2,无量纲化(保持特征之间的公平性,提高模型精准度) 3,缺失值补全 4,分布变换(对数变换,指数变换等) 5,变量解码(文字,字母,频率等)
数据选择(特征提取,聚类排序,选择最优子集)
数据增强
数据增强通过缩放,裁剪,变换,合成等操作直接或者间接增强数据量,进而进一步提升模型的训练精度,结构化数据和非结构化数据都可以做数据增强
数据增强可以分为,离线数据增强和在线数据增强
数据增强的常见方法
1,空间几何变换
旋转
翻转变换
缩放变换
平移变换
尺度变换
2,像素和特征变换
对比度变换
噪声扰动
颜色变化
3,样本合成
SamplePairing
MixUp等
选择数据处理,在选择分类等,数据处理类型,选择数据集的输入与输出等
选择场景以及数据处理类型
创建完成
数据标注
现今大多数人工智能算法依旧是依赖监督学习,所以数据标注非常重要
1,标注任务分类(与实际场景密切相关),比如,图像分类标注,目标检测标注,图像分割标注,点云标注
ModelArts通用标注工具,矩形框,多边形,圆形,点,线等
常用的文本相关标注任务如,文本分类标注,命名体识别标注,三元组标注,词法分析标注,命名体识别标注,机器翻译标注等
如上百万张图像大量的图像数据标注,不仅费时而且消耗大量的人力成本及资源,为了减少标注消耗的时间同时降低标注成本,ModelArts在标注中加入了机器学习技术并为标注者提供了智能数据标注服务
1,基于主动学习的智能数据标注
标注者仅需少量的数据作为训练集来训练模型,再用训练好的模型对未标注的数据进行推理
2,交互式智能标注(1,交换式目标检测注 2,交换式分割标注 3,交换式视频标注 4,其他交换式智能标注)
先创建数据集(一定选择北京四哦)
数据集名称可自动生成,也可以手动输入自己需要的名称,再选择场景,类型等,输入位置比如,food,输出位置比如,out等
完成数据集创建
点击名称进入数据集,便可进行,标注,团队标注(数据集庞大时建议使用),标注完成后便可发布,还可以导入新的数据,修改等操作
数据集较为庞大时,建议使用智能标注,建议每种标注数量十几张以上时再使用智能标注
选择智能标注的类型以及算法类型
数据分析
对数据整体的统计分析,以及对单个数据进行细粒度分析诊断,才可以更加深入地了解数据,及时发现更深层次的问题并优化
1,数据集特征分析和优化
特征分析主要是更快速方便的了解数据集的特点,并制定后续的优化和处理方案,ModelArts特征分析模块主要支持特征,分辨率,图像亮度,图像饱和度,清晰度,图像色彩丰富等常规图像特征,面积标准度,堆叠度等
选择数据集版本,在选择类型,在根据自己需要的指标进行查看
选择自己需要的数据集版本
选择类型
清晰度
图片高度比
分辨率
图像亮度
图像彩色的丰富程度
图片的饱和程度
全选一目了然