数据处理,标注,分析“ModelArts人工智能应用开发指南” 学习分享

数据处理(效验,转换,清洗,选择,增强)

数据处理的目的是让开发者在模型训练之前拿到质量更高的数据集,以提升精度,降低模型训练成本

1,数据效验和转换

数据效验(对数据可用性进行判断和验证的过程)

采集的数据是否有格式的问题,图像名称,后缀不满足训练算法的要求,可能无法识别,和无法解码等情况,因此,数据的效验非常重要,数据的标注格式可能也有很多种。

ModelArts数据处理模块提供数据效验功能,对于图像数据,判断标注格式是否相符合要求,图像分辨率是否符合要求,图像通道是否符合算法要求,图像解码是否正常,图像名称和后缀是否满足规范

数据转换(对数据进行规范化处理)

数据转换是指数据大小,格式,特征等进行变换的过程,数据转换是为了使数据更适合算法选择和模型训练,使数据充分利用

如图像有JPEG,PNG等格式,为了满足算法输入要求的格式,比如算法要求图像都是PNG格式,就要将不同的图像格式转换成PNG格式,这就需要转换格式并进行必要的数据整理

数据清洗(数据进行去噪,纠错或补全的过程)

1,离散化(针对连续的场景特征取值) 2,无量纲化(保持特征之间的公平性,提高模型精准度) 3,缺失值补全  4,分布变换(对数变换,指数变换等) 5,变量解码(文字,字母,频率等)

数据选择(特征提取,聚类排序,选择最优子集)

数据增强

数据增强通过缩放,裁剪,变换,合成等操作直接或者间接增强数据量,进而进一步提升模型的训练精度,结构化数据和非结构化数据都可以做数据增强

数据增强可以分为,离线数据增强和在线数据增强

数据增强的常见方法

1,空间几何变换

旋转

翻转变换

缩放变换

平移变换

尺度变换

2,像素和特征变换

对比度变换

噪声扰动

颜色变化

3,样本合成

SamplePairing

MixUp等

数据处理,标注,分析“ModelArts人工智能应用开发指南” 学习分享_第1张图片

选择数据处理,在选择分类等,数据处理类型,选择数据集的输入与输出等

数据处理,标注,分析“ModelArts人工智能应用开发指南” 学习分享_第2张图片

 

选择场景以及数据处理类型

数据处理,标注,分析“ModelArts人工智能应用开发指南” 学习分享_第3张图片

 

创建完成

数据处理,标注,分析“ModelArts人工智能应用开发指南” 学习分享_第4张图片

数据处理,标注,分析“ModelArts人工智能应用开发指南” 学习分享_第5张图片

 

数据标注

现今大多数人工智能算法依旧是依赖监督学习,所以数据标注非常重要

1,标注任务分类(与实际场景密切相关),比如,图像分类标注,目标检测标注,图像分割标注,点云标注

ModelArts通用标注工具,矩形框,多边形,圆形,点,线等

常用的文本相关标注任务如,文本分类标注,命名体识别标注,三元组标注,词法分析标注,命名体识别标注,机器翻译标注等

如上百万张图像大量的图像数据标注,不仅费时而且消耗大量的人力成本及资源,为了减少标注消耗的时间同时降低标注成本,ModelArts在标注中加入了机器学习技术并为标注者提供了智能数据标注服务

1,基于主动学习的智能数据标注

标注者仅需少量的数据作为训练集来训练模型,再用训练好的模型对未标注的数据进行推理

2,交互式智能标注(1,交换式目标检测注  2,交换式分割标注 3,交换式视频标注 4,其他交换式智能标注)

先创建数据集(一定选择北京四哦)

数据处理,标注,分析“ModelArts人工智能应用开发指南” 学习分享_第6张图片数据处理,标注,分析“ModelArts人工智能应用开发指南” 学习分享_第7张图片

数据集名称可自动生成,也可以手动输入自己需要的名称,再选择场景,类型等,输入位置比如,food,输出位置比如,out等

 

数据处理,标注,分析“ModelArts人工智能应用开发指南” 学习分享_第8张图片

数据处理,标注,分析“ModelArts人工智能应用开发指南” 学习分享_第9张图片

完成数据集创建

点击名称进入数据集,便可进行,标注,团队标注(数据集庞大时建议使用),标注完成后便可发布,还可以导入新的数据,修改等操作

数据处理,标注,分析“ModelArts人工智能应用开发指南” 学习分享_第10张图片

数据处理,标注,分析“ModelArts人工智能应用开发指南” 学习分享_第11张图片

数据处理,标注,分析“ModelArts人工智能应用开发指南” 学习分享_第12张图片

数据处理,标注,分析“ModelArts人工智能应用开发指南” 学习分享_第13张图片

数据集较为庞大时,建议使用智能标注,建议每种标注数量十几张以上时再使用智能标注

选择智能标注的类型以及算法类型

数据处理,标注,分析“ModelArts人工智能应用开发指南” 学习分享_第14张图片

 

 

数据分析

对数据整体的统计分析,以及对单个数据进行细粒度分析诊断,才可以更加深入地了解数据,及时发现更深层次的问题并优化

1,数据集特征分析和优化

特征分析主要是更快速方便的了解数据集的特点,并制定后续的优化和处理方案,ModelArts特征分析模块主要支持特征,分辨率,图像亮度,图像饱和度,清晰度,图像色彩丰富等常规图像特征,面积标准度,堆叠度等

图片.png

选择数据集版本,在选择类型,在根据自己需要的指标进行查看

选择自己需要的数据集版本

数据处理,标注,分析“ModelArts人工智能应用开发指南” 学习分享_第15张图片

选择类型

数据处理,标注,分析“ModelArts人工智能应用开发指南” 学习分享_第16张图片

清晰度

数据处理,标注,分析“ModelArts人工智能应用开发指南” 学习分享_第17张图片

图片高度比

数据处理,标注,分析“ModelArts人工智能应用开发指南” 学习分享_第18张图片

分辨率

数据处理,标注,分析“ModelArts人工智能应用开发指南” 学习分享_第19张图片

图像亮度

数据处理,标注,分析“ModelArts人工智能应用开发指南” 学习分享_第20张图片

图像彩色的丰富程度

数据处理,标注,分析“ModelArts人工智能应用开发指南” 学习分享_第21张图片

图片的饱和程度

数据处理,标注,分析“ModelArts人工智能应用开发指南” 学习分享_第22张图片

全选一目了然

数据处理,标注,分析“ModelArts人工智能应用开发指南” 学习分享_第23张图片

你可能感兴趣的:(人工智能)