本篇推文共计2000个字,阅读时间约3分钟。
华为云—华为公司倾力打造的云战略品牌,2011年成立,致力于为全球客户提供领先的公有云服务,包含弹性云服务器、云数据库、云安全等云计算服务,软件开发服务,面向企业的大数据和人工智能服务,以及场景化的解决方案。
华为云用在线的方式将华为30多年在ICT基础设施领域的技术积累和产品解决方案开放给客户,致力于提供稳定可靠、安全可信、可持续创新的云服务,做智能世界的“黑土地”,推进实现“用得起、用得好、用得放心”的普惠AI。华为云作为底座,为华为全栈全场景AI战略提供强大的算力平台和更易用的开发平台。
华为云官方网站
ModelArts是华为云产品中面向开发者的一站式AI开发平台,为机器学习与深度学习提供海量数据预处理及半自动化标注、大规模分布式Training、自动化模型生成,及端-边-云模型按需部署能力,帮助用户快速创建和部署模型,管理全周期AI工作流。
华为云官方网站
手把手教你用Modelarts实现
猫狗数据集的智能标注
本期实验,我们将结合前面几期推文实验内容介绍如何使用ModelArts进行数据集的数据智能标注过程。
用Modelarts实现猫狗数据集的
智能标注实验流程
1.准备实验环境与工具
2.准备数据
3.创建数据集
4.数据标注
5.将标注好的数据集导入OBS桶
6.将OBS桶的文件下载到本地电脑
1
1.1密钥准备
首先需要进入华为云官方网站
https://www.huaweicloud.com/
点击页面的“控制台”切换至控制台界面,在账号名称的下拉菜单中点击“我的凭证”,进入创建管理访问密钥(AK/SK)的界面。位置如下图所示:
什么是访问密钥?
访问密钥即AK/SK(Access Key ID/Secret Access Key),是您通过开发工具(API、CLI、SDK)访问华为云时的身份凭证,不能登录控制台。系统通过AK识别访问用户的身份,通过SK进行签名验证,通过加密签名验证可以确保请求的机密性、完整性和请求者身份的正确性。
选择“访问密钥”,点击“新增访问密钥”
妥善保存系统自动下载的“credentials.csv”文件中的AK(Access Key Id)和SK(Secret Access Key)以备后续步骤使用。
1.2创建OBS桶和目录
进入方式,“控制台”->“服务列表”->“存储”->“对象存储服务”,页面右上角点击“创建桶”按钮进入创建页面。
什么是OBS?
对象存储服务(Object Storage Service,OBS)是一个基于对象的海量存储服务,为客户提供海量、安全、高可靠、低成本的数据存储能力,包括:创建、修改、删除桶,上传、下载、删除对象等。
1.3 OBS桶设置
OBS桶设置参数如下:
区域:华北-北京四
桶名称:自定义(注意:此名称会在后续步骤使用)
根据自己的命名习惯,我将此处的桶名称取为
dogcat-modelart
存储类别:标准存储
桶策略:私有
归档数据直读:关闭
多AZ:开启
点击"立即创建",完成创建
1.4创建文件夹
点击刚刚创建的桶,进入详情页
左侧栏选择“对象”,点击“新建文件夹”,在弹出的新建窗口中:
文件夹名称:自定义(此名称会在后续步骤中使用)
根据自己的命名习惯,我将此处的文件夹名称取为dogcat-data
点击“确定”完成添加
1.5服务授权
由于创建自动学习项目需要使用数据管理功能,在开始使用前,需为数据管理模块获取访问OBS权限。
在ModelArts管理控制台,进入“数据管理->数据集”页面,单击“服务授权”
由具备授权的账号“同意授权”后,即可正常使用:
1.6下载安装并登录OBS Browser+
由于OBS Browser快下线了,所以本次实验关于对象存储服务操作中我们用到的新工具是OBS Browser的升级版OBS Browser+
OBS Browser+是一款用于访问和管理对象存储服务(Object Storage Service,OBS)的图形化工具,支持完善的桶管理和对象管理操作。OBS Browser+的图形化界面可以非常方便地让用户在本地对OBS进行管理,例如:创建桶、上传下载文件、浏览文件等。
该工具在华为云主页“开发者->资源工具->开发工具”处
双击点进去后是下面的页面
在开发工具的业务工具处,根据自己电脑配置下载OBS Browser+:
此为下载完成打开后的OBS Browser+工具界面:
填入步骤1.1下载得到的Access Key Id和Secret Access Key密钥
即可登录刚刚在华为云云端创建的OBS桶:
此时可以借助OBS Browser+从云端创建的OBS桶中上传和下载文件:
2
2.1准备数据
ModelArts在公共OBS桶中提供了猫狗数据集
命名为“dog_and_cat_200”
本文的实验将使用此数据集进行数据智能标注。
关于数据集的下载您可以在华为云网页:
https://github.com/huaweicloud/ModelArts-Lab/tree/master/train_inference/image_recognition#%E5%9B%BE%E5%83%8F%E5%88%86%E7%B1%BB%E7%BB%BC%E5%90%88%E5%BA%94%E7%94%A8%20
进行猫狗数据集下载,数据集文件的大小不大,只有4.2M,小猫和小狗的图片各100张。
或本微信公众号后台回复“猫狗”即可一键获取猫狗分类数据集:
2.2数据解压
在本地电脑平台,解压下载的
“dog_and_cat_20.tar”压缩包
例如,解压至本地“dog_and_cat_20”文件夹下
2.3数据上传
点击打开刚刚下载安装好的OBS Browser+工具进行对象存储服务:
进入步骤1创建好的OBS桶dogcat-data文件夹中:
点击“上传”,选择刚才下载的本地猫狗数据集中的文件夹,点击“确定”即可完成上传。
利用OBS Browser+工具将数据上传至华为云云端的速度很快,在华为云云端很快就可以看见刚刚上传的本地电脑的猫狗数据集:
3
3.创建数据集
进入ModelArts管理控制台主页,单击左侧导航栏“数据管理”,再点击“数据集”
添加步骤1保存的访问密钥文件中的密钥:
在“数据集”栏中单击“创建数据集”
在“创建数据集”页面中,填写“数据集名称”
dataset-dogcat
选择“数据集输入位置”
猫狗数据集OBS路径为
“/dogcat-modelart/dogcat-data/dog_and_cat_200/dog_and_cat_200/”
“数据集输出位置”选择一个空目录如
“/dogcat-modelart/dogcat-data/dog_and_cat_200/output/”
标注场景选择图像分类,添加标签集dog和cat
点击创建即可创建数据集:
4
4.数据标注
本次实验的数据标注,我们将在dog和cat两个标签手动标注各30张标签的基础上进行智能标注,将剩下的各70张图片智能标注好。
点击创建好的数据集dataset-dogcat,点击进去:
选择右上的“开始标注”
此页面可以可视化的看见数据集中图片数量,标注和未标注的图片数量,以及标签统计。
此外在此处右上方还可选择创建团队标注任务,可以多人实时进行线上标注,大大提高了标注工作效率。
数据标注,针对图像分类项目,即在已有数据集图像中,标注出不同类别物体,并为其打上标签。标注好的数据用于模型训练。
猫狗数据集中,所有的数据都未标注,用户可以先选择未标注数据进行手动标注,待两个标签的数据各标了30张的时候,可以启用智能标注。
数据集创建时,会自动执行数据源同步操作。由于数据源同步需要一定时间,如果出现同步失败,可单击“同步数据源”手动执行。
单击“未标注”页面,此页面展示所有未标注的图片数据。由于之前创建数据集时我们已经创建好dog和cat标签,此时我们可以直接根据图片物体的类别将图片标注。
以“dog”数据标注为例子,本文我们将操作一遍“dog”数据标注的过程:
1.在未标注图片中找到30张dog的图片,并勾选图片左上的小勾√。
2.勾选完之后在右侧标签名处,找到dog的标签名,即可实现一次标注。
我们用相同的办法再手动标注30张猫的图片,最后手动标注好了猫狗各30张图片:
我们将启用智能标注,对剩下的数据进行标注:
点击“待确认”,进入新页面后,点击“启动智能标注”
配置好智能标注的任务信息,点击“提交”:
数据集开始进行图像标签的智能标注:
智能标注是指基于当前标注阶段的标签及图片学习训练,选中系统中已有的模型进行智能标注,快速完成剩余图片的标注操作,为用户节省70%以上的标注时间
智能标注作业运行过程预计3到5分钟左右即可智能标注好标签,但是存在一部分利用机器智能标注没有标注正确的难例标签:
我们需要人工仔细确认每张图片智能标注的结果。
对智能标注结果进行分类,依次处理每个类别。点击类别下拉框,选择其中一类,比如cat,如下图所示:
人工确认每张图片,如果是cat,就选择图片(可以多选),然后点击按钮“将选中的图片确认为已标注”,接纳标注结果。
注意,不是cat的图片,不要进行选择,后面步骤将会处理。如下图:
cat类别的图片确认完之后,按照相同的方式处理dog类别:
对于智能标注错误的结果,我们再次点击“启动智能标注”按钮,使用智能标注再次给这些图片标注。
原理是:由于训练数据量增加,标注的精度会大大增加。
等待第二次的智能标注作业运行完成。
再次利用上述步骤处理智能标注后的图片
依据之前处理智能标注结果的流程,处理第二次的智能标注作业。
多次重复上述过程,直到完成所有图片的标注,标注好各200张正确的猫狗图片。
返回数据集概况页面,选择右方的“发布”
设置好数据集的名称和格式以及训练验证比例:
点击确定后,等几秒钟即可发布成功:
5
选择“导入”选项:
选择导入的OBS桶路径,
/dogcat-modelart/dogcat-data/dog_and_cat_200/train/
即可将标注好的数据集导入OBS桶的文件夹中
6
由于对象存储服务的管理控制台不能直接将OBS桶中文件夹下载到本地,需要借助OBS Browser+进行下载
选择需要下载的数据集文件,即下载至本地电脑:
至此实验全部完成。
最后大家使用的云端资源记得全部删除如对象存储服务创建的OBS桶,文件夹;ModelArts创建的数据集,部署的模型等都需要删除,并停用访问密钥,以免造成不必要的花费。
通过对实验结果的比对,可以看出利用
[华为云ModelArts]进行数据集智能标注的工作效率是很棒的,六个字总结就是-高效,快捷,省心。
如您对本系列的实验感兴趣,点击底部阅读原文可体验于4月20日开始的
[华为云开发者青年班第二期 AI实战营],现进行到打卡第四天,每天一天实战演练,让你足不出户免费体验[华为云]高级技术专家亲自指导,学、练、赛的全流程内容,让你轻松Get AI技能。
心动不如行动,快来学习吧。
正因我们国家有许多像华为这样强大的民族企业在国家背后默默做支撑,做奉献。我们国家才能屹立于世界民族之林。
华为,中国骄傲!中华有为!
往期回顾
【玩转华为云】ModelArts零代码开发美食分类模型
【玩转华为云】ModelArts实现垃圾智能分类
【玩转华为云】ModelArts实现数据集的图片标注
【玩转华为云】ModelArts实现一键目标物体检测
【玩转华为云】ModelArts实现一键行人车辆检测
【玩转腾讯云】人脸融合,看你未来孩子长什么样
【玩转腾讯云】使用API快速构建文字识别小工具
【Python3+OpenCV】实现图像处理—灰度变换篇
【Python3+OpenCV】实现图像处理—基本操作篇
架构师之路:星环大数据架构师的培训心得
10天,看火神山医院是如何建成的
武汉加油,中国加油!
欢迎各位读者在下方进行提问留言
☆ END ☆
你与世界
只差一个
公众号
扫描上方二维码,获取千元“编程学习资料”大礼包