PaddleX是飞桨全流程开发工具,集飞桨核心框架、模型库、工具及组件等深度学习开发所需全部能力于一身,打通从数据接入到推理部署的深度学习开发全流程,简化各环节串联工作,大幅提升开发效率。
PaddleX提供API和可视化界面Demo两种使用模式,简明易懂的Python API,方便用户根据实际生产需求直接调用或二次开发,为开发者提供飞桨全流程开发的最佳实践,用户通过简单集成即可生产所在行业的专属AI工具。
PaddleX具备以下特点:
为了帮助开发者更好的了解飞桨的开发步骤以及所涉及的模块组件,进一步提升项目开发效率,飞桨为开发者提供了基于PaddleX实现的图形化开发界面示例,用户可以基于该界面示例进行改造,开发符合自己习惯的操作界面。开发者可以根据实际业务需求,直接调用或改造PaddleX后端技术内核来开发项目,或使用图形化开发界面快速体验飞桨模型开发全流程。
下面以MobileNetV3_ssld完成化妆品分类为例,介绍PaddleX训练模型方式。
MobileNetV3_ssld是通过SSLD(简单的半监督标签知识蒸馏)方式得到的新模型。相对比原有的MobileNetV3预训练模型,在参数量不变的情况下,MobileNetV3_ssld预训练模型在ImageNet数据集上的精度提升3%。
在下文中,我们将介绍API和可视化界面Demo两种使用PaddleX的方法。
! pip install paddlex -i https://mirror.baidu.com/pypi/simple
下载并解压数据集,数据形式如下,展示了图片样本和对应的分类标签:
! wget https://bj.bcebos.com/paddlex/datasets/makeup.tar.gz
! tar xzf makeup.tar.gz
# jupyter中使用paddlex需要设置matplotlib
import matplotlib
matplotlib.use('Agg')
# 设置使用0号GPU卡(如无GPU,执行此代码后仍然会使用CPU训练模型)
import os
os.environ['CUDA_VISIBLE_DEVICES'] = '0'
import paddlex as pdx
定义训练和验证过程中的图像处理流程,其中训练过程包括了部分数据增强操作(验证时不需要),如在本示例中,训练过程使用了RandomCrop
和RandomHorizontalFlip
两种数据增强方式,更多图像预处理流程transforms的使用可参见paddlex.cls.transforms。
from paddlex.cls import transforms
train_transforms = transforms.Compose([
transforms.RandomCrop(crop_size=224),
transforms.RandomHorizontalFlip(),
transforms.Normalize()
])
eval_transforms = transforms.Compose([
transforms.ResizeByShort(short_size=256),
transforms.CenterCrop(crop_size=224),
transforms.Normalize()
])
使用PaddleX内置的数据集读取器读取训练和验证数据集,并应用上面配置的图像处理流程。本示例采用ImageNet
数据集格式,因此这里采用pdx.datasets.ImageNet
来加载数据集,该接口的介绍可参见文档paddlex.datasets.VOCDetection。
train_dataset = pdx.datasets.ImageNet(
data_dir='makeup',
file_list='makeup/train_list.txt',
label_list='makeup/labels.txt',
transforms=train_transforms,
shuffle=True)
eval_dataset = pdx.datasets.ImageNet(
data_dir='makeup',
file_list='makeup/val_list.txt',
label_list='makeup/labels.txt',
transforms=eval_transforms)
2020-05-11 10:17:47 [INFO] Starting to read file list from dataset...
2020-05-11 10:17:47 [INFO] 710 samples in file makeup/train_list.txt
2020-05-11 10:17:47 [INFO] Starting to read file list from dataset...
2020-05-11 10:17:47 [INFO] 132 samples in file makeup/val_list.txt
在定义好数据集后,即可选择分类模型(这里使用了MobileNetV3_large_ssld模型)开始训练。MobileNetV3_large
是面向移动端应用场景的模型,而MobileNetV3_large_ssld
是百度通过SSLD蒸馏策略所得的模型,具有更高的精度表现。
关于分类模型训练,更多参数介绍可参见文档paddlex.cls.MobileNetV3_large_ssld。在如下代码中,模型训练过程每间隔save_interval_epochs
轮次,会保存一次模型在save_dir
目录下,同时在保存的过程中也会在验证数据集上计算相关指标,模型训练过程中相关日志的含义可参见文档。
注:本数据集在P40 GPU上训练MobileNetV3_large_ssld,模型的训练过程预估为10分钟左右;如无GPU,则预估为30分钟左右。
num_classes = len(train_dataset.labels)
model = pdx.cls.MobileNetV3_large_ssld(num_classes=num_classes)
model.train(num_epochs=10,
train_dataset=train_dataset,
train_batch_size=32,
eval_dataset=eval_dataset,
lr_decay_epochs=[4, 6, 8],
save_interval_epochs=1,
learning_rate=0.025,
save_dir='output/mobilenetv3_large_ssld')
result = model.predict('makeup/mascara/27.jpeg', topk=1)
print("Predict Result:", result)
Predict Result: [{'category_id': 5, 'category': 'eyebrow', 'score': 0.86157554}]
当然,PaddleX的功能不止这么简单,这是一个极简功能的展示案例。实际上,PaddleX可以和PaddleSeg、PaddleClass、PaddleDec等开发套件一样,实现非常丰富的模型和训练配置。如果读者对这些功能感兴趣,欢迎继续查阅PaddleX的文档,或者可以通过PaddleX官方提供的图形化界面Demo了解。该Demo完整展示了基于PaddleX的API可以完成的功能,而且PaddleX的界面读者可以根据自己的需要重新设计。
您需要前往官网填写基本信息后下载试用PaddleX客户端。
在开始模型训练前,需要根据不同的任务类型,将数据标注为相应的格式。目前PaddleX支持图像分类、目标检测、语义分割、实例分割四种任务类型。不同类型任务的数据处理方式可查看数据集格式说明。
(1)数据标注完成后,您需要根据不同的任务,将数据和标注文件,按照客户端提示更名并保存到正确的文件中。
(2)在客户端新建数据集,选择与数据集匹配的任务类型,并选择数据集对应的路径,将数据集导入。
如果想用自己的数据集,可以上传自己的数据集,这里我们以化妆品分类为例,上传化妆品的数据集。
上传成功后,会出现如下界面,如果需要重新划分训练集、验证集、测试集时,可以选择重新划分:
(1)在完成数据导入后,可点击“新建项目”创建一个项目。
(2)可根据实际任务需求选择项目的任务类型,需要注意项目所采用的数据集也带有任务类型属性,两者需要进行匹配。
(1)选择数据:项目创建完成后,需要选择已载入客户端并校验后的数据集,并点击“下一步”,进入参数配置页面。
(2)配置参数:主要分为模型参数、训练参数、优化策略三部分。可根据实际需求选择模型结构及对应的训练参数、优化策略,使得任务效果最佳。
另外,可以在客户端中选择不同的数据增强方式:
参数配置完成后,点击“启动训练”,模型开始训练并进行效果评估。
(3)训练可视化:在训练过程中,可通过VisualDL查看模型训练过程时的参数变化、日志详情,及当前最优的训练集和验证集训练指标。模型在训练过程中通过点击“终止训练”随时终止训练过程。
PaddleX集成了飞桨可视化分析工具VisualDL,可以很方便地查看训练过程的指标数据。
模型训练结束后,点击”下一步“,从客户端中,也可以看到训练的完成进度和验证集精度。
(4)模型发布:当模型效果满意后,可根据实际的生产环境需求,将模型发布为需要的版本。
注意:这个带可视化界面的AI研发软件仅仅是基于PaddleX API做出来的一个Demo。受此启发,欢迎读者使用PaddleX API研发一款适合自己所在企业或行业使用的AI研发工具,整个软件的功能可以根据场景的需要来灵活定制。
---------------------华丽的分割线-------------------------
通过爬虫爬取香水的图片,增加perfume(香水)一类的数据集
# 本地导出模型上传work文件夹
# 适当修改predict.py
!cd /home/aistudio/work
!python work/predict.py
# 运行可以看到[{'category_id': 0, 'category': 'blush', 'score': 0.99619496}],运行成功