paddlepaddle训练自己的数据集

paddlepaddle是百度开源的用于大规模深度学习训练的框架,其自带了models库可以满足基本的训练需求,更有移动端(文档, cxx demo,图像预处理加速)一键式部署.官方文档里面包含了大部分常用的信息,包括安装、训练和部署,book

PaddleDetection, X2Paddle:caffe2fluid, 性能优化:profiler,模型压缩工具库:demo 原理介绍 使用说明 Low-Level API

训练自己的数据集是提升功力的必经之路,已经有人写了《PaddlePaddle从入门到炼丹》十一——自定义图像数据集识别,但是其存在几个问题:

1.无法使用多GPU训练

2.没有使用异步加载数据致使GPU利用率低

3.结构设计不合理,无法养成良好的编码规范

如果手头没有相关的数据,可以使用PaddleHub下的image_classification,其会自动下载所需的数据集和预训练模型,然后微调得到一个较好的结果。

也可以使用models下的image_classification,其集成了诸多模型.

数据准备阶段参考自定义图像数据集识别即可,其实就是准备一些图片,按着不同的类别存放在不同的文件夹下,然后划分训练集和测试集,并把文件路径以及类别信息写入到一个txt文件中.

重点是改造reader.py中的DATA_DIR,改为自己数据集所在的文件夹,train_list文件也要改为上面生成的。

你可能感兴趣的:(深度学习,CV)