python图像分类项目-01创建自己的数据集

项目教程及代码来自:同济子豪兄

https://github.com/TommyZihao/Train_Custom_Dataset

https://www.bilibili.com/video/BV1Jd4y1T7rw

一、知识总结

1.收集图像

使用爬虫代码从百度下载图片,并配合os模块将图片分文件夹保存在本地。

2.删除多余文件

在保存图片时系统会生成.__MACOSX、.DS_Store文件,jupyter也会生成.ipynb_checkpoints文件。此外,爬虫时可能还会获取.gif文件,这些文件是opencv不能识别,需删去的。

3.(可选)统计图像尺寸、比例分布

4.划分训练集与测试集

一般为训练集4:测试集1

5.(可选)可视化文件夹图像+统计图像数量

二、感悟

我是个初识机器学习的小白,由于mac电脑上有anaconda的jupyter,就想试试能不能在自己的电脑上运行下子豪大佬的代码…..然后就被环境配置爆杀了好几个小时…不过最终还是把代码都跑通了一遍,有种小小的成就感。(相比之下子豪佬推荐的完全配好环境的平台太好用了呜呜呜)

在获取图片的部分,用子豪佬师兄传下来的代码浅爬了3200张图片,花了整整一个小时才爬取完毕,给我的内心带来了一点小震撼。不过爬虫的函数都已经封装好了,之后可以自己去爬一些感兴趣的图片了。

从子豪佬那下载fruit81_full数据集后,我完整体验了划分训练-测试集,可视化以及统计的过程。统计个类别图像数量时绘制的图,在我看来相当美丽。

不过mac上只有amd显卡,不能用cuda,后面训练模型时估计还得转GPU平台。之后有空时试试把打游戏的3060笔记本拿过来用吧,就是得全部重配一遍环境[趴]。

三、日志

环境:mac anaconda jupyter python3.7

1.安装opencv-python库

关于导入:anaconda的环境设置里查询不到opencv-python,需要手动下。

https://blog.csdn.net/weixin_43863869/article/details/115309959

创建数据集相当费时。运行爬虫示例代码,仅从百度爬取18类每类200张的瓜果图片,就花费了约1小时。

2.安装wget包

运行B4步骤下载数据集压缩包时报错

zsh:1: command not found: wget

——没有wget包

https://blog.csdn.net/qq_44664231/article/details/126062112

依据此链接前往homebrew官网安装homebrew后装上依赖

2.安装wget包—>安装homebrew

输入安装链接(在加速了github的情况下)报错

curl: (60) SSL certificate problem: unable to get local issuer certificate

More details here: https://curl.haxx.se/docs/sslcerts.html

curl failed to verify the legitimacy of the server and therefore could not

establish a secure connection to it. To learn more about this situation and

how to fix it, please visit the web page mentioned above.

https://stackoverflow.com/questions/38078473/homebrew-curl-60-ssl-certificate-unable-to-get-local-issuer-certificate

依据⬆️网页,将-fsSL改为-fsSLk,跳过此次证书认证

/bin/bash -c "$(curl -fsSLk https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

完成安装homebrew与homebrew-core

3.为matplotlib设置中文字体

运行步骤E2,设置中文字体

https://www.ngui.cc/51cto/show-727683.html?action=onClick

(修改文件时用的是vim编辑器)

你可能感兴趣的:(人工智能小项目学习,python,分类)