用已知某种或某些特性的样本作为训练集,以建立一个数学模型,再用已建立的模型来预测未知样本,此种方法被称为有监督学习,是最常用的一种机器学习方法。为了获得有监督学习中样本的真实分类标签(classification label)或者真实目标值(target value),某些情况下,可以采用人工专家标注的方法获得,而这就是数据集。有监督学习是从有正确答案的样本集合中学习,即每个样本的分类标签(classification label)或者目标值(target value)已知。有监督学习中样本的ground truth指的是每个样本的真实分类标签(classification label)或者真实目标值(target value)。
训练集(train set): 用于模型拟合的数据样本,调试网络中的参数。
验证集(validation set): 查看训练效果,模型训练的效果是否朝着坏的方向进行。验证集的作用是体现在训练的过程。举个栗子:通过查看训练集和验证集的损失值随着epoch的变化关系可以看出模型是否过拟合,如果是可以及时停止训练,然后根据情况调整模型结构和超参数,大大节省时间。
测试集(test set): 测试网络的实际学习能力,评估模最终模型的泛化能力。但不能作为调参、选择特征等算法相关的选择的依据。测试集的作用是体现在测试的过程。
这里验证集和测试集容易混淆,注意两者的区别!
留出法
交叉验证法
没有验证集,训练集:测试集=7:3
有验证集,训练集:验证集:测试集=6:2:2
可以将训练集、验证集、测试集比例调整为98:1:1
常用公共数据集可查看这篇博客文章:
https://blog.csdn.net/weixin_42010722/article/details/120199613
目标检测数据集格式转换脚本(常见如voc to coco):
https://github.com/DLLXW/objectDetectionDatasets
用于施工现场中的目标检测大型数据集(SODA):
VOC格式,包含15种物体4种类别,图片数量大于19,846张图片。
论文网址:https://www.sciencedirect.com/science/article/pii/S0926580522003727?via%3Dihub
链接直接下载SODA的第一个版本 (文件大小约24G):
https://scut-scet-academic.oss-cn-guangzhou.aliyuncs.com/SODA/2022.2/VOCv1.zip
labelme是一款图像标注工具(包括:(instance segmentation, semantic segmentation, bbox detection, and classification)),主要用于神经网络构建前的数据集准备工作。
gitcode网址:
https://gitcode.net/mirrors/wkentaro/labelme?utm_source=csdn_github_accelerator
github网址:
https://github.com/wkentaro/labelme
安装及使用:
首先可以用conda新建一个labelme环境,然后激活。
#新建环境
conda create -n labelme python=3.8
#激活环境
activate labelme
安装labelme包:
conda install labelme
#或者
pip install labelme
打开labelme:
命令行输入
labelme
运行时出现报错
QT4 = QT_VERSION[0] == “4”
TypeError: ‘NoneType’ object is not subscriptable
安装一下pyqt5就可以了
pip install pyqt5
使用教学网址:http://labelme.csail.mit.edu/
LabelImg:
注释以 PASCAL VOC 格式保存为 XML 文件,这是ImageNet使用的格式。此外,它还支持 YOLO 和 CreateML 格式。
github网址:https://github.com/tzutalin/labelImg
point-cloud-annotation-tool:
github网址:https:/github.com/abreheret/PixelAnnotationTool
CVAT:
CVAT 是一种用于计算机视觉的交互式视频和图像注释工具。它被全球数以万计的用户和公司使用。CVAT 是免费和开源的。
github网址:https://github.com/opencv/cvat
在线使用:https://app.cvat.ai/auth/login
LabelBox:
使用 Labelbox,您可以在一个统一的平台内以最少的人工监督快速创建训练数据、训练模型、管理模型实验并提高模型性能。
在线网址:https://labelbox.com/
参考资料:
https://blog.csdn.net/qq_44704609/article/details/104374600
https://blog.csdn.net/u010916338/article/details/92585641
欢迎关注公众号【智能建造小硕】(分享计算机编程、人工智能、智能建造、日常学习和科研经验等,欢迎大家关注交流。)