ImageNet2012数据集(又说ILSVRC2012)分类部分,共有1000个分类;常用训练集和验证集作为论文研究,训练集137G左右,验证集6G左右。训练集每个类大概1300张图片,共计约130万张图片。验证集每个类50张图片,共5万张图片。官方网址。
参考此文章下载数据集:ILSVRC2012下载+训练
提到的这个文章给出了几个下载方式,本博文将具体描述下其中两种方式。(推荐使用第二种方式迅雷下载,速度较快)
这个方法是最正规的方法,ILSVRC2012的官方下载地址:ILSVRC2012数据集下载地址
没有登录的话,看到的画面将是这样的。这是因为官方限制原始的数据集图片资源只能由获得了授权的账号下载(也就是经过教育邮箱认证的账号)。
如果你有带有.edu结尾的高校邮箱账号(博主本人是使用的导师的邮箱账号授权的),并且有意愿得到授权的话,请继续观看1.1.1小节的内容。否则使用迅雷下载数据集。
首先进入ImageNet账号注册界面,按照图示填写内容,其中Full Name里我填的是导师名字的拼音,然后进行人机身份验证,然后点击下面的按钮Sign Up进行注册。
然后更新自己的账号信息,当然如果你在注册阶段,就把图中的所有信息都填写完毕的话,这一步可以跳过。
还是在刚才的那个界面,点击Access Permission Status请求授权。
跳转到如下界面,这串英文是说你现在还没有获得授权,并且在这个界面ImageNet官方给自己来了个免责声明,说这里的图片ImageNet也没有所有权,所以猜测这就是ImageNet官方不把下载地址直接放出来的原因。
然后点击蓝色链接Click here 跳转到授权请求授权界面。确认信息无误后点击Submit Request提交。
然后就会给你的教育邮箱发送一个确认链接,点击后,还需要你同意各种条款,那时才真正授权了(由于没有截图,所以无图)。
有了授权后,再次回到刚开始说到的下载界面:ILSVRC2012数据集下载地址就可以看到可以正常下载ImageNet2012数据集了。由于博主本人只是为了做分类,所以只下载方框圈中的两部分数据集,一个是训练集,一个是验证集。点击蓝色链接下载它们(不过温馨提示,下载速度过慢,在30M的宽带下可能是1-3M左右,需要下载可能半天到一天左右,请做好心理准备,追求速度的可以使用下文的迅雷下载的方式下载)。
在此章节,使用ILSVRC2012下载+训练中提供的迅雷种子下载训练集和测试集。
训练集
训练集种子:http://academictorrents.com/download/a306397ccf9c2ead27155983c254227c0fd938e2.torrent
验证集
验证集种子:http://academictorrents.com/download/5d6d0df7ed81efd49ca99ea4737e0ae5e3a5f2e5.torren
————————————————
版权声明:本文为CSDN博主「微醺的老虎」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_41214610/article/details/109372321
即使不开通会员,速度也非常快,有5M左右(用的学校的垃圾校园网30M的宽带),开了会员后有6M左右。训练集+验证集有150G左右,6个小时左右结束下载任务。
2022年3月27日,值得吐槽的是这个迅雷的试用超级会员下载,今天在博主自己家里下载这个文件时(开了迅雷会员,非超会,200M宽带),如果不点它给你那个试用超会下载的选项,可以跑满20M-30M,下载速度很快。但是点了之后就会给降到14M以下,并且试用结束后,速度也上不去了(看来是软件层面加了限制doge)。
另外通过此种子的链接发现,此种子的来源于http://academictorrents.com/,进入后发现其可以搜索各种数据集的下载种子,如目标检测种常用的COCO数据集。具体用途有待研究。
在真正使用前,需要验证一下数据集的完整性,使用命令验证下载得到的MD5值(温馨提示,如果是win10系统,建议下载一个Git,然后在压缩包所在文件夹中鼠标右键选择Git Bash Here):
md5sum ILSVRC2012_img_val.tar ILSVRC2012_img_train.tar
如上图所示得到两串字符串,然后去对应是不是与官网提供的MD5值相同。官网提供的MD5值如下所示:
Training images (Task 1 & 2). 138GB.
MD5:1d675b47d978889d74fa0da5fadfb00e
Validation images (all tasks). 6.3GB.
MD5: 29b22e2961454d5413ddabcf34fc5622
使用pytorch官方提供的教程解压数据集,里面给了一个sh脚本用来一键完成解压分类操作。
① 一个简单的方法是,点进上述提到的链接:sh脚本,进入后复制粘贴到一个txt文档,然后重命名为.sh后缀;或者使用博主本人提供的百度网盘链接下载。
② 然后将sh脚本移动到与数据集压缩包同目录下。
③ 右键打开终端,Ubuntu使用命令
chmod 755 extract_ILSVRC.sh
./extract_ILSVRC.sh
win10右键选择Git Bash Here然后命令./extract_ILSVRC.sh
执行脚本。
完成后得到的训练集目录是如下图所示。
在win10中运行上述脚本过程中,遇到了如下错误提示。
./extract_ILSVRC.sh: line 63: wget: command not found
这是因为win10中没有wget操作,而观察extract_ILSVRC.sh脚本的第63行是一个通过wget下载sh脚本并执行的命令。
wget -qO- https://raw.githubusercontent.com/soumith/imagenetloader.torch/master/valprep.sh | bash
我们只需要手动下载下来并执行就可以了。点进valprep.sh链接,按Ctrl + S保存到imagenet/val中,接着在此目录中鼠标右键选择Git Bash Here输入./*.sh
即可。
valprep.sh这个脚本是用来给验证集中的一张张图片分进一个个目录中的。
对于这些目录的名称具体对应哪些类别,可以参考博文,不过知道其具体含义对于训练模型是没有必要的。
未完待续,正在研究
暂时可以先参考pytorch官方的代码。
等过一段时间,会更新这个代码的解释。