Kinetics-400数据集下载

炼丹师最重要的是什么?丹啊!!!!没有丹锅烧坏了也炼不出啥来。

为了下载Kinetics-400数据集,我煞费苦心,国内搜了好久都没有搜到资源,用ActivityNet提供的下载程序需要下载原视频一个一个自动剪辑,速度特别慢,很多视频都找不到。终于,一个师兄给了我一丝光明,给我一个dropbox的链接,我费尽千辛万苦下载了下来,解压到服务器里,最终发现要是训练完一个模型一个月都不一定够用/(ㄒoㄒ)/~~ 数据集就一直静静地躺在硬盘上,也没程序理他。

想到自己当时找数据集经历的苦难,我觉得能有资源还是分享一下吧,这样就可以让更多跟我似的以为有了大数据集就能训练的炼丹小作坊死心了哈哈哈。

数据集链接放在了我上传的资源里https://download.csdn.net/download/zugexiaodui/12038398,博客内不能粘贴其他链接,被认为是广告了。

这个数据集不全,尤其是测试集,丢了很多,不过做预训练还是足够的,也可以选一些数据弄个mini-Kinetics。原文件是一百多GB的压缩包,我一开始拆分成了每个4GB左右的小文件,后来发现百度云不能上传,所以又把每个4GB的小文件拆分成了每个大约1GB的小小文件,总共132个。文件下载下来之后需要合并,自己写个程序,把文件按顺序合并起来就可以,大致思路就是用'wb'模式打开一个merged_file,逐个读取('rb')小小文件,写到merged_file里。我试过对电影、文本文件和压缩文件这么拆分合并,都能还原文件。不过这个数据集特别大,这样合并是不是需要特别大的内存才可以我没有研究过……炼丹顺利,早日成仙!

下载数据集之前数数数据个数是不是全的!!!!不知道百度云搞什么把我文件夹里的文件弄少了几个,如果不行请评论或者私信我。

更新:这是一个将所有文件进行合并的程序(随便写的变量名没那么严谨),文件夹路径需要改成自己的实际路径,应该有132个文件,合并完之后使用 tar xvf **.tar.gz(文件名)解压就行,亲测可用。

import os

f_dir = r'/mnt/data/source/kinetics-400/'
f_list = os.listdir(f_dir)
f_basename = 'kinetics-400.tar.gz.part{}-{}'
print(len(f_list))
nn=0
dst_fname = '/mnt/data/source/kinetics-400-source.tar.gz'
dst_f = open(dst_fname,'wb')
for N in range(1,len(f_list)//4+1):
    for i in range(4):
        f_dstname = f_basename.format(N,i)
        print(f_dstname,os.path.exists(f_dir+f_dstname))
        src_f = open(f_dir+f_dstname,'rb')
        dst_f.write(src_f.read())
        dst_f.flush()
        src_f.close()
        nn+=1
dst_f.close()
print(nn)

------------------------------------------------------------ 更新 ----------------------------------------------------

测试集文件其实并不是少,前几天才发现,直接解压后的测试视频文件,有很多后缀不是.mp4,而是.mp4.webm或者.mp4.mkv,大约有5000多个,带mkv的占了绝大部分。最开始我是用os.listdir()获取的文件名,没有这个问题,后来我一直用视频id+.mp4寻找视频,结果很多视频找不到,无意中发现了这个问题。解压数据后写个程序把所有测试视频的后缀名检测一下,不是.mp4的重命名成.mp4就可以了,训练视频里全都是.mp4后缀,不用担心这个问题。这样加起来测试视频和训练视频数量跟原本的kinetics-400差不多了,甚至还多了一些好像。

另外,这里边没有测试集,只有训练集和验证集。

----------------------------------------------------------- 更新 ----------------------------------------------------

132个文件都合并后的md5值为:aeb19ec9cfd65d0e53b793ac4881003c。文件比较大,计算md5耐心等待结果。

你可能感兴趣的:(数据集)