所有操作均在window 下
在使用GOT-10k数据集时,由于训练集太大,所以下载了OBS Browser+,但是存在一个小问题,由于文件太多,将训练集解压后上传,速度太慢,故将训练集的压缩包上传到OBS Browser+,再使用ModelArts的notebook,将其解压,重新上传至OBS,速度要快很多。
创建桶
,新建文件夹,将训练数据集(压缩包)进行上传。
此时路径为:obs://got/GOT-10k/train_data
上传完成后如图所示。桶配置选择默认。
创建
一个新的Notebook,由于这里只进行数据解压,就选择一个最便宜的CPU:2核 8GB
即可,但存储空间尽可能选大点,由于进行数据转存。我的训练集在68.9GB,我使用了200GB的存储。实现的思路为1:
import moxing as mox
import os
#将obs中的文件下载在当前文件夹中
mox.file.copy_parallel('obs://got/GOT-10k/train_data/', 'train_data')
这里的obs://got/GoT-10k/train_data/
就是第一步中上传文件的地址,
train_data
为本地的文件夹,需要在左侧文件区域新建。
tar_path = 'train/'
zip_head = 'train_data/G0T-10k_Train_split_'
for i inrange(1, 20):
if i >= 10:
zip_path = zip_head + str(i) + '.zip'
else:
zip_path = zip_head + '0' + str(i) + '.zip'
print(zip_path)
command = 'unzip -d {} {}'.format(tar_path,zip_path) #解压目录 压缩包地址
os.system(command)
由于我的训练集中有19个压缩包,所以分别对其进行解压,将其解压到本地文件夹tar_path = 'train/'
中。
#将当前的已解压好的文件上传到obs
mox.file.copy_parallel('train', 'obs://got/GOT-10k/train')
将解压后的文件上传到OBS的train
文件夹中,至此全部结束。
可以将obs的压缩包文件进行删除了。