Kaggle 数据集下载

kaggle数据集一般比较大,比如这次dstl更是达到22GB。国内连kaggle下载经常会断。尤其是kaggle需要认证才能下载,直接点击链接就是浏览器下载

于是对策:

1.wget

 wget -x --load-cookies cookies.txt -P data -nH --cut-dirs=5 https://www.kaggle.com/c/dstl-satellite-imagery-feature-detection/download/three_band.zip 

 wget https://www.kaggle.com/account/login?ReturnUrl=%2fc%2fdstl-satellite-imagery-feature-detection%2fdownload%2fthree_band.zip --post-data 'username=account&password'

在Linux命令行使用wget提交cookie,账号密码下载 ,但是网实在不好,下的慢不说,还是会断。

2.迅雷

迅雷就特别棒,因为也有别人下大概,所以能加速,但注意要认证。

kaggle认证方式比较奇特,我对他认证机制的理解:

链接的地址是.zip所以直接把它添加到迅雷任务是不行的,浏览器里每次下载会生成一个单独的认证码,一旦取消下载任务,这个认证码就会失效

也就是在火狐浏览器中右键已经在下载的任务,复制link到迅雷,注意不能取消下载任务后再去迅雷创,否则会失效。

一旦迅雷不是0k/s就可以取消浏览器里的下载任务啦,一两天数据集就下下来了

你可能感兴趣的:(杂谈)