在参加Kaggle竞赛或者学习训练时,需要将数据下载到本地或者服务器上。Kaggle提供了2种下载方法,一种是普通的web下载,一般本地的windows/mac系统建议采用这种方法,另外一种是kaggle API下载方法,建议在Linux服务器上使用,因为一般服务器上没有安装浏览器,另外就是kaggle API 下载速度更快。下面介绍这种方法。
假设帐号注册完了,获取帐号token的方式如下,右上角找到账户,点击Account
然后点击Create New API token,将会下载一个kaggle.json的文件。
Tips:如果是下载到本地电脑,需要通过putty或者类似的工具将文件上传至Linux服务器
也可以使用wget命令直接下载到Linux 服务器上
wget https://www.kaggle.com/xxx/account?isEditing=False&verifyPhone=False#:~:text=Create%20New%20API-,Token,-Expire%20API%20Token # 此处为点击Create New API Token 对应的链接
将kaggle.json文件复制到/home/admin/.kaggle/文件夹下(admin为Linux系统上账户名称,需要填写自己的账户)
cp /mnt/workspace/kaggle.json /home/admin/.kaggle
一般可以使用pip来安装
pip install kaggle
找到对应的数据集,点击复制API下载命令,根据API使用方法进行一定的修改(如下载至指定文件夹下、自动解压等等),在terminal中运行comand命令即可
下面为Kaggel下载数据的API的具体调用方法,参考:GitHub - Kaggle/kaggle-api: Official Kaggle API
usage: kaggle datasets download [-h] [-f FILE_NAME] [-p PATH] [-w] [--unzip]
[-o] [-q]
[dataset]
optional arguments:
-h, --help show this help message and exit
dataset Dataset URL suffix in format / (use "kaggle datasets list" to show options)
-f FILE_NAME, --file FILE_NAME
File name, all files downloaded if not provided
(use "kaggle datasets files -d " to show options)
-p PATH, --path PATH Folder where file(s) will be downloaded, defaults to current working directory
-w, --wp Download files to current working path
--unzip Unzip the downloaded file. Will delete the zip file when completed.
-o, --force Skip check whether local version of file is up to date, force file download
-q, --quiet Suppress printing information about the upload/download progress
comand line举例如下:
# 本例子中需要将cifar-10数据集下载至/mnt/workspace/d2l-zh/pytorch/data/文件夹下并解压zip文件
kaggle competitions download -c cifar-10 -p /mnt/workspace/d2l-zh/pytorch/data/ --unzip