Linux系统下使用kaggle API下载竞赛数据

背景

在参加Kaggle竞赛或者学习训练时,需要将数据下载到本地或者服务器上。Kaggle提供了2种下载方法,一种是普通的web下载,一般本地的windows/mac系统建议采用这种方法,另外一种是kaggle API下载方法,建议在Linux服务器上使用,因为一般服务器上没有安装浏览器,另外就是kaggle API 下载速度更快。下面介绍这种方法。

Linux系统下使用kaggle API下载竞赛数据_第1张图片

API下载数据方法

1. 注册账号,获取API token

假设帐号注册完了,获取帐号token的方式如下,右上角找到账户,点击Account

然后点击Create New API token,将会下载一个kaggle.json的文件。

Tips:如果是下载到本地电脑,需要通过putty或者类似的工具将文件上传至Linux服务器

也可以使用wget命令直接下载到Linux 服务器上

wget https://www.kaggle.com/xxx/account?isEditing=False&verifyPhone=False#:~:text=Create%20New%20API-,Token,-Expire%20API%20Token # 此处为点击Create New API Token 对应的链接

将kaggle.json文件复制到/home/admin/.kaggle/文件夹下(admin为Linux系统上账户名称,需要填写自己的账户)

cp /mnt/workspace/kaggle.json /home/admin/.kaggle

2. 安装Kaggle

一般可以使用pip来安装

pip install kaggle

3. 在terminal使用kaggle API下载数据集

找到对应的数据集,点击复制API下载命令,根据API使用方法进行一定的修改(如下载至指定文件夹下、自动解压等等),在terminal中运行comand命令即可

Linux系统下使用kaggle API下载竞赛数据_第2张图片

下面为Kaggel下载数据的API的具体调用方法,参考:GitHub - Kaggle/kaggle-api: Official Kaggle API

usage: kaggle datasets download [-h] [-f FILE_NAME] [-p PATH] [-w] [--unzip]
                                [-o] [-q]
                                [dataset]

optional arguments:
  -h, --help            show this help message and exit
  dataset               Dataset URL suffix in format / (use "kaggle datasets list" to show options)
  -f FILE_NAME, --file FILE_NAME
                        File name, all files downloaded if not provided
                        (use "kaggle datasets files -d " to show options)
  -p PATH, --path PATH  Folder where file(s) will be downloaded, defaults to current working directory
  -w, --wp              Download files to current working path
  --unzip               Unzip the downloaded file. Will delete the zip file when completed.
  -o, --force           Skip check whether local version of file is up to date, force file download
  -q, --quiet           Suppress printing information about the upload/download progress

comand line举例如下:

# 本例子中需要将cifar-10数据集下载至/mnt/workspace/d2l-zh/pytorch/data/文件夹下并解压zip文件

kaggle competitions download -c cifar-10 -p /mnt/workspace/d2l-zh/pytorch/data/ --unzip

你可能感兴趣的:(机器学习,kaggle,api,数据集下载)