Windows下载C4数据集

1.  安装windows git, 软件下载地址 Git - Downloading Packageicon-default.png?t=M4ADhttps://git-scm.com/download/win

2. 安装git 扩展应用 lfs, 软件下载地址

Git Large File Storage | Git Large File Storage (LFS) replaces large files such as audio samples, videos, datasets, and graphics with text pointers inside Git, while storing the file contents on a remote server like GitHub.com or GitHub Enterprise.icon-default.png?t=M4ADhttps://git-lfs.github.com/

3. 安装完成后打开git桌面应应用图标 git bash, 如下图1

     参考网址: allenai/c4 · Datasets at Hugging Faceicon-default.png?t=M4ADhttps://huggingface.co/datasets/allenai/c4

4. 进入C4文件将要保存的位置,例如可运行命令:

    $ cd /d/数据/英语/训练集/训练集重新整理

5. 运行命令行

    $ GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/datasets/allenai/c4

6. 运行成功后会创建c4文件夹,及相应的子文件夹和相关文件。

    运行cd c4命令,进入c4文件夹。

7. 下载指定的文件,可使用正则表达式,下载测试文件如下图1。

    下载中文命令:git lfs pull --include "multilingual/c4-zh.*.json.gz"

    下载英文命令:git lfs pull --include "en/*"

8. Json格式文件大小, 参考网址:

    The C4 Multilingual Dataset · Discussion #5265 · allenai/allennlp · GitHubicon-default.png?t=M4ADhttps://github.com/allenai/allennlp/discussions/5265

 Download the C4 dataset! · Discussion #5056 · allenai/allennlp · GitHubicon-default.png?t=M4ADhttps://github.com/allenai/allennlp/discussions/5056

     中文文件:186G

     英文文件:305G

Windows下载C4数据集_第1张图片

 

你可能感兴趣的:(git,github)