使用wget下载CIC Dataset

开头直接给答案

wget -x -r --no-parent -R "index.html*" "http://205.174.165.80/IOTDataset/CIC_IOT_Dataset2022/CICIOT/"

数据集地址

数据集主页: https://www.unb.ca/cic/datasets/iotdataset-2022.html

数据集下载地址: Index of /IOTDataset/CIC_IOT_Dataset2022/CICIOT

安装wget

该工具Linux自带,Windows要用的话,下载地址: https://eternallybored.org/misc/wget/

下载该exe文件扔到C:\Windows\System32目录下。

打开新cmd窗口输入即可检验是否。

命令解析

wget -x -r --no-parent --reject=html "http://205.174.165.80/IOTDataset/CIC_IOT_Dataset2022/CICIOT/"

-x 设置下载文件保存目录与原来文件(服务器文件)的目录保持对应

-r 递归下载

--no-parent 不要追溯到父目录

--reject=html 不下载html文件

不过这样下载之后,还是会有很多奇奇怪怪的文件

我是,原来可以通过正则匹配不想要的文件

wget -x -r --no-parent -R "index.html*" "http://205.174.165.80/IOTDataset/CIC_IOT_Dataset2022/CICIOT/"

-R, –reject=LIST 分号分隔的不被接受的扩展名的列表。不加这个参数,结果中会包含大量的“index.html”、“index.html?C=D;O=A”、“index.html?C=D;O=D”等文件

但是也很好匹配删除,直接Python特喵的遍历删除一遍文件名里带的文件即可。我真的不想写代码

噢原来可以直接命令删除

find -name "index.html*" | xargs rm

中间断网了怎么办?

在原来的命令里面加个 -c就可以断点续传,接着之前的进度继续啦。

wget -x -r -c --no-parent -R "index.html*" "http://205.174.165.80/IOTDataset/CIC_IOT_Dataset2022/CICIOT/"

Over (●'◡'●)

References

wget用法

在线正则网站

使用参数匹配不想要的那些文件

使用命令删除多余的html文件

你可能感兴趣的:(使用wget下载CIC Dataset)