开头直接给答案
wget -x -r --no-parent -R "index.html*" "http://205.174.165.80/IOTDataset/CIC_IOT_Dataset2022/CICIOT/"
数据集地址
数据集主页: https://www.unb.ca/cic/datasets/iotdataset-2022.html
数据集下载地址: Index of /IOTDataset/CIC_IOT_Dataset2022/CICIOT
安装wget
该工具Linux自带,Windows要用的话,下载地址: https://eternallybored.org/misc/wget/
下载该exe文件扔到C:\Windows\System32
目录下。
打开新cmd窗口输入即可检验是否。
命令解析
wget -x -r --no-parent --reject=html "http://205.174.165.80/IOTDataset/CIC_IOT_Dataset2022/CICIOT/"
-x 设置下载文件保存目录与原来文件(服务器文件)的目录保持对应
-r 递归下载
--no-parent 不要追溯到父目录
--reject=html 不下载html文件
不过这样下载之后,还是会有很多奇奇怪怪的文件
我是,原来可以通过正则匹配不想要的文件
wget -x -r --no-parent -R "index.html*" "http://205.174.165.80/IOTDataset/CIC_IOT_Dataset2022/CICIOT/"
-R, –reject=LIST 分号分隔的不被接受的扩展名的列表。不加这个参数,结果中会包含大量的“index.html”、“index.html?C=D;O=A”、“index.html?C=D;O=D”等文件
但是也很好匹配删除,直接Python特喵的遍历删除一遍文件名里带的文件即可。我真的不想写代码
噢原来可以直接命令删除
find -name "index.html*" | xargs rm
中间断网了怎么办?
在原来的命令里面加个 -c
就可以断点续传,接着之前的进度继续啦。
wget -x -r -c --no-parent -R "index.html*" "http://205.174.165.80/IOTDataset/CIC_IOT_Dataset2022/CICIOT/"
Over (●'◡'●)
References
wget用法
在线正则网站
使用参数匹配不想要的那些文件
使用命令删除多余的html文件