wget 对整站内容进行爬取

如果你想对站点内容进行爬虫,还有一条最简洁的系统原生命令可以搞定:

wget --random-wait -r -p -e robots=off -U mozilla https://example.com/

加上 -nv 或 --no-verbose 参数后,输出的内容会变得更加简洁;

加上 --accept-regex 参数后,你可以根据正则来过滤你需要的 uri。

你可能感兴趣的:(linux,爬虫)