wget 全站抓取

wget 一般作为 curl 的替代工具,但是实际上它有一个更为强大的功能,递归下载或者称为全站抓取。

这里有一个资源网站 https://openprinting.org/download/PPD/,如果我们想要下载其中所有的 ppd 文件,并且按照原有的文件夹存放,wget 只需要一句命令就搞定了 。

$ wget -c -r -np -H -k -nv -A ppd  https://openprinting.org/download/PPD/
  • -c 断点续传下载文件
  • -r 指定递归下载
  • -np 不追溯至父目录
  • -H 递归时转向外部主机
  • -k 让下载得到的 HTML 或 CSS 中的链接指向本地文件
  • -nv 显示简要信息
  • -A 逗号分隔的可接受的扩展名列表

你可能感兴趣的:(wget 全站抓取)