使用wget命令、Curl 、lynx命令下载网站文件或网页

wget命令是一个用于文件下载的命令行工具,选项多,用法灵活。


wget命令选项


参数 描述

-a日志文件 在指定的日志文件中记录记录资料的执行过程

-A后缀名 指定要下载文件的后缀名,多个后缀名之间使用逗号进行分隔

-b 进行后台的方式运行wget

-B连续地址 设置参考的连续地址的基地址

-c 继续执行上一次终端的任务

-C标志 设置服务器数据块取功能标志on激活,off为关闭,默认值为on

-d 调式模式运行指令

-D域名列表 设置顺着的域名列表,域名之间使用“,”分隔

-e指令 作为文件“.wgetrc”中的一部分执行指定的指令

-i文件 从指定文件获取要下载的URL地址

-l目录列表 设置顺着的目录列表,多个目录用“,”分隔

-L 仅顺着关联的连接

-r 递归下载方式

-nc 文件存在时,下载文件不覆盖原有文件

-nv 下载时只显示更新和出错信息,不显示指令的详细执行过程

-q 不显示指令执行过程

-nh 不查询主机名称

-v 显示详细执行过程

--passive-ftp 使用被动模式PASV连接FTP服务器

--follow-ftp 从HTML文件中下载FTP连接

wget常用操作


下载一个单页面的网页:


[root@localhost text]# wget http://www.1987.name

--2012-12-10 14:04:20--  http://www.1987.name/

Resolving www.1987.name... 50.115.46.221

Connecting to www.1987.name|50.115.46.221|:80... connected.

HTTP request sent, awaiting response... 200 OK

Length: unspecified [text/html]

Saving to: `index.html'


    [  <=>                                                          ] 37,759      88.3K/s   in 0.4s    


2012-12-10 14:04:23 (88.3 KB/s) - `index.html' saved [37759]

指定多个URL:


wget URL1 URL2 URL3

使用 -O 指定输出文件名,使用 -o 指定一个日志文件:


wget http://www.1987.name/index.html -O default.html -o log

因为下载信息被写入到stdout,这里使用-o选项将信息写入到log,所以不会打印任何信息。


使用 -t 指定重复次数:


wget -t 10 URL

使用 --limit-rate 限速下载:


wget --limit-rate 50k http://www.1987.name/test.tar.gz

命令中可以使用 k、m 指定速度显示。


使用 --quota 或 -Q 指定最大下载配额,配额一旦用完,下载也随之停止:


wget -Q 200m http://www.1987.name/test1.tar.gz http://www.1987.name/test2.tar.gz

断点续传,之前任务被中断之后可以使用 -c 继续下载:


wget -c URL

复制或镜像整个网站,递归方式收集网站上的所有URL,逐个下载:


wget --mirror http://www.1987.name

或者

wget -r -N -l DEPTH URL

-l 是指定页面层级DEPTH,-r递归选项,-N允许对文件使用时间戳。


访问需要认证的HTTP,或者FTP页面:


wget --user username --password pwd URL

lynx命令


lynx命令是纯文本模式的网页浏览器,不支持图形、音频和javascript、CSS之类元素。


lynx命令选项


-case 在搜索字符串时候,区分大小写

-ftp 关闭FTP功能

-nobrowse 关闭目录浏览功能

-noclor 关闭色彩显示模式

-reload 更新代理服务器的缓存,只对首页有效

--color 如果系统支持彩色模式,则激活彩色模式

lynx常用操作


用lynx命令的 -dump 选项将网页以ASCII字符的形式下载文本文件中:


lynx -dump URL > text.txt


你可能感兴趣的:(使用wget命令、Curl 、lynx命令下载网站文件或网页)