wget 使用手册

日志输入输出、文件夹选项、http选项
 
日志和输入输出


-o logfile
把日志输出到logfile中,默认是输出到stderr中
-a logfile
把日志附加到logfile中, 默认是overwrite
-d
打开debug, 需要编译的支持
-q
关闭 wget的输出
-nv
No verbose
-i file
   从file中读取url;如果 – 被指定为file,则从标注输入中读取urls; file可以不必是HTML格式,只要其中的 


urls 顺序排列即可。 但如果使用了—force-html 选项, file将被认为是html,此时文件中的相对地址就会出现问


题,可以在file中加上<base href=”url”>、 或者在指令中用 –base=url 来指定 baseUrl(测验时,发现,其中


必须以http开头,否则不会被读取,下载)
-F
--force-html
当用 –i file 从文件中读取urls时, 把文件看成是HTML 格式的。
-B
--baseurl
把用 –i 选项读取的 相对url 在此基础上补充完整。
目录选项


-nd
--no-directories
   不创建层次目录,而是全部放在当前目录中
-x
--force-derectories
与-nd 相反,创建层次目录,连host部分都创建。
-nH
--no-host-directories
    不创建host部分的目录
--protocol-directories
创建协议部分的目录。
--cut-dirs=number
   忽略掉一些(顶部的)目录层次;
-P
--directory-prefix=prefix
   设置基目录。
HTTP选项


--html-extension
     If a file of type application/xhtml+xml or text/html is downloaded and the URL does not end with 


.html; this option will cause the suffix .html to be appended to the local filename.
   A.jsp 将会保存成A.jsp.html
   存在一个问题是, 当重新下载时,wget不会认为a.jsp 已经下载了,从而会重新下载。要避免这种情况,需要与


­-K 选项同时使用。这样,原始的文件就会被存为 a.jsp
--ignore-length
   忽略掉 Content-Length 标签。
--header=header-line
主动增加用户定制的header
--referer
增加referer
--save-headers
   保存header部分到下载的文件中。
-U agent-string
--user-agent=agent-string
   设置Requst的 user-agent 信息,否则某人是 wget/version    
--post-data
--post-file


--bind-address=ADDRES
-t number
--tries=number
   设置重试的次数为number; 指定0或者inf表示无限次;默认是重试20次; 当出现 connection refused 或者 


404 not found等严重错误时,不再重试
-O file
--output-document=file
   得到的documents将不会被放到合适的文件中, 而是全部集中写入到 file中。
   注意:当和-k 选项同时使用时,只对下载单一的文档有效。
-nc
--no-clobber
同一个目录中的 文件被多次下载时, wget的行为依赖于多个选项, 包括-nc; 一般情况下,在一个文件多次下载


时, 本地文件将被重写,或者clobber,其它情况下被保留。
   当不加 –N, -nc, -r 选项运行wget时, 同目录下同名的file,在多次下载后,原来的文件还会被保留,新下载


的被命名为 file.1,file.2
   当 –nc 选项被使用时,默认的行为被改变, wget将不会重新下载同名文件。
   当 –r 但没有 –N –nc 时,新下载的同名文件将会 直接重写旧的;
   -r –nc 一同使用时,旧的文件被保存,服务器上的同名新文件被忽略。
   -N 选项被使用时,无论是否有-r 选项,是否重新下载同名文件依赖于 本地文件的时间戳与服务器上文件的时间


戳 和文件大小的对比; -nc 选项不能与-N 选项同时使用。
   当-nc 选项被指定时,以.html .htm 结尾的文件会被认为已经从服务器上取得了(同名的文件将不会再次下载)
-c
--continue
   继续下载一个 被下载了一部分的 文件。
   这个continue是基于 文件长度的;
   -c 选项只适用于 FTP 服务器和 支持 Range 头的服务器。
--progress
提示下载的进度
-N
比较本地文件于服务器上同名文件的时间戳
-S
--server-response
   打印http Server 返回的 headers
-spider
   只检测 urls是否可用,而不真正下载网页;
-T seconds
--timeout=seconds
   设置网络超时时间,把--dns-timeout, --connect-timeout, --read-timeout 都设置为senconds
   默认是900秒 read timeout,设置为0以为着取消了超时设置。
--limit-rate=aumout
设置下载的速率,当达到这个速率时,休息一段时间。
-w seconds
--wait=sencods
   在两次retrieve时,等待 sencods时间; 从而减轻服务器的负载
--waitretry=seconds
   如果不希望wget在每两次 retrieve时都等待 seconds的时间,而只是在 出错retry时才等待; wget使用线型递


增策略, 第一次失败等1秒、第二次失败等2秒, 因此10意味着wget将等待 1+2+。。。+10 =55秒
--random-wait
   两次请求间隔 0.5*wait ---- 1.5*wait 之间的一个随机时间间隔。
--no-proxy
   不使用proxy
-Q quota
--quota=quota
下载的总量限制
--no-dns-cache
不实用dns缓存。
--restrict-file-names=mode
   把下载回来的文件的名字 改变。
--restrict-file-names=nocontrol 用在unix上, --restrict-file-names=windows 用在windows上。
--retry-connrefused
   Consider ‘‘connection refused’’ a transient error and try again。 默认清空下,不再重试。

你可能感兴趣的:(html,windows,File,header,服务器,url)