wget 使用技巧

转载自:http://blog.163.com/lgh_2002/blog/static/44017526200911103111721/

 

wet是一个命令行的下载工具。对于我们这些 Linux 用户来说,几乎每天都在使用它。下面为大家介绍几个有用的 wget 小技巧,可以让你更加高效而灵活的使用 wget。

  • $ wget -r -np -nd http://example.com/packages/

这条命令可以下载 http://example.com 网站上 packages 目录中的所有文件。其中,

-np

的作用是不遍历父目录,

-nd

表示不在本机重新创建目录结构。

  • $ wget -r -np -nd --accept=iso http://example.com/centos-5/i386/

与上一条命令相似,但多加了一个

--accept=iso

选项,这指示 wget 仅下载 i386 目录中所有扩展名为 iso 的文件。你也可以指定多个扩展名,只需用逗号分隔即可。

  • $ wget -i filename.txt

该命令常用于批量下载的情形,把所有需要下载文件的地址放到 filename.txt 中,然后 wget 就会自动为你下载所有文件了。

  • $ wget -c http://example.com/really-big-file.iso

这里所指定的

-c

选项的作用为断点续传。

  • $ wget -m -k (-H) http://www.example.com/

该命令可用来镜像一个网站,wget 将对链接进行转换。如果网站中的图像是放在另外的站点,那么可以使用

-H

选项。

wget --spider 看返回值L
       如: 200 304 403 404 ...

HTTP request sent, awaiting response... 200 OK
       Length: 1,494 [text/html]
       200 OK

HTTP request sent, awaiting response... 404 Not Found
       17:41:50 ERROR 404: Not Found.

 

最常見的使用方式:

1. 下載某檔案

wget http://xxx.xxx.xxx.xxxx/file.tar.gz

2. 砍站(類似teleport pro)

 

wget -r http://xxx.xxx.xxx.xxxx/

3. 砍站無視robots.txt檔案 , 我想這才是您想知道的吧..

   在告訴您之前,請想想robots.txt的用途, 以及為何管理者設了這個東西.

   以及您無視robots.txt後 對網站及管理造成的負擔/困擾...

   我先說我的處理方式:

   心情好時,無視此行為,反正網站就是要給你看的..

   心情差時,拒絕該區段ip連線,例如: 163.19.163.99 砍站, 我就拒絕 163.19.163.0/24 .

   甚者...拒絕該ip所屬isp或是所屬國家所有區段.

 

wget -erobots=off http://xxx.xxx.xxx.xxxx/

實測: 當沒有加上 -erobots=off 只會抓取網頁的首頁及robots.txt ,若加上,則會進行砍站動作.

4. 若對方網站拒絕Wget...

wget -m -U "Mozilla/5.0 (compatible; Konqueror/3.2; Linux)" http://xxx.xxx.xxx.xxx

則可以偽裝為其他瀏覽器...

你可能感兴趣的:(C++,c,linux,centos,C#)