如何克隆网站

今天介绍两种工具,能够克隆整个网站。

1、wget

首先,这个软件如何在windows、Liunx中下载我就不介绍了。

-r, –recursive(递归) specify recursive download.(指定递归下载)

-k, –convert-links(转换链接) make links in downloaded HTML point to local
files.(将下载的HTML页面中的链接转换为相对链接即本地链接)

-p, –page-requisites(页面必需元素) get all images, etc. needed to display
HTML page.(下载所有的图片等页面显示所需的内容)

-np, –no-parent(不追溯至父级) don’t ascend to the parent directory. 另外断
点续传用-nc参数 日志 用-o参数 

所以,克隆网站的命令如下:

wget -r -p -np -k https://blog.csdn.net/T_Tzz

2、HTTrack

和wget功能差不多,安装命令    apt-get  install httrack

在命令段,输入httrack,提示说明:

Enter project name  //输入项目名称, 程序会自动生成一个本地项目名称

Enter URLs (separated by commas or blank spaces)  //欲抓取的网站地址 

注意的是 Action中的参数操作:(enter)
1 Mirror Web Site(s)                         镜像网站
2 Mirror Web Site(s) with Wizard              镜像网站和向导
3 Just Get Files Indicated                    只获得文件中声明的文件
4 Mirror ALL links in URLs (Multiple Mirror)  在URl中所有的链接(多镜)
5 Test Links In URLs (Bookmark Test)          书签测试
0 Quit                                        退出

Proxy (return=none) : 如果没有代理 不选择代理 

You can define wildcards, like: -*.gif +www.*.com/*.zip -*img_*.zip
Wildcards (return=none) :       //使用通配符下载,我直接回车

好像有点问题,这个工具会默认遵循网站的robots.txt协议。

所以暂且还是用图形界面的版本。http://www.httrack.com/page/2/en/index.html 这个下载地址。

Httrack的功能比wget的功能还要强大!

你可能感兴趣的:(笔记)