shell脚本 提取网页上面的链接

方法一:

1.提取网页源码 重定向到txt文件

wget http://www.hdu.edu.cn > index.txt

2.正则表达式提取链接

grep -o "\"http.*\"" index.txt > search.txt

\   转义符号   

\"   转义"

.匹配单个字符

.*匹配任意字符

正则表达式\"http.*\"

注:不能用^(行起始标记)和$(行尾标记)

 

方法二:

安装lynx:yum install lynx

lynx -dump http://www.hdu.edu.cn >page.txt

lynx命令的-dump选项将网页以ASCII字符的形式下载到文本文件中

这个命令会将所有的超链接()作为文本输出的页脚列在References标题之下。这就省得我们在用正则表达式单独解析链接了。

 

你可能感兴趣的:(shell脚本 提取网页上面的链接)