网页抓取及信息提取(二)

时间煮雨
@R星校长

2关:提取子链接

上一关我们学习了如何访问给定的网页并保存信息到本地,本关我们要从上一关访问的网页中提取出嵌套的url地址,即实现子链接的提取。

相关知识
课程视频《网页数据 - 获取url子链接》
下面通过文字进一步详细描述本关子链接提取的实现方法。

网页信息中的子链接

一个网站常常是一个主页中包含许多子链接,例如:
网页抓取及信息提取(二)_第1张图片
点击上图国防科技大学本科招生信息网的第一行“国防科技大学2016年录取分数统计”,就能跳转到其子网页:
网页抓取及信息提取(二)_第2张图片
子网页的网址为:
http://www.gotonudt.cn/site/gfkdbkzsxxw/lqfs/info/2017/717.html
这些链接一般保存在主页html源代码标签中的href属性值中,如下图所示:

网页抓取及信息提取(二)_第3张图片

如上图所示,这是我们在第二关保存的文本文件内容的一部分,我们发现href的值为:/site/gfkdbkzsxxw/lqfs/info/2017/717.html,刚好和子网页网址的后面一段相同,这就需要我们用到第一关的背景知识:
完整的URL = 协议 + 域名 + 资源在服务器上的路径
子网页网址 = "http://"+ 

你可能感兴趣的:(Anaconda,Jupyter,Notebook,python,爬虫)