尽管我们使用urllib.request可以获取到网页的所有数据,但是要获取我们想要的数据还需要进一步进行数据处理。本篇主要介绍如何使用python的re模块进行数据定位及获取。
</ul>
<ul class="lb_worlds">
<span class="flt"><img src="/site/gfkdbkzsxxw/resources/img/Point.png"></span>
<li class="flt"><a href="/site/gfkdbkzsxxw/lqfs/info/2018/735.html" target="_blank"><font color='000000'>国防科技大学2017年录取分数统计(生长军官学员)</font></a></li>
<li class="frt">2018-06-21</li>
</ul>
ex="http://www.gotonudt.cn/site/gfkdbkzsxxw/lqfs/info/"
index=data.find('国防科技大学'+str(i)+'年录取分数统计')
urls.append(ex+data[(index-52):(index-39)])
import urllib.request as req
import re
# 录取分数网页URL
url = 'http://www.gotonudt.cn/site/gfkdbkzsxxw/lqfs/index.html'
webpage = req.urlopen(url) # 打开网页
data = webpage.read() # 读取网页数据
data = data.decode('utf-8') # 将byte类型的data解码为字符串
def Geturl():
# 建立空列表urls,来保存子网页的url
urls = []
ex="http://www.gotonudt.cn/site/gfkdbkzsxxw/lqfs/info/"
# 从data中提取2016到2012每一年分数线子网站地址添加到urls列表中
for i in range(2016,2011,-1):
index=data.find('国防科技大学'+str(i)+'年录取分数统计')
urls.append(ex+data[(index-52):(index-39)])
return urls
print(Geturl())
获取结果如下,次序为:2016-2012年的录取分数统计网页url
['http://www.gotonudt.cn/site/gfkdbkzsxxw/lqfs/info/2017/717.html', 'http://www.gotonudt.cn/site/gfkdbkzsxxw/lqfs/info/2016/663.html', 'http://www.gotonudt.cn/site/gfkdbkzsxxw/lqfs/info/2015/610.html', 'http://www.gotonudt.cn/site/gfkdbkzsxxw/lqfs/info/2014/253.html', 'http://www.gotonudt.cn/site/gfkdbkzsxxw/lqfs/info/2014/234.html']
下一篇会进一步给大家介绍获取每年录取分数统计的具体情况